北京华网天下

2025 年高考数学卷测评十款 AI 推理大模型，结果揭晓

2025-06-19

来源：万象资讯

2025年的高考已经圆满结束，然而，对于数学科目难度的热议却并未随之降温。

《每日经济新闻》的记者（以下简称“每经记者”）选取了今年全国新课标数学I卷作为测试题目，对R1、腾讯元宝（混元T1）、o3、谷歌的2.5 Pro以及xAI等共计十款AI推理大型模型进行了评估，目的是为了测试这些当前主流AI推理大型模型在数学领域的表现。

测评结果显示，国产大模型R1与腾讯的混元T1并列第一，零错误率让他们共同占据首位。然而，被誉为“地表最强AI”的Grok 3却遭遇了挫折，排名跌至第三位，位列倒数。

测评标准

本次测评选取了2025年全国新课标数学I卷作为测试材料，总分达到150分。然而，在测试过程中，记者发现有些AI推理模型以“重要考试期间”为借口，拒绝了对包含试题的图片进行识别及解答。

为了确保所有参与评估的大型模型能够在相同的起点展开竞争，评审团队已从试卷中剔除所有涉及图形与图表分析的题目，从而编制出一份总分达到117分的统一标准测试卷。

针对那些诸如谷歌2.5 Pro等不受此限制的推理模型，我们仍将采用一份包含150道题目的完整试卷进行评估，这一举措是为了检验这些推理大型模型所能达到的最高性能水平。

在评分准则方面，每经记者在处理选择题与填空题时严格依照高考阅卷的扣分规定，然而针对解答题部分，本次测试仅依据最终答案来评定分数，并不对解题过程进行评分。

需要特别指出的是，本次测试中，每一款推理大型模型仅接受一次评估，而所获得的分数也仅仅是对此次单一测试结果的体现。

DeepSeek-R1与腾讯混元T1对比_中国AI大模型排名_2025高考数学AI模型测评

-R1和腾讯混元T1并列第一

在剔除图形或图表题型后的117分试卷测试中，R1与腾讯的混元T1均表现出压倒性的优势，他们以无瑕疵的满分表现，荣获117分，并共同位居榜首。这一成绩充分说明了，在代数运算及函数问题等题型上，它们的能力已经达到了相当高的水平和稳定性。

讯飞星火X1得分112，紧随其后。与-R1和腾讯混元T1这两款大型模型相比，讯飞星火X1在填空题上多犯了一个错误。该题的正确答案应为“±2”，但讯飞星火X1提供的答案是“2”。尽管该模型的推理过程并无问题，它认为“2”和“-2”均符合题目要求，但它陷入了自我怀疑，最终只提交了“2”作为答案。

讯飞星火X1的推理过程

还有其他得分突破百分的机型，比如2.5 Pro（得分109分）、o3（得分107分）、阿里千问（得分106分）以及豆包深度思考模式（得分104分）。在占比最大的解答题部分，2.5 Pro和o3出现了失误，其中一道大题只是部分正确，但阿里千问和豆包深度思考模式却全部答对了。

Grok 3惨遭“滑铁卢”，排名倒数第三

在众多参评的AI推理大型模型里，若论哪个模型的表现让人颇感出乎意料，那必然是马斯克创立的xAI公司研发的、马斯克本人赞誉其为“地表最强AI”的Grok 3。

Grok自问世之初便备受瞩目，被视为有望挑战GPT及霸主地位的一匹“黑马”。马斯克曾多次明示，Grok的愿景是成为最为强大的AI系统。

DeepSeek-R1与腾讯混元T1对比_2025高考数学AI模型测评_中国AI大模型排名

然而，Grok 3在本轮测试中可谓是遭遇了惨痛的失败。在117分的考试中，Grok 3仅得到了91分，这一成绩在10个参与测试的推理型大模型中位列最后三名。

在仔细研究其作答内容后，每经记者观察到，Grok 3在得分方面存在一个显著且至关重要的缺陷：该系统似乎难以准确把握多选题这一题型。

测试结果显示，即便在记者提示该题为多选题的情况下，Grok 3依然“固执”地仅提供一个自认为的最好答案，这导致最终只能获得部分分数。

智谱清言推理模式位于倒数第二的位置，其在117分试卷的测试中取得了78分的好成绩。

实际上，该模型在解题过程中屡次成功得出正确答案，然而，在解题的最后关头，它常常陷入自我怀疑，导致逻辑链条断裂，陷入无休止的循环，结果功败垂成，错失了众多分数。

智谱清言推理模式解答过程截图

Kimi k1.5位于序列之尾，却在最后两道至关重要的题目上遭遇了严重的挫折，导致分数大幅减少。

从所有测试结果汇总来看，AI推理的大型模型在解决那些步骤固定且逻辑严谨的数学难题上，展现出了相当高的能力。然而，对于需要抽象思维和创新解题方法的题目，这些大模型目前仍存在一些限制。