2025年的高考已经圆满结束,然而,对于数学科目难度的热议却并未随之降温。
《每日经济新闻》的记者(以下简称“每经记者”)选取了今年全国新课标数学I卷作为测试题目,对R1、腾讯元宝(混元T1)、o3、谷歌的2.5 Pro以及xAI等共计十款AI推理大型模型进行了评估,目的是为了测试这些当前主流AI推理大型模型在数学领域的表现。
测评结果显示,国产大模型R1与腾讯的混元T1并列第一,零错误率让他们共同占据首位。然而,被誉为“地表最强AI”的Grok 3却遭遇了挫折,排名跌至第三位,位列倒数。
测评标准
本次测评选取了2025年全国新课标数学I卷作为测试材料,总分达到150分。然而,在测试过程中,记者发现有些AI推理模型以“重要考试期间”为借口,拒绝了对包含试题的图片进行识别及解答。
为了确保所有参与评估的大型模型能够在相同的起点展开竞争,评审团队已从试卷中剔除所有涉及图形与图表分析的题目,从而编制出一份总分达到117分的统一标准测试卷。
针对那些诸如谷歌2.5 Pro等不受此限制的推理模型,我们仍将采用一份包含150道题目的完整试卷进行评估,这一举措是为了检验这些推理大型模型所能达到的最高性能水平。
在评分准则方面,每经记者在处理选择题与填空题时严格依照高考阅卷的扣分规定,然而针对解答题部分,本次测试仅依据最终答案来评定分数,并不对解题过程进行评分。
需要特别指出的是,本次测试中,每一款推理大型模型仅接受一次评估,而所获得的分数也仅仅是对此次单一测试结果的体现。
-R1和腾讯混元T1并列第一
在剔除图形或图表题型后的117分试卷测试中,R1与腾讯的混元T1均表现出压倒性的优势,他们以无瑕疵的满分表现,荣获117分,并共同位居榜首。这一成绩充分说明了,在代数运算及函数问题等题型上,它们的能力已经达到了相当高的水平和稳定性。
讯飞星火X1得分112,紧随其后。与-R1和腾讯混元T1这两款大型模型相比,讯飞星火X1在填空题上多犯了一个错误。该题的正确答案应为“±2”,但讯飞星火X1提供的答案是“2”。尽管该模型的推理过程并无问题,它认为“2”和“-2”均符合题目要求,但它陷入了自我怀疑,最终只提交了“2”作为答案。
讯飞星火X1的推理过程
还有其他得分突破百分的机型,比如2.5 Pro(得分109分)、o3(得分107分)、阿里千问(得分106分)以及豆包深度思考模式(得分104分)。在占比最大的解答题部分,2.5 Pro和o3出现了失误,其中一道大题只是部分正确,但阿里千问和豆包深度思考模式却全部答对了。
Grok 3惨遭“滑铁卢”,排名倒数第三
在众多参评的AI推理大型模型里,若论哪个模型的表现让人颇感出乎意料,那必然是马斯克创立的xAI公司研发的、马斯克本人赞誉其为“地表最强AI”的Grok 3。
Grok自问世之初便备受瞩目,被视为有望挑战GPT及霸主地位的一匹“黑马”。马斯克曾多次明示,Grok的愿景是成为最为强大的AI系统。
然而,Grok 3在本轮测试中可谓是遭遇了惨痛的失败。在117分的考试中,Grok 3仅得到了91分,这一成绩在10个参与测试的推理型大模型中位列最后三名。
在仔细研究其作答内容后,每经记者观察到,Grok 3在得分方面存在一个显著且至关重要的缺陷:该系统似乎难以准确把握多选题这一题型。
测试结果显示,即便在记者提示该题为多选题的情况下,Grok 3依然“固执”地仅提供一个自认为的最好答案,这导致最终只能获得部分分数。
智谱清言推理模式位于倒数第二的位置,其在117分试卷的测试中取得了78分的好成绩。
实际上,该模型在解题过程中屡次成功得出正确答案,然而,在解题的最后关头,它常常陷入自我怀疑,导致逻辑链条断裂,陷入无休止的循环,结果功败垂成,错失了众多分数。
智谱清言推理模式解答过程截图
Kimi k1.5位于序列之尾,却在最后两道至关重要的题目上遭遇了严重的挫折,导致分数大幅减少。
从所有测试结果汇总来看,AI推理的大型模型在解决那些步骤固定且逻辑严谨的数学难题上,展现出了相当高的能力。然而,对于需要抽象思维和创新解题方法的题目,这些大模型目前仍存在一些限制。