北京华网天下

高考期间国内知名 AI 大模型暂停服务，小雷对其做法存疑并实测

2025-06-19

来源：万象资讯

今年高考期间，为了杜绝高考生借助AI作弊，腾讯的混元、通义千问、Kimi、豆包等国内顶尖AI大模型的图片识别问答功能均被暂停。然而，对此举措，小雷持有不同看法。他曾在之前对AI大模型进行高考题目的测试，发现多数表现不尽如人意。因此，他认为暂停图片识别问答服务可能过于乐观地估计了自家AI大模型的能力。

截止到截止日期，2025年全国一卷的高考中，只发布了语文、英语和数学三门科目的试卷。特别是语文的高考题目一经公布，就有不少媒体进行了AI大模型的作文写作测试。然而，关于这些作文的质量，众说纷纭，小雷所看到的评测文章主要摘录了AI大模型所写的作文，并未进行具体的评价，文章的好坏还需由读者自行判断。

（图源：百度搜索截图）

考虑到谨慎的原则，小雷挑选了设有固定答案的数学题目，以检验AI大模型的功能。他所选用的AI大模型包括豆包、讯飞星火、文心一言、Kimi以及通义千问。这些模型是否能够通过985、211高校的入学考试呢？

六款大模型PK，谁才是AI界的高考状元？

首先，我们需要明确测试环境和题目情况。由于一些AI大型模型无法手动切换网络连接状态，因此，这些模型在测试中均默认开启了联网搜索功能，并且深度思考的选项也已被全面激活。

所选择的数学题目中，既有一道需要从多个选项中挑选一个正确答案的单选题，也有一道要求从多个选项中选出所有正确答案的多选题，还有一道需要填写正确答案的填空题，以及一道需要详细阐述解题过程的简答题。这些题目的得分将根据各自的分值进行累积。

第一题（5分）：

若双曲线C的虚轴长度为实轴长度的根号7倍，那么该双曲线的离心率是（正确答案：D）。

A：√6 B：2 C：√7 D：2√2

这道题目只是个热身，难度并不高。在这次测试中，六款AI大模型的表现都没有让小雷感到失望，它们都成功地计算出了正确答案，并且还提供了详细的推理步骤。在这道题目的测试中，所有AI大模型都取得了满分，即5分。（从左至右依次是：讯飞星火、豆包、Kimi、文心一言、通义千问，图片与此一致。）

（图源：App截图）

尽管这道题目的难度并不算太大，然而这六款高级人工智能模型的表现却让小雷感到十分惊喜。在之前对AI大模型的数学计算能力进行测试时，它们在面对稍微复杂一些的问题时，往往难以得出正确的答案。

经过一次简单的测试，讯飞星火、豆包、文心一言、Kimi、通义千问这六款AI大模型便展示了它们强大的功能。然而，这些模型被高考生用作作弊工具的可能性也不能忽视。因此，暂停图片识别问答功能并非仅仅是为了追逐高考的热潮。

第二题（6分）：

若余弦2A与余弦2B之和，再加上2倍的正弦C，其值等于2，且三角形ABC的面积等于1/4，同时余弦A与余弦B乘以正弦C的乘积也等于1/4，则正确答案为ACD。

高考AI作弊检测 _ AI大模型高考题测试 _中国AI大模型排名

A：正弦C等于正弦A的平方加上正弦B的平方，B：A的平方乘以AC加上B的平方乘以BC等于3，C：AB的值等于根号2，D：正弦A加上正弦B等于根号6除以2。

这道题目极具挑战性，只有豆包在短短的两分钟内便得出了正确答案，而讯飞星火和通义千问的解题时间则相对较长，其他几款大型AI模型所需时间更为漫长，尤其是其中一款，其解题过程耗时达到了572秒，几乎相当于10分钟。

（图源：App截图）

如果AI大型模型在每次测试中仅完成一道题目，那么在推理速度较慢的三款模型中，有可能会出现需要两小时才能完成一题的情况。

在本轮测试中，尽管所有人工智能大型模型都准确解答了问题，然而从推理所需的时间角度考量，豆包、讯飞星火以及通义千问三者表现尤为出色。

第三题（5分）：

若等比数列的前四项之和等于4，而前八项之和等于68，那么这个等比数列的公比是（正确答案：±2）。

相较于前一道题目，本题目难度有所降低；讯飞星火、文心一言、Kimi、通义千问这五款大型模型均迅速得出了正确答案，其中文心一言更是几乎瞬间完成计算。尽管豆包也成功计算出了正确答案，但在提交答案时却出现了失误，错误地排除了-2。因此，小雷不得不从豆包的得分中扣除三分，最终豆包只能获得2分。

（图源：App截图）

本轮测试期间，服务器拥堵状况频发，小雷只得求助于其他第三方软件。幸运的是，目前众多AI应用程序已经接入系统。特别是小雷所用的腾讯元宝App，在推理速度和稳定性方面，都明显优于网页版及App。

第四题（17分）：

数列{an}的初始项为3，且满足条件：每一项与其前一项的比值等于前一项与项数加一的比值的倒数加上1除以项数与项数加一的乘积。

证明：{n an}构成一个等差数列；具体来说，该数列的通项公式为an=3，且其公差固定为1。

给定函数f(x)等于a₁乘以x加上a₂乘以x的平方，再加上a₃乘以x的立方，以此类推，直至aₘ乘以x的m次方。要求求出f′（-2）的值。根据计算，f′（-2）的结果为7/9减去（3m加7）/9乘以（-2的m次方）。

前三题中，多款人工智能应用在用户体验上略有不同，但它们的功能表现并无显著差异；然而，第四题的情况则有所不同，其难度大大超过了前三题，并且是衡量大型人工智能模型能力的关键考验。

豆包、讯飞星火、Kimi、文心一言在本次测试中均表现出色，成功解答了两道题目。其中，通义千问在解答第一道小题时展现出了出色的推理能力，然而在第二道小题上却出现了失误，整体表现略逊于其他选手。

（图源：App截图）

高考AI作弊检测 _ AI大模型高考题测试 _中国AI大模型排名

豆包、讯飞星火、文心一言和Kimi均在本轮测试中取得了满分，即17分，而通义千问由于在第二道小题上出现了错误，最终只能得到7分。

数学题目若依赖公式和逻辑进行解答，似乎与人工智能的特长相契合，然而在往年的测评中，大型AI模型在阅读理解和作文方面表现出色，却往往在处理复杂的数学问题时缺乏有效的解题策略。

去年6月，光明网报道指出，复旦大学的一项NLP实验发现，AI大模型在应对2024年高考语文题目时，其表现显著优于数学题目。在数学领域，AI大模型遭遇了严重的挑战，许多题目上它们都无法给出正确答案，甚至在一些情况下，AI大模型在多选题上错误连连，无一例外。探究其根本，数学领域要求精确到极致，丝毫误差都可能带来严重的后果，不容许有任何微小的失误；而文史类学科则相对宽容，允许存在一定程度的错误和模糊不清的答案。

经过一年的发展，AI大模型取得了显著进步，引入了深度思考模式，并对数学题目进行了专项优化，这使得AI在应对高考数学题目时表现得更加得心应手。

比学霸更牛，但大模型做题能力已拉开差距

四道题目测试下来，最终得分如下：

经过测试，讯飞星火、Kimi、文心一言均取得了满分的好成绩，豆包的表现也相当出色。然而，由于一时的疏忽，豆包遗憾地失去了三分，未能成为高考状元。在处理通义千问中的简单问题时，其计算水平始终保持在很高的标准上，但在面对较为复杂的问题时，却出现了计算错误，因此还需继续努力提升。

（图源：豆包AI生成）

苹果公司一直对AI领域持怀疑态度，近期在论文中提出，AI的推理模型实际上只是「虚假的思考」，缺乏稳定和易于理解的推理流程，更接近于记忆，且在处理复杂任务时可能会出现崩溃。AI领域的专家al Gaib在重现苹果公司的测试方法后指出，模型的失败并非源于推理能力的不足，而是因为苹果公司对输出结果进行了限制。

AI大模型的推理能力或许仍有其极限，然而，我们明显感受到了它们的成长。在去年，复旦大学NLP实验室对AI大模型进行了测试，结果显示它们在解决高考数学题时表现不佳；同样，在小雷参与的多次AI大模型评测中，也得到了类似的结论。然而，今年进行的测试中，AI大模型普遍能够得出问题的正确答案，那些曾经令AI大模型束手无策的多选题，如今也不再构成任何障碍。

AI大型模型的数学解题能力得到显著增强，其中最大的受益者很可能是学生群体。目前，我国的学习设备制造商和教育辅导平台纷纷引入了AI的答题功能。然而，众多设备的AI大模型功能有限，仅能处理中小学的题目。以小猿搜题为例，其题目库并未涵盖大学课程的内容。

这六款人工智能大型模型的卓越表现彰显了我国领先AI企业的强大实力，它们不仅攻克了高考数学难题，高等数学的挑战也在不久的将来有望被征服。学习设备制造商、教育辅助平台应与行业领军企业携手，共同提升产品的AI解题功能，进而持续加强AI教育硬件领域的业务发展。

夏日丽六月，金榜题名时。

高考之际又至，雷科技推出“高考毕业季”特别专题，旨在满足广大学生粉丝的信息需求，内容丰富，包括搜索、人工智能等工具的推荐，以及手机、个人电脑等产品的选购指南。

敬请关注！

信雨万象

阅读原文

下一篇：深度解析 SEO 关键词优化：策略、要点与内容质量把控

上一篇：2023 年入局抖音小店晚不晚？大灰哥为你深度剖析现状