高考期间国内知名 AI 大模型暂停服务,小雷对其做法存疑并实测

2025-06-19
来源:万象资讯

今年高考期间,为了杜绝高考生借助AI作弊,腾讯的混元、通义千问、Kimi、豆包等国内顶尖AI大模型的图片识别问答功能均被暂停。然而,对此举措,小雷持有不同看法。他曾在之前对AI大模型进行高考题目的测试,发现多数表现不尽如人意。因此,他认为暂停图片识别问答服务可能过于乐观地估计了自家AI大模型的能力。

截止到截止日期,2025年全国一卷的高考中,只发布了语文、英语和数学三门科目的试卷。特别是语文的高考题目一经公布,就有不少媒体进行了AI大模型的作文写作测试。然而,关于这些作文的质量,众说纷纭,小雷所看到的评测文章主要摘录了AI大模型所写的作文,并未进行具体的评价,文章的好坏还需由读者自行判断。

(图源:百度搜索截图)

考虑到谨慎的原则,小雷挑选了设有固定答案的数学题目,以检验AI大模型的功能。他所选用的AI大模型包括豆包、讯飞星火、文心一言、Kimi以及通义千问。这些模型是否能够通过985、211高校的入学考试呢?

六款大模型PK,谁才是AI界的高考状元?

首先,我们需要明确测试环境和题目情况。由于一些AI大型模型无法手动切换网络连接状态,因此,这些模型在测试中均默认开启了联网搜索功能,并且深度思考的选项也已被全面激活。

所选择的数学题目中,既有一道需要从多个选项中挑选一个正确答案的单选题,也有一道要求从多个选项中选出所有正确答案的多选题,还有一道需要填写正确答案的填空题,以及一道需要详细阐述解题过程的简答题。这些题目的得分将根据各自的分值进行累积。

第一题(5分):

若双曲线C的虚轴长度为实轴长度的根号7倍,那么该双曲线的离心率是(正确答案:D)。

A:√6 B:2 C:√7 D:2√2

这道题目只是个热身,难度并不高。在这次测试中,六款AI大模型的表现都没有让小雷感到失望,它们都成功地计算出了正确答案,并且还提供了详细的推理步骤。在这道题目的测试中,所有AI大模型都取得了满分,即5分。(从左至右依次是:讯飞星火、豆包、Kimi、文心一言、通义千问,图片与此一致。)

(图源:App截图)

尽管这道题目的难度并不算太大,然而这六款高级人工智能模型的表现却让小雷感到十分惊喜。在之前对AI大模型的数学计算能力进行测试时,它们在面对稍微复杂一些的问题时,往往难以得出正确的答案。

经过一次简单的测试,讯飞星火、豆包、文心一言、Kimi、通义千问这六款AI大模型便展示了它们强大的功能。然而,这些模型被高考生用作作弊工具的可能性也不能忽视。因此,暂停图片识别问答功能并非仅仅是为了追逐高考的热潮。

第二题(6分):

若余弦2A与余弦2B之和,再加上2倍的正弦C,其值等于2,且三角形ABC的面积等于1/4,同时余弦A与余弦B乘以正弦C的乘积也等于1/4,则正确答案为ACD。

高考AI作弊检测 _ AI大模型高考题测试 _中国AI大模型排名

A:正弦C等于正弦A的平方加上正弦B的平方,B:A的平方乘以AC加上B的平方乘以BC等于3,C:AB的值等于根号2,D:正弦A加上正弦B等于根号6除以2。

这道题目极具挑战性,只有豆包在短短的两分钟内便得出了正确答案,而讯飞星火和通义千问的解题时间则相对较长,其他几款大型AI模型所需时间更为漫长,尤其是其中一款,其解题过程耗时达到了572秒,几乎相当于10分钟。

(图源:App截图)

如果AI大型模型在每次测试中仅完成一道题目,那么在推理速度较慢的三款模型中,有可能会出现需要两小时才能完成一题的情况。

在本轮测试中,尽管所有人工智能大型模型都准确解答了问题,然而从推理所需的时间角度考量,豆包、讯飞星火以及通义千问三者表现尤为出色。

第三题(5分):

若等比数列的前四项之和等于4,而前八项之和等于68,那么这个等比数列的公比是(正确答案:±2)。

相较于前一道题目,本题目难度有所降低;讯飞星火、文心一言、Kimi、通义千问这五款大型模型均迅速得出了正确答案,其中文心一言更是几乎瞬间完成计算。尽管豆包也成功计算出了正确答案,但在提交答案时却出现了失误,错误地排除了-2。因此,小雷不得不从豆包的得分中扣除三分,最终豆包只能获得2分。

(图源:App截图)

本轮测试期间,服务器拥堵状况频发,小雷只得求助于其他第三方软件。幸运的是,目前众多AI应用程序已经接入系统。特别是小雷所用的腾讯元宝App,在推理速度和稳定性方面,都明显优于网页版及App。

第四题(17分):

数列{an}的初始项为3,且满足条件:每一项与其前一项的比值等于前一项与项数加一的比值的倒数加上1除以项数与项数加一的乘积。

证明:{n an}构成一个等差数列;具体来说,该数列的通项公式为an=3,且其公差固定为1。

给定函数f(x)等于a₁乘以x加上a₂乘以x的平方,再加上a₃乘以x的立方,以此类推,直至aₘ乘以x的m次方。要求求出f′(-2)的值。根据计算,f′(-2)的结果为7/9减去(3m加7)/9乘以(-2的m次方)。

前三题中,多款人工智能应用在用户体验上略有不同,但它们的功能表现并无显著差异;然而,第四题的情况则有所不同,其难度大大超过了前三题,并且是衡量大型人工智能模型能力的关键考验。

豆包、讯飞星火、Kimi、文心一言在本次测试中均表现出色,成功解答了两道题目。其中,通义千问在解答第一道小题时展现出了出色的推理能力,然而在第二道小题上却出现了失误,整体表现略逊于其他选手。

(图源:App截图)

高考AI作弊检测 _ AI大模型高考题测试 _中国AI大模型排名

豆包、讯飞星火、文心一言和Kimi均在本轮测试中取得了满分,即17分,而通义千问由于在第二道小题上出现了错误,最终只能得到7分。

数学题目若依赖公式和逻辑进行解答,似乎与人工智能的特长相契合,然而在往年的测评中,大型AI模型在阅读理解和作文方面表现出色,却往往在处理复杂的数学问题时缺乏有效的解题策略。

去年6月,光明网报道指出,复旦大学的一项NLP实验发现,AI大模型在应对2024年高考语文题目时,其表现显著优于数学题目。在数学领域,AI大模型遭遇了严重的挑战,许多题目上它们都无法给出正确答案,甚至在一些情况下,AI大模型在多选题上错误连连,无一例外。探究其根本,数学领域要求精确到极致,丝毫误差都可能带来严重的后果,不容许有任何微小的失误;而文史类学科则相对宽容,允许存在一定程度的错误和模糊不清的答案。

经过一年的发展,AI大模型取得了显著进步,引入了深度思考模式,并对数学题目进行了专项优化,这使得AI在应对高考数学题目时表现得更加得心应手。

比学霸更牛,但大模型做题能力已拉开差距

四道题目测试下来,最终得分如下:

经过测试,讯飞星火、Kimi、文心一言均取得了满分的好成绩,豆包的表现也相当出色。然而,由于一时的疏忽,豆包遗憾地失去了三分,未能成为高考状元。在处理通义千问中的简单问题时,其计算水平始终保持在很高的标准上,但在面对较为复杂的问题时,却出现了计算错误,因此还需继续努力提升。

(图源:豆包AI生成)

苹果公司一直对AI领域持怀疑态度,近期在论文中提出,AI的推理模型实际上只是「虚假的思考」,缺乏稳定和易于理解的推理流程,更接近于记忆,且在处理复杂任务时可能会出现崩溃。AI领域的专家al Gaib在重现苹果公司的测试方法后指出,模型的失败并非源于推理能力的不足,而是因为苹果公司对输出结果进行了限制。

AI大模型的推理能力或许仍有其极限,然而,我们明显感受到了它们的成长。在去年,复旦大学NLP实验室对AI大模型进行了测试,结果显示它们在解决高考数学题时表现不佳;同样,在小雷参与的多次AI大模型评测中,也得到了类似的结论。然而,今年进行的测试中,AI大模型普遍能够得出问题的正确答案,那些曾经令AI大模型束手无策的多选题,如今也不再构成任何障碍。

AI大型模型的数学解题能力得到显著增强,其中最大的受益者很可能是学生群体。目前,我国的学习设备制造商和教育辅导平台纷纷引入了AI的答题功能。然而,众多设备的AI大模型功能有限,仅能处理中小学的题目。以小猿搜题为例,其题目库并未涵盖大学课程的内容。

这六款人工智能大型模型的卓越表现彰显了我国领先AI企业的强大实力,它们不仅攻克了高考数学难题,高等数学的挑战也在不久的将来有望被征服。学习设备制造商、教育辅助平台应与行业领军企业携手,共同提升产品的AI解题功能,进而持续加强AI教育硬件领域的业务发展。

夏日丽六月,金榜题名时。

高考之际又至,雷科技推出“高考毕业季”特别专题,旨在满足广大学生粉丝的信息需求,内容丰富,包括搜索、人工智能等工具的推荐,以及手机、个人电脑等产品的选购指南。

敬请关注!

分享