一些研究人员甚至基于此观点,提出了“人工智能发展领域的摩尔定律”这一概念。
该定律表明,当计算机执行特定任务,比如进行某些编码作业时,其性能会随着时间的发展呈现出指数式的提升。
尽管作者对这一特定模式持有一定的保留态度,然而,人工智能行业整体呈现出积极向好的发展态势,这一点是毋庸置疑的。
我们的AI系统逐年提升其智能水平与运行速度,而且其成本也在持续下降,此外,这种发展态势似乎永无止境。
多数人普遍认为,这种持续的进步主要得益于学术界与工业界研究群体不断涌现的智慧滋养。
学术界的领军人物主要来自麻省理工学院、斯坦福大学和卡内基梅隆大学。而工业界的力量则主要源自Meta、谷歌等知名企业,以及少数几家颇具影响力的实验室。
自然,还有众多我们无从知晓的研究秘密,在别处悄然进行。
02 技术突破与研究动态的回顾
毫无疑问,科学研究确实为我们带来了显著的进步,特别是在构建系统方面。这些在系统层面的研究,正是模型训练和推理成本得以持续下降的核心因素。
我们可以从过去几年中挑选出几个显著的例子来证明这一点。
在2022年,斯坦福大学的科研团队开发了一种算法,该算法能够更高效地运用语言模型中的存储资源,目前此技术已在业界得到广泛的应用。
在2023年,谷歌团队成功研发了一种预测解码技术。目前,几乎所有的模型提供商都采纳了这项技术,用以提升模型推理的效率。
据信,也几乎在同一时间独立开发出了类似的技术。
2024年,一支由热衷于互联网技术的爱好者构成的团队成功研发了Muon优化器。这款优化器似乎在性能上超越了传统的SGD或Adam优化器,有望在未来成为训练语言模型的主流选择。
2025年,我们推出了-R1。这款开源模型在推理性能上,与谷歌等公司提供的同类商业闭源模型不相上下。
这些案例充分展示了,我们确实在持续地寻求并解决各种问题。事实上,情况更为令人振奋,我们正投身于一场去中心化的全球科学实践之中。
此外,研究成果得以在各类学术会议、社交媒体平台广泛传播,从而使我们的知识每月都在不断增长。
03 人工智能的四个关键范式转移
然而,一个引人深思的矛盾现象浮现:尽管我们正在进行众多关键的研究项目,为何仍有人觉得研究进展似乎有所减缓?
公众的抱怨声持续不断,特别是在模型性能增强这一领域。近期推出的两款备受关注的巨型模型,Grok 3与GPT-4.5,它们相较于上一代产品在性能上的进步显得相当微弱。
特别引人注目的是,在将最新的语言模型应用于评判最新国际数学奥林匹克竞赛的题目时,这些模型仅获得了5%的得分。
该研究显示,近期对系统性能的宣传或许有过分渲染之嫌。若我们试图梳理那些真正代表“重大突破”的范式变革,会发现它们的出现频率有着显著差异。
人工智能的发展历程,可以被四个核心的突破性节点所概括。
深度神经网络(DNNs)的崛起成为首个里程碑。2012年,该模型在一场图像识别比赛中夺冠,这一胜利标志着深度神经网络时代的到来。
第二个重要进展是架构技术与广泛使用的语言模型(LLMs)的融合。在2017年,谷歌在其发表的论文《Is All You Need》中,首次提出了这一架构设计。
这一现象直接导致了2018年谷歌推出了BERT模型以及GPT模型的初代版本。
第三个重大进展源自于人类反馈的强化学习技术(RLHF)。据研究者的了解,这一理论首次在2022年的一篇论文中被正式阐述。
第四个关键进展体现在模型的推理性能上。在2024年,我们推出了O1模型,这一成果不仅激发了后续R1模型的诞生,而且对其产生了直接影响。
稍加观察,便会发现这四个关键环节——从深度神经网络(DNNs)到语言模型(LMs),再到强化学习与人类反馈(RLHF)以及推理——几乎涵盖了人工智能领域发生的所有重要进展。
我们首先发展出了深度神经网络,这一技术主要应用于图像识别领域。随后,文本分类器也应运而生,紧接着便是聊天机器人的出现。如今,我们又拥有了所谓的推理模型。
那么,第五次如此显著的进展又将源自何处?探究这四个已知的实例或许能为我们提供若干借鉴。
这一观点并不极端,即所有这些创新性成就的根本原理,早在1990年代,甚至更早的时期就已经确立。
我们仅采用了较为基础的神经网络结构,并实施了监督学习模式(这与前两个关键进展相对应),亦或是强化学习策略(这则与第三和第四个重大突破相吻合)。
作为预训练语言模型的核心方法,这种基于交叉熵的监督学习理念,其根源可以追溯到克劳德·香农在1940年代的研究成果。
强化学习,作为一种后训练语言模型的关键手段,其过程涉及基于RLHF(强化学习与人类反馈)和推理训练的强化学习,这一方法的历史相对较短。
它可以追溯到1992年策略梯度方法的引入。
这些观点在1998年首版由我与他人共同撰写的《强化学习》教材中已经展现出了相当完备的形态。
如果我们的思想不是新的,那么新的东西究竟是什么?
此处存在一个常被忽视的重要步骤:在这四个重大进展中,每一项都为我们提供了获取全新数据来源的可能性。
该模型及其后续版本成功解密了数据集,该数据集是一个规模庞大、标注了类别的图像库,它推动了计算机视觉领域在过去十五年的持续进步。
该架构解锁了对整个互联网文本数据的训练能力,由此激发了一场下载、分类及解析万维网上所有文本的竞赛,目前这项任务似乎已经基本完成。
RLHF使我们得以从人类标注中领悟何为优质文本。这一过程在很大程度上依赖于直观感受与学习。
推理能力的突破似乎使我们得以从所谓的“验证器”中汲取知识。这些验证器涵盖了计算器、编译器等工具,它们具备客观评价语言模型输出结果正误的能力。
务必留意,每一项重要节点均见证了相应数据来源——包括网络文本、人类以及验证器——的首次广泛运用。
每个里程碑之后都伴随着一阵狂热的活动。
研究人员竞相从所有可用的渠道中吸收剩余的有用数据。
他们也在努力,通过采用新颖的方法,更充分地挖掘现有数据的价值,以此提升系统的运行效率,并减少对数据量的需求。
预计到了2025年年底以及2026年,我们有望在推理模型领域观察到一致的走向。
研究人员将竞相寻找、分类和验证一切可能被验证的东西。
那么,新思想的重要性到底有多大?
有人持这样的看法,即在这些案例里,我们实际的技术革新或许并未对结果产生决定性的作用。
我们可以做一个反事实的思考。
如果没有发明,也许会有另一种架构出现,同样能够有效处理。
倘若未曾有所发现,我们或许会满足于采纳LSTM或SSM等模型,亦或是探索其他全新的途径以处理网络上的庞大文本数据。
这与一些人持有的“数据决定论”不谋而合。
研究人员发现,在众多训练技术、模型策略以及超参数的调整过程中,真正起到关键性作用的,通常是数据层面的变动。
一个极具说服力的案例表明,某些研究团队专注于构建一种基于非架构设计的BERT系列新型模型。
他们历经一年时光,通过数百种方法对结构进行了不断优化,最终成功研发出一种新型的模型——状态空间模型(简称SSM)。
在相同的训练数据集上,该SSM模型展现出了与原始模型相当的性能水平。
这种等效性的发现意义深远。
这表明,从某一特定数据集所能获得的知识量是有限的。
在世界上,无论多么高超的训练方法或是模型的不断优化,都无法摆脱这样一个冷酷的事实:任何数据集所能承载的信息都是有限的。
网址:
或许这种对新颖观念的淡漠态度,正是那“苦涩的教训”试图向我们揭示的。
04 未来范式的预期
若数据被视为至高无上的要素,那为何仍有95%的人致力于探索新的研究途径?我们的下一次范式变革又将源自何方?