AI大模型面临数据荒?OpenAI联合创始人警告训练数据或将耗尽

2025-03-14
来源:网络整理

[ Liu Yang, 特别通讯员Chen Shan]近年来,由大型模型驱动的人工智能(AI)已渗透到现代社会的各个方面,但其快速发展不能与大量数据的支持分开,因此该行业将数据描述为促进AI的发展的“燃料”和“矿物”。但是,美国人工智能巨头联合创始人兼前首席科学家伊利亚·萨茨克维尔(Ilya )最近公开警告说,“ AI的培训数据正面临着像化石燃料这样的精疲力尽的危机”,这立即在AI行业引起广泛的讨论:AI大型模型真的会陷入数据短缺吗?将来该怎么办?

“预训练模式必将结束”

美国“连接”网站说,AI的开发与三个核心要素密不可分:算法,计算能力和数据。如今,随着硬件升级和数据中心的扩展,计算能力正在继续增长,并且算法也迭代了,但是数据的速度增加开始无法满足AI的开发需求。他在加拿大温哥华的第38届神经信息处理系统会议上的讲话中警告说,“我们知道的训练前模型必将结束”。 “ AI的培训数据,例如石油,正面临疲惫的危机。无法更改的事实是:我们只有一个互联网。我们已经达到了数据的高峰,将不再有数据,我们必须处理现有数据。”

新闻学院和人工智能学院的教授沉阳在17日告诉《全球时报》记者,大型模型的预培训是指在构建大型人工智能模型(例如)时对大量无标记的数据进行大量未标记数据的初步培训的过程。通过自我监督的学习方法,该模型了解了形成通用语言表示的语言的基本结构,语法规则和广泛的知识。此阶段使模型能够理解和生成自然语言,为后续特定任务(例如文本分类,问答系统等)提供了坚实的基础。预训练不仅可以提高模型在各种任务中的性能,而且还减少了对大量标记数据的需求,并加速了应用程序开发的过程。

这不是AI行业中第一次注意到“数据不足”。英国新闻经济学家不久前还引用了研究公司AI的预测,他说:“互联网上可用的人类文本数据将在2028年耗尽。”

网站模型设计_网站建模软件有哪些_建设网站需要先构建好模型

为什么AI需要越来越多的数据?

介绍了对大型模型训练的数据的需求确实正在迅速增长,显示出近似指数叠加的趋势。具体而言,像GPT这样的模型通常需要数百亿至数万亿个数据单词进行预训练。这些巨大的数据集有助于模型以更深的方式理解语言结构和语义关系,从而实现其最终的强大性能和广泛的应用功能。

关于每个大规模迭代将导致数据量需求迅速增加的原因,解释说,这主要是由于需要扩大模型量表并提高性能。随着模型参数的数量的增加,模型的学习和表达能力也会增加,并且需要更多数据以完全训练这些参数并确保模型具有良好的概括能力。

另一方面,数据的多样性和覆盖范围也是推动数据需求增长的重要因素。为了提高模型的多功能性和适应性,必须使用涵盖广泛主题和语言样式的大量数据,这不仅有助于模型理解复杂的语言结构和语义关系,而且还可以确保其在各种应用程序场景中的性能良好。同时,随着模型的应用范围的扩展,例如多模式和跨域应用,对不同类型和领域中数据的需求也显着增加,从而进一步促进了数据量的增长。

通常,技术迭代和数据量之间存在密切的正相关。每个技术进步,尤其是模型大小和复杂性的增加,都将推动对更大,更丰富的数据集的需求。需求的快速增加不仅是为了提高模型性能和概括功能,而且还在于在更广泛,更复杂的应用程序方案中支持其性能。

随着GPT-4O等大型模型的规模及其后续版本的开放AI O1 Pro的规模不断扩大,对培训数据的需求呈指数增长。每个模型迭代,参数数量的增加需要更多数据,以确保该模型可以充分学习和概括。如今,互联网和其他数据源的增长率尚未完全满足这一需求,从而导致可用于培训的高质量数据相对较少。此外,随着隐私法规的严格严格性,例如欧盟发布了一般数据保护法规,大规模开发公司和机构获得和使用大规模数据的愿望变得更加复杂和有限,进一步加剧了数据供应和需求中的不平衡问题。

将来会输入“小数据”的时代?

网站模型设计_建设网站需要先构建好模型_网站建模软件有哪些

说,将AI可用数据的当前状况与传统矿产资源进行比较不仅仅是因为数据的“总数”已经用尽,而是更像“矿物质”的连续采矿,高质量的“矿石”(高质量数据)的数量(可以轻松获得的高质量数据)减少了。其余数据要么是均质的,要么质量较低,因此它不能直接满足新一代大型模型的训练需求。当今的数据可能仍然存在,但是它充满了偏见,不一致或缺乏标签,类似于已开采的剩余矿石的矿化,并且需要更多的精炼和加工。

因此,为了在将来处理这种情况,除了继续寻求新的数据源(包括专业领域中更多的远程语料库和数据)外,我们还可以尝试综合数据,数据增强,转移学习,联合学习和其他策略来提高数据利用率效率和质量管理。通常,困境不仅是“数量不足”,而且是由于数据的“质量和可用性”不足带来的挑战。回应是在技术,战略和机构层面上各个方面的数据处理的准确性和效率。

其中,合成数据已成为解决大型培训数据短缺的新想法。与从现实世界中收集或测量的实际数据相比,合成数据是基于模拟真实数据的分布特征和统计特征而创建的,然后通过生成模型生成。它可以根据实际需求生成大量可训练的数据集,但是也存在所谓的“过度拟合”问题,这会导致大型模型在合成数据上表现良好,但在实际情况下却不能。

that when we the of " AI big pre- data will be " that has much the , we need to two : , the pre- data in the will be "" text data that can be used for , but the and of data, data, and data in by has just .换句话说,学习和使用来自AI模型的文本数据对上述这些模型也将面临巨大的扩展。其次,将来,一方面,我们必须继续加强大型模型的预训练,但更重要的是,我们必须研究推理,代理和人类计算机的共生。 “也就是说,在研究如何通过大量数据来使人工智能学习并变得更强大的同时,我们还必须研究如何使人类更强大。无论AI能力多么强大,人类都必须最终能够控制AI。”

中国科学院学院的卢本富教授在接受《全球时报》的采访时说,AI大型模型的所谓预培训数据“精疲力尽”,主要是指互联网上的数据和各种出版物数据。每个人的终身记忆数据仍然存在于个人思想中,尚未被有效地发现。随着预训练的数据将耗尽,也有观点认为“小型模型”的时代将进入未来。 Lu 认为,将来,大型模型,垂直模型和代理商都会找到自己的价值域。学术界也有“世界模型”一词。与当前的大型语言模型不同,世界模型不仅具有逻辑关系(概率判断),而且具有物理定律。因此,在更高层面上,未来大型模型的“决定性战”尚未结束。

分享