北京华网天下

人工智能规模化时代或将结束，小型语言模型渐流行

2025-02-03

来源：网络整理

“越大越好” - 这一原则深深植根于人工智能界。每个月都会创建较大的模型，并且越来越多的参数是。该公司甚至正在为他们建立一个价值100亿美元的人工智能数据中心。但这是唯一的方向吗？

在2024年，伊利亚（Ilya）是一位共同创始人，分享了一种观点：“我们知道的预培训将结束。”看来规模时代即将结束，这意味着现在是时候专注于改进当前的方法和算法了。

最有前途的领域之一是一个小语言模型（SLM），最多10b参数。该方法确实在行业中很受欢迎。例如，Face的首席执行官CLLM预测，使用SLM最多可以解决99％的用例。 YC的最新初创企业要求也反映了类似的趋势：

具有大量参数的巨型通用模型非常令人印象深刻。但是他们的成本也很高，他们经常带来延迟和隐私问题。

现在我们问一个问题：您需要LLM吗？

文章的“简短”摘要。

在本文中，我将讨论为什么小型模型可能是您业务的解决方案。我们将讨论它们如何降低成本，提高准确性并维护数据控制。当然，我们将坦率地讨论他们的局限性。

成本

LLM的经济成本可能是企业最痛苦的话题之一。但是，问题很普遍：它包括昂贵的硬件，基础设施成本，能源成本和环境后果。

是的，大型语言模型的能力令人印象深刻，但维护也非常昂贵。您可能已经注意到，基于LLM的应用程序的订阅价格如何上涨？例如，最近宣布推出200美元的Pro计划，这表明成本正在上升。竞争对手也可以将价格提高到这一水平。

专业计划

机器人的故事就是一个很好的例子。它以800美元的价格使用API，为儿童创建了一个出色的伴侣机器人。尽管该产品成功（孩子每天发送500-1000条消息！），但由于API的运营成本很高，该公司仍关闭。现在，成千上万的机器人将变得毫无用处，孩子们将失去朋友。

一种方法是为您的特定字段罚款专业的小语言模型。当然，它不会解决“世界上所有问题”，但它将完美处理分配给它的任务。例如，分析客户文档或生成特定报告。同时，SLM的维护成本较低，消耗资源较少，所需的数据较少，并且可以使用更合适的硬件（在大多数智能手机）运行。

比较不同参数的利用率

最后，不要忘记环境。在“碳证据和大型神经网络培训”的文章中，我发现了一些有趣的统计数据，令我感到惊讶：gpt-3和1750亿个培训参数所消耗的权力相当于120年中普通美国家庭消耗的120年的电力电力消耗。本质还产生502吨二氧化碳，相当于100多辆汽油的年度运输量。这不包括推理费用。相比之下，部署较小模型（例如7B）所需的消耗仅为较大型号的5％。最新的O3版本呢？

O3型生成型。来源。

印象：不要追逐炒作。在处理任务之前，请计算使用API或您自己的服务器的成本。考虑该系统的可扩展性以及使用LLM的合理性。

特殊任务的表现

现在我们已经讨论了经济因素，让我们谈谈质量。当然，很少有人愿意牺牲解决方案的准确性以节省成本。但是即使在这里，SLM也有一些优势。

查看域中的性能。比较SLM和LLM在域内容审查性能中的性能，召回率和准确性。在所有提交中，就准确性和召回率而言，最佳性能SLM优于LLM，而LLM在准确性方面比SLM更好。来源。

许多研究表明，对于高度专业的任务，小型模型不仅可以与大型LLM竞争，而且表现更好。让我们看看一些例子：

药物：-7b模型（基于7B）在与糖尿病相关的测试中的准确度为87.2％，而GPT-4的准确性仅为79.17％，而-3.5的准确性仅为80.13％。但是，-7B比GPT -4小数十倍，并且可以在消费者GPU上本地运行。法律领域：仅具有0.2B参数的SLM在合同分析中达到77.2％的精度（GPT-4- 82.4％）。此外，对于用户协议中的“不公平”子句，SLM在F1指标上的性能甚至优于GPT-3.5和GPT-4。数学任务：研究表明，由另一个小型模型生成的数据训练小型模型 - 9B比较大的-27B数据训练效果更好。较小的模型通常会更加关注细节，而无需“尝试用所有知识炫耀”，这通常是较大模型的特征。内容审查：在审查15个流行内容时，就准确性（高11.5％）和召回率（25.7％）而言，3.1 8b优于GPT-3.5。即使您使用4位定量，也可以实现此目标，从而进一步降低了模型的大小。

比较QA和LLM上SLM指令的SLM。

我进一步说，即使是经典的NLP方法通常也可能非常有效。让我分享一个个人案例：我正在开发一种心理支持产品，我们每天都从用户那里处理1000多个新闻。他们可以在聊天中写一条消息并得到答复。首先将每个消息分为四个类别之一：

消息分类方案。

开发程序的语言_小型开发程序语言是什么_小型程序开发语言

我使用GPT-3.5-进行分类，然后切换到GPT-4O Mini，这花了很多时间来更改提示。但是，我仍然遇到错误。因此，我决定尝试一种经典方法：TF-IDF +一个简单的分类器。在训练的一分钟内，F1分数提高到0.95（而GPT-4O MINI为0.92）。该模型的大小仅为76 MB。当将其应用于200万处理消息（我们的实际数据）时，节省的成本非常可观：基于GPT的解决方案的成本约为500美元，经典方法几乎不花钱。

准确性，速度和成本比较表：GPT-4O MINI和TF-IDF模型。

我们的产品中有几个这样的“小”和简单的任务。我相信您的公司会有相同的情况。当然，大型模型非常适合快速启动，尤其是当没有标签数据并且需求不断变化的情况下。但是，定义清晰稳定任务的准确性和最低成本是关键。专业和简单的模型（包括经典方法）通常可以成为更有效的解决方案。

提示：使用LLM进行原型设计，然后，一旦任务变得清晰稳定，切换到更小，更便宜，更准确的模型。这种混合方法有助于维持高质量，大大降低成本，并避免通用模型的冗余。

安全，隐私和监督

使用LLM通过API，您将敏感数据移交给外部提供商，这将增加泄漏的风险，并使遵守符合性，GDPR和CCPA等严格的法规更加复杂。最近，宣布发布广告，这只会强调这些风险。贵公司不仅将失去对数据的完全控制，而且还依靠第三党SLA。

当然，LLM可以在本地运行，但是部署和扩张的成本（数百GB的内存，多个GPU）通常超过合理的经济限制，并且很难快速适应新的法规要求。并且不想在低端硬件上启动它。

与云API风险和设备的优势相比。

这是“小男人”再次演奏的地方：

1。简化审核

SLM量表越小，审核，验证和自定义以满足特定法规的情况就越容易。这样，您更容易理解模型处理数据，实施自己的加密或日志记录，并向审计师展示信息将永远不会离开受信任的环境。

2。运行隔离和低端硬件

LLM很难在孤立的网络细分市场或智能手机上有效地“部署”。但是，SLM的计算要求相对较低，它们几乎可以在任何地方运行：从私人网络中的本地服务器到医生或检查员。根据IDC的预测，到2028年，超过9亿智能手机将在本地运行本地AI模型。

3。新法规的更新和调整

法规和法律通常会在几个小时内而不是几天内更改 - 稳定模型。这使得在没有大规模升级基础设施的情况下快速响应的新要求，这通常是LLM的常见做法。

4。分布式安全体系结构

与LLM的单个体系结构不同，LLM的所有安全组件都“嵌入”大型模型中，而SLM支持创建分布式安全系统。每个组件：

例如，医疗应用可以在课堂上使用三种模型：

隐私监护人（2b）-HANG隐藏的个人数据。医疗验证（3B） - 型词素以确保医疗的准确性。合规检查（1B）-D监视合规性。

较小的型号更容易验证和更新，从而使整体体系结构更加灵活和可靠。

数据隐私的比较。

提示：如果您在严格的监督区域操作，请考虑使用SLM。密切注意数据传输策略和监管环境的变化频率。如果您的专业领域是医疗，财务或法律，我建议您使用SLM。

人工智能代理：完美用例

还记得古代的Unix哲学：“专注于做一件事”吗？现在，在人工智能的背景下，我们似乎再次回到了这一原则。

伊利亚（Ilya）最近发表了一份声明：“我们是众所周知的培训将结束”。下一个代理模型将“以真实的方式实现代理”，这只是确认了这一趋势。 Y甚至进一步，预测AI代理可以创造出比SaaS大10倍的市场。

例如，当前12％的企业解决方案使用基于代理的体系结构。此外，分析师预测，代理商将成为下一波人工智能转型的浪潮，这不仅会影响4000亿美元的软件市场，而且会影响美国10万亿美元的美国服务业。

SML是该角色的理想候选人。单个模型可能非常有限，但是多个这样的模型可以逐渐解决复杂的任务。快速，更高质量和较低的成本。

让我们给我们一个具体的例子：假设您正在构建一个分析财务文件的系统。您可以将任务分解为几个专业，而不是使用大型模型：

专业之间信息流的示例。

小型开发程序语言是什么_小型程序开发语言_开发程序的语言

这种方法不仅具有更具成本效益的作用，而且更可靠：每种都专注于他们的最佳领域。更便宜。快速地。更好的。是的，我再说一遍。

为了支持这一点，让我列出几家公司：

H公司筹集了1亿美元的种子轮融资，以开发基于SLM（2-3B参数）的多智能车身系统。其智能H（3B）的任务完成率达到67％，而使用任务完成率仅为52％，并且成本大大降低。 AI最近获得了2.5亿美元的融资，重点是建立高效的企业模式。他们的模型（13亿参数）的性能比所有现有类似模型都要好。同时，其LFM-3B的性能相当于7亿甚至13亿款，但记忆力较少。 R7B启动，这是专门用于抹布应用程序的模型，甚至可以在CPU上运行。该模型支持23种语言并与外部工具集成，并在推理和问答任务中显示第一类效果。您的公司名称也可以添加到此列表中。我们的经验表明，高度专业的SLM可以带来巨大的竞争优势，尤其是在监管领域。

这些例子强调了以下几点：

提示：首先确定项目中的重复任务。这些是开发特殊SLM的最佳候选人。此方法将帮助您避免为LLM的高功能和更好地控制流程的费用过多。

与LLM相比，SLM的潜在局限性

尽管我在整篇文章中赞美小型模型，但可以公平地指出他们的局限性是合理的。

1。任务灵活性有限

SLM的最大限制是其专业素养很狭窄。与可以处理广泛任务的LLM不同，SLM只能在培训的特定任务中成功。例如，在医学领域，-7B在与糖尿病相关的测试中的表现优于LLM，但其他医学学科需要其他细微调整或新的建筑。

LLM和SLM：灵活性和专业精神。

2。上下文窗口限制

与达到1M的大型模型（2.0）不同，SLM的上下文较短。尽管小型3.2模型（3b，1b）的上下文长度达到128K，但上下文的长度通常不声称：该模型通常会失去文本开始和结尾的“连接”。例如，多年来，SLM无法有效处理大量病史或大量的患者法律文件。

不同模型的最大上下文长度。

3。紧急能力差距

仅当模型达到一定量表阈值时，许多“突然能力”才会出现。 SLM通常不会达到高级别逻辑推理或 - 深度上下文所需的参数级别。一项研究通过数学应用问题证明了这一点：尽管小型模型难以执行基本的算术操作，但较大的模型突然显示出复杂的数学推理能力。

但是，最近对面部的研究表明，在测试过程中计算扩展可以部分弥补这一差距。小型模型使用迭代性自我完善或采用奖励模型和其他策略，对于复杂的问题，可以“思考更长的思考”。例如，随着发电时间的延长，小型模型（1B和3B）在数学基准测试基准上执行比大型模型（8B和70B）更好。

提示：如果您的工作环境中的任务每周都会改变，则需要分析大型文档或涉及复杂的逻辑问题，那么较大的LLM通常更可靠且广泛使用。

结论

正如我在上一篇文章中提到的那样，当我在self -host llm之间进行选择，没有一个尺寸 - 尺寸-fit -cut解决方案。如果您的任务涉及不断变化，缺乏精确的专业化或快速原型设计，LLM将提供一个简单的开始。

但是，随着时间的流逝，您的目标变得更加明确，而SLM代理转向紧凑而专业的SLM代理可以大大降低成本，提高准确性并简化监管要求的遵守。

从LLM的快速原型设计到优化的SLM生态系统。

SLM不是遵循趋势的范式变化，而是一种务实的方法。它使您可以在不必为不必要的功能支付太多价格的情况下更准确，经济地解决特定问题。您无需完全放弃LLM - 您可以用SLM甚至经典的NLP方法逐渐替换某些组件。这完全取决于您的指标，预算和任务。

IBM是一个很好的例子。它使用多种模型策略将较小的模型结合在一起以完成不同的任务。正如他们指出的那样：

越大，越好，越好，因为专用模型的性能比具有较低基础架构要求的通用模型更好。

最后，成功的关键是适应。从大型模型开始，评估最佳性能，然后优化您的体系结构，以免为不必要的功能和损害数据隐私支付过多的费用。这种方法使您既具有美的优势：LLM在初始阶段的灵活性和多功能性，以及成熟产品中SLM的准确和经济高效性能。

小程序开发

阅读原文

下一篇：2020支付宝合作伙伴大会云参会被赞，会上政策助力商业变革

上一篇：毕业季：全国十余所高校多种道别方式的青春画卷