“越大越好” - 这一原则深深植根于人工智能界。每个月都会创建较大的模型,并且越来越多的参数是。该公司甚至正在为他们建立一个价值100亿美元的人工智能数据中心。但这是唯一的方向吗?
在2024年,伊利亚(Ilya)是一位共同创始人,分享了一种观点:“我们知道的预培训将结束。”看来规模时代即将结束,这意味着现在是时候专注于改进当前的方法和算法了。
最有前途的领域之一是一个小语言模型(SLM),最多10b参数。该方法确实在行业中很受欢迎。例如,Face的首席执行官CLLM预测,使用SLM最多可以解决99%的用例。 YC的最新初创企业要求也反映了类似的趋势:
具有大量参数的巨型通用模型非常令人印象深刻。但是他们的成本也很高,他们经常带来延迟和隐私问题。
现在我们问一个问题:您需要LLM吗?
文章的“简短”摘要。
在本文中,我将讨论为什么小型模型可能是您业务的解决方案。我们将讨论它们如何降低成本,提高准确性并维护数据控制。当然,我们将坦率地讨论他们的局限性。
成本
LLM的经济成本可能是企业最痛苦的话题之一。但是,问题很普遍:它包括昂贵的硬件,基础设施成本,能源成本和环境后果。
是的,大型语言模型的能力令人印象深刻,但维护也非常昂贵。您可能已经注意到,基于LLM的应用程序的订阅价格如何上涨?例如,最近宣布推出200美元的Pro计划,这表明成本正在上升。竞争对手也可以将价格提高到这一水平。
专业计划
机器人的故事就是一个很好的例子。它以800美元的价格使用API,为儿童创建了一个出色的伴侣机器人。尽管该产品成功(孩子每天发送500-1000条消息!),但由于API的运营成本很高,该公司仍关闭。现在,成千上万的机器人将变得毫无用处,孩子们将失去朋友。
一种方法是为您的特定字段罚款专业的小语言模型。当然,它不会解决“世界上所有问题”,但它将完美处理分配给它的任务。例如,分析客户文档或生成特定报告。同时,SLM的维护成本较低,消耗资源较少,所需的数据较少,并且可以使用更合适的硬件(在大多数智能手机)运行。
比较不同参数的利用率
最后,不要忘记环境。在“碳证据和大型神经网络培训”的文章中,我发现了一些有趣的统计数据,令我感到惊讶:gpt-3和1750亿个培训参数所消耗的权力相当于120年中普通美国家庭消耗的120年的电力电力消耗。本质还产生502吨二氧化碳,相当于100多辆汽油的年度运输量。这不包括推理费用。相比之下,部署较小模型(例如7B)所需的消耗仅为较大型号的5%。最新的O3版本呢?
O3型生成型。来源。
印象:不要追逐炒作。在处理任务之前,请计算使用API或您自己的服务器的成本。考虑该系统的可扩展性以及使用LLM的合理性。
特殊任务的表现
现在我们已经讨论了经济因素,让我们谈谈质量。当然,很少有人愿意牺牲解决方案的准确性以节省成本。但是即使在这里,SLM也有一些优势。
查看域中的性能。比较SLM和LLM在域内容审查性能中的性能,召回率和准确性。在所有提交中,就准确性和召回率而言,最佳性能SLM优于LLM,而LLM在准确性方面比SLM更好。来源。
许多研究表明,对于高度专业的任务,小型模型不仅可以与大型LLM竞争,而且表现更好。让我们看看一些例子:
药物:-7b模型(基于7B)在与糖尿病相关的测试中的准确度为87.2%,而GPT-4的准确性仅为79.17%,而-3.5的准确性仅为80.13%。但是,-7B比GPT -4小数十倍,并且可以在消费者GPU上本地运行。法律领域:仅具有0.2B参数的SLM在合同分析中达到77.2%的精度(GPT-4- 82.4%)。此外,对于用户协议中的“不公平”子句,SLM在F1指标上的性能甚至优于GPT-3.5和GPT-4。数学任务:研究表明,由另一个小型模型生成的数据训练小型模型 - 9B比较大的-27B数据训练效果更好。较小的模型通常会更加关注细节,而无需“尝试用所有知识炫耀”,这通常是较大模型的特征。内容审查:在审查15个流行内容时,就准确性(高11.5%)和召回率(25.7%)而言,3.1 8b优于GPT-3.5。即使您使用4位定量,也可以实现此目标,从而进一步降低了模型的大小。
比较QA和LLM上SLM指令的SLM。
我进一步说,即使是经典的NLP方法通常也可能非常有效。让我分享一个个人案例:我正在开发一种心理支持产品,我们每天都从用户那里处理1000多个新闻。他们可以在聊天中写一条消息并得到答复。首先将每个消息分为四个类别之一:
消息分类方案。
我使用GPT-3.5-进行分类,然后切换到GPT-4O Mini,这花了很多时间来更改提示。但是,我仍然遇到错误。因此,我决定尝试一种经典方法:TF-IDF +一个简单的分类器。在训练的一分钟内,F1分数提高到0.95(而GPT-4O MINI为0.92)。该模型的大小仅为76 MB。当将其应用于200万处理消息(我们的实际数据)时,节省的成本非常可观:基于GPT的解决方案的成本约为500美元,经典方法几乎不花钱。
准确性,速度和成本比较表:GPT-4O MINI和TF-IDF模型。
我们的产品中有几个这样的“小”和简单的任务。我相信您的公司会有相同的情况。当然,大型模型非常适合快速启动,尤其是当没有标签数据并且需求不断变化的情况下。但是,定义清晰稳定任务的准确性和最低成本是关键。专业和简单的模型(包括经典方法)通常可以成为更有效的解决方案。
提示:使用LLM进行原型设计,然后,一旦任务变得清晰稳定,切换到更小,更便宜,更准确的模型。这种混合方法有助于维持高质量,大大降低成本,并避免通用模型的冗余。
安全,隐私和监督
使用LLM通过API,您将敏感数据移交给外部提供商,这将增加泄漏的风险,并使遵守符合性,GDPR和CCPA等严格的法规更加复杂。最近,宣布发布广告,这只会强调这些风险。贵公司不仅将失去对数据的完全控制,而且还依靠第三党SLA。
当然,LLM可以在本地运行,但是部署和扩张的成本(数百GB的内存,多个GPU)通常超过合理的经济限制,并且很难快速适应新的法规要求。并且不想在低端硬件上启动它。
与云API风险和设备的优势相比。
这是“小男人”再次演奏的地方:
1。简化审核
SLM量表越小,审核,验证和自定义以满足特定法规的情况就越容易。这样,您更容易理解模型处理数据,实施自己的加密或日志记录,并向审计师展示信息将永远不会离开受信任的环境。
2。运行隔离和低端硬件
LLM很难在孤立的网络细分市场或智能手机上有效地“部署”。但是,SLM的计算要求相对较低,它们几乎可以在任何地方运行:从私人网络中的本地服务器到医生或检查员。根据IDC的预测,到2028年,超过9亿智能手机将在本地运行本地AI模型。
3。新法规的更新和调整
法规和法律通常会在几个小时内而不是几天内更改 - 稳定模型。这使得在没有大规模升级基础设施的情况下快速响应的新要求,这通常是LLM的常见做法。
4。分布式安全体系结构
与LLM的单个体系结构不同,LLM的所有安全组件都“嵌入”大型模型中,而SLM支持创建分布式安全系统。每个组件:
例如,医疗应用可以在课堂上使用三种模型:
隐私监护人(2b)-HANG隐藏的个人数据。医疗验证(3B) - 型词素以确保医疗的准确性。合规检查(1B)-D监视合规性。
较小的型号更容易验证和更新,从而使整体体系结构更加灵活和可靠。
数据隐私的比较。
提示:如果您在严格的监督区域操作,请考虑使用SLM。密切注意数据传输策略和监管环境的变化频率。如果您的专业领域是医疗,财务或法律,我建议您使用SLM。
人工智能代理:完美用例
还记得古代的Unix哲学:“专注于做一件事”吗?现在,在人工智能的背景下,我们似乎再次回到了这一原则。
伊利亚(Ilya)最近发表了一份声明:“我们是众所周知的培训将结束”。下一个代理模型将“以真实的方式实现代理”,这只是确认了这一趋势。 Y甚至进一步,预测AI代理可以创造出比SaaS大10倍的市场。
例如,当前12%的企业解决方案使用基于代理的体系结构。此外,分析师预测,代理商将成为下一波人工智能转型的浪潮,这不仅会影响4000亿美元的软件市场,而且会影响美国10万亿美元的美国服务业。
SML是该角色的理想候选人。单个模型可能非常有限,但是多个这样的模型可以逐渐解决复杂的任务。快速,更高质量和较低的成本。
让我们给我们一个具体的例子:假设您正在构建一个分析财务文件的系统。您可以将任务分解为几个专业,而不是使用大型模型:
专业之间信息流的示例。
这种方法不仅具有更具成本效益的作用,而且更可靠:每种都专注于他们的最佳领域。更便宜。快速地。更好的。是的,我再说一遍。
为了支持这一点,让我列出几家公司:
H公司筹集了1亿美元的种子轮融资,以开发基于SLM(2-3B参数)的多智能车身系统。其智能H(3B)的任务完成率达到67%,而使用任务完成率仅为52%,并且成本大大降低。 AI最近获得了2.5亿美元的融资,重点是建立高效的企业模式。他们的模型(13亿参数)的性能比所有现有类似模型都要好。同时,其LFM-3B的性能相当于7亿甚至13亿款,但记忆力较少。 R7B启动,这是专门用于抹布应用程序的模型,甚至可以在CPU上运行。该模型支持23种语言并与外部工具集成,并在推理和问答任务中显示第一类效果。您的公司名称也可以添加到此列表中。我们的经验表明,高度专业的SLM可以带来巨大的竞争优势,尤其是在监管领域。
这些例子强调了以下几点:
提示:首先确定项目中的重复任务。这些是开发特殊SLM的最佳候选人。此方法将帮助您避免为LLM的高功能和更好地控制流程的费用过多。
与LLM相比,SLM的潜在局限性
尽管我在整篇文章中赞美小型模型,但可以公平地指出他们的局限性是合理的。
1。任务灵活性有限
SLM的最大限制是其专业素养很狭窄。与可以处理广泛任务的LLM不同,SLM只能在培训的特定任务中成功。例如,在医学领域,-7B在与糖尿病相关的测试中的表现优于LLM,但其他医学学科需要其他细微调整或新的建筑。
LLM和SLM:灵活性和专业精神。
2。上下文窗口限制
与达到1M的大型模型(2.0)不同,SLM的上下文较短。尽管小型3.2模型(3b,1b)的上下文长度达到128K,但上下文的长度通常不声称:该模型通常会失去文本开始和结尾的“连接”。例如,多年来,SLM无法有效处理大量病史或大量的患者法律文件。
不同模型的最大上下文长度。
3。紧急能力差距
仅当模型达到一定量表阈值时,许多“突然能力”才会出现。 SLM通常不会达到高级别逻辑推理或 - 深度上下文所需的参数级别。一项研究通过数学应用问题证明了这一点:尽管小型模型难以执行基本的算术操作,但较大的模型突然显示出复杂的数学推理能力。
但是,最近对面部的研究表明,在测试过程中计算扩展可以部分弥补这一差距。小型模型使用迭代性自我完善或采用奖励模型和其他策略,对于复杂的问题,可以“思考更长的思考”。例如,随着发电时间的延长,小型模型(1B和3B)在数学基准测试基准上执行比大型模型(8B和70B)更好。
提示:如果您的工作环境中的任务每周都会改变,则需要分析大型文档或涉及复杂的逻辑问题,那么较大的LLM通常更可靠且广泛使用。
结论
正如我在上一篇文章中提到的那样,当我在self -host llm之间进行选择,没有一个尺寸 - 尺寸-fit -cut解决方案。如果您的任务涉及不断变化,缺乏精确的专业化或快速原型设计,LLM将提供一个简单的开始。
但是,随着时间的流逝,您的目标变得更加明确,而SLM代理转向紧凑而专业的SLM代理可以大大降低成本,提高准确性并简化监管要求的遵守。
从LLM的快速原型设计到优化的SLM生态系统。
SLM不是遵循趋势的范式变化,而是一种务实的方法。它使您可以在不必为不必要的功能支付太多价格的情况下更准确,经济地解决特定问题。您无需完全放弃LLM - 您可以用SLM甚至经典的NLP方法逐渐替换某些组件。这完全取决于您的指标,预算和任务。
IBM是一个很好的例子。它使用多种模型策略将较小的模型结合在一起以完成不同的任务。正如他们指出的那样:
越大,越好,越好,因为专用模型的性能比具有较低基础架构要求的通用模型更好。
最后,成功的关键是适应。从大型模型开始,评估最佳性能,然后优化您的体系结构,以免为不必要的功能和损害数据隐私支付过多的费用。这种方法使您既具有美的优势:LLM在初始阶段的灵活性和多功能性,以及成熟产品中SLM的准确和经济高效性能。