魔法哥新书分享:如何选择适合的大模型 API 作为 AI 引擎

2024-11-10
来源:网络整理

魔哥新书《AI辅助编程入门》现已上架!从本期开始,公众号将摘录书中的部分章节,分享更多关于“AI辅助编程”和“LLM应用开发”的经验和技巧。

抛出一个问题

对于2024年及以后的LLM申请开发者来说,可供选择的大模型API已经相当丰富了。

然而,当我们开始实际项目时,我们应该选择哪个大模型作为AI引擎呢?

魔哥在这里分享一年多来搭建多个AI应用所积累的实践经验。适合编程初学者、个人开发者和小型团队参考。立项阶段,采用顶尖模型进行论证;实施阶段,适当降级,优先考虑国产大型车型,同时考虑其他因素。

接下来我们就一一讲解。

1、立项阶段

在项目立项阶段选择顶层模型,可以准确了解当前LLM能力的上限,快速判断将LLM引入当前场景的可行性。获得这种理解可以让我们更好地规划技术方案和产品路线,进而更好地评估项目的风险和收益。

哪些车型被视为顶级车型?我们可以参考著名的LLM基准排名,如MMLU、MATH、BBH等,读者可以根据自己的业务场景选择更相关的排名进行参考。

在大多数场景下,GPT-4o模型(在撰写本文时)是项目建立阶段的首选。 GPT-4o于2024年5月发布,在多项基准测试中表现良好,是目前顶级的大型模型之一。 GPT-4o基于上一代旗舰型号GPT-4,提供双倍的推理速度和一半的价格,成为事实上的行业标杆。

对于个人开发者来说,通过官网或者微软云服务访问GPT-4o的API服务会遇到很多障碍。这时候就可以考虑这样的大模型API聚合平台,或者参考之前文章介绍的。

2、实施阶段

在实施阶段,我们需要考虑项目的长期可持续性。顶配车型通常售价较高,“性价比”并不理想。从实际的角度来看,我们只是选择可以在给定场景中使用的模型。

因此,我们的项目基于GPT-4o等顶级模型后,可以尝试切换到性价比更高的二线模型,通过打磨系统提示词来获得接近顶级模型的效果。 (系统提示词的具体打磨方法可以参见本系列后续文章。)

3、国产大车型

优秀的国产大车型不断涌现,性能逐渐逼近海外顶级车型;在某些特定场景下,国产大型车型的表现甚至超过了它。

在此背景下,当您的产品需要在国内正式上市时,国产大型车型无疑将是您的首选。

4.考虑其他价格因素

大型模型API通常使用“数”作为计量单位。有些模型厂家对投入和产出采用统一的定价标准,而另一些模型制造商则分别定价(通常产出价格高于投入价格)——这种情况下,您需要根据您的实际调用情况进行价格转换。以便相互比较。型号的价格并不是越低越好。如果一个性能不够的机型免费赠送,我们就不敢用了。我们需要综合考虑性能因素。

推理速度

这是一个非常重要的指标,尤其是在对话场景中。推理速度太慢会影响用户体验。此外,推理速度也在一定程度上反映了模型厂商的硬件负载能力和运算实力。

上下文窗口

模型可以处理的输入+输出的总数称为“上下文窗口”。 (更详细的解释请参考本系列后续文章。)

API协议

作为全球LLM潮流的引领者,它已成为事实上的行业标准。开源社区中海量的LLM开发资源几乎都是基于API协议构建的。因此,我们通常会优先考虑那些API兼容的大型模型,比如国内的大型模型Kimi()、零一物等。

呼叫频率限制

这个指标在开发阶段很容易被忽视,但在生产环境中却非常重要。在正式上线之前,我们需要根据业务场景和用户规模进行评估和测试,避免由于API频率限制导致服务瘫痪。

概括

读完本文,相信大家对于如何选择LLM模式有了更加清晰的认识。在本系列后续文章中,我们将继续探讨LLM应用开发的其他细节,例如如何打磨系统提示文字、配置LLM API参数、探索API返回数据等。亲爱的新朋友,请关注公众号避免在下次更新中迷失:

更多精彩内容请关注魔哥新书《AI辅助编程入门》。本书面向编程初学者,力求让没有编程经验的读者能够轻松点亮编程技能树,借助AI编程工具将想法变成现实!

目前正值双十一,京东自营商品定价为全网最低价,正是购买的好时机。

如果您想收藏魔哥亲笔签名的纸质书,长按识别下图中的小程序码即可下单。选择“豪华版”还可以自定义留言!

感谢您的支持,祝您阅读愉快!

AI魔法群开啦!

扫描二维码进群,领取魔哥整理的常用AI工具包:

往期推荐的AI应用开发指南: 进阶技能:AI资讯与评论:

分享