中国开源推理模型DeepSeek R1挑战OpenAI O1:性能更优、成本低50倍

2025-02-14
来源:网络整理

中国人已经消灭了

关键点

R1是中国推出的开源推理模型。与O1模型相比,性能是可比甚至更好的,成本降低了50倍。

R1在财务分析和算法交易任务方面表现良好,并且能够生成准确的SQL查询和交易策略配置。

与O1相比,R1的响应速度更快,价格较低,开源功能使开发人员可以自由修改和改进模型。

R1的缺点包括偶尔会产生无效的SQL查询和超时问题,但是由于其低成本,这些问题被认为可以接受。

该文章的作者认为,R1的出现对诸如巨头构成了巨大威胁,同时使AI技术更具包容性。

此内容由AI摘要生成

直到今天,我认为O1模型是从那以后在人工智能领域发生的最好的事情。

O1系列模型是“推理模型”,而不是立即响应的传统模型,这些模型需要时间“思考”以产生更好的结果。

而且价格要高得多。

全天使用最强大的模型

实际上,这些模型非常昂贵,只能由我的AI应用程序的高级用户访问。不是因为我不想压制我的用户,而是因为我真的买不起这个昂贵的型号。

相对成本

但是,由于中文,我的用户现在可以体验下一代语言模型的全部功能。

他们可以以2%的速度这样做。这不是开玩笑。

中国人 - 就像生元的孩子

它来自中国,但有一些重要的事情要注意。与将所有模型发布给开源社区不同。这包括他们的代码,体系结构,甚至模型权重 - 任何人都可以下载。

具有讽刺意味的是,这使它们比开放更开放。

R1是他们的最新模型。就像O1一样,R1是一个推理模型,在给出答案之前可以考虑问题。

就像这个“思考过程”令人兴奋。

R1,O1和原始V3的并排比较

R1在各种不同的基准测试中匹配或超过O1。要查看这些基准测试,请查看其页面。另外,以我的经验,它更快,更便宜并且具有相当大的精度。

实际上,如果您一一将其比较,R1不仅仅是便宜一点。便宜得多。

R1和O1的成本

具有相同的基准性能,该模型比O1模型便宜50倍。这太疯狂了。

但这只是基准。 R1模型实际上在复杂的实际任务中表现良好吗?

剧透警告:是的,确实如此。

R1和O1的并排比较

在以前的文章中,我将O1模型与3.5十四行诗进行了比较。在那篇文章中,我表明O1是主导的,并且能够执行复杂的实用任务,例如生成SQL查询。相比之下,这是非常挣扎的。

然后执行由模型生成的SQL,并将结果发送回模型以进行进一步处理和摘要。

图表显示了使用LLM进行财务研究的过程

我决定用O1复制相同的测试。具体来说,我问了以下问题:

工资条自动生成软件_小程序如何开发工资条_工资条发放软件

使用R1和O1的复杂财务分析 - 比较

让我们从第一个问题开始,基本上询问模型间谍经历一次暴力跌倒的频率。

确切的问题是:

自2000年1月1日以来,间谍在7天内下降了5%?换句话说,在时间t时,时间率的百分比回报率(t + 7天)为-5%或更高。

请注意,我要求7个日历日,而不是7个交易天。

在结果中,包括这些丢弃的数据范围,并显示了百分比回报。此外,将这些结果格式化在表中。

这是它的回应。

对跌倒问题的回答

让我们将其与O1的响应进行比较。

对问题的回答

两种响应都包含我们可以检查的SQL查询。

R1生成的SQL查询

我们可以通过查看完整的对话并单击消息底部的信息图标来检查确切的查询。

如果仔细观察,我们会注意到这两种模型的响应都是100%正确的。

它们之间的区别是:

反应更好,但不多。这两个模型都有准确的答案,R1的答案在提取现实世界的见解时都没有问题。

让我们继续下一个问题。

因此,180天的平均最大回试是什么,365天的平均最大回试是什么?与7天下降相比如何?

R1模型的响应如下:

R1对180天平均最高回试的反应,365天的最大回试以及与7天下降的比较

相比之下,这是O1的回应。

O1对平均180天最高回试的反应,365天的最高回试以及与7天下降的比较

在此示例中,R1的答案实际上更好!它通过在答复中包括一个比率来回答“与7天下降相比的比较”问题。

除此之外,答案几乎完全相同。

对于下一个问题,我们询问以下内容:

平均180天的回报和平均365天的回报率是多少?7天的下降是多少?

急剧下降后的平均回报 - R1对左侧的响应,O1对右响应

在这种情况下,结果几乎完全相同。 R1的格式稍好一些,但这完全是主观的。

真正的测试是查看R1是否可以在完全不同的任务中做得很好 - 创建自动交易策略。

使用R1和O1创建算法交易策略

为了创建交易策略,我们基本上要求该模型生成“”配置。

创建此配置涉及许多步骤。

我们创建“”,其中包括名称,初始价值和交易策略的描述。

基于此描述,我们创建“”配置。此配置包括一个动作和何时应执行操作的描述(称为“条件”。

工资条发放软件_工资条自动生成软件_小程序如何开发工资条

从此描述,我们创建了一个“”配置,可以解释为算法交易

使用一个提示的输出作为另一个提示的输入的过程称为“”。

“”及时的链

看起来像这样...我们只需要向模型询问以下问题:

使用以下策略创建美元投资组合

- 如果我们的SPXL职位不到500美元,请购买我们的50%SPXL购买力

- 如果我们在一天内不出售SPXL,而我们的SPXL位置上升了10%或更多,请出售投资组合价值的20%

- 如果SPXL股份比上次出售的股票增长了10%,则将以SPXL出售我们的投资组合价值的20%

- 如果我们的SPXL位置下降了12%或更多,请购买我们的40%SPXL购买力

就像O1一样,该模型做出了正确的响应,在首次尝试中生成了高利润算法交易策略。

与标准普尔500指数相比,该策略非常出色。它的性能比市场高2倍,较高的颗粒比和相似的最大跌幅。

此策略的性能指标

绝对不可思议。

该分析的注释:此模型并不完美

尽管能够完美地生成准确的查询和JSON配置,但该模型确实有一些缺点。

首先,在查看此模型的日志时,我注意到它有时会生成无效的SQL查询。

日志中错误消息的示例

但是,由于我的平台具有自校正逻辑,因此它会自动重试毫无意义或无效的查询,因此这不是一个大问题,因为它倾向于纠正自身。

除此之外,该模型一次了,但对我提出的问题没有有效的答案。

该模型没有响应

我不得不再次问这个问题,第二次正确回答。

我并不是说其他​​模型(例如O1)没有这些问题。我只是没有注意到他们。但是,对于2%的人,您可以发送1倍带R50的消息以获取可比答案。

因此,这些小错误根本没有打扰我。该模型发布的值令人兴奋,它使每个人都更容易使用强大的AI。有了这种模式,我的专业订阅费用高达每月200美元,几乎看起来像是浪费金钱。这显示了一些东西。

结论

所使用的推理模型不是一见钟情。我发现它慢慢且非常昂贵。当我开始使用它时,我爱上了它,看到它在财务分析和算法交易中有多惊人。

有了R1,我真的立即爱上了它。该句子被过度使用,但在这种情况下确实是革命性的。

由于它们是开源的,因此他们现在使数百万开发人员能够在模型之外建立,修改和改进其模型,这将进一步降低成本并迫使大量物品带来。

而且由于它们非常便宜,所以我可以为我的算法交易平台的所有用户(无论您是付费用户)启用该模型。

实际上,该模型是如此便宜和强大,以至于我将所有用户的默认模型切换到了它。由于它的价格仅是4o-mini(他们最便宜的型号和我以前的默认模型)的贵4倍,因此我真的认为没有任何理由不这样做。

使用此模型,每个人都可以使用AI。并遇到了很多麻烦。如果在较便宜的GPU上训练的较小的开源型号可以胜过这些数十亿美元(或万亿美元)的技术巨头,那么如果没有陷阱卡(镜像),它们将永远无法生存。

全世界将从他们的灭亡中受益。

免费的AI摄影,工作和办公视频教程

37G+ AI摄影和办公室的视频教程教授如何提高工作效率,涵盖:

教课程准备;科学研究;产品经理;报告分析;数据分析;海报设计;提高工作效率;办公室智能建筑;工资单;形式;开会时间;行业分析; PPT生产等,其中许多是新手的入门教程,一些高级课程。

分享