探索 AI bot 制作工具:两个月的实践与思考

2024-07-31
来源:网络整理

制作人工智能机器人很有趣。它让我感觉自己就像一个数字工匠。

这不是一个确定的制作过程。你会感觉到你的逻辑清晰,但也有局部模糊之处。AI 填补了空白,并且大多数时候会带来惊喜(或无法控制的叹息)。

在过去的两个月里,我使用不同的平台创建了各种机器人,或依靠+插件,或挂载知识库,或调用复杂的工作流,其中很多已经成为我日常生活中使用的工具。

▲滑动浏览

同时我也在思考和实践如何帮助身边那些不熟悉AI的朋友使用AI。

在这篇文章中,我将分享我在过去两个月里使用过的机器人创建工具。我根据机器人创建过程的核心元素对这些工具进行了简单的主观分类,但我认为在未来,这些元素都会被归为一类。

提及的内容包括:

(1)AI+插件:字节跳动的coze/、Dify,百度的千帆,昆仑万维的天工,钉钉的AI助手;

(2)关注工作流程:,,;

(3)关注任务分解:Ai、AI。

其中我用的是coze,Dify等等。

使用制作的小游戏演示

▉AI+插件式机器人生产平台

Coze/、Dify、千帆、天工、钉钉AI助手本质上都是AI工具,都采用了通过插件的方式为大型语言模型添加额外功能的逻辑。

其实产品是有区别的,但是使用门槛并不高,相互之间的差异也没有上面提到的其他产品那么大。

抛开所用大模型的不同不谈,我们简单说一下:

插件:coze/提供最丰富的插件,千帆提供最丰富的图像识别插件;

工作流:Dify(听说在筹备中)和千帆暂时无法创建工作流,天工工作流提供了一些预置的大模型功能,钉钉AI助手工作流嵌入了一些钉钉内部功能。

多模式:目前仅有coze/可用;

发布渠道:钉钉、千帆、天工都可以生成网页,非常方便。钉钉AI助手必须在钉钉内部使用;

教程:钉钉AI助手的教程是最贴心的。

我按照我使用的顺序来讲一下。

▍1.coze/按钮

从综合能力以及易用性上来说,Coze可以排在前列。

例如:战争诗人戈尔尼

左边写大模型的角色设定和功能,中间添加其他配置,右边测试,几乎所有功能都可以在当前页面完成,之前写过好几篇。

当然很多平台都是这样的,操作也不难,但是我觉得Coze有两个好处:1、创建bot之前不需要用户选择;2、即使页面是空的也可以进行对话。

我不太明白为什么要求用户在助手和文本生成器之间做出选择,在知识问答类应用和文案生成之间做出选择等等。难道应用之间的生产框架差别真的这么大吗?还是说用户需要知道它们之间的区别?

当然,在多次使用coze之后,我也发现了一些问题:比如工作流没有按照指令调用、工作流超时、工作流中的大语言模型没有返回结果、多模态跳转意图识别存在问题等,我不确定是coze系统的问题还是GPT4的问题。

多模式,不稳定跳跃

现在我们主要期待它能提高上限。

我最希望实现的是单模式下工作流中的LLM节点可以直接加载知识库,现在知识库作为单节点输入输出太有限;多模式下可以有更多不同类型的跳转,可以循环。

2. Dify

里面提到了Dify的几个详细的优缺点,其中多模型输出结果的对比,我觉得是比较好的。

但多模型比较会使预览框变小

然后刚才吐槽发现自动排列比以前好多了,还可以帮你生成变量。

虽然上面例子中的变量是无用的

再提一下带注释的回复功能,开启后可以更快响应用户的重复输入,如果对AI的输出不满意,可以手动编辑,让AI记住标准回复,这个功能在某些情况下还是很有用的。

可以发布网页和API

另外Bob在群里发了一张图,Dify可能在准备一个功能,看截图是一个根据输入和跳转识别用户意图的工作流,大家可以期待一下~

这里我可以说一下,coze 的工作流很容易搭建,但是支持的功能比较有限,像上图这种识别用户意图的功能理论上可以使用 LLM 节点来实现,但是我测试过很多次,实际使用起来不是很稳定。

如果有更可移植、更稳定的实现方法,就没必要用LLM了,用了也浪费。或者可以预置一些常用的可以用LLM实现的功能,节省一些调试时间。

▍3.千帆

当我第一次使用它的时候,我感到很舒服,因为预览框占据了屏幕的很大一部分——尽管这对我来说还是不够。

希望以后本文所有的产品都能让用户自动调整版块大小,真的很有必要!输出的回复经常一屏显示不完,真的有点不爽。

创建过程和上面的产品类似,只能选择家庭模型,每次创建前都要选择一种类型。

但它提供了多种图像识别插件。

发布渠道友好,个人认证的微信公众号也可以。

我的另一个感受是百度创造了很多工具和活动。

▍4.天工之作

的基本配置我就不说了,它的规划部分也就是工作流有点不一样,提供了一些额外的信息处理节点,比如信息分类、字段提取等。

本质上这些功能也是由大语言模型实现的,只不过是预先设置好的,卡片配置操作起来更加方便。

我觉得将大模型的()设置直接解释为严谨/有创意是一个更加用户友好的细节。

我测试了一下,可以区分语言是否为中文,是否包含两种语言,是否是单词,并根据用户输入进行相关跳转。结果比我用coze中的LLM节点测试的结果更稳定。

但有一个问题就是创建好的计划无法在当前页面进行测试,会跳转回主页面,也就是只能根据输入输出来判断计划是否成功,不太合理。

▍5.钉钉AI助手

钉钉AI助手“骑在AI的背上”,乍一看,我觉得无所谓好坏,但足够奇葩,让人印象深刻……

另外,有哪个平台提供的教程比这个更详细呢?不仅有讲解,还有很多可以直接复制的例子。当然这些东西网上也可以找到,不过我很欣赏为用户写这种文档的产品运营。

作为一款和钉钉深度融合的工具,如果你是一名资深工作者,这可能是最适合你的工具。

其他产品提供的是搜索、画图等能力,而其能力部分则提供了请假助手、智能代理、预约排程等功能,当然开发者可以设计出更复杂的功能。

所展示的模板与其他平台的风格不一样。

工作流中可以设置一些变量,比如流程执行器,理论上钉钉里的所有结构化数据都可以在这个工作流中定义成变量,一些非常繁琐的日常手工操作可以实现自动化。

我过去的经验告诉我,对于小型创业团队来说,这将是一个更好的工具。小型团队实际上需要标准化一些业务流程,但没有必要花费那么多精力使用复杂的系统。

目前该工作流只能接收一次用户输入,响应一次;不支持if-else类型的条件跳转,只有满足条件时才向下执行;没有测试阶段。

这种工具在其自身的生态系统中具有明显的优势和劣势。

作为一个不使用钉钉的人,如果我想创建一个工作需要的机器人,钉钉人工智能助手完全没用,因为我这里没有文档或数据;如果我创建其他类型,我觉得它提供的便利功能对我来说是一种浪费。这是我唯一没有实际测试过的工具。

希望这个工具以后能有独立于钉钉的网页版,毕竟不是每个上班族下班后都想打开钉钉的。(泪)

▉以工作流为中心的机器人生产平台

,,,这三个平台与其说是可以做AI的工具,不如说是实现流程自动化的工具,但它们也可以将AI作为工作流程的一部分来提供。

点进去之后会看到一个画布,直观感觉这些工具在GPT之前就已经存在了,主要针对需要提供客服的中小型公司。

▍1.

文章开头视频演示中的机器人是我在2天内使用比较大的工作流实现的,其中一半是使用GPT4生成的。

节点太多,无法在一个屏幕截图中显示

它们能实现什么功能呢?也就是上面提到的产品目前还无法实现的复杂工作流程。

以coze为例,单模式的工作流执行一次,对用户输入响应一次,如果想在这个工作流中继续和用户沟通,甚至根据多次输入再执行下一步,设计就会非常复杂。

在多模式下,目前只能通过简单的输入意图识别来跳转不同的协同,局限性较大,且准确性不够。

类似产品太容易出现跳转和循环的情况了。所以整个机器人可以持续接收用户输入,并为用户提供各种功能。

根据条件跳转或循环

你可以使用它来识别用户输入并收集一些关键信息。同样,上述产品的LLM节点也可以实现,但这样更直观(也可能更稳定)。

还可以添加多种自然语言表达,让意图识别更加灵活

简单来说,这实际上是编写一个可视化程序,提供一些预设的功能,并且可以包含AI功能。

门槛和问题

不过最大的问题就是学习门槛有点高,并不是因为可供配置的节点太多,而是它的产品设计有点混乱。

比如告诉用户在哪些节点可以进行逻辑跳转,并且这些跳转可以像AI一样进行。

它看上去像是一个处理、提取数据的节点,但其实它还能输出信息;它提供了二十多种不同类型的数据信息,但每种信息的配置逻辑都是相同的。

我花了很长时间才习惯这种思维方式。如果是我,我会倾向于把实际包含多个执行步骤的节点拆开,将所有节点分为四个部分:输入、输出、功能(AI、代码或预设的自然语言处理实现)、流程跳转(AI、判断或预设的自然语言处理实现)。

此外,不同的参数配置分散在页面的各个地方。

机器人符号可以用来设置全局工作流的语言,或者全局个性等等,中间的齿轮符号可以用来设置全局变量,左下方的问号提供了一些预设的变量,比如{{.}},里面存储了用户上次的输入。

我为用户想了很多,但是太混乱了。

▍ 和

下面这个是主界面,大家可以看到逻辑都是一样的,就不多说了。

详细的就不想说了,和第一部分的产品没太大区别,格式很全面,章节进入工作流程设置。

它的工作流程和连接的应用程序非常丰富,应该是最强大的工具。但是在我的实际测试过程中,如果不需要构建非常复杂的工作流程,上述三个工具是完全没有必要的。

分享