北京华网天下

聊天机器人发展现状与未来趋势：从图灵测试到情感计算

2024-12-20

来源：网络整理

本文发表于《中国人工智能学会通讯》2016年第6卷第1期。

近年来，聊天机器人受到学术界和工业界的广泛关注。一方面，聊天机器人是实现图灵测试的一种方式，这是人工智能领域皇冠上的明珠；另一方面，微软推出了基于情感计算的聊天机器人小冰，百度也推出了用于交互的聊天机器人。基于搜索的聊天机器人的流行进一步推动了聊天机器人产品化的发展。聊天机器人系统可以看作是机器人产业与“互联网+”的结合，符合国家的科研和产业化发展方向。

聊天机器人的定义及发展现状

聊天机器人是一种通过自然语言模拟人类对话的程序。它通常运行在特定的软件平台上，例如PC平台或移动终端设备平台，类人的硬件机械并不是必要的承载设备。

对聊天机器人的研究起源于1950年艾伦·M·图灵在《Mind》上发表的文章《和》。文章以“机器能思考吗？”这个问题开始。（“可以吗？”），并通过让机器参与模仿游戏（Game）来验证“机器”是否可以“思考”，进而提出了经典的图灵测试（Test）。图灵测试被认为是人工智能的终极目标，图灵本人也被称为“人工智能之父”。

最早的聊天机器人[1]诞生于1966年，由麻省理工学院（MIT）的约瑟夫·魏森鲍姆（）开发，用于模仿心理学家进行临床治疗。值得注意的是，虽然AI的实现技术只是关键词匹配和人工编写回复规则，但魏岑鲍姆本人对AI的表现感到惊讶，并随后写了《和》一书来表达他对人工智能的特殊情感。。

1988 年，加州大学伯克利分校 (UC) 的 ( ) 等人开发了名为 UC (UNIX) 的聊天机器人系统 [2]。顾名思义，UC 是一个帮助用户学习如何使用 UNIX 操作系统的聊天机器人。能够分析用户的语言，确定用户的操作目标，提供解决用户需求的方案，确定需要与用户沟通的内容，生成最终的英文对话内容，并基于模型取决于用户对UNIX系统的熟悉程度。功能。如果说开启了智能聊天机器人时代，那么UC进一步推动了聊天机器人的智能化。

为了将图灵测试付诸实践，美国科学家、慈善家Hugh G.于1990年设立了年度人工智能竞赛——勒布纳奖（）[3]（包括10万美元奖金和印有勒布纳头像的金牌）图灵）。勒布纳奖的设立是为了奖励第一个与人类没有区别的反应的计算机程序，即聊天机器人系统，并促进图灵测试和人工智能的发展。

在勒布纳奖的推动下，聊天机器人研究达到了高潮。比较有代表性的聊天机器人系统是（）[4]。受到聊天机器人的启发，博士于 1995 年开发了该系统，并于 2000 年、2001 年和 2004 年三度获得奖，并于 1998 年开源。目前，全球有 500 多名开发者为该项目贡献代码。值得注意的是，与之一起发布的AIML()目前广泛应用于移动虚拟助手的开发。尽管它采用启发式模板匹配对话策略，但它仍然被认为是同类聊天机器人中性能最好的系统之一。另外还有查询英国电话黄页的YAP[5]、外语学习伴侣的[6]、哈佛大学数学教学的[7]等，这里不再介绍。

近年来，基于聊天机器人系统的应用层出不穷。从应用场景来看，可分为在线客服、娱乐、教育、个人助理和智能问答五类。

在线客服聊天机器人系统的主要功能是与用户进行基本沟通，自动回复用户有关产品或服务的问题，以达到降低企业客服运营成本、提升用户体验的目的。其应用场景通常是网站首页和移动端。具有代表性的商业系统包括小i机器人、京东的智米客服机器人等。用户可以通过与智米聊天来了解产品的具体信息并反馈购物过程中的问题。值得称赞的是，JIMI具有一定的拒绝能力，即它可以知道哪些问题是自己无法回答用户的，什么时候应该求助于人工客服。

聊天机器人系统在娱乐场景中的主要功能是与用户进行开放式对话，从而为用户提供精神陪伴、情感安慰和心理疏导。其应用场景通常是社交媒体、儿童玩具等，代表系统包括微软的“小冰”、微信的“小微”、“小黄鸡”、“爱心娃娃”等。其中，微软的“小冰”和微信的“小微” ”不仅可以与用户聊开放话题，还可以针对特定话题提供服务，比如天气预报、生活常识等。

用于教育场景的聊天机器人系统包括构建交互式语言使用环境，帮助用户根据教育内容学习某种语言；在学习某项专业技能时，引导使用者逐步深入地学习和掌握该技能；用户的特定年龄阶段帮助用户进行某些知识的辅助学习等，其应用场景通常是具有人机交互功能的学习培训软件，以及智能玩具。这里，以科大讯飞的快乐小熊智能玩具（有移动端应用软件和实体玩具两种形式）为例。 “熊熊”可以通过语音对话帮助孩子学习唐诗宋词，回答简单的常识。性问题等

个人助理应用主要通过语音或文字与聊天机器人系统交互，实现个人事务的查询和代理功能，如天气查询、空气质量查询、定位、短信收发、日程提醒、智能搜索等。，从而为用户的日常交易处理提供更便捷的帮助。其应用场景通常是便携式移动终端设备。具有代表性的商业系统有Siri、Now、微软、出门问问等，其中Siri的出现引领了移动终端个人事务助理应用的商业发展趋势。，Siri随iOS 5一起发布，具有聊天和命令执行功能，可以算是移动终端应用的总入口。但受到语音识别能力、系统自身自然语言理解能力以及用户同时使用语音和UI操作的限制。由于人机交互时习惯差异等限制，Siri 一直未能真正承担起个人事务助理的重要角色。

智能问答聊天机器人的主要功能包括以自然语言的形式回答用户提出的基于事实的问题以及需要计算和逻辑推理的问题，从而直接满足用户的信息需求并辅助用户决策。其应用场景通常作为问答服务集成到聊天机器人系统中。典型的智能问答系统有IBM、Magi等。后两者是基于结构化知识库的问答系统，分别只支持英文和中文问答系统。

聊天机器人系统的结构及关键技术

一般来说，聊天机器人的系统框架如下图所示，包含五个主要功能模块。语音识别模块负责接收用户的语音输入并将其转换为文本形式供自然语言理解模块处理。自然语言理解模块在理解用户输入的语义后，将特定的语义表达输入到对话管理模块中。对话管理模块负责协调各模块的调用并维护当前的对话状态，选择具体的回复方式交给自然语言生成模块处理。自然语言生成模块生成回复文本并输入到语音合成模块，语音合成模块将文本转换为语音并输出给用户。这里我们仅以文本输入形式为例介绍聊天机器人系统，语音识别和语音合成的相关技术不再介绍。

聊天机器人系统框架图

自然语言理解

自然语言理解的目的是生成聊天任务的语义表示[8]。一般来说，聊天机器人系统中的自然语言理解功能包括用户意图识别、用户情绪识别、参考解析、遗漏恢复、回复确认和识别拒绝判断等技术。

1）用户意图识别：用户意图包括显性意图和隐性意图。所显示的意图通常对应于明确的需求。例如，用户输入“我要预订标间”，就明确表示了预订房间的意图。隐含的意图更难判断。例如，如果用户输入“我的手机已经三年了”，他可能想更换他的手机或者表明他的手机性能和质量都很好。

2）用户情绪识别：用户情绪又包括显性情绪和隐性情绪。例如，如果用户输入“我今天很高兴”，则清楚地表明了喜悦的情绪，而“我今天刚刚通过考试”则不容易判断用户。情绪。

人机器人_机器人与人_人形机器人概念龙头股

3）指代解析和遗漏恢复：在会话过程中，由于人们有一致的聊天主题和背景的前提，用户通常会使用代词来指代上述文本中的某个实体或事件，或者干脆省略部分句子成分。然而，对于聊天机器人系统来说，只有明确代词所指的成分以及句子中省略的成分，才能正确理解用户的输入，并给出符合上下文语义的回复。因此，需要进行代词解析和遗漏恢复。

4）回复确认：用户意图有时存在一定程度的模糊性。这种情况下，系统需要具备主动询问确认模糊意图的功能，即回复确认。

5）拒绝判断：聊天机器人系统应具有一定的拒绝能力，主动拒绝识别超出自身回复范围或涉及敏感话题的用户输入。

当然，词法分析、句法分析、语义分析等基础自然语言处理技术在聊天机器人系统的自然语言理解功能中也发挥着至关重要的作用。

对话管理

会话管理功能主要协调聊天机器人的各个部分并维护会话的结构和状态[9]。对话管理功能涉及的关键技术主要包括对话行为识别、对话状态识别、对话策略学习、对话奖励等。

1）对话行为识别：对话行为是指预定义或动态生成的对话意图的抽象表示。它分为封闭式和开放式两种。所谓封闭式对话行为将对话意图映射到预定义的对话行为类别体系中。常用于特定领域或特定任务的对话系统，如机票预订、酒店预订等，例如：“我要预订标间”，这句话被识别为()的对话行为。相比之下，开放式对话行为没有预定义的对话行为类别系统，对话行为是动态生成的。常见于开放域对话系统，例如聊天机器人。例如：“我今天心情真的很好”，这句话的对话行为可以通过隐含主题、N元组、相似句子簇、连续向量等来表达。

2）对话状态识别：对话状态与对话的时机和对话行为相关。 t时刻的对话行为序列就是t时刻的对话状态。因此，对话状态的转变是由前一时刻的对话状态和当前时刻的对话行为决定的。

3）对话策略学习：通常以离线的方式，从人与人的对话数据中学习对话的行为、状态、流行度等信息，从而将其作为指导人机对话的策略。这里的流行度通常是指特定模式在语料库中的出现频率。

4）对话奖励：对话奖励是对话系统的一种中间评价机制，但会影响对话系统的整体评价。常见的对话奖励包括槽位填充效率和回复受欢迎程度。

自然语言生成

自然语言生成通常根据对话管理部分生成的非语言信息自动生成面向用户的自然语言反馈[10]。近年来，聊天机器人系统上的对话生成主要涉及检索和生成技术。

1）基于检索的对话生成技术：代表性的基于检索的技术[11]利用排序学习技术和深度匹配技术在现有的人人对话语料中找到适合当前输入的最佳回复。该方法的局限性在于只能以固定的语言模式进行回复，无法实现多样化的单词组合。

2）生成对话生成技术：生成代表技术[12, 13]通过类似于机器翻译中常用的“编码-解码”的方法，从现有的人与人对话中学习语言组合模式。逐字或逐字生成回复的过程。这个回复可能是语料库中从未出现过的句子，是聊天机器人自己“创建”的。

聊天机器人研究的挑战

目前聊天机器人研究面临的挑战包括：对话情境建模、对话过程中的知识表示、对话策略学习以及聊天机器人智能评估等。

1）对话语境建模：聊天是在特定背景下的持续交互过程，其中经常会出现语境遗漏和引用的情况。句子的意思有时只能结合对话上下文或相关背景来确定。然而，现有的自然语言理解主要基于上下文无关的假设，因此对对话上下文进行建模已成为聊天机器人系统的主要挑战之一。

2）对话过程中的知识表示：知识表示一直是人工智能领域的重要课题，也是聊天机器人提供信息服务的基础。聊天机器人相关的领域任务可能具有复杂的组成部分并涉及许多因素。只有了解这些因素之间的关系和相关含义，才能实现与用户的真正沟通。

3）对话策略学习：对话策略涉及很多方面，其中最重要的是对话的主导方式。对话主导的方法可以分为三种类型：用户主导、系统主导和混合主导。在当前的对话管理研究中，系统响应的目标是自然、友好、积极，让用户尽可能自主而不引起问题，实现对话的混合主导。

4）聊天机器人的智能水平评估：目前，聊天机器人的智能水平评估也是一个挑战。虽然可以用一些通用的客观评价标准来评价聊天机器人，如回答正确率、任务完成率、对话轮数、对话时间、系统平均响应时间、错误信息率等，但评价的基本单位是单轮对话。。然而，由于人机对话过程是一个连续的过程，而对不同聊天机器人系统的连续对话的评估只能保证第一句输入的一致性，当对话展开时，不同系统的反应是不同的，因此不能简单地将连续对话分成单轮对话进行评估，精心设计的人工主观评估可能会成为除了客观评估标准之外评估聊天机器人系统智能程度的重要指标。

聊天机器人的研究前景

随着聊天机器人研究的广泛发展，未来的研究将集中在以下三个方面：

1）端到端：得益于深度学习技术的发展，一些学者开始研究端到端对话系统[14]，即使用统一的模型来进行自然语言理解、对话管理和自然语言生成而不是序列化步骤，直接从用户的原始输入生成系统响应。

机器人与人_人形机器人概念龙头股_人机器人