对话三角兽 CEO 王卓然:离开百度微软的技术老兵,如何用 AI 入侵手机?

2024-11-04
来源:网络整理

对话三角兽CEO王卓然,这群离开百度、微软的技术老兵正在用AI入侵手机。

#公告栏# 10月26日20:00,智西西主办的自动驾驶系列第八课即将开始,导师为图森未来CEO兼联合创始人陈默。图森未来8月获得投资,这是其第一笔投资其在中国的项目,也是其在自动驾驶领域的首次尝试。添加小卡(微信ID:)即可免费注册,听陈沫讲解如何快速落地低成本商用车自动驾驶解决方案。

智慧西方文学|渔阳

还记得2016年锤子大会上老罗(罗永浩)特别感谢却误会为“独角兽”的公司吗?是的,这家公司就是三角龙。或许应了老罗的话,随着语音交互的爆发,这家专注于语义理解的人工智能创业公司也顺势而为,迅速发展。

这家公司还拥有极其豪华的团队阵容。其CEO和CTO都是技术大师。他们在行业浸淫多年,在微软小冰和百度度米这两个最著名的语音助手中发挥着重要作用。他们还将NLP(自然语言处理)应用到手机上,让手机更加智能;他们还可以创建具有个性和风格的虚拟助手。试想一下,未来为你定制一个虚拟女友不再是问题!

近日,智喜喜与三角兽创始人兼CEO王卓然展开对话,看看这位涉足机器学习领域十几年的技术老将有着怎样的创业故事?他对语音交互行业有何看法?

1. 两位技术老手的邂逅

初到三角兽的会议室,映入眼帘的是几张慵懒的沙发,色彩鲜艳、造型各异的桌椅,给人一种清新、活泼、自由、随意的感觉。通过与王卓然的交流,我们可以明显感受到他思路清晰,谈吐流畅,说话时充满享受,再加上一句带有东北风味的“哈哈哈”,非常有趣。

(三角兽创始人兼CEO 王卓然)

他推了推眼镜,回忆起自己本科在哈尔滨工业大学通信工程专业时,一次偶然的机会涉足了计算机圈子。大二时,他跟随计算机学院的教授进行自然语言处理相关的研究。

毕业后,我于2005年前往英国UCL(伦敦大学学院)攻读博士学位。我的主要研究方向是机器学习。读博士期间,他兼职做人机对话方面的工作,并对这个方向产生了浓厚的兴趣。 2009年毕业后,他加入了世界上为数不多的人机对话研究团队之一。

当时,国际上研究人机对话领域的学者并不多。当时国内不仅一片空白,国外的研究团队也寥寥无几。大约有一些在英国,一些在美国,还有一些分散在欧洲。几个机构。王卓然笑着说:“当时全世界每年举办人机对话会议的只有一两百人。”

之后,他前往人机对话研究历史悠久的爱丁堡赫瑞瓦特大学,在那里进行了三年多的人机对话研究。之后,他前往英国剑桥东芝欧洲研究所,担任人机对话组技术总监,带领团队开展人机对话研究。

从赫瑞瓦特大学到东芝研究所,研究人机对话中的跨域迁移和泛化。具体来说,如何将找餐馆的对话系统迁移到找电影、购物等相关交互场景。

2015年初,百度启动杜米项目,并邀请王卓然加入,担任杜米中控技术负责人。所谓中控,就是说Dumi下面有很多服务,比如找餐厅、找电影、聊天、问答等,一个指令来了之后,系统要决定下面哪个服务能满足它,然后把信息呈现出来给用户。这种中控决策有点像搜索引擎的排名,但需要考虑更多上下文信息、服务相关性等因素,对整体服务进行排名和决策。

在度米项目期间,他遇到了人生中的一个重要人物,齐超,现任三角兽CTO,也是另一位技术元老。齐超参与创建第一代微软小冰,后被百度聘用。他还参与了度米的研发,当时还叫小度机器人,主要以聊天为主。

然而,杜米项目工作不到一年,由于一些内部原因,杜米中途多次更换角色,这与他和齐超的想法并不相符。加之他们在自然语言处理领域有着长期的理解和积累,并相信这将是下一代技术方向,因此他们在2016年初选择离开百度创业。

2. 这家初创公司与“三”相关

为什么会选择在2016年初的这个时候创业呢?深耕这个行业的王卓然敏感地意识到自然语言处理技术的成熟开始商业化,而且行业有非常大的需求,所以他选择了创业。于是,没过多久,谷歌、微软、亚马逊等公司开始陆续发布语音交互平台和产品,语音交互行业开始火爆。

(左起:创始人CTO齐超、创始人董事长COO马宇驰、创始人CEO王卓然)

由于王卓然和齐超都是技术出身,所以他们请来了业务经验丰富的马宇驰来负责业务和营销。 “创始人是三个,所以叫三角兽。”王卓然开玩笑说。而这家公司与“三”的缘分还不止于此。它还筹集了三轮融资,拥有三项核心技术和三项核心业务。真是巧合啊。

齐超从硕士毕业后就一直从事自然语言处理研究,已经在这个行业工作了十多年。曾就职于佳能、腾讯、阿里巴巴、微软、百度等,其中最著名的是参与创建微软小冰、度米聊天机器人。使用的技术是开放域聊天。

马宇驰是王卓然的高中同学。传媒大学毕业后,他在商业、营销、公关行业工作多年。曾担任奥美、安利中国等公关总监、营销总监。他也是连续创业者,后来加入三角负责业务运营。

在王卓然看来,这是一个互补性很强的创始人团队。 “他和齐超虽然都是技术出身,但技术上也是互补的。齐超做开放域聊天,他做垂直域对话,而马宇驰的业务能力无论技术还是业务能力都是完美的。”他说道。微笑。

这三个人就构成了三角兽的三个“角”。创业一年内(截至今年1月),他们已获得三轮融资,分别是天使轮1000万元、Pre-A轮2000万元、A轮。一轮5000万元。

三角兽的下一轮融资也正在进行中。下一轮融资的主要目的,一方面是布局市场和渠道,另一方面是储备更多的现金流。 “现在AI行业很火,我们趁势赚更多的钱,为过冬做准备。”王卓然呵呵一笑。虽然目前语音交互很热,AI公司也受到追捧,但潮流总有停止的时候。没有人能说下一阶段AI行业是否会遇冷。拥有足够的冗余仍然很重要。

目前三角兽团队已经发展到90多人,但今年1月份还只有20、30人,其中北京有70多人,沉阳有10多人的现场开发团队。北京团队中算法工程师占绝大多数,达到50多人。大部分技术人员来自微软,几乎占了一半。其他员工来自百度、IBM、腾讯、乐视等公司。可谓是豪华科技。团队。

小冰虚拟女友微信_虚拟女友app小冰_虚拟女友模板

三角兽目前签约客户已超过20家,主要是上市公司、行业巨头、品牌代表,如百度、阿里巴巴、腾讯、小米、中国移动、锤子、华为等,这也从侧面反映出来。展示了在人机对话和语义理解领域的实力。

3、建设三大核心技术壁垒

关于人机对话这个广泛的话题,涉及到问答、推荐、开放域聊天、垂直领域多轮对话、多领域对话等五个主要技术方面。相对而言,问答和推荐是比较传统的技术,也比较成熟。行业在这方面做得不错,技术壁垒也不高。开放域聊天、垂直域多轮对话、多域对话是人机对话研究的前沿领域,技术门槛较高,构成了三角兽的“壁垒技术”。

一是开放域聊天。所谓开域聊天就是聊天,没有目的的聊天。我们经常看到的产品有微软小冰和百度度米。作为一种情感陪伴或者是对话中的一种润滑,它可以让系统显得更加智能。这也是CTO齐超的核心研究领域。 “之前的微软小冰和毒米都是齐超做的,而三角兽是齐超第三次做的。与前两款产品相比,三角兽的系统有更好的上下文覆盖能力,还具有情感识别能力,并且准确率达到了99%,目前是行业内最高的。”王卓然说。

专注于开放域聊天,做了两个版本(聊天机器人),一个是标准版,适合成人;另一个是标准版,适合成人。另一个是儿童版,专门为儿童打造,目前已经在相关平台上以付费(技能)的形式推出。

和孩子聊天还是很有挑战性的,因为这方面的语料库很难获取,而且使用网络上的语料库(成人语料库)非常“不安全”,难免会出现一些不好的信息。 使用独特的方法从儿童故事书和儿童字幕中捕获数据。然而,如果不是对话数据,这个数据仍然无法使用。 使用这些数据来训练模型,用它来过滤成人语料库,并使用基于 RNN(循环神经网络)(而不是搜索词)的生成模型来确保对话内容是“绿色健康”的孩子们。 “这个产品去年就推出了,在业内还是首家。”王卓然说。

另外,在开放域聊天的应用中,三角兽凯可以自定义风格和个性。这是的独家技术,可以让虚拟角色在聊天时体现出自己的个性。

第二个技术是垂直领域的多轮对话。它是任务驱动的,比如找餐馆、找电影等,代表的是智能音箱等产品。三角兽在该领域具体有三项核心技术:一是垂直领域对话的泛化和迁移,即将一个领域训练好的模型迁移到另一个领域。这也是王卓然擅长的技术。另一个是模糊语义理解。用户提供的信息可能包含漏词甚至拼写错误,但机器也能识别。例如,《芈月传》流行时,即使用户说“半月传”,机器也能准确理解,找到电视剧。

另一种技术是解构和轻结构化表示。事实证明,垂直领域的对话依赖于结构化的知识表示。例如,电影有导演、演员、年份等结构化信息,可以用来查找电影。但如果你要找一部“男主角很帅的电影”,这个信息就无法以结构化的方式表达。 “针对这种情况,我们利用深度学习对电影的描述和评论进行向量化,以匹配用户指令的语义相似度,从而更好地满足用户返回内容的需求。”他指出。

第三项技术是多领域对话技术。例如,当我预订一家餐厅时,我可能需要导航到那里,并且可能会询问沿途的交通状况和周边信息。这时候就是一个融合多个领域的对话,这就涉及到中控的工作。王卓然曾以访问学者身份参与百度语音助手时代中控,后担任度米中控。拥有丰富的多领域对话管理经验。

综上所述,开放域聊天、垂直域多轮对话、多域对话管理是三角兽的三大核心技术,王卓然称之为“三关技术”。

4、服务三大核心业务

技术固然重要,但对企业来说更重要的是把技术落地,服务行业。三角兽也积极应用其技术。目前,其三大主营业务为:企业服务、IoT(智能家居)和泛娱乐业务。

其中,企业服务是三角市场收入最大的细分领域,目前已准备了两套标准解决方案。一是智能客服,是多伦对话技术在问答和垂直领域的落地。主要服务于电信行业、金融行业等大行业大客户,为其定制专门的业务流程系统,如中国移动、广发证券等。多个基金项目。

另一套解决方案是针对媒体的。可以在媒体的官方账号和APP上发布。用户可以通过聊天获取新闻。可以帮助媒体向用户推送相关历史新闻,从而增加文章的阅读量和用户粘性。就像一个新世界。

虽然物联网现在很流行,但总体规模还不够大。目前还不是三角兽的主要收入来源。不过三角兽对于这个行业的前景还是非常看好的,因此也做了很多的产品储备。目前主要为物联网中的不同硬件提供(技能)输出,如聊天、新闻笑话等。最流行的版本是聊天,包括标准版聊天和儿童版聊天,可以在手机、小米音箱、百度。

你还记得富士康扬言要为物联网设备打造语音交互平台的前一段话吗? 也是其合作伙伴之一,而且是深度合作。富士康将整个后端交互交给,相当于构建了一个类似于亚马逊的完整语义系统。而王卓然透露,第一代产品将在今年年底或明年初推出。

第三个业务是泛娱乐。科技公司想做泛娱乐?是的,你没有看错,这就是角色个性和风格定制技术在三角兽开域聊天中的实现。主要针对动漫、二次元、游戏、AR/VR等,围绕IP打造更加多元化的产品。例如,可以创建一个虚拟角色与粉丝24/7互动,角色的预设风格可以反映在聊天中。比如二次元萌妹子说话就应该像萌妹子,而不是大叔。说话的方式。

聊天这方面还是很困难的,目前市场上很少有产品赋予它风格和个性。王卓然表示,这项技术最早实现的并不是二次元IP,而是机器人IP。 Jibo是一支美国机器人团队。当他们在中国进行本地化时,他们希望将他们的机器人定制成类似于美国男孩的机器人。性格特征。 “目前也在和一些二次元IP洽谈合作,未来我们也会看到一些二次元角色的落地。”他透露。

对于这三项业务,他还表示,企业服务是最大的收入来源,仅智能客服业务就占到了公司收入的80%左右。由于缺乏市场体量,物联网业务收入较少。合作产业主要以标准服务输出为主,包括年费、流量分成、按单位收费(量大的情况下)三种盈利模式。比如小米电视,流量比较大,所以采用了按流量分享的方式。泛娱乐尚未盈利,但前景十分可观,三角兽也将继续跟进。

5. 为手机提供自然语言处理能力

近期,随着苹果、华为的推动,AI芯片成为热门话题。手机的竞争正在从以前的网络营销、网络销售转向更加技术性的竞争。后互联网手机时代,人工智能正在成为核心竞争点之一。

9月初,华为率先发布了全球首款AI芯片麒麟970。在随后的苹果发布会上,苹果也推出了自家的AI芯片A11。从两款展示可以看出,计算机视觉、自然语言处理、AR等已经成为AI在手机上的应用方向。

微信中一个典型的场景就是朋友叫你去吃饭。您需要复制这段文字,然后将其整体复制到地图上,并删除地址以外的文字,以便在地图上搜索位置。打车场景也是如此,这使得手机上的操作变得异常繁琐。因此,真正的手机智能交互才刚刚开始。 一直在与手机制造商合作,将自然语言处理的基础知识应用到手机上,从而赋予手机更多的智能。

代表产品是老罗的锤子手机。还记得2016年锤子新品发布会上老罗激动地展示的,就是三角兽提供的技术。该功能可以让大段文字瞬间“爆炸”。您可以随意选择您想要的文字。这种爆炸不是随机的,而是基于自然语言处理。这样就可以实现跨场景、跨App的联动,让需要多个步骤的操作可以一步完成,大大提高效率。

虚拟女友模板_虚拟女友app小冰_小冰虚拟女友微信

不久前,老罗扬言要打造新一代语音交互系统。相信三角兽的技术也会在锤子手机的新系统中得到体现。虽然他没有透露更多信息,但他介绍了自然语言处理技术在手机中的潜在应用场景。

一是微信收到消息时,用户可能没有时间或者懒得打字回复。三角兽可以提供自动生成聊天回复并自动提示回复内容。还可以通过分析文本中的情感来生成表情。另一种是应用程序之间的一步调用,类似于锤子手机,打通了应用程序之间的信息交互,从而使用户的操作更加方便。

这些背后是三角兽的自然语言理解、自动生成聊天回复、情感分析技术。王卓然表示,这些技术都有相应的产品,比如一键唤醒,就有一套完整的解决方案,目前正在与多家手机厂商合作。

6.国内人机对话才刚刚开始

语义理解是语音交互中最困难的部分,但通过限制场景和边界,可以显着提高人机交互的效果。这就是所谓的专有模型。那么专有模型转换为通用模型的技术已经进步到什么程度、适用性如何呢?

王卓然表示,对话管理有两大核心技术。第一个是基于上下文语义理解。了解用户的意图需要限制场景。需要收集数据进行某个领域的优化,才能真正掌握用户的意图。意图,但其模型可以通用。不同的领域是一个分类、标记、寻找相关实体的过程。这种逻辑关系是可以推广的。第二部分是对话策略。对话不仅需要机器能够理解,还需要机器能够处理复杂的决策过程。这个决策过程,无论是找餐厅、找电影、还是找音乐,都可以理解为一个抽象的“找”过程,抽象逻辑在各个领域之间是通用的,这部分是可以跨领域迁移的字段。

关于人机对话的跨域迁移和泛化,王卓然在东芝欧洲研究所的时候就已经做过了,并且可以应用,所以他在这方面有比较早的积累。但国内人机对话起步较晚,真正关注这个方向的人相对较少。目前,中国还处于人机对话的第一步——垂直领域对话,尚未进展到对话的迁移和泛化阶段。

定制虚拟角色的性格和风格有哪些难点?三角龙为什么能做到呢?王卓然坦言,性格很难定量描述,语料来源也需要进行大量处理,以便训练模型的语料能够体现虚拟角色的性格。但它并不是什么黑科技,而是基于多年积累的复杂工程东西。它需要重写一般回复、自动变形句子、插入口语、调整词序等。如果你对开放域聊天感兴趣,如果你在每个环节没有积累足够的知识,你将无法做到。尽管如此,每个虚拟角色都需要定制,所以会更倾向于与一些大IP合作。

另外,我们在大大小小的会议中,总是把语义理解作为语音交互的核心瓶颈。那么这个瓶颈到底是什么?在王卓然看来,并不是每一个场景的数据都是容易收集的。例如,电影领域的数据很容易收集,但儿童场景的数据不容易收集。

因此,这个瓶颈的突破就在于首先要落地到场景中,收集垂直领域用户的真实数据,并用它来优化模型,从而将领域相关的语义变成可以使用的语义。可以用机器加工。这是一个相互迭代的过程。

自然语言处理是一个知识积累和数据壁垒的过程。核心是把技术应用到更多的产品上,获取更多领域的数据,通过数据壁垒提高技术壁垒,进而巩固业务壁垒。人机对话是这几年才刚刚兴起并进入日常生活的。它需要一个积累的过程,就像搜索引擎刚出来的时候,如果你不创建网页,你就无法搜索到东西。也是同样的原因。

7、看好手机、客服、泛娱乐应用场景

自然语言处理应用场景中,王卓然更看好手机、智能客服、泛娱乐应用场景。

毫无疑问,手机是一个非常巨大的市场,也是最迫切需要的场景。 AI芯片的出现代表了手机真正智能化的趋势,上面已经详细讨论过。

智能客服是当前的“摇钱树”行业,也是大型企业客户优化业务流程、降低人力成本的迫切需求。很多做语义理解的公司都涉足这个业务。此外,王卓然也看好泛娱乐场景。虽然这是一个比较传统的行业,但毫无疑问,每一个优质IP都具有巨大的价值,聚集了大量的粉丝,这代表着巨大的利润。

但当谈到智能音箱和物联网行业时,王卓然却表现出了犹豫。他坦言,“不是不看好,而是看不清”。毕竟在智能家居行业,他不是一家家居饰品制造商。在行业没有大发展的情况下,他只能观望,谨慎布局。毕竟作为一家初创公司,首先要考虑的就是生存。

至于智能音箱,他认为 Echo的成功有几个条件。亚马逊本身就是一个平台。收购了一系列公司,从硬件设计、语音识别、语义理解等整个链条都是自己做的;从体验上来看,亚马逊各项指标都做到了极致;因为是巨头公司和平台,所以也将价格控制在合理范围内;而且国外也有一种客厅文化,有应用场景;这些因素共同促成了 Echo 的成功。

但这些方面在中国都需要论证。 “智能音箱是一个新品类,能否爆发还不确定。”此外,他还谈到了小米AI音箱:“小米音箱至少有一个优势,价格保持得足够低,从设计到用户体验再到价格,一切都很好。”

许多公司最近推出了语音交互平台,其中包括初创公司。王卓然认为,创业公司搭建平台可能并不乐观。首先,你必须具备平台的优势,才能称为平台。虽然初创公司也可以搭建平台,但谁会使用它们呢?如何获得更多客户?如何面对巨头的竞争?无论你的产品有多好,初创公司在很多渠道和内容资源上都不具备优势。

不过,三角兽也在布局平台。王卓然改口说道:“既然我们做的是物联网市场,那么搭建一个平台是时间问题,那么什么时候最合适呢?那就是有一个大平台和我们合作的时候。”这也解释了为什么三角兽要与富士康共建平台。大平台的存在确实可以大大降低投资风险,最多也可以作为一个项目来完成。

结论:技术落地是关键

写到这里,我已经对 团队有了更深入的了解。表面上看,这是一家荣耀无限的明星创业公司,有着底蕴深厚的创始人团队,还有众多来自微软、百度的高素质人才。

然而,这背后却是他们对自己技术的探索和尝试。有落地才有数据和技术迭代,有落地才有商业模式和盈利能力。技术永远不会优越。只有融入日常生活才能焕发新的活力。作为一个创业团队,生存是第一要务。

通过这家公司,我们还看到国内人机对话仍处于早期阶段,并且刚刚开始。需要更多的才能和团队将技术应用于更多方案,收集数据并迭代技术。正如王·朱兰(Wang )所说,“首先将该技术实施到产品中”。

自9月14日以来,推出了一系列自动驾驶课程,9堂课,9名顶级教练,9个自动驾驶领导者公司参加,810分钟的解释和互动,33个知识点,以帮助您建立未来的汽车知识障碍。扫描QR码以申请讲座,并同时加入自动驾驶社区。

分享