本月初,又一位玩家加入了智能音箱市场——阿里巴巴推出了售价499元的天猫精灵。虽然与大家早期的猜测一致,但这个市场因为阿里巴巴的参与而变得更加有趣。
与亚马逊Echo相比,天猫精灵的一大亮点就是声纹识别。用户可以通过自己的声音完成购物支付验证过程。除了阿里巴巴自研芯片提供的NLP和声纹技术支持外,天猫精灵的语音交互技术还集成了提供的解决方案。
副总裁赵恒毅告诉雷锋网,此次天猫精灵的语音交互技术,包括环形六麦克风阵列、回声消除、降噪、语音增强、语音识别、语音合成等均由提供。
在AI领域,与搜狗、科大讯飞等主要语音科技公司相比,一直为B端提供技术解决方案的似乎并没有那么耀眼。然而,在语音交互已经无处不在的今天,所想、所做的远比大家看到的要多得多。
语音交互日益无处不在:推出DUI开放平台
在今年CCF-GAIR全球人工智能与机器人峰会的第一天,还在同一地点举办了旗下对话平台DUI的首次亮相。
DUI(用户)是一个高可用、定制化的人工智能对话平台。赵恒毅介绍,DUI是基于AIOS人机对话系统的升级,所有工作都可以围绕对话进行。
SPHI 副总裁 赵恒毅
在加入之前,赵恒逸曾担任乐视旗下乐乐语音的CEO,积累了语音交互方面的相关模块化经验。去年加入后,赵恒毅告诉雷锋网,当时国内外很少有公司在开发可定制的语音交互平台。经过半年多的“艰难狙击”,赵恒逸带领团队终于提前将这款产品推向大众。
与亚马逊平台相比, DUI平台使用零门槛,无需注册即可使用。场景覆盖物联网、移动互联网,“云+端”模式也能在无网络的情况下提供服务。
赵恒毅介绍, DUI平台主要有以下特殊功能。
1.“云+客户端”模式支持本地技能发展
为什么选择这个模型?
据赵恒毅介绍,在智能汽车领域积累了大量经验。他们发现,很多设备在没有网络的户外场景下,基本上很难实现高可用性。纵观以亚马逊为首的全行业语音交互平台,普遍基于云平台,对网络稳定性要求较高。这让已经具备良好云能力的开始考虑是否可以与市面上主流对话平台有所不同——用“本地+云”的方式打造一个在没有网络的情况下依然可以使用的平台。高可用的定制平台。
为此,增加了本地识别引擎并定制了一些,为开发者和用户提供低功耗、语音唤醒、离线识别等本地功能。
2、拓展全链路定制范围
在与客户、开发者一起打磨产品的过程中,赵恒逸和他的团队发现了很多痛点和需求。例如,许多客户希望更有效地定义唤醒词并实现在线更新。目前一些热词识别错误或者语义解析错误需要重新训练模型,效率非常低。也有一些客户希望创造出更具差异化体验的产品,对交互过程的各个方面都有自己的想法。
考虑到这些痛点,赵恒一和他的团队决定向开发者开放 DUI平台的全部核心能力,并将其可定制范围扩展到整个链路,包括唤醒词定制和参数设置、语音识别和语言模型。 、语义分析、多轮对话、自然语言生成和语音合成等。用户不仅可以定制语音唤醒词、技能深度、语言模型,而且无需更新手机APP即可实时更新资源,包括唤醒词、合成音、识别引擎、热词、语音语义、GUI等。这些都是增量更新,每次更新可能只消耗几十K、几百K的流量。
3、从垂直场景到通用领域
此前,主要专注于智能汽车、智能家居和机器人三大领域,基于DUI对话平台的应用将进一步向通用领域拓展,比如增加故事机、移动应用、微信公众号等产品。
赵恒逸表示,随着语音交互行业成熟度的稳步提升,消费者群体对这项技术也有了更广泛的了解,这必然会催生一些新的商业形态。
4、可视化数据:基于语音和文字对话交互
成立了专门负责大数据和用户运营的团队,并在此平台上推出了基于语音和自然语言对话交互的视觉大数据平台。赵恒逸表示,开发者可以在DUI上自定义开发周期、维度和范围,并可以查看实时统计数据。
此外,DUI平台还提供以多轮对话为主,包括聊天、问答等综合对话服务。具备算法降噪、回声消除、语音识别等多种能力,支持日常生活服务、交通、社交分享等不同场景的技能需求。
B端风格与C端思维:增加更多用户+数据运营
在乐视网的三年时间里,赵恒逸及其团队全面负责乐乐语音终端产品的核心语音技术和用户运营。这段经历让他积累了如何面对和处理数百万用户需求的经验和能力。同时,此次赵恒逸带领的团队也不乏对C端用户的敏感度。

当雷锋网问到在2C和2B公司工作的区别时,赵恒逸表示,因为自己之前在乐视网甲方,所以对用户痛点更加了解。目前的DUI平台实际上包含了2C因素。赵恒逸以系统为例。 系统本身其实是一个2C系统,但仍然需要安装在各个品牌厂商的手机上,也与很多解决方案提供商进行了合作。
“DUI平台类似于AI领域的,我们最终希望通过它给终端用户带来良好的用户体验。另一方面,做平台需要解耦各个模块,将技术赋能给合作伙伴。”满足解决方案提供商和品牌商的需求。”赵恒逸告诉雷锋网,DUI平台提升了开放的广度和深度,不仅是为了给开发者提供更好的服务,也是因为看中了项目背后的用户运营价值。
在赵恒逸看来,“向后运营是与连接用户的最佳方式。”所谓落后运营,就是利用DUI平台为自家产品赋能的厂商用户。
赵恒逸表示,很多智能硬件厂商缺乏用户运营经验。因此,在DUI平台上启用的视觉数据能力、语音交互功能、热词更新、语音语义更新等功能可以为实际使用这些厂商产品的用户提供持续更新的体验。 “获得良好体验的用户可以通过社区等方式向厂商反映这种感受。”这其实是一种“三方共赢”的做法——用户体验好,厂商获得营业收入,还可以获得因B端企业特点而缺乏的C端用户数据,从而更好地完善平台。功能。
与此同时,一直在优化其平台的语音交互体验。例如,它聘请了数十人的数据团队来标记各种类型的数据,例如语音识别、语义分析等。
此外,还设立了2亿元孵化基金,用于支持平台上出现的优秀项目和合作伙伴。
对于BAT巨头纷纷涌入语音交互市场,您怎么看?
不过,作为一家初创公司,虽然已经深耕语音交互技术十几年,但仍然面临着来自巨头的压力和威胁。
以语音交互技术应用最为广泛的智能音箱市场为例,目前整个智能音箱市场呈现出“亚马逊Echo领头羊,国外其次是微软、苹果、三星,联想、腾讯”的格局。阿里巴巴、小米在国内紧随其后。”情况。阵营越来越强大,竞争也越来越激烈。
那么,作为一家在巨头与C端产品公司之间提供技术服务的公司,应该如何应对呢?
在赵恒逸看来:
“这个市场足够大,也充满想象力。但行业现状是,目前真正有影响力的企业不超过10家,各行各业都有可能被AI赋能。”
“每个巨头都有不同的基因和特点,一些互联网公司也开始在硬件方面进行尝试。但目前的语音交互技术还远未达到立即可用的水平,因此要打造出好的产品还是有难度的。”你必须和厂商非常脚踏实地,花很长时间打磨产品。”
“如果一些产品型公司加入这场战斗,他们可能会陷入一些互联网巨头之间的竞争,而许多产品型公司并不想选边站队。对于像这样相对独立的技术服务提供商来说,这可能是一个问题。一个很好的机会。”
这也是事实。赵恒逸告诉雷锋网,除了为阿里巴巴天猫精灵音箱提供语音交互技术支持外,还与联想、小米等大公司在智能音箱方面进行合作。
“斯必驰不愁现在,也不愁未来。”赵恒逸自信的说道。
为什么“中国版Echo音箱”还没有出现?
现阶段,国内将语音交互技术与智能硬件结合的案例有很多,也有很多优秀的语音技术公司和硬件公司,但他们仍然没能做出能够与智能硬件并肩的产品。亚马逊回声。对于造成这种现状的原因,业界经常讨论。
因此,当雷锋网问出这个问题时,赵恒逸首先分析了亚马逊成功的原因。
“亚马逊在智能音箱领域已经有好几年了,”赵恒逸说。 “他们在这方面做得非常好,这离不开四大要素”:
1、渠道优势。
2.内容优势,比如音乐。
3、美国的室内环境与中国完全不同。
4、亚马逊培育了良好的生态系统。目前该平台已建立人员1000余人。这是一个非常丰富和庞大的生态系统。
作为先行者,亚马逊已经拥有最大的时间优势。
就目前国内环境而言,第一个障碍来自于用户的使用习惯。赵恒逸笑着说,“有时候,做智能音箱,最大的竞争对手不是我们的朋友,而是我们手里的手机。”国内消费者普遍是手机重度用户,这严重阻碍了智能音箱的推广和普及。其次,国内内容环境不容乐观。比如智能音箱的基础内容、音乐资源,在国内就乏善可陈。
当然,最大的障碍来自于公众的认知。目前的现实是,“如果你问非这个行业的人,他们可能并不真正知道什么是智能音箱”。
结论
在谈到未来是否会有开发消费类产品的想法时,赵恒逸的B面风格很明确,“永远不会做自己的智能音箱。我们的主要重点是为开发人员提供语音交互对话技术。”
赵恒逸表示,“这段时间,很好地发挥了它的作用,这些产品最终都会按照规则自然发展。”