北京华网天下

高德地图语音包背后的 TTS 语音合成技术，你了解多少？

2024-09-29

来源：网络整理

对于有车一族来说，手机上的导航软件必不可少。

不知道各位朋友平时喜欢用哪一款导航地图。不管怎样，小黑还是对高德地图情有独钟，因为内置的明星语音导航包确实不错。比如有着咕咕声的林志玲，被游戏玩家所熟知的PDD，还有郭德纲、李佳琦等明星。

在众多语音包中，小黑更喜欢林志玲的语音包和小团团的语音包。优美的声音可以消除驾驶时的疲劳。 “前方500米驶出高速公路”“前方道路拥堵，预计行车时间7分钟”，每次听到语音包里的声音，小黑总觉得导航里有上千种声音，怎么办？应对不同的城市道路环境，录制的句子必须有四五千句。对于林志玲、小团团等明星来说，录制这些音频可能并不容易。

直到小黑了解到TTS语音合成技术后，他才发现，大部分声音并不是明星自己录制的，而是依靠语音合成技术凭空“创造”出来的。

弄清楚明星语音包的真相后，小黑突然有了一个想法。普通人能否利用语音合成技术打造属于自己的导航语音包？

高德导航“记录好声音”

说干就干，小黑拿起手机，开始研究高德地图。没想到，小黑竟然发现了高德地图“记录好声音”的隐藏功能。

打开高德地图语音包选项，进入导航语音包界面。在这里您可以选择英雄联盟案例、朱广权、粤语等特色语音包。右上角还有“录制声音”小按钮。

进入录音页面后，会出现“准备上路，系好安全带”、“安全到达目的地，下车时记得关好车窗”等八个提示。

录音完成后，打开“我的好声音”按钮，就可以将自己的声音插入到行车导航中。小黑录制完成后测试了一下，发现效果并不好。大多数时候还是用林志玲的导航语音，根本听不到她自己的声音。

录了四遍声音后，小黑终于明白了。高德地图的这个功能并没有利用语音合成功能来定制个性化的语音导航。它只是记录我们的声音并在固定的场景中播放。不客气地说，目前高德地图根本无法定制语音包。小黑想用自己的语音包来代替林志玲的语音包，但这在技术上是不可能的。

语音数据包背后的秘密

高德可以为名人定制语音包，但为什么不能为普通人定制语音包呢？

其实关键在于语音合成技术。高德地图虽然提供了各种明星语音包，但他们本身并不具备语音合成技术。他们的技术源自科大讯飞。

科大讯飞这个名字对于很多朋友来说并不陌生。科大讯飞听力、科大讯飞语音识别，很多场合都能看到它们的身影。作为中文语音识别领域的领先者，科大讯飞也是语音合成技术最优秀的企业之一。

科大讯飞开放平台提供在线语音合成功能，可以将文本转换为自然流畅的语音，并提供100多个扬声器供用户选择。

小黑试用了科大讯飞的语音合成功能，确实可以看出技术的不凡。有铿锵有力的男声、柔和悠扬的女声，还有合肥男声、山东女声等个性化声音可供选择。

然而，这并不是小黑想要的。小黑希望科大讯飞利用小黑的声音定制独特的声音库。就像林志玲的语音包和小团团的语音包一样，它们是世界上独一无二的。

欢迎来到声音再现站

科大讯飞真的提供这种服务吗？确实有。在科大讯飞的产品库中，有一款名为“讯飞语音”的产品，它可以快速、方便、完美地复制我们的声音。简单来说，讯飞音库定制方案是为企业量身定制的产品，而讯飞音频则是其精简版，专为普通用户打造。

据科大讯飞介绍，科大讯飞可以再现我们的声音，给远方的孩子讲故事；为家乡留守人员读书看报；您还可以将妻子和孩子的声音用作汽车导航系统的语音包。保护我们。

具体到应用上，科大讯飞只需要自己录制10句话，5分钟左右就可以创建一个完整的声音库。

科大讯飞是如何实现如此神奇的技术的呢？事实上，语音合成有三大要素，即信息、音色和节奏。语音信息是指我们讲话的内容，比如与他人聊天、语音朗读、主持人报道新闻等。所有叙述的内容都属于语音信息。

导航语音下载手机上能听到吗_手机上怎么下载语音导航_导航语音在哪下载

音色是指不同的声音在波形上总是具有鲜明的特征，不同的物体振动时也具有不同的特征。生活中，每个人的声音都是独一无二的。人们常说未见人先闻其声，指的是通过声音的音色来判断是谁在说话。

至于节奏，是指每个人声音的高、低、快、慢的特点。例如，主持人报道新闻时，言语清晰，声音平静。又如，说书表演艺术家往往“漂亮、漂亮、快、脆”。他们善于运用呼吸，说话有节奏。

数百年来，科学家们在信息、音色和节奏方面做出了无数的努力。 1779年，德国科学家开发了一种声道模型，可以发出五个长元音[aː]、[eː]、[iː]、[oː]、[uː]。十二年后，添加了舌头和嘴唇模型来生成元音。声音和辅音。

遗憾的是，由于当时技术不发达，该模型建立后无法模拟人的声音。直到20世纪30年代，著名的贝尔实验室才发明了电子语音合成器The。

在接下来的几十年里，人们围绕语音合成这一主题提出了各种语音合成系统。 2014年之前，语音合成技术可以有效模仿人声。我们小时候听到的大部分机器人声音都是由这些早期的语音合成技术提供的。

过去的声音最大的缺点就是苍白、僵硬，很容易听出人声和机器声音的区别。人类的声音通常充满情感，并且节奏和节奏各不相同。因此，现代语音合成技术采用神经网络技术，利用参数合成和情感TTS技术添加情感线索，使合成的语音听起来更接近人声。

科大讯飞的参数合成技术需要经过以下步骤：记录、标注、建模、优化。首先，准备几个语料库。语料库通常涵盖语言中的元音、辅音和声调。然后录制场景的语料库，然后标注语音语调。最后使用TTS模型进行训练，不断优化模型以合成独特的声音。

科大讯飞的语音合成过程实际上是一个深度学习的过程。通过不断学习，语音合成速度也在不断加快。早期科大讯飞语音合成需要一两个小时，后来只需要5分钟。

只需 5 分钟，您就可以复制自己的声音。科大讯飞录音这个黑科技听起来有点酷。那么它的效果如何呢？小黑发现论坛上很多网友都体验过这个功能，并表示和自己的声音有70%到80%的相似度。

▲ 科大讯飞小程序系统更新维护

然而，当小黑准备亲自体验时，却遇到了阻碍。科大讯飞官方网站打不开。科大讯飞小程序正在系统更新维护中，暂时无法使用。小黑找遍了科大讯飞的所有平台，都没有找到正常使用科大讯飞的方法。

个性化语音定制，玩家超多

或许是因为技术不成熟，或许是因为盈利前景不佳，科大讯飞目前并没有开放个性化语音定制。

除了科大讯飞之外，业内还有很多公司提供标准的个性化语音定制，比如微软、谷歌等。微软项目启动时间比科大讯飞稍晚，目前已经可以实现中文、英文等多种语言的语音合成。

为了获得高质量的结果，微软需要大量的现实生活报表。不同的训练方法需要不同的训练数据大小。如果要使用“统计参数”方法来训练模型，至少需要2000条不同的语句； “连续”方法需要6000条语句；而“神经”方法需要的最小数据大小为300条语句。每句话持续不超过15秒。提供的句子越多，合成的语音就越接近真实的人类发音。

与微软类似，谷歌（）也推出了自己定制的语音合成系统，只需要30个英文发音就可以推理和模仿声音中的情感和语调。

琴鸟的神奇之处在于，它不仅可以模仿许多其他鸟类的声音，还可以模仿自然界中不存在的声音，比如汽车喇叭的声音、伐木时使用的电锯的声音、相机快门的声音。

从科大讯飞到微软再到谷歌，可以看到，随着人工智能技术的引入，语音合成技术日趋成熟。只要你有足够的原始声源，你就可以几乎精确地模仿用户的声音。现阶段，科大讯飞语音无法体验，可能是技术升级的原因。当它开发完善并提供给高德地图等公司时，个性化语音定制也许不是梦想。到时候，我们就真的不需要林志玲的语音导航了。用自己家的语音包导航不是更温馨、更舒服吗？

来源：科大讯飞、微软

图片来源：谷歌，

如果您喜欢这篇文章，请点击这里

互联网资讯

阅读原文

下一篇：支付宝账单明细查询攻略：手机端和电脑端的区别与操作指南

上一篇：支付宝免密支付设置教程及 iOS11 低电量模式关闭方法