用声音创造“形象”，智能语音如何加速商业应用落地？

对于多数人来说，最常接触到语音合成技术（TTS，Text－To－Speech）的运用就是高德地图里志玲姐姐路况播报的声音了。在将基本的固定语句进行原声录制后，机器要模拟人对自然语言的理解过程，然后为合成语音规划出音段特征，使合成语音能够正确表达语意，最后进行语音输出，整个流程类似于“编码、信息匹配、解码”。

除车载语音导航外，朗读这类极需要体现声音表现力的场景如今也运用到了语音合成技术。

今年1月，央视就播出了首部利用TTS技术模拟人声配音的纪录片《创新中国》。声音的主人则是我国已故著名播音员、配音演员、语言艺术家李易。他曾给《再说长江》、《大明宫词》、《美丽中国》、《人类星球》、《迁徙的鸟》等多部纪录片进行配音。通过语音合成技术，AI成功地模拟出了李易的声音，完成了纪录片的配音解说。

由此可见，摆脱机器原本机械化的发言，像真人一样拥有极具情感表现力、抑扬顿挫的声音，不仅是语音合成技术的发展方向，也是难点之一——同样，也考验着各家语音合成技术数据服务提供商。

对于智能语音交互而言，场景的重要性不言而喻。谁能赋予声音更多的表现力和个性化，谁就能将技术适配到非标准化的场景中，赢得智能语音市场的未来。近年来，科技巨头们都陆续推出了自己的语音合成“定制化”方案。

2017年4月，谷歌在加拿大蒙特利尔大学建立的人工智能实验室（MILA）成立了Lyerbird公司，Lyerbird成立之初就推出了一套“只需一分钟的声音样本，就能模仿任何人说话”的系统；今年5月的Build 2018 大会上，微软在其公有云平台上推出了语音合成定制服务产品Custom Voice，可对声音进行模拟，并可在线测试模拟效果。

在国内，科大讯飞也于去年11月推出了名为“讯飞留声”的测试版本。据悉，讯飞留声只需要10句的声音采集，即可完成个人声音的复刻，采集量只有行业平均的百分之一（远低于微软的500句与行业的千句）。

近千小时语音数据积淀，打造多元的“声音超市”

部分创业公司也在TTS领域也有所布局，例如成立于2016年2月的标贝科技。

在整个语音产业链条当中，标贝科技提供语音合成技术以及语音数据，其中技术含量较高的语音合成又包括发音人选择、语料设计、语音采集、数据处理、语音深度加工等步骤。

标贝科技联合创始人CTO李秀林在接受猎云网采访时表示，“科技巨头们具有超前技术的探索能力，我们非常尊重他们的成果，也很认同他们的学术产出。但从学术到工业还有很长距离，有些东西会永远停留在论文上，创业公司的优势就在于工程化的能力、产品的经营上，通过我们的技术改造在具体应用层面不断完善”。

让我们先听一段智能客服与用户的对话：

这是2018年5月标贝科技针对智能客服推出的语音合成技术方案。李秀林认为，客服领域具备的痛点十分明显，“比如很多大公司往往有上万名人工客服，有的甚至每天要接待来自全国各地上百万通电话。一方面公司的成本不断增加，另一方面，由于本身的工作性质，客服人员往往承受着巨大的情绪压力”。

这也使得客服人员往往需要很长的培训周期，且营销效果差、人员流动性大等问题时有发生。

根据中国企业数据报告的统计，我国中小企业家数量近年来按照每月30万家的速度增长。预计到2019年，全国中小企业家数将达到3940万家。伴随着国内中小企业家数的快速发展，国内客服市场仍然呈一个增长的发展态势，其中，呼叫中心和在线客服的市场规模2019年将分别达到1327亿和788亿。

面对如此巨大的市场规模，李秀林看来，对企业来说，利用智能客服代替人工，经济回报是清晰可见的——如果语音合成技术能够“胜任”这项工作的核心内容，那么大量重复性标准化的语音对话内容通过智能客服就能完成，极大减少企业的人力成本。

此外，客服作为当今信息社会商家与用户进行沟通的重要一环，直接影响了企业的整体形象。从这方面来说，商家也越来越重视客服中心的搭建和培养。

“尤其是通知型的内容，或者企业通过在线客服推广进行产品推广的这种场景是比较明确的，也就是‘说’、‘听’、‘回答’，给语音合成技术落地提供了很好的机会”，李秀林告诉猎云网。

在技术相差无几的情况下，TTS最终效果的好坏离不开准确、丰富、优质的语音训练数据。一般来说，从前期的准备、找人、找录音场地、录制、数据筛选、标注，最终成为“可以用的数据”，可能至少需要3个月。

为了打造优质的语音，让用户喜欢从而形成对声音的“粘性”，标贝科技前期需要设计丰富的语料、接触大量的声优，指导他们完成声音的采集，之后再对语音进行深度加工。

传统语料数据处理方式为手工精标，需要耗费大量人力，标贝科技则利用深度学习技术，通过计算机程序进行预处理，之后再由人工进行校正，大大提高了工作效率，并保障了数据处理的准确性。

在成立近两年的时间里，标贝科技已经积累了包括文本、语音等多类型的语料数据，并为多家互联网巨头的AI产品提供了大量的数据服务。

而在这套语音合成合成技术方案里，标贝的团队还专门挖掘了优质的声优资源，优化之后再做成demo，“相当于我们给客服系统定制了一套满足客户风格的合成语音解决方案”，李秀林说，客户可根据自身需求选择标准化或定制化产品及场景，标贝将通过专业语料制作客服合成语音库，为客户提供API接口等技术对接方式，对接企业系统后可自动外呼来自多渠道的用户。

根据不同的使用场景，标贝科技的智能客服系统在包括商业服务、金融保险、教育培训、电商物流、互联网通讯、房地产物业等行业的售后、答疑、录音、主动外呼、催款、营销推广等固话、移动设备上的服务上，都有针对性的解决方案。

“我一直强调语音合成技术是有表现力和人性化一面的，每个声音都有一个属于自己的形象，它能让用户产生粘性”，李秀林谈到，“因此，我们也推出了‘AI声音超市’，通过我们丰富的语料库，为不同的企业解决不同的定制需求”。

根据猎云网获得的数据，在定制型音库方面，标贝科技已成功为用户提供了150小时的中文女声情感音库、350小时的中文女声音库、100小时的男生音库、80小时粤语语音库、50小时美语女声语音库、40小时的ToBI语音库、40小时模仿儿童语音库、30小时儿童语音库、20小时葡萄牙语音库、20小时台湾普通话语音库、10小时日语、10小时韩语以及20小时明星语音库等，音库还在不断丰富和积累中。

同时，标贝科技还提供自有音库，中文男女声，美语男女声，儿童，粤语，台普、日语、韩语等及个性话音库，广大客户现已能直接使用整体解决方案。

2015年，李秀林在百度任职期间，曾带领团队开展了一个关于情感合成的项目，专攻百度小说频道，仅用半年左右的时间，就在语音合成加工效率、合成效果上取得了重大突破。2016年，他加入滴滴，任职滴滴研究院语音团队负责人兼首席算法工程师，帮助滴滴开拓其出行领域相关的语音业务。

结合自身在语音合成技术领域十余年的经验，这位行业从业者也坦言，当前的智能客服，“投诉”这部分内容是比较难以通过人工智能所替代的。“一般情况下，客户投诉都带着情绪，语言表达也是混乱零散的，机器识别起来还有一定难度”，但李秀林认为，“核心并不是TTS的限制，而是NLP的制约”。

NLP即自然语言处理（Natural Language Process，NLP），是指用计算机对自然语言的形、音、义等信息进行处理，即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工过程。

一套完整的语音交互过程涉及了非常复杂的技术链条，包括了声学处理、语音识别、语义理解和语音合成等核心技术。基础声学和语音识别解决的是计算机“听得见”的问题，而NLP是要解决计算机“听得懂”的问题。

李秀林提到的客服“投诉”中语言表达零散混乱的问题，还离不开NLP技术中的“词义消歧”。

机器在切词、标注词性、并识别完后，需要对各个词语进行理解。由于语言中往往一词多义，人在理解时会基于已有知识储备和上下文环境，但机器很难做到。虽然系统会对句子做句法分析，可以在一定程度上帮助机器理解词义和语义，但实际情况并不理想。这也是为什么，对于需要多轮交互的复杂问题和情绪安抚方面，智能客服当前还不能替代人工客服的原因。

此外，智能音箱类产品也是标贝科技涉及的业务方向之一。今年8月，狗尾草智能科技推出了基于Gowild人工智能虚拟生命引擎（GAVE）及全息投影技术的HE琥珀智能音箱，其中能唱能跳能聊的“琥珀小姐姐”的声音就是由标贝TTS技术所提供的。

“我认为个性化的语音是一个非常有价值的方向，每个声音都是有特点的，不同的品牌、公司和服务商会根据不同的情景和产品特点采用不同的声音，而这个声音则能‘创造’出一个独特的形象”，为了打造优质的语音，让用户喜欢从而形成对声音的“粘性”，标贝科技对数据标注的每一步流程都严格把控，李秀林认为，“人工智能不仅能把简单的标注处理好，还可以把后期的合成，通过技术手段提升准确度，最终接近真人发声的状态”。

推出“今日快听”，用“声音”探索多场景语音交互体验

随着知识付费的兴起，有声读物发展进入快车道，用户可以不受地理位置的限制随时随地通过手机、智能音箱等收听各类新闻资讯、有声内容。因此，除了语音合成服务外，为了能让用户尽快体验到语音合成技术，标贝科技还开发了一款基于语音合成技术小程序——用于播报科技新闻的“今日快听”。

目前，今日快听小程序，已经实时对接了国内多家科技媒体。每天早上6：30起，将实时更新当天最前沿的科技、财经、社会热点等新闻动态。上下班通勤时间，用户可以充分利用碎片时间收听热点资讯。

这款小程序的界面以黑色为主、紫红色渐变做装饰色，主界面上紫红色渐变的大圆和底部的小圆圈在中轴线上下排列，底部5个按钮对称分布，简洁轻盈、充满科技风的同时，又融合了中国的美学元素。

其主界面底部有提意见、分享、选声音三个按钮，左右排列可满足用户单手操作。

其中，“提意见”按钮可以根据小程序的顺畅度、声音、内容、界面等方面提出意见或建议；通过“分享”，则可以将小程序推荐给微信好友或以图片形式保存进行传播；“选声音”按钮满足用户对男声、女声播报声音的习惯。

“语音行业一直是AI典型的技术领域，我们工作十几年了，大家都还是自称是‘做语音技术的’。做企业需要扎扎实实地做自己擅长的领域，不去追热点，因为热点也会变，自己做得好的话，也能激发出很多新的热点”，李秀林告诉猎云网，团队还将在语音合成技术的场景方面进行更多探索，“创业公司的技术迭代很快，也许几个月时间我们就把行业的解决方案做得很好了。接下来就需要销售去开拓商业市场，技术团队会走到下一个环节，比如内容制造方面正在做一些准备”。

用声音创造“形象”，智能语音如何加速商业应用落地？

相关推荐