【创客】对话黄伟：解语中国智能语音技术未来

2015-3-25 10:28| 发布者: 高华华| 查看: 1695| 评论: 0|来自: 车云网

摘要: 说来奇怪，语音交互这个由人类语言延展出来的物种，总因为技术高深和市场边缘被束之高阁。黄伟和他的团队，是迷雾中的那盏灯，即便摇曳，却能从罅隙中拽出一团光亮。难说语音交互的基础普及，但就其深入浅出之势，是谓解语。

       【关于创客】

       《创客》是由车云网打造的深度人物王牌栏目，以“创新者的领地”为口号，每年于车云网周年庆期间推出。2015年第二季《创客》由车云网与中国汽车三十人智库联合策划，以“未竟之境”为主题，聚焦交通领域的新生代产业新锐，他们隐苍穹、破鸿蒙、露峥嵘，引领人类交通的未来变革。

       【关于黄伟】

       黄伟，2004年毕业于中国科学技术大学电子科学技术系，专攻信号与信息处理，获博士学位。2006年获得上海交通大学生命科学技术学院博士后。毕业后任职摩托罗拉中国研究中心资深研究员，开发出世界第一款手机声纹认证系统。在盛大任职期间担任创新院核心高管，创建语音分院。2013年加入北京云知声信息技术有限公司，出任CEO。

       【创客特质】

       逆势而上，他赌一个语音交互的无先例；顺势而为，他搏一把智能愿景的新未来。

       大而全不是做语音的正确姿势

       Q一提到语音技术，我们首先想到的是科大讯飞、Nuance，和他们相比，云知声有什么特色？

       A：我们三家各有优势。Nuance是一个很专业的全球化公司，它的产品最大的亮点是多国语言的知识体系做的非常好。支持60个国家的语言，非常适合全球化厂商。他的缺点就是除了英文其他国的语音做的不是特别好，用一套引擎适应所有国家的语言，英文能做到95%，法语只能做到80%多，中文只能做到80%多，当他在中国市场遇到科大讯飞，遇到我们的时候，性能劣势就暴露无遗了。

       科大讯飞最早是做TTS（text to speech）的，让机器去发声，在这个技术领域里面，包括在全球来说它都是做得最好的。

       云知声做语音识别是最早的，我们团队基本上都是来自于中科院，还有一些以前专业从事这方面的研发机构。我在摩托罗拉的时候，开发的语音识别引擎全球出货量累计超过两亿台，美国专利拿了八个左右，国内专利陆陆续续有三四十个，我带团队参加NIST国际语音技术评测蝉联了三次第一，我本人连续两次受邀请做主演讲人，除了我之外大陆的圈子里没有一个人上过那个讲台。所以就语音识别这个技术领域来说，我们的积累各方面比他们还要深厚。

       Q对于消费者而言，最熟悉的语音交互工具是苹果Siri，但是使用频率并不高，这是为什么？

       A：Siri没有想象中的普及开来，我个人认为有几方面，第一故事太大了，大家都把Siri想象语音助理，助理应该什么都会做，什么都能做，但实际上它都做不好，希望用一个相对来说有限的人工智能解决非常开放的需求，这本身很难做到。

       第二回到本原来讲，大家用这个东西不是想调侃它，而是希望接受服务，但是其实很多服务不在苹果手里。我订餐馆，你真的能帮我订到一个餐馆某个位置，帮我下菜单吗？显然做不到，那个东西反而不是技术问题，是资源整合能力，当这些都不具备的情况下，就意味着你想做的满足不了用户的需要。无论从技术还是需要两个角度，我们认为理想的方式是什么？不要大而全，垂直领域切入。

       Q评判语音交互技术高低有哪些维度？

       A：语音识别是一个单点技术，包含很多的知识环节，人与设备的交互、人工智能和语音学等，它是非常复杂的系统工程。差距在哪儿？很简单，看能否做到稳定、高效、准确，能不能接受大量用户的并发测试，这个其实是需要综合能力。比如说在中文连续语音识别方面，我们目前准确率达到了97%，这个97%不是实验室测试，而是各个省份的用户共同的语量得到一个测试结果。

       Q语音识别包含语义理解，是不是需要在前期积累很多语义的分析数据才能够提高理解度的准确？

       A：没错，整个系统包含语音识别、语义理解、后端服务等。

       语音识别并不是识别出你说了哪个字，它分为两大模块：声学模块和预演模块。声学模块我们识别的不是字，而是一些很基础的发音单元，比如说声母、韵母，继而通过识别引擎得到一个声韵母的序列串。

       人说话有一些语言逻辑，怎么把声学序列串翻译成有意义的句子？我们还有语言模型，大量统计了人类说话的语言逻辑在里面。声学序列串准确率有限，发音很短，非常有可能出错，我们通过后面的语言模型纠正可以把识别率达到非常高的水平。这个只是完成了从声音到文字的转变，通过对语义的理解，再调用后台的服务，就完成了整个人跟设备从声音输出到自然语义理解到服务后台一连串的过程。
Q是不是语音技术只能基于硬件载体的质量、工艺才能有比较优质的体现？

A：其实并不是说语音技术只能跟着硬件走。我们跟硬件整合之前，百度云助手、搜狗云助手这种体验不太好，每次好几步才能打开语音应用，我们之所以用语音是希望便捷、自然，但那种方式违背了这种原则，我们把它跟硬件、芯片整合，目的是希望给用户提供更好的用户体验。

       如果我们跟芯片结合好，从最底层给设备天然的语音交互能力，用户可以很方便的使用。为什么跟设备结合？语音识别并不是用来解决人跟人之间的交互问题，就是为了解决人跟设备之间的交互问题，设备本身在哪儿，并不是说我们为了用语音识别专门买一个设备。

       车载语音是个伪命题？

       Q有一种说法认为语音在车上是一个鸡肋，行驶中的噪音导致车内语音很难被识别，这一操作反而添加了车主的负担。语音识别在车上的应用究竟是不是伪命题？

       A：首先从需求来看，语音识别在美国应用非常普遍，但中国人有一个习惯不太喜欢说，我们可以想象微信刚推出的时候，很多人认为微信不会成功，为什么？因为一般人讲话不想被别人听到，但是今天微信的活跃度、使用频率比QQ还好，其实中国人的使用习惯已经在改变，中国的私家车也越来越多。

       从技术角度来说，以前我们用的识别引擎，完全离线版本只能在很小的设备里面运转，资源非常有限。今天我们可以做到在线、离线相结合，给用户提供比较好的识别效果。其实我们有大量数据可以统计，就导航来说，机器远比人靠谱。目前机器识别率已经可以做到90%多以上，毫秒级响应，你不用跟客服人员来回确认。

       Q对于车载领域，你们更倾向于做前装还是后装？

       A：前装周期非常长，一般三到五年，我们并不建议初创公司做前装，跟前装厂商配合基本上会被拖死，所以我们重点做后装。前装其实我们配合通用、奔驰等做一些长期合作，并不指望说今天合作就立刻可以落地，从评估到立项，哪怕合同签了，到你的车能卖出来至少三年以上，我们去年跟奔驰谈的是2018年的事情。

       后装的特点是短平快。不需要跟整车整合，也跟安全性无关。不需要通过很严格的车辆安全性测试。

       Q车载交互在你们的业务群中会是什么样的地位？

       A：车载交互、智能家居都是物联网的一部分，我们为什么这几个事情同时在做，因为后台的服务是一样的，其实这些领域的服务都可以延伸到另外一个领域，会形成一种交叉互补。我讲这个话并不意味着说一个公司可以同时做几件很发散的事情，而是要看我做的两件事情、三件事情是不是殊途同归。

       语音识别是少有的中国人领先的技术

       Q语音技术大抵经历了哪几个发展历程？

       A：语音识别应该讲并不是一个很新的技术，在二战期间，欧美的一些实验室已经开始做这件事情了，那个时候只能做一些很简单的数字识别。八十年代李开复博士开发了全球第一套非特定语言连续语音识别，能够识别大概四千个词汇，在当年已经是很牛了，获得了当年科技十大金奖，那个时候语音识别还是实验室探索阶段，真正进入工业应用领域是2000年左右，当时摩托罗拉和飞利浦在手机里做了一款非特定人的语音拨号软件。

       紧跟着到了2008年，谷歌把语音识别和搜索相结合推出了Google Voice Research，这是一个非常具有里程碑的事件，以前我们的引擎都是部署在每个设备上的，跟用户之间没有交互。谷歌是真正把语音识别技术和互联网相结合，先把声音转成文字，有文字之后再去调后面的搜索引擎，而且用户的语音不断优化他的系统，这样他的整个识别引擎进入了正向反馈的过程，性能会越来越好。

       2010年苹果推出Siri，Siri跟Google Voice Research有什么区别？Google Voice Research的语音识别依然只是语音到文本，文本之后给你一页链接你挨个儿去点，这是模糊搜索。Siri是清晰搜索，我说查询天气，直接就告诉你明天温度多少度，更像我跟设备交互，不是我只操作一下设备。

       大致回顾一下语音技术在工业应用领域比较明显的时间节点，2000年以前是实验室阶段，2000到2008年的8年左右在一些嵌入式设备上，比如说手机、车载终端做一些简单的命令识别。2008年开始与互联网结合，2010年与人工智能结合。

       Q那中国自主研发的语音技术是怎样发展而来的？

       A：自主研发是在1999年科大讯飞成立之后，很长一段时间科大讯飞主打产品是TTS，给很多车站、机场做播报系统。2005年、2006年，科大讯飞给Nuance做代理，给一些银行做呼叫中心，后来就开始研发自己的语音识别技术。

       科大讯飞的识别引擎是2010年10月推出，紧跟着科大讯飞推出了他的语音输入法。我们大概2012年6月份成立，2012年9月份推出了云平台，以一种非常快的互联网的节奏带动整个行业发展。我们很多客户都认为尽管今天云知声在资源上、品牌上跟科大讯飞还有很大距离，但是市面上终于有了可以跟科大讯飞相抗衡的技术，第二我们是用跟科大讯飞完全不同的方式来做事。

       Q就语音技术而言，中国在国际上处于什么样的地位？

       A：技术层面上来讲就三点，学术、应用、语言。我们必须承认在学术层面很多原生性或者创新性的技术都是国外提出来的，主要是美国，我们是跟踪。美国学术界有斯坦福、CMU、约翰•霍普金斯、MIT，英国有剑桥，捷克有布尔诺理工，这些学校都还做得不错。工业界主要是Nuance、IBM、微软、谷歌，尤其是谷歌的投入非常大，把语音看作他的核心入口。

       在应用层面，我个人最近几年参加学术会议包括国际评测等等，可以这么说，世界上这个领域做得最好的就是中国跟美国。语音技术主要是这两年互联网、移动互联网带动起来的，欧洲人已经OUT了，他的优势可能在传统制造业。

       第三个问题是声音识别跟语言相关，我比谷歌更懂中文，我们在中文识别引擎这块比他们做得更好。

       未来：技术到商业，2B到2C

       Q作为公司CEO你对自己新一年的计划是怎么样？

       A：我希望公司能够完成从一个技术背景的公司向一个产品化、商业化公司的转变。我觉得这个转变会很难，其实很多时候你想的到未必可以做到，而且做到过程也会非常痛苦，2015年我们压力也是比较大的，我最大的愿景是先不去讲其他一些盈收数字，如果团队整个公司完成不了转变，所有数据都是不可能实现的，如果能够完成这个转变，哪怕今年我的数据和预期有一定的差别，不重要，因为后面我一定能找补回来。

       Q您觉得语音技术这一块未来还需要攻破的难点是什么？

       A：我觉得语音识别已经到了从实验室阶段到商业化的临界点。那从技术角度来说，抗噪性、方言口音、说话方式等，都需要解决。

       Q在产品上会有些什么变化？

       A：我们过去两年没有推广我们的自有APP，侧重点主要是B2B2C的方式，从2015年开始我们会推一些自有的APP，直接面向C端，对个人设备、内容、生活进行管理。我们会从这点切入，而不是上来就做一个很大的移动搜索引擎。