读心神探！以色列突破性语音识别技术可听声识心情

2013-8-12 14:08| 发布者: chenl| 查看: 1607| 评论: 0|来自: twwtn.com

摘要: 随着越来越多的智能手机传感器和可穿戴设备帮助收集更多与人身体和健康相关的数据，“量化自我”成为新的浪潮。这些量化自我及健康数据不仅可以用在医疗领域，而且正在尝试产出新的内容：通过读懂你的生理数据去了解...

随着越来越多的智能手机传感器和可穿戴设备帮助收集更多与人身体和健康相关的数据，“量化自我”成为新的浪潮。这些量化自我及健康数据不仅可以用在医疗领域，而且正在尝试产出新的内容：通过读懂你的生理数据去了解你，为你创造更加有沉浸感和有利健康的内容。

测心推音乐

把生理数据和音乐服务融合在一起的公司BioBeats近日宣布获得来自Will Smith等人的65万美元种子期投资。BioBeats在做的事就是通过探测、收集并分析用户的身体数据(如心跳)，从而定制出匹配的音乐，让用户能以一种有趣的形式“收听”自己的心跳并舒缓情绪。之前，BioBeats已推出一款叫Pulse的应用，你用手指盖住手机摄像头后它能监测你的心跳，然后自动创作出这段心跳所匹配的音乐旋律。

新晋发布的BioMuse和Pulse相比，会收集更多维度的身体指标，除了心跳和呼吸还可能会连通其他健康应用的数据。接着BioMuse会更懂你的情绪，从而不需要用户主动设置和搜索就推送匹配他心境的歌曲清单。

听声识心情

以色列创业公司Beyond Verbal近日推出了一个突破性的语音识别技术，它不只能识别你的话，还能根据细微的情绪变化，判断用户说话时的心情。“通过分析语调，能解析说话者瞬间的情绪，态度以及实时的情感决策特征。”Beyond Verbal称只需听10秒左右，就能通过分析高低语调来判定好几个情绪维度。对于像英语这样的表音语言，精准度能达到81%；像中文和越南语这样的声调语言，准确度能达到75%。

想象一下，这种情绪检测的专利技被应用到各种场合中：游戏的客户服务、约会服务（帮助人们知道对方是否真的对自己感兴趣），当然，还可以像Siri成为你的私人助理。

英国语音识别初创企业让机器感知你的情绪

说话的奇妙之处在于，有时候重要的不是看说了什么，而是要看是怎么说的。拥有四声和平仄的中文尤为如此。这一点，听到过客户尖酸刻薄的挖苦之话的客服接线员想必感触最深。自动语音系统无法识别这种语气方面的细微差别，所以各个公司不得不维系大量的人工客服人员。不过英国的初创企业EI Technologies正在研发的一种语音识别平台有望让机器的理解里取得突破，该平台可通过音质分析来识别情绪，据说其准确率已经超过了人耳的平均水平。

EI的技术可以分析人声的音调，更加注重“声学特征”而非言语内容—其最初的目的是帮助一款移动应用根据和监控用户的情绪。这款移动应用名字叫做Xpression，2013年年末会推出封闭内测版，主要面向Quantified Self的成员提供。“量化自我”的目的在于找出个人的生活方式是如何影响其幸福的。不过其主要功能是作为这项技术的试验台，找出平台最可行的业务场景。

这种技术可以改进人机交互体验，增强自动响应的正确率，在呼叫中心、医疗保健等垂直领域均有应用空间。

之所以首先选择发布量化自我的应用而不是直奔垂直领域，是因为这个技术关乎对潜在客户群的认识能力。发布量化自我的应用有助于消费者了解这项技术及其能力，也能有助于公司了解技术有多好，需要做到什么程度。

通过识别并恰当响应语言内容和情绪来增强自然语言处理算法似乎是人工智能系统的下一步发展方向。《银翼杀手》里面的复制人的致命缺陷正是缺乏“移情（empathy）”能力。现在EI的技术正帮助机器朝着具备“移情”能力迈出一小步—首先学会感受人类的情绪。不过相对于那个宏大的目标，目前EI主要关注于实用性的，近期有可能实现的商业机会，所以系统只会选择性地识别部分情绪，仅针对特定的场景。

目前系统可识别5种基本情绪：高兴、悲伤、害怕、愤怒及无感情。识别的准确率约为70-80%左右，这个数字要高于人类60%的平均水平。而受过训练的心理学家的判断准确率约为70%，从这些数据来看，EI的算法准确率已经非常可观。其未来目标是进一步提高到80-90%。

系统首先会找出“关键声学特征”，然后将其与一个分类系统进行对照检录，从而匹配出5种情绪中的一种。这里面运用了机器学习和大量的数学。此外，EI还聘请了东英格兰大学的语音识别专家Stephen Cox来调整算法效果。此前该教授曾参与过苹果和Nuance公司的语音识别系统研发。

当然，要想识别出反感、厌倦等更为复杂的情绪，EI将面临更多的挑战。因为这些情绪涉及的声音信号更加微妙。不过，从商业角度来看，集中于那五种基本情绪更有意义。

从事情绪识别研究的公司不止EI一家。以色列的初创企业Beyond Verbal、MIT的Cogito也是少数竞争者之一。不过这些竞争对手的目标略有不同，其关注点是识别出某人希望被感知到的方式，而非即刻的“情绪层”。EI与竞争对手的区别还在于，EI的技术是作用于客户端设备的，而其他的竞争对手则需要云处理技术，这意味着必须连接到网上才能发挥作用。无需联网的特点令EI的技术可被运用到汽车等对象上。

EI目前从孵化器Wayra London和英国政府的Technology Strategy Board拿到了15万英镑的种子期融资，计划2014年2月进行下一轮的融资。

苹果为什么要组建语音识别技术开发小组？

有消息表示，近几个月来苹果已经在波士顿麻省理工大学（MIT）附近组建了一个神秘的办公室，这个办公室将会做为全新Siri语音识别技术的研发基地。目前苹果已经开始在为这个办公室招聘一些知名的语音识别技术人才。

苹果波士顿团队中的Nuance前员工包括从事语音识别技术开发的贡纳·埃弗曼(Gunnar Evermann)，被苹果任命为“Siri首席语音科学家”的拉里·吉吉克(Larry Gillick)，被苹果任命为“高级研究科学家”的唐·麦克阿拉斯特(Don McAllaster)。贡纳·埃弗曼和拉里·吉吉克都曾是麻省一家名为VoiceSignal的公司的员工。

不过Nuance在2007年斥资2.93亿美元收购了Voice Signal Technologies，而这些曾在Voice Signal-Nuance公司工作过的工程师，还在2008年为iPhone开发过Voice Signal和VSearch。这或许也是为什么苹果会选择在波士顿组建他们的新团队。

那么苹果为何要开发自己的语音识别工具呢？2012年Nuance Communications首席技术官Vlad Sejnoha曾表示，“语音识别将会颠覆目前的电脑界面”。因此苹果必须尽快采取行动，掌握这项将会在未来界面中发挥重要作用的技术。

Mac OS和iOS都体现了苹果的创新，定义了苹果和他们的产品。在未来的发展中，语音界面对于苹果来说同样重要。他们不能一直依赖Nuance，毕竟这家公司和谷歌以及行业中的其他厂商也有合作，以来第三方苹果无法体现他们独特性和优势。

苹果必须找到重新定义语音界面的办法，这样他们才能够独创带有“苹果风味“的服务，与谷歌、三星等竞争对手区别开来。一如苹果在对iOS地图解决方案的作法一样，他们决定不依赖谷歌，自己开发地图服务，不断完善，将服务深度整合到自家系统之中。