探析智能语音交互应用和技术

网友投稿 778 2023-01-29

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

探析智能语音交互应用和技术

声加科技CEO邱锋海主题分享《声加万物、聆听未来:智能语音交互应用和技术》

邱锋海表示,10万年前,语言的出现大大加速了人类社会进化和发展的进程。时至今日,听和说依然是人类最基本、最常用和最灵活的交流方式,同时也是最好的人机交互方式。在经历了计算机命令式交互到图形界面触摸交互,再到信息时代/高级信息时代的自然交互、和情感交互……毫无疑问,语音交互将会成为泛在的人机交互方式。

然而,尽管语音识别在这几年里得到迅速发展,但是目前业界声称的“语音识别准确度达到了90%以上”(Google在2017年6月声称已达到95%的准确率)其实是实验室数据。“非纯净条件下”的现实生活里,这个准确率则降至50-70%,甚至更低。

智能语音产品从人到机器完成一次语音交互,需要经过四个主要的技术环节:语音前端处理、语音识别(ASR)、自然语言理解(NLP)以及语音合成(TTS),即从声音的拾取到转换成文字,到理解其含义并作出反馈,再到将反馈说出。其中语音前端处理属于客户端,后三者则为云端。经过多年的技术积累,语音识别和语音合成已经获得突破,基本可以满足商用。而语音前端处理和自然语言理解依然是语音交互的核心瓶颈。

语音交互的技术链条

作为人机交互的最底层环节,语音前端处理包括回声消除、声源定向、语音降噪、语音打断、语音唤醒的MEMS麦克风阵列,再通过MEMS麦克风阵列实现复杂噪声环境下的拾音。目前仍然处于商业初级应用阶段,距离比较理想的体验还有相当大的距离。比如以Siri为代表的近场语音识别要求必须是低噪声、无混响、距离声源很近的场景,用户一定要对着智能手机讲话才能获得符合近场语音识别要求的声音信号,环境稍微嘈杂一点语音识别引擎就失灵了; 而以智能音箱为代表的远场语音识别场景下,依然存在误唤醒,方言、童音识别不准以及声源移动中的识别率低下等问题。

据悉,目前在智能语音交互市场中,国内玩家主要分为传统语音技术厂商、互联网厂商,和新兴的创业公司。其中大部分集中在语音识别(ASR)、自然语言理解(NLP)以及语音合成(TTS)等云端业务,这也是归结于语音前端处理技术的人才稀缺与实战项目较少、缺乏经验累积等。与这些玩家相比,声加科技更多着力于解决全场景下的语音前端处理,其强大的研发实力依托于中科院声学所雄厚的人才和科研资源,研发人员均来自于中科院声学所、清华大学、南京大学和中国科学技术大学等国内一流科研院所,核心团队成员亦大多师出于中科院声学所,平均在业界拥有超过十五年工作经验。团队此前已为国内多个巨头企业的智能音箱、智能耳机等明星产品提供远场麦阵模组设计方案、智能耳机麦阵算法、智能耳机模组等技术支持。

适用于多场景的多元化智能设备

中科院声学所李晓东教授、博导主题介绍《中国智能音箱行业发展情况》(2018版)编写情况

上一篇:汕尾弘度智能运维平台(汕尾弘度智能运维平台招聘)
下一篇:基于智能天线的TD-SCDMA系统
相关文章

 发表评论

暂时没有评论,来抢沙发吧~