智能家电的语音怎么样

网友投稿 759 2023-01-30

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

智能家电的语音怎么样

在线语音交互痛点:依赖网络和延迟大

“在线的语音交互依赖于云端去处理,设备的前端往往只做声音的采集、回声消除和噪声抑制等处理后,就通过网络送入云端做语音识别和处理,处理后的结果又在通过网络返回回到设备中,这其中就有产生两个问题:首先,一旦网络出现问题,语音交互功能就很有可能瘫痪;其次,就算在网络状态好的情况下,设备的响应速度还是不尽理想,举例来说,前端语音处理约50ms,通过网络需要约100ms,云端处理约500ms,还有延迟,再返回,加起来估计是1S到2S,特别是国内的网络不稳定的情况下,有可能时间会更长。”

“此外,在线语音交互方案往往需要一个唤醒词,在说出唤醒词,等设备做出相应的回应后,才可以开始与智能设备对话,体验不是很好。” ”邱松晓说到。邱松晓和其公司一直在从事语音交互技术方案的开发,也给客户做过不少在线语音交互的方案,不过目前,他们也把不少精力放在一种更为简化的离线语音方案上。此模块方案可以实现单麦远场语音拾取、语音唤醒、回声消除、智能控制及语音播报等功能。

离线语音方案优势在于实时和成本

集成了离线语音模块的设备可以通过语音来控制执行一系列的操作指令,不过只是不能像智能音箱一般进行查询天气、新闻、讲故事、对话等交互。在智能音箱等在线语音方案如此火爆的情况下,木瓜电子同时也选择了做离线方案,除了考虑到前面提到的在线方案的不足外,其实更多是市场真正需求的使然。

对于这些仅仅需要语音控制而不需要交互的设备,用离线的方案或许更为合适。首先,离线智能语音交互模块由于没有了网络传输的时间损耗,语音交互的实时性更高,据了解识别过程只需要200ms,命令发出马上可以做出反应,基本感觉不到延迟,用户体验好;其次因为无需配网,离线智能语音交互模块具备用户开机即用的属性,无需教育用户。同时不存在网络异常的意外情况,使用友好度非常高。再者,成本更低,与在线方案十几美金的成本相比,离线的方案只需几美金;而且,离线方案的目标市场更多是单品,不涉及云端网络或数据安全问题,产出会快很多。

不过离线语音往往被认为是相对在线语音识别定位更为低端的应用,但是在技术上做到“离线语音识别”其实并不简单。“我们常常说‘台上一分钟,台下十年功’,对离线识别来说,也正正是这样。在将声音送入到设备之前,同样也需要做语音的远场拾音、降噪、回声消除等处理,将处理干净的声音就会和本地的模型进行匹配,如果匹配就执行动作。整个过程看似简单,但是在命令词的模型建立也需要花费不少功夫。” 上海互问信息科技有限公司华南区销售总监孔令亚说到,“离线的方案需要给每一个命令词建立一个匹配模型,每一个词会录入至少800个左右的样本,样本经过不停的训练、模型匹配和测试,只有通过测试这个模型才定下来,放到内存中。外界发出一条指令,就会和本地的模型进行匹配,如果匹配才能执行动作。目前我们可以做到200多条命令词,不过一般应用场景在十几天到几十条就已经足够了。”

此外,离线方案在一些指令或词条的识别率甚至可做到比在线的高,例如互问信息离线语音控制模块在家居环境下达到了95%识别率、2次/天的误触发。孔令亚解释道,因为从样本和训练的数据量来看,建立模型的出发点就不一样。离线的每一个词条是专门花和时间去优化。而在线的不会去这么做,中国的语言量这么丰富,方言这么多,这个工作量就非常大。例如‘请开门’这个指令/词条,在线的方案不会专门去建立这样的一个指令样本和模型去进行训练匹配,因为工作量太大难以实现。。所以在线的语音识别是针对字或句,而不是词条,如果说一个‘打’字,在线方案可能很快可以识别,但是如果说‘打开门’,语速快些或带有情感,因为没有这个词条的大量样本训练,很有可能就会误判或识别慢。。

“为达到95%识别率、2次/天的误触发,我们要求每个语音命令词都有800人左右的样本,在声音训练过程中,不断调整命令词的语音模型,这些训练样本中也包含了多个地方性的普通话,如广东地区、湖南地区、河南地区、北京地区等普通话。”他说到,“我们生成一个命令词的时间需要6周左右的时间,前4周时间样本采集和训练,后两周时稳定性测试。互问提供的语音命令词,在国内使用几乎是没有存在太多问题,95%的识别率也是目前比较高的参数了。”

离线方案潜在市场或将开启,下半年将陆续出货

离线识别方案其实早就有出现,不过因为识别率等问题一直没有铺开。早在一两年前还是85%左右的识别率,随着技术的发展,目前离线语音在家居环境中可以达到了95%,而且可以做到5m距离的远场拾音、高语音识别率,低误触发率让这一方案进入家庭、开启市场成为可能。

孔令亚指出,消费者的操作习惯、市场的需求和声音技术的积累,都是决定离线语音控制产品的市场发展的因素。近些年声音技术公司的涌出,声音信号处理技术提升和声音样本的积累,实现了离线语音识别率的提高,也就提升了用户体验,使用说话的方式去控制设备,必然会得到消费者喜欢。国内能够提供商业性的离线语音控制方案的厂商仅几家,并且前几年这几家公司都重点去投入在线语音识别和声音相关的内容服务。所以离线语音控制方式的市场打开进度也受到一定的限制。但是离线语音控制方案的市场近期必然会被打开,离线语音控制方案成本低、量产速度快,控制准确率高。离线语音控制方案以轻量级方式进入到各个产品中,而不会像在线语音识别那样生态系统复杂。

从市场反馈上看,目前家电厂商对这种方案的接受程度还是比较理想的。据了解,现在市场存货量已经超过百万级别,并且目前离线语音控制的声控台灯、晾衣架、烧水壶等已经在量产出货,在接下来的一年内,消费者将在空调、抽烟机、风扇、家居控制面板、按摩仪、故事机、空气净化器,热暖器,热水器等产品中都可以体验到,互问信息的模块都已经切入到国内这些产品生产商进行项目配合。

“我们的离线模块也是去年才开始推出,在之前有储备很多研究和设计。客户拿到样本测试到生产,可能需要半年到一年时间不等,所以还没有那么快有典型的产品出来,预计今年下半年就有成品陆续出货。接下来一年出货量肯定不止1KK。”邱松晓对于市场前景信心满满。

上一篇:充电桩智能运维(充电桩智能管理系统)
下一篇:清远智能运维平台(清远交通管理综合服务平台)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~