基于智能语音识别的云电视系统设计

网友投稿 803 2023-01-14

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

基于智能语音识别的云电视系统设计

为了提高智能电视的可操作性,文章提出了一种基于智能语音设别的云电视系统设计方案。该系统在传统的智能电视上加入语音输入和云端网络技术,对语音智能处理之后达到操作电视的作用,可以通过语音输入自动查找或者使用电视功能,提高了智能电视的可操作性,让智能电视使用更方便,适合更多的使用人群。

本系统为基于智能语音设别的云电视系统,将输入的语音数据传输到电视机系统,系统把该模拟语音数据预处理,转化为数字语音信号,根据各个模块需求把数字语音数据发送到云端,云端经过智能语义识别分析处理之后,返回具体的控制指令给电视予以处理。

1.系统总体设计

2.1 语音识别基础知识

2.2 语音设别系统设计

语音设别系统框图如图2所示。首先要把电视机麦克输入的模拟语音信号进行预处理,云端需要数字语音信号,这里预处理使用语音IC进行处理,包括预滤波、采样和量化、信号数字化、加窗、断点检测、预加重等。语音信号经过预处理后,接下来重要的一环就是特征参数提取,其目的是从语音波形中提取出随时间变化的语音特征序列。把特征提取的结果送到电视机操作系统中进行判断处理,分析是否需要将其传送到云端服务器,云端服务器在对接收到的语音进行智能分析处理之后传回电视机终端,进行相应的功能处理。

2.3 云端服务器智能处理

云端服务器处理主要针对数字化语音数据进行分析处理,本系统的功能比较复杂,语音处理工作量非常大,该设计基于云计算的服务器来完成,在服务器端对语音进行分析处理的同时还需要进行智能设别,该智能设别主要针对本电视机系统的一些关键字及语音的语义分析,同时对于电视机的不同模块进行分别处理,来完成使用者所想的功能。使用云计算服务器可以减少电视机终端的硬件成本,增加处理速度,来达到对用户命令的智能处理。

2.3.1 电视机与云端的传输协议

对于特定的电视机系统,每个模块具有特定的关键字,在传输数据到云端的时候,需要传输模块特征和相应的语音数据。

2.3.2 语音训练与识别的主要方法

2.3.3 隐马尔可夫链模型

本系统用隐马尔可夫链(Hidden Markov Models,HMM)模型来对语音进行训练和识别,在隐马尔可夫链模型中,它使用马尔可夫链来模拟信号统计特性的变化,本质上它是一个双重随机过程的概率模型。第一重随机过程的概率模型是指由马尔可夫链来表示状态之间的转移,另外一重随机过程的概率模型是指每个状态和多个观测值之间的随机对应关系。在实际问题的应用中,HMM的双重随机过程观察者不能直接看到状态,只能看到观察值,且只有利用一个随机过程去感知状态的存在以及特征。本质上说,人类的语言过程也是一个双重随机过程。语音信号本身是一个能够被观测到的时变序列,是由人的大脑根据语法知识和言语的需要而发出的音素的参数流,这部分就相对于 HMM模型中不可观测的各种状态。HMM模型可以很好地模拟这个双重随机过程,并且很好地描述了语音信号的局部平稳性以及整体的非平稳性,是一种描述语音信号的理想模型。

2.3.4 智能语音识别

此处采用的关键字识别系统为基于连续语音识别(LVCSR)的关键词识别系统,如图3所示,使用这种结构适用于连续语音关键词识别系统:语言经过连续语音音节识别器后,产生相应的N-Best词格或音节网格,然后使用关键词搜索算法对网格进行关键词搜索。其过程可以大致分成三步:第一步,搜索语音基元,也就是说通过这次搜索得到输入语音对应的拼音序列。通过连续解码,可以得到一个N- Best音节序列或者音节的网格。第二步,针对电视机终端功能模块选择不同的关键词表。第三步,根据上一步得到的音节序列和关键词词表对照,进行关键词的搜索,得到假象命中(可能成为关键词的词)。第四步,根据其他知识源分析第三步得到的假想命中的置信度,给出关键词识别的结果。第五步,对第四步输出的关键字结果进行智能处理,根据特定的电视机系统功能模块给出最终的输出结果。

3.1 录音检测

电视机智能语音识别处理流程图如图4,在需要使用语音设别时,首先需要按下录音键,这个时候系统会检测网络是否连接和麦克是否可以正常使用,如果其中有一项检测失败,系统不会做录音工作,提示检查网络或者检查麦克。

3.2 录音处理

在设备检测之后,进行录音,由于系统限制,录音有时间限制,不能太长。电视机终端把麦克录下的语音进行预处理和特征提取,然后再把语音和模块特征一起传输到云端服务器,云端服务器再做细致的处理,处理之后再把数据传回终端电视机。

3.3 智能功能处理

4.实验应用

由于电视系统在使用过程中情况比较复杂,通过语音设别的准确率也有一些差异。为了得到相对准确的数据,测试分几种情况,一种是在电视系统没有播放audio的时候和在播放audio的时候,另一种是输入语音的长度不一致的情况。

4.1 测试嘈杂环境试验

这个测试分两种情况,一种是没有播放audio的时候(或者说audio mute的时候),一种是在有播放audio的时候(由于audio播放时分贝不一样,所以以各种嘈杂环境的综合值为主),实验结果见表1:

4.2 测试改变输入关键字长度试验

本系统为智能语音设别,需要做智能分析,通过输入语音来判断系统的动作,关键是在语音设别的准确性和智能识别处理上,而输入关键字的长度对系统的准确性判断相当关键。本次实验就是针对长度不一致的输入做分析,实验结果见表2:

从两个测试来看,系统识别准确率相当高,实验达到了预期的效果。关键是在特殊环境下进行处理时,本系统在识别之后还有关键字和智能处理,以达到更好的智能处理。

5.结语

该系统采用了高效的语音设别技术和稳定的MIPS硬件平台为基础,软件设计上以Linux操作系统为基础,在原有的智能电视系统上使用云计算处理语音数据,使之系统处理实时性更高。通过测试表明,该系统能非常准确地判断语音输入,数据处理速度快,系统稳定性高。此系统达到了在电视系统中使用智能语音设别的功能,这样通过语音操作,大大提高了系统的可操作性,使之使用方便,更加智能化。

上一篇:智能运维平台锐捷(锐捷监控平台)
下一篇:mss事件管理流程(mss协商过程)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~