详情

原文传递基于一维卷积神经网络的车载语音识别技术研究

论文题名：	基于一维卷积神经网络的车载语音识别技术研究
关键词：	卷积神经网络;语音识别;车载环境;语音端点检测;加权功率谱
摘要：	随着经济水平的提高，汽车的使用正在逐渐普及。在汽车数量增长的同时，人们在车辆的驾乘体验方面也提出了安全性、便捷性等多方面的需求。语音是人类之间最高效的交流方式之一，很多车载设备选择语音作为入车交互的主要方式，以满足用户的需求。其中影响到用户体验的最关键的技术就是语音识别技术。　　语音识别技术经历了数十年的发展，与神经网络的结合使其识别性能得到大幅提升。其中卷积神经网络(Convolution Neural Networks，CNNs)因其出色的局部观察和高层聚合等能力，在语音识别领域得到了广泛应用。但是传统的卷积神经网络都是二维结构，并不能很好地反映出语音信号的一维特性。因此，本文提出使用一维模型进行车载环境下的语音识别。其通过卷积核在时间轴上的移动，在保留频带相关性的同时可以更好地满足语音信号的时变性，进而提高识别性能。此外，本文还对语音识别系统的前端处理算法进行了研究，具体开展了以下工作: 　　(1)在分析了车载噪声特点和卷积混合的声学环境的情况下，研究了适用于车载环境的基于多窗谱估计的谱减法和基于独立分量分析(IndependentComponent Analysis，ICA)的语音增强算法，并分别通过仿真实验证明其有效性。针对车载噪声中常见端点检测算法性能不佳的问题，本文给出了基于加权功率谱的端点检测算法，算法首先估算出噪声的谱能量分布系数，再结合加权函数，计算出每个子带的谱能量加权系数。通过对不同子带谱能量的加权调整，增加了噪声和语音信号在功率谱中的区分度。仿真实验结果表明，在车载噪声环境中，基于加权功率谱的端点检测算法具有更好的检测效果，不同信噪比环境下，检测正确率较其他常用算法提高了约23％。　　(2)通过理论分析和实验证明，在车载噪声环境中，Mel频率倒谱系数(MelFrequency Cepstrum Coefficient, MFCC)比线性预测倒谱系数(Linear PredictionCepstrum Coefficient,LPCC)具有更高的鲁棒性和抗干扰能力。同时，对包括动态时间规整(Dynamic Time Warping，DTW)、隐马尔科夫模型(Hidden MarkovModel，HMM)和BP(Back Propagation)神经网络在内的常用语音识别算法进行了研究。　　(3)针对语音信号的一维特性，提出使用一维卷积神经网络进行车载语音识别。相比较于二维模型，一维卷积神经网络中的卷积核为一维向量，相当于语音信号的时间轴上的观察窗，可以提取信号的局部特征，保证其时变性和频带相关性。实验结果表明，一维卷积神经网络在安静环境和车载环境中的识别性能均要高于二维卷积神经网络和其他常用语音识别算法。　　(4)通过实验分析一维卷积神经网络的结构参数对识别率的影响，并结合在不同强度的车载噪声下，不同卷积核长度对识别性能的具体影响，给出基于前端噪声估计的网络结构自适应选择。最后，基于Matlab平台搭建出基于一维卷积神经网络的语音识别系统，验证算法的有效性。
作者：	朱锡祥
专业：	计算机应用技术
导师：	吴小培
授予学位：	硕士
授予学位单位：	安徽大学
学位年度：	2017
正文语种：	中文