您的位置: 主页 > 人工智能机器人 > 波司登夫妻剧场:基于LBG的藏语字母识别算法研究

波司登夫妻剧场:基于LBG的藏语字母识别算法研究

时间: 2019-03-04阅读:

摘要

在语音识别的领域内,BP神经网络和VQ有着广泛的运用。本文中主要内容为:采用VQ技术中LBG来实现对藏文字母的识别,并使用MATLAB R2014a进行算法的仿真。此算法對已经采集好的藏语30个字母的语音进行了语音预处理和端点检测,并提取了MFCC特征参数,随后开始进行识别工作的开展。

【关键词】语音识别 矢量量化 LBG算法

1 矢量量化

1.1 矢量量化概述

矢量量化的步骤是:首先,通过k个样本值在k维空间Rk中形成矢量,然后量化在第一步骤中形成的数据。接着,通过一些适当的改善,尽可能的降低失真和量化噪声。与标量量化相比,矢量量化具有显著的数字速率的降低。矢量量化可以看作是一种压缩方法,是不可逆的,它可以有效地利用矢量中各分量的相互特性(线性相关、非线性相关等),以消除冗余度,具备比特率低、译码简单、失真较小等优点。矢量量化的理论基础是香农的速率失真理论。

1.2 率一失真理论

速率失真理论是通过给定的失真D,计算率一失真函数R(D),并且R(D)是:给定的失真条件可以达到的最小速率(按维度计算);或者,他的反函数可以计算,并且将D(R)称为失真率函数,定义为在给定的速率条件下所能够达到的最小失真。

1.3 失真测度

编码器的设计是矢量量化器设计过程中非常重要的一个部分,解码器的工作只是一个简单的表查找过程。在设计的过程中,我们会接触到失真测度,并且,它的选择会对VQ的性能产生直接的影响。

1.4 矢量量化器原理

矢量量化器原理框图如图1所示。

2 语音处理

2.1 语音提取

本设计中语音的读取用的是wavread函数,提取出来后直接对提取出来的参数进行了1024点的快速傅里叶变换;随后,用plot函数将原始语音的时域图以及频谱图画了出来。

2.2 语音的预处理

在该算法中,语音的预处理的步骤分别是量化处理和预加重处理。在量化处理中,本设计设置的阶数为16阶,随后用MATLAB中的1pc函数对信号进行了进一步的处理,并画出了相关的图形,以方便后续的操作。在预加重过程中,先将语音数据用double函数转换为双精度浮点数,再用filter函数(一维数字滤波器)对高频部分进行处理,随后在对其进行1024点的fft变换,最后画出经过此过程处理后的信号的波形和频谱。在此设计中预加重的系数为0.9375。

2.3 分帧加窗

本设计中采用的是汉明窗。在本设计分帧处理的过程中,帧移设置的为80。在加窗过程中,窗长设定的为256。本阶段处理完成后,将二者处理后的信号的波形和频谱图都画了出来。

2.4 语音特征参数提取

本设计中采用的倒谱系数。

2.5 语音端点检测

本设计中采用的是双门限的检测。其中,帧长设定为256,未重叠部分设定为128,短时能量门限设定为10,能量的两个阈值设定为2,过零率的阈值为10,过零率的两个阈值为5。

3 LBG算法的设计与实现

3.1 LBG算法的实现流程

LBG算法在VQ中是一个基本算法。LBG算法可用于已知源的分布特征和未知源分布的特征的情况,但有必要知道其输出值(称为训练序列)。在实际应用中,它经常用于训练序列中以设计矢量量化器。

设计算法的流程图如图2所示。

4 MATLAB仿真

4.1 MATLAB R2014a平台简介以及语音数据来源

MATLAB在语音方面的应用:

4.1.1 语音分析(语音信号的特征参数提取)

我们从语音信号中提取特征参数,比较合成语音与自然语音的特征参数并计算其距离,通过特征参数距离来描述合成语音与自然语音之间的距离。

经过大量实验,人们提出了基于不同频率人耳感知的梅尔频率概念。由于藏文是一种调谐语言,梅尔频率是人耳听到的藏文音调的量度。通过MATLAB工具计算这个参数将很好地描述藏语语音的感知。

4.1.2 语音识别

在本设计中,我们的语音数据来自项目小组成员的亲自录制。在录制过程中,我们采用个人手机先进行录制;随后,将录制好的语音传到电脑中,再利用快转软件将语音格式转换为wav格式,从而得到可以进行相关处理和识别的语音资料。同时,语音的说话人都是藏族同学,从而,在一定程度上可以保证藏文语音的发音的标准性和准确性。

4.2 LBG算法仿真

在这个程序中利用MATLAB来编译程序。码本的选择是通过随机选择方法实现的。

具体实现这个过程的参数设计是在本设计中,码书的大小为8,码书的维数维7,参加训练样本的个数为100,码书训练循环次数设定为25。在初始码书的选取中,我们每隔2个样本取一个样本,从而得到初始码书。随后对初始码书进行处理,当相对失真小于。一。是结束循环,从而得到训练好的码书,也就是最终码书。随后,我们把训练好的码书写到了文本中;最后我们逐个显示了,算法的执行时间、算法的平均失真、每个码书的样本个数、程序的循环次数,以及最终训练好的码书。

4.3 仿真结果

由程序结果我们可以看出,LBG算法的理论算法结构相对严谨,并且较为容易实现;与此同时,此算法还能作为其他算法的附加算法,以优化提取的初始码本。由图6可以看出在每次迭代的过程中平均失真具有单调递减的特性,所以可以实现上述要求。

在对比上述仿真结果的基础上,我们通过改变初始语音的含义以及说话人,利用MATLAB仿真工具对输入的语音信号进行相关处理;随后,根据程序的运行结果进行数据分析,与此同时,我们还研究了:在LBG算法中,语音中少许的噪音和语音声音的大小,不同的说话人的音色对算法识别效果的影响。

数据结果分析:根据以上不同说话人和语音声音大小,以及是否有噪音下的语音识别结果可以看出,循环次数逐渐加大,平均失真和相对失真只有着些许的变化,识别结果根据语音的不同,识别结果也不同。如表I所示。

4.4 仿真结论

LBG算法在保持着初始变量不变的情况下,平均失真和相对失真的变化不大,但是循环次数和运行时间却因为语音数据的不同,存在着一些少许的变化。

与此同时,根据识别结果可以看出LBG识别算法对语音的要求较高。语音信号在非纯净语音的情况下,语音噪音的不同,说话人声音大小的不同等因素都会影响识别结果。

5 总结

本设计重点采用矢量量化LBG算法,在码书的选取过程中,我们选择了随机选取的方法;随后依靠MATLAB R2014a仿真工具得到仿真结果;接着,通过仿真结果对LBG算法的性能参数进行了一些分析。通過上述的一系列测试,我们可以看出,LBG算法对语音的质量要求相对较高,语音中一些噪音会影响识别的结果,说话人声音的大小也会影响语音识别的结果。另外,我们还发现:在同一语音录制的环境中,一些藏语语音(同一个藏文字母,不同的发音人)会对采样频率以及进行傅里叶变换的点数有要求,若采样频率或者进行傅里叶变换的点数不能满足要求,则程序不能正常运行;同时,一些藏语语音(同一个藏文字母,不同的发音人)提取出来的特征参数也会有着比较大的差距,从而会对初始码书的选取有着一些影响。

目前关于上述现象,我们还没有弄明白问题出现的原因。我们猜测可能是因为藏语是拼音型文字,每个人在发音时,发音的部位可能不相同,或是不准确,从而导致这种现象出现;另外,我们也有着这样的猜测:程序依旧存在一些缺陷,从而导致不能很好的对语音进行处理和识别。但是,以上观点仅仅是本项目小组成员的猜测。由于项目组成员的能力有限,以上的问题仅仅只停留于猜测的层面,还未进行进一步的研究和实践。

本设计所做的主要工作有:

首先,介绍了本设计中的一些步骤以及所涉及到的基本概念和原理,另外还包括一些重点步骤中的一些重要参数和部分用到的函数。随后,根据需求写出程序,利用MATLABR2014a对算法进行了仿真,得到仿真结果。最后,根据仿真结果对性能进行了一些分析与猜测。

综上所述,由于个人的能力,本文只实现了语音识别算法,没有根据识别成功率的大小和影响识别成功的一些因素对程序进行进一步优化。同时,也并未对我们的猜测进行进一步的研究和证明。

参考文献

[1]数字语音处理及MATLAB仿真/张雪英主编[M].北京:电子工业出版社,2016.

[2]贺玲玲,周元.基于改进MFCC的异常声音识别算法[J].重庆工商大学学报(自然科学版),2012,29(02):52-57.

[3]张俊.基于VQ和DTW相结合的语音识别算法研究[D].武汉理工大学硕士论文,2016.

[4]蒋刚毅,张礼和,郑义.语音信号的矢量量化码书特性研究[J].电子学报,1995(11):55-59.

[5]周萍,李晓盼,李杰,景新幸.混合MFCC特征参数应用于语音情感识别[J].计算机测量与控制,2013,21(07):1966-1968+1986.

[6]黄成玉,张全柱,赖斌.声纹识别中MEL参数的提取研究[J].电源技术,2011,35(04):433-435.

[7]吴婷婷.矢量量化中码书设计的研究[D].南京师范大学硕士论文,2016.

[8]黄榜.矢量量化图像编码算法的研究[D].江南大学,2011.

[9]阀大顺,赵永安,文先林,李蓓基于DHMM和VQ的关键词识别系统研究[J].武汉理工大学学报,2011,33(02):140-143+152.

[10]王彪.一种改进的语音信号特征参数提取算法研究[J].电子设计工程,2011,19(21):59-61.

[11]祝鹏.短语音条件下的说话人识别研究[D].燕山大学,2012.

[12]郭浩.基于矢量量化编码技术的数据压缩方法[J].科技与企业,2012(15):126.

[13]欧阳星辰.语音信号的优化处理[J].中国电子商务,2012(10): 68-68.

[14]吕晶晶,陈娟,张培,马艳娥.基于VQ的语音识别技术研究[J].伺服控制,2011(04):68-69+36.

上一篇:美雪ありす:基于UML的网络分布式考试系统软件建模
下一篇:没有了

相关阅读