当前位置:首页 > 作文大全 >

免疫粒子群改进LBG的孤立词语音识别算法研究

发布时间: 2022-03-17 10:02:35 浏览:

摘要:语音识别技术已在通信及控制等领域得到广泛应用,针对孤立词语音识别矢量量化中LBG算法对初始码书选择敏感,容易陷入局部最优、泛化能力不强的缺点,将免疫粒子群优化算法(IPSO)和LBG算法结合进行聚类分析,从而得到基于IPSO-LBG的码书设计方法,并将其用于基于离散隐马尔可夫模型(DHMM)的孤立词语音识别系统中。通过实验,与传统LBG算法的DHMM孤立词语音识别系统的识别结果相比,证明了改进的系统有较好的识别率和适应性。

关键词:孤立词识别 免疫粒子群优化 LBG算法 DHMM

中图分类号:TN912.34 文献标识码:A 文章编号:1007-9416(2013)01-0111-03

语音识别是一项极具魅力且大有作为的新兴技术,其涉及语音语言学、生理心理学、信号处理及计算机科学等众多学科。该技术的目标主要是利用人机接口来实现人与机器的直接对话,并能够使机器根据人的语音执行各种相应的命令。作为语音识别的一个分支,孤立词语音识别已广泛应用于移动通信中的查询和语音拨号、汽车导航中的语音控制、语音检索等[1][2],具有重要的理论研究意义和实际应用价值。

然而,很多应用产品的效果仍不够理想,如识别率低、语音库词汇量少、识别速度慢等都严重制约着语音识别技术在生产生活中的推广应用。目前,语音识别中运用较多的是隐马尔科夫模型(HMM)、矢量量化(VQ)、动态时间规整(DTW)、人工神经网络(ANN)以及支持向量机(SVM)等方法[3]。其中,HMM和VQ在孤立词语音识别中应用较为成功。

在HMM的孤立词识别系统中,首先是提取用于训练的语音特征矢量,然后对其进行矢量量化。矢量量化中,用LBG算法训练得出矢量量化器,再用矢量量化器量化训练参数。最后,训练参数进入HMM语音识别系统中进行训练识别。但是,经典的LBG算法对初始码书的选取较为敏感,易陷入局部最优[4]。因此,本文运用免疫粒子群优化(IPSO)算法改进LBG初始码书设计,并通过HMM语音识别系统进行实验测试。实验结果证明,该方法极大的提高了系统的识别率,具有一定的可行性。

1 DHMM孤立词语音识别方法

隐马尔可夫模型作为一种语音信号处理中广泛运用的统计模型,可实现双重随机过程[5],既可以描述直接观测到的信号瞬态特征,又可以描述隐含在观测序列中的动态特征。HMM分为离散HMM(DHMM)、半连续HMM(SCHMM)和连续HMM(CHMM)三种[6]。本文中侧重孤立词语音识别研究,鉴于DHMM输出离散分布概率,实现时所需的计算量以及存储量都较小,因此选用DHMM模型(图1)。

DHMM语音识别的系统框图如图1所示。假设为一个观察序列,为HMM参数组,DHMM语音识别过程需要进行如下三步:(1)给定模型的条件下,计算得出观测序列的概率;(2)选择一个最优的状态序列来表达观测序列;(3)通过调整模型参数,以使最大。

在DHMM孤立词语音识别中,要计算观测序列对模型的概率,可以使用Baum-Welch算法和Viterbi算法[7]。Baum-Welch算法用于计算所有可能状态序列所对应概率,Viterbi算法用于计算最大似然状态序列对应的概率。它们均是动态匹配过程,计算观测序列与模型之间的最佳匹配,两种算法具有几乎相同的计算量。但是Viterbi算法能将浮点乘法转为定点加法,还能将概率对数化,从而能够提高识别的速度。本文的DHMM的语音识别系统采用Viterbi算法来进行识别。

2 免疫粒子群优化(IPSO)算法

Kennedy和Eberhart通过研究鸟群捕食行为,在1995开发了一种仿生进化算法——粒子群优化(PSO)算法[8]。PSO算法和其他优化算法相似,运用群体进化的方式,假设单个粒子无体积无重量,以一定速度在搜索空间中飞行。根据自身及群体的飞行经验,空间中的粒子不断调整自身的飞行速度,通过调节并改变飞行方向和距离,在空间中根据最优粒子的位置进行搜索,经过不断迭代获得最优解。

在PSO算法中,假设一个D维搜索空间,群体由N个粒子组成。在聚类过程中,先对这群粒子随机初始化。在迭代过程中,通过跟踪个体最优值和全局最优值的变化,每个粒子不断更新自己的位置及速度。设第个粒子的速度为,第个粒子的位置为,则粒子优化计算如下式:

(1)

(2)

式中,、是对应的学习因子,取值通常为2,和取[0,1]间的随机数,代表惯性权重,其取值将影响算法的收敛性,取值太大会导致算法不收敛,因此权重大小的选择很重要。

设第个粒子为最优位置,在求解最小化问题时,目标函数值越小,则适应度就越好,则个体最优值:

(3)

设目标函数为,为所有粒子搜索到的位置最优值,则有全局最优值:

(4)

式中,、、和分别表示第次迭代过程中,粒子在第维的速度、位置、个体最优位置和整个种群的全局最优位置。在进化的过程中,为了避免粒子飞出搜索空间外,通常取值为,取值为,则将有,。

PSO虽然算法简单,实现容易,但仍存在一定缺陷。PSO算法的各种参数值往往是通过经验来确定,其很难保证种群的多样性,算法容易陷入早熟。因此,本文设计了免疫粒子群算法(IPSO)。通过将免疫记忆、免疫调节及接种疫苗等处理机制[9]运用到PSO算法中,每个粒子都作为一个抗体,使算法有了全局收敛能力,避免陷入早熟,提高了粒子群的多样性和收敛速度。

在本文中,将每次迭代生成的最优粒子作为记忆细胞保存起来,当部分粒子适应度较低,不合要求时用记忆细胞来代替,从而加快搜索速度。在粒子群更新的过程中,本文利用免疫系统的调节作用,当抗体(即粒子)的浓度增高时,系统对其进行抑制的作用就增大,选择的概率就减小;反之,选择的概率增大。这样就可保证粒子具有多样性。

通过下式可计算第个粒子的浓度为:

(5)

通过式(5)可计算第个粒子浓度的选择概率为:

(6)

其中,表示第个粒子的适应度函数值。从公式(6)可以看出,与粒子相似的粒子数量越多,粒子被选择的概率就越小;反之,粒子被选择的概率就越大。

3 基于IPSO算法的码书设计

3.1 参数设计

LBG算法是经典的码书设计方法[10],但LBG中初始码书的好坏对码书收敛的速度和最终码书的性能都会产生很大的影响。因此,本文充分利用IPSO算法的全局搜索性能,将每个粒子看作一个码书,经过聚类、迭代得出最优解,然后将最优解作为初始码书,再用LBG算法优化得到最优码书。

本文所用免疫粒子群改进LBG算法中参数的设计为:粒子群规模;新增粒子数;粒子维数;最大迭代计算次数;学习因子;惯性权重及适应度函数分别通过公式(7)及公式(8)进行计算。

(7)

式中,为惯性因子最大值,取值为1.0,为惯性因子最小值,取值为0.4,为迭代次数,为最大迭代代数。

(8)

其中,表示第个聚类中心,为属于第个聚类中心的数据集合,为聚类类别数。适应度越小,说明聚类越紧凑,码书性能越好。

3.2 码书设计

基于IPSO的码书设计算法的具体步骤为:

步骤1:种群初始化。随机地从语音库训练矢量集中选取D个矢量作为一个粒子(即码书),矢量的维数为,反复进行N次得到N个粒子,初始化粒子的速度,位置。

步骤2:计算各个粒子的适应度值,对个体最优值和全局最优值进行更新,将作为免疫记忆粒子保存。

步骤3:根据公式(1),(2)对粒子当前速度和所在位置进行进化计算。

步骤4:随机产生个粒子,形成新的粒子群。

步骤5:对N+M个粒子的浓度选择概率通过公式(6)进行计算,将概率大的个粒子选出,进入下一代。

步骤6:选取为疫苗,随机确定一段基因,将步骤5中选出的粒子与疫苗对应的基因进行替换。

步骤7:计算被替换粒子的适应度值,与父代进行比较,若不如父代,则取消接种,反之保留该粒子,形成新的粒子群。

步骤8:对每一个粒子(即码书)按照最近邻法则,重新确定聚类划分,计算出新的聚类中心,形成新码书。

步骤9:当计算达到最大迭代次数就结束,否则,跳转至步骤2后重复进行。

4 实验仿真分析

4.1 实验建立

孤立词语音识别仿真实验需要语音特征提取、矢量量化、模型训练及识别测试4步:

首先,分帧提取待训练和识别的语音信号特征参数,每帧为一个矢量,构成矢量序列。本文采用过零峰值幅度(ZCPA)语音特征,形成1024维特征矢量。

其次,对高数据率矢量序列进行矢量量化。本文通过IPSO改进LBG算法来形成矢量量化器,将训练数据库中10人在不同噪声、不同词汇量下的语音特征矢量量化形成相应码书。

第三,将上步得到的码书输入到DHMM模型的孤立词语音识别系统中,采用5状态单词模型,27个样本训练一个单词,将每个单词运用Baum-Welch算法训练成一个模板。

第四,运用矢量量化器对待测试的8个人在不同噪声、不同词汇量下形成的数据进行矢量量化,形成测试码书。然后用Viterbi算法得到测试语音数据与上步形成的模板所匹配的概率,最大概率值极为识别结果。

4.2 仿真分析

本文通过C++语言编程,在PC机上建立基于过零峰值幅度语音特征的IPSO-LBG改进DHMM的孤立词识别系统。实验中选用在不同高斯白噪声条件下(包含15dB、20dB、25dB、30dB和无噪音),18个人都分别采集10词、20词、30词、40词、50词,每人每个词发音三次,形成实验语音数据,其中10人的语音数据作为训练数据库,另外8个人的语音数据作为识别数据库。这样,通过PC机编程仿真,得到了不同噪声和词汇量下的基于免疫粒子群优化LBG算法的DHMM语音识别结果。

表1所示为在不同词汇量和不同SNR下,分别基于LBG算法和IPSO-LBG算法的DHMM在语音识别实验中的识别结果。从表中可以看出,基于IPSO-LBG算法的识别率在不同词汇量和不同信噪比下都比基于LBG的高,正确识别的词汇量也增多,这说明IPSO-LBG算法跳出了局部最优值,提高了系统的识别性能,尤其在大词汇量的语音识别中表现出更加明显的优势。

(图2)和(图3)分别是基于LBG、IPSO-LBG两种算法的DHMM语音识别系统在不同词汇量下的平均识别率柱状图和在不同信噪比下平均识别率的柱状图。从两图中可以看出,在不同词汇量下识别率都有所提高,且随着词汇量的增多,识别率的提高也加快。在不同的信噪比条件下,识别率的提高速度差不多,在无噪声的情况下识别率最好,系统的抗噪性能还有待提高。总体上验证了基于IPSO-LBG算法的语音识别系统的有效性。

5 结语

本文将免疫粒子群算法运用到码书设计中,设计了IPSO-LBG算法,并将IPSO-LBG算法用于DHMM孤立词语音识别系统中,并给出了实验的结果及分析。通过与基于传统LBG算法的DHMM孤立词语音识别系统相比,证明了IPSO优化的识别系统有较好的识别率,对今后孤立词语音识别研究具有重要的借鉴作用。

参考文献

[1]袁里驰.基于改进的隐马尔科夫模型的语音识别方法[J].中南大学学报(自然科学版),2008,06:1303-1308.

[2]M. Benzeghiba, R. De Mori, O. Deroo, S. Dupont. Automatic speech recognition and speech variability: A review[J].Speech Communication,2007,49(10):763–786.

[3]任杰.语音识别技术概述[J].大众科技,2010,08:21.

[4]王社国,魏艳娜.基于遗传算法的VQ码本设计及语音识别[J].计算机工程与应用,2007,17:71-73.

[5]A-V.I. Rosti, M.J.F. Gales. Factor analyzed hidden Markov models for speech recognition[J].Computer Speech and Language,2004,18(2):181-200.

[6]高清伦,谭月辉,王嘉祯.基于离散隐马尔科夫模型的语音识别技术[J].河北省科学院学报,2007,02:8-11.

[7]于倩,李春利.自适应矢量量化在语音识别中的应用[J].现代电子技术,2007,06:128-130.

[8]陈立伟,宋宪晨,章东升,杨洪利.一种基于优化小波神经网络的语音识别[J].应用科技,2008,02:17-20.

[9]Cang Lu, De-jian Tan. Improvement on Regulating Definition of Antibody Density of Immune Algorithm[A]. In: Proceedings of the 9th international conference on neural information processing(ICONIP)[C].Singapore:IEEE Press,2002(5):2669-2672.

[10]肖方,施玉霞,李刚.嵌入式语音控制系统在QT上的实现[J].电声技术,2010,10:54-56.

相关热词搜索: 粒子 孤立 算法 词语 免疫

版权所有:无忧范文网 2010-2024 未经授权禁止复制或建立镜像[无忧范文网]所有资源完全免费共享

Powered by 无忧范文网 © All Rights Reserved.。冀ICP备19022856号