语音特征参数的混合方差优化加权系数法研究

2022-09-10

一般的说话人识别系统包括特征提取和识别模型两部分, 其中特征参数的选择对系统的识别性能有着关键性的影响。因为不同语音特征参数反映了语音的不同方面的特征, 不宜单独使用, 所以经常是将几种不同的语音特征参数组成特征矢量, 从而可以充分反映说话人特征。不同说话人的话音提取出的特征参数一般有较大的差异, 既便是同一说话人在不同时期说同样的话, 所提取的特征参数也有一定的变化。尤其是在话者声道发生病变 (如感冒、发炎、畸变等等) 这种变化就更为显著。鉴于说话人语音的时变性, 就需要找出一种方法使之能够提高语音特征参数的顽健性, 即语音特征不随外界因素的变化而发生大的波动, 基本稳定在一个认可的小范围内。本人经过大量实验和研究, 提出了一种行之有效的混合方差优化加权系数法。

1 特征参数的混合方差优化加权系数法

本系统实验取16阶倒谱系数作为研究对象, 做了以下几组实验: (1) 同一说话人在不同时期说同样的话时的倒谱系数变化; (2) 同一说话人说不同话时的倒谱系数变化; (3) 不同说话人说同样话时的倒谱系数变化; (4) 不同说话人在说不同话时的倒谱系数变化。如图1所示是各组实验的各阶倒谱系数的变化图。

图1中, (a) 、 (b) 、 (c) 为说话人甲“说话”一词在不同时候的倒谱各阶系数分布; (d) 图为说话人甲“美丽”一词的倒谱各阶系数分布; (e) 、 (f) 分别为说话人乙“说话”、“录音”一词的倒谱各阶系数分布。

从大量实验中可以看出: (1) 同一说话人在说不同的话时, 各阶倒谱系数的变化幅度是不同的。变化幅度越小, 则认为该阶倒谱系数的顽健性越好;反之则认为顽健性越差。因为各阶倒谱系数顽健性的差异, 所以为了提高整体语音特征参数的顽健性, 就必须加大顽健性好的阶数的权值, 同时相应地降低顽健性差的阶数的权值。经过这样的处理, 就可以使同一说话人在特征空间差别变小, 即使得类内距离减小。 (2) 同样, 不同人在说同一句话时, 各阶倒谱系数的变化幅度也是不同的。变化幅度越大越利于突出特征, 提高说话人辨别的精度;反之则弱化特征, 降低识别精度。为了使不同说话人在特征空间的差别变大, 即使得类间距离增大, 需要依照变化幅度的不同对倒谱各阶系数进行加权。变化幅度大的, 就加大该阶倒谱系数的权值, 否则降低权值。

类内和类间对各阶倒谱系数所加的权值是不同的, 有些倒谱阶系数对减少类内 (类间) 距离的贡献大些, 但是对扩大类间 (类内) 的距离贡献却很小。因此综合考虑二者的影响, 对两种加权值做乘法, 将积作为对应阶倒谱系数的最后权值。具体类内及类间权值的确定按下面的方法进行。

2 类内权值的确定

特征矢量各维的方差为:

式 (1) 中M为特征矢量的个数, 则整体平均方差为:

式 (2) 中Wik=0表示忽略特征的第k维参数, 故有Wik>0的约束。这里可以将约束表示为:

式 (3) 中c为正常数, 可以设c为1。则优化Wik的问题变为在上式约束下的使F最小的问题。用拉格朗日乘子法解此线性规划问题, 由上述的目标函数式和约束得到无约束的目标函数:

解此无约束优化问题, 可得最佳的权系数为:

式 (5) 中,

Wik为每一特征矢量对应阶数k所加的权重, 它与第i帧中第k维特征参数的方差成反比, 与Gi (帧特征参数均方差) 成正比。很显然, 方差越大, 则权重越小, 反之越大。

3 类间权值的确定

为了增大类间距离, 这里对特征参数的各阶进行加权, 其方法如下:

设xi是第i阶特征参数, 对它进行变换yi=wixi, 其中:

式 (7) 中, N是说话人总数, m是特征向量的个数, T为特征参数的阶数。σni是第n个说话人的第i阶特征参数的标准差。L2mni表示第m个说话人和第n个说话人的第i阶特征参数分布之间重叠的一种度量, 这种方法近似为正态分布。L2mn i由下式给出:

其中µni是第n个说话人第I阶特征参数的均值, εi是一个正常数, 它是根据第I阶特征参数的分布而选取的。图2表示了Lmn i的情况。

4 实验

实验共录制了50个说话人的话音, 25男25女。话音在普通实验室环境下录制, 麦克风的音量在半刻度以上。按照日常说话习惯录音, 没有特殊要求, 内容不限。每个人录制两段话, 前一段话10s用于训练模型, 另外10s用于测试语音。采用频率为22050Hz, 量化位数为16位。

实验结果如表1。

5 结语

实验证明, 采用语音特征参数的混合方差优化加权系数法, 较好地补偿了不同时期说话人自身特征的变化而带来的语音特征参数的时变性, 可提高了语音特征参数的顽健性和系统的识别精度。

摘要:针对语音特征参数受说话人说话内容的不同、年龄、病变等因素的影响而带来的说话人识别精度的降低, 本文提出了特征参数的混合方差优化加权系数法, 经大量实验和研究证明, 该方法能够提高语音特征参数的顽健性, 提高了说话人识别的精度。

关键词:语音特征参数,混合方差,加权系数法

参考文献

[1] 王炳锡.语音编码[M].西安:西安电子科技大出版社, 2001.

[2] 易克初, 田斌, 付强.语音信号处理[M].北京:国防工业出版社, 2001.

[3] 边肇祺, 张学工.模式识别[M].北京:清华大学出版社, 2001.

[4] 朱民雄, 闻新, 黄健群, 等.计算机语音技术[M].北京:北京航空航天大学出版社, 2001.

[5] (美) L.R.拉宾纳, B.戈尔德.史令启[译].数字信号处理的原理与应用[M].北京:国防工业出版社, 1984.

[6] Kuo-Hwei You, Hsiao-Chuan Wang.Joint estimation of feature transfor-mation parameters and Gaussian mix-ture model from speaker identification[J].Speaker Communication, 1999, 28:227~241.

上一篇:诗中看风景下一篇:电力企业实时数据管理系统的研究与开发