视觉掩蔽效应

2024-06-20

视觉掩蔽效应(精选四篇)

视觉掩蔽效应 篇1

所谓语音增强就是对带噪 (本文假定噪声均为高斯白噪声) 语音进行处理, 以改善语音质量, 提高语音的清晰度、可懂度和舒适度, 使人易于接受[1]。谱相减法是一种基于短时谱幅度估计的语音增强算法[2], 其基本思想是从带噪语音功率谱中减去噪声的功率谱, 得到较为纯净的语音, 从而达到语音增强的目的。谱相减算法简单有效, 但由于噪声与语音信号在频域的重叠特性, 在消除噪声、提高语音信号信噪比的同时必然会或多或少地引起原始语音信号的失真, 而且存在残留音乐噪声。在实际增强过程中, 更多使用的是谱相减法的改进形式。本文给出一种基于听觉掩蔽效应的谱相减算法, 该算法比较有效地减少了主观听觉失真和残留音乐噪声。

1 人类听觉的掩蔽效应[3]

所谓掩蔽效应, 即一个声音A的存在会影响人们对其他声音B的听觉能力, 使一个声音在听觉上掩蔽了另一个声音。声音A称为掩蔽音, 声音B称为被掩蔽音。由于掩蔽音A的存在, 使被掩蔽音B的闻阈 (人刚好可听到声音时声音的强度) 必须提高的分贝数称为一个声音A对另一个声音B的掩蔽值。由于掩蔽效应的存在, 使得当两个响度不等的声音作用于人耳时, 响度较高的频率成分的存在会影响到对响度较低的频率成分的感受, 使其变得不易被察觉。掩蔽效应的这一特性可以应用到语音增强中, 即语音信号的存在可以使噪声的闻阈上升, 并且语音信号的能量越大, 噪声的闻阈就越高, 噪声就越难被察觉。而且, 根据人耳听觉的掩蔽效应进行语音增强时, 不需要把噪声完全抑制掉, 只要使得残留的噪声信号不被人耳所感知即可。这样做的好处是:在消除噪声的同时可以减少不必要的语音失真。

2 基于听觉掩蔽效应的谱相减语音增强算法

基于听觉掩蔽效应的谱相减语音增强算法的原理框图如图1所示。

其中, 用无语音时的信号作为噪声信号, 从而进行噪声谱估计;用经过简单的功率谱相减的语音来代替纯净语音进行噪声掩蔽门限的计算, 减小了用带噪语音来代替纯净语音估计噪声掩蔽门限时带来的较大误差。

2.1 噪声掩蔽门限的计算

(1) 计算临界带宽的功率谱

根据式Z≈26.81f/ (1960+f) -0.53进行临界带宽的划分, 式中, Z (Bark) 为临界带宽编号, f (Hz) 为频率。

把每个临界带宽内的功率谱求和。设P (k) 为信号FFT的功率谱, 则每个临界带宽的功率谱可表示为:

undefined

式中, li为临界带宽i的下边界, hi为临界带宽的上边界, i从1到imax, imax由采样率决定。

(2) 扩展临界带宽功率谱

用扩展函数SF (i) 来估计不同临界带宽之间的掩蔽效应, 其计算式如下:

undefined

临界带宽功率谱的扩展是通过每个临界带宽的功率谱与扩展函数的卷积实现的, 即:

Ci=SFij*Bj

其中, Ci为第i个临界带宽的扩展功率谱

(3) 计算噪声掩蔽扩展门限

语音频谱有清音/浊音之分, 不同的频谱特性有不同的掩蔽门限。用谱平坦性测度 (SFM) 是来确定频谱特性, 其定义为功率谱的几何平均值与算术平均值之比, 即

undefined

其中,

undefined

根据SFM (i) 来产生参数α, 该参数表明功率谱为浊音的程度, 即

undefined

其中, SFMdBmax=60dB。SFMdB=0时为清音谱。

根据语音频谱的清音/浊音特性产生的门限偏移量表示如下:

Oi=αi (14.5+i) + (1-αi) 5.5

这样扩展门限估计值为

TSFi=10log10 (Ci) - (Oi/10)

(4) 门限归一化, 并与绝对门限比较

undefined

其中, Tabs即是绝对闻阈 (即纯音的闻阈, 它是在无任何其他声音的情况下, 一个纯音刚被听到时的声压级) , 它由下面的非线性函数确定:

Tq=3.64 (f/1000) -0.8-6.5e-0.6 (f/1000-3.3) 2+

10-3 (f/1000) 4 (dB SPL)

Ti即为噪声掩蔽门限。

2.2 增益G (k) 的计算

算法中增益G (k) 的计算式如下:

undefined

式中, β (β>1) 为谱减噪声系数, 它在消除了残留音乐噪声的同时也引入了语音失真。α (通常α=2) 为谱减阈值系数, 它决定了增益函数的尖锐程度。α, β给算法提供了一定的灵活性, 但是参数的调节不是根据每个频点的具体情况分别进行的, 而是一个相对经验的值, 缺乏伸缩性。如果要残留音乐噪声小一点, 势必会引入较大的语音失真。如果想语音失真小一点, 残留音乐噪声又会很大。听觉掩蔽效应的应用在这两者之间找到了很好的平衡点。

3 仿真实现

本文对以上语音增强算法采用Matlab语言[4,5]进行了计算机仿真。

3.1 信号录入条件

选用抽样频率为8000Hz、16位数据记录 (即编码位数为16位) 、单声道的PCM格式进行录制。

3.2 信号的录制

纯净语音的录入是在安静的环境下, 朗读“我们的国家”, 时间大约为4秒钟, 存储为1.wav文件。文件采用Matlab函数wavread () 调用, 在Matlab中它以一维数组的形式存在。语音段的开始有停顿以便留出寂静帧。

噪声的生成是利用Matlab函数randn () 产生的随机数, 它是一种高斯白噪声。

仿真中取输入信号为纯净语音信号与K倍的噪声之和, 改变K值就可以得到不同的输入信噪比。

3.3 仿真结果

分别采用-5dB、0dB、5dB信噪比的语音信号进行了仿真实验, 基本谱相减法和基于听觉掩蔽效应的谱相减法得到的输出信噪比列在表1中。

为获取主观试听效果, 还采用Cool Edit对实验结果进行了播放。

经过初步的仿真实验表明, 利用人耳的听觉掩蔽效应, 有选择地进行谱相减, 能比较有效地兼顾去噪和保持语音信号的主观听觉质量。

摘要:提出了一种基于听觉掩蔽效应的谱相减算法。该算法根据每一帧语音信号的各个关键频率段的听觉掩蔽阈值, 动态地估计谱减因子。对算法在不同输入信噪比时的计算机仿真表明, 此算法明显优于基本谱相减算法, 不仅能有效提高语音信号的输出信噪比, 而且能较有效地减少主观听觉失真和残留音乐噪声。

关键词:语音增强,谱相减算法,听觉掩蔽效应

参考文献

[1]钱亚生, 诸庆麟, 译.语音与图像的波形编码及应用[M].北京:人民邮电出版社, 1990.

[2]杨行峻, 迟惠生, 等.语音数字信号处理[M].北京:电子工业出版社, 1995.

[3]易克初, 田斌, 等.语音信号处理[M].国防工业出版社, 2000.

[4]楼天顺, 李博菡.基于MATLAB的系统分析与设计——信号处理[M].西安:西安电子科技大学出版社, 1998.

视觉掩蔽效应 篇2

让你体验视觉盛宴的3D电视

①20XX年,3D影片《泰坦尼克号》在中国电影市场显示出很强的票房号召力, 根据蓝光产业联盟的统计,3D电影与2D电影相比其票房收入要增长3倍,这也印证了消费者对于3D视听节目的迫切需求。

②如今,随着3D技术的不断精进,3D电视也开始悄然出现,将影院搬进家庭的客厅,让观众在家中就可以尽情享受视觉盛宴。3D电视还有一个特点就是可裸眼体验立体影视效果。这就是说,想看3D节目时无需再戴上那副笨重的眼镜,直接用肉眼观看即可。

③实际上,3D电视早就成为现代电视技术进入21世纪后的三大发展方向之一。世纪初美英等国就实现了3D技术对体育比赛的电视直播。在我国,天津有一家公司宣布开始着手筹建3D电视频道,另有多家电视台表达了建设立体节目频道的愿望。许多国家也加大了3D技术的研究。全球消费电子厂商也陆续推出一批包括蓝光光盘播放器等相关的3D产品。

④虽然3D电视能给人带来非常震撼的立体效果,但3D电视的普及还需要一个渐进的过程。研究结果显示,观众在观看立体影像时,由于眼睛会迅速地来回移动,因而容易造成眼睛疲劳。而其不菲的价格也足以让普通用户望而却步。据预计,前期的3D电视机可能要价值数千美元。此外,目前3D片源依然十分稀少。未来的3D节目源将主要依靠电视播出、蓝光光盘以及互联网下载。如果没有丰富的3D电视片源支持,3D电视只能扮演花瓶的角色。

⑤在今年1月的第44届国际消费电子展上,包括索尼、三星在内的`一线品牌厂商均纷纷推出其3D电视产品。随着电视厂商的积极推动,技术的不断成熟,3D电视的竞争将越来越激烈。(选自《百科知识》有删节)

16.阅读第②段,说说3D电视与电影相比较,有哪些优点?(2分)

17.阅读第③段,为什么说3D电视已成为现代电视技术的发展方向之一?(4分)

18.阅读第④段,请说出在3D电视普及过程中受到哪些因素的制约?(3分)

19.读完全文,你认为3D电视的发展前景如何?请说出你的理由。(3分)

16.在家中就可以尽情享受视觉盛宴/可裸眼体验立体影视效果(2分)

17.用3D电视转播体育比赛/筹建3D电视频道/加大了3D技术的研究/陆续推出相关的3D产品。(4分)

18.造成眼睛疲劳/价格不菲让普通用户望而却步/3D片源十分稀少(3分)

“视觉效应”与“民间记忆” 篇3

[关键词]《雍正王朝》“民间记忆”“视觉效应”精神触觉

1999年新年伊始隆重推出的44集电视连续剧《雍正王朝》,是一部波澜壮阔动魄人生的历史大片。近日重看此片,顿生新意。这就是该剧主人公雍正给人的“视觉效应”是一个“改革皇帝”,这与老百姓“民间记忆”中留下的“残暴君主”确有天壤之别,这是为什么?是“视觉效应”的错,还是“民间记忆”的错?其实都不是。

这是因为,“视觉效应”是通过影视荧屏得来的,“民间记忆”是通过民间传说得到的。前者是编导们的创作宗旨所致,后者是传统文化的积淀所致。二者之差异,有时代的烙印,同时也有人为的因素。在封建时代,雍正的“反面”如对付“八爷党”等一系列残忍手段较易显现,这是传统观念所致;在改革时代,雍正的“正面”如摊丁入亩等一系列改革措施较易显现。这是改革大潮的趋势。所以才使得雍正在“民间记忆”中留下的“臭名”得以正身,成为“视觉效应”上的“改革皇帝”。难怪雍正的扮演者唐国强这样说:“改革皇帝”雍正是“用雷霆手段,行菩萨心肠”,[1]编剧刘和平也声称该剧的主题是“国家至上”,导演胡玫则说该剧要表现“当家难”,[2]总制片刘心武更是说《雍正王朝》“是一部浓缩了的《资治通鉴》,一部快节奏,别具一格的带悲剧意味的历史正剧”。[3]

历史上的雍正确是一位十分复杂而矛盾的人物,他的长处并不少,要不也不会成就“康乾盛世”。如摊丁入亩、耗羡归公、改土归流等。但是,雍正也有严重的过失和局限,要不他也就不会在老百姓心目中成为“残暴君王”。如镇压对立面的凶残:知识分子敢怒不敢言;对外交往往固步自封等。

我们认为,雍正有功亦有过,且功大于过。

即便是功过各半,老百姓也不至于对雍正的评价那样低下。为什么?其实很简单,除了对臣下的态度严厉和处理对立面的手段残忍外,还有一点是我们所不能忽略的。这就是他的继位问题,因为中国的老百姓对篡位是深恶痛绝的。关于这个问题,目前学术界有两种看法。一种认为他受康熙遗诏继位,是合法继承:一种认为康熙并未传位与他,雍正是矫诏夺位。如果是后者,当然老百姓是不能接受他的。即使是前者,老百姓还是有疑虑的,毕竟有此说法。更何况雍正即位后,当即下诏销毁了档案,这更增加了老百姓对他的猜疑。

这种猜疑加固了老百姓对其“反面”的印记,我们把这种印记视之为“民间记忆”。这种记忆,可以说是那个时代的见证人或感受者,经过代代相传并渗透到最底层的生活当中的记忆。然而,一部《雍正王朝》的大片,竟然改变了很多老百姓的看法,可见此片在此方面的成功。这种作用,我们称之为“视觉效应”。它是影视画面向观众直观、生动、形象地提供生活图画,从而使观众简明便捷地产生审美想像的效果。正因为有了这种效应。对过去曾有过“民间记忆”的老百姓会产生一定的冲击,再加上现在人们思想的普遍解放。对雍正的看法也会发生一定的改变。

中国的老百姓。他们文化水平不高,知识储量不足,审美判断较低,因而他们对那些“民间记忆”本来就没有多少依据,有时还在左右晃荡。所以,“视觉效应”就成了他们对历史的留言薄,他们可以随意涂改或发表感言,也可以天马行空地自由地去想象。更何况该片的叙事空间相当封闭,观众很容易被震慑住,成为偏听偏信的单面人。这样,老百姓渐渐地就忘却了存留在心中的那点“民间记忆”。取而代之的是对他们心灵产生冲击的“视觉效应”。

雍正就是这样通过“民间记忆”走进老百姓的脑海,又通过“视觉效应”改变了老百姓的看法。

那么,我们必然要谈到《雍正王朝》的创作追求。在中国古典戏剧里,主要划分为三大类型:悲剧、喜剧和正剧。戏剧理论和戏剧创作对此都有比较严格的界定。看《雍正王朝》首先没有观众敢说这是一部喜剧。说它是悲剧的肯定占大多数。西方古典艺术精神里的悲剧之核就是“崇高”,《雍正王朝》编导们很显然是本着这条路而去的。这应该是编导们的精心策划。雍正的形象就是在这样的创作宗旨下塑造出来的。

下面我们就看一下编导们创作上的一些具体手段:

为了表现文人害国、杀人有理的正统意识,硬是生生编造了“张廷璐案”。该案叙事的目的显然是为了塑造雍正这个“菩萨心肠”的“改革皇帝”的高大形象。而且。还反复地通过剧情来表现文人多嘴多舌,考试作弊的情节,将清王朝腐败的帐算到文人身上。将雍正手上的血迹渐渐淡化。

为了烘托雍正的“能”,给他找到对手,竟然让八爷允禩的死推迟了近10年。据史料记载,八爷是在1726年雍正登基后不久就死了,但在电视剧中他的死葬却与雍正1735年的驾崩相接近,这显然是偏离史实的作法。编导们让两个同等心智的人物相互争斗的过程就像中国传统文化中的“道”与“魔”的关系,俗话说“道高一尺,魔高一丈”。为了表现“道”,就必须牺牲“魔”的史实。就是说。为了表现雍正鞠躬尽瘁的锐意改革家形象,而将原来历史中在雍正二年就去世的八爷作为贯穿始终的对手戏来写。我们在电视剧中看到的八爷,是一个琴棋书画无所不精,斡旋政坛无所不能的大能人。有这样的一个大能人在朝中,雍正就不是一个等闲的皇帝。

为了一个年羹尧,剧中虚构了年羹尧的妹妹年秋月,并且让她给雍正做了妃子。为什么要这样?自然还是为了雍正。年羹尧在西北战事上用“专横跋扈”四个字来概括确实不为过,可雍正当时却没有治他的罪。这就得找个理由。只是他门下的奴才是不够的。所以,有了年秋月这个人,就为年羹尧增添了砝码,这就顺理成章地找到了理由,进而也就体现了雍正的宽厚仁慈。

以上只是在人物的设置上,在人物性格的塑造上更是下足了功夫。

首先,通过个性化的语言、动作和行为来表现人物性格。如雍正表面上总给人以一副冷面、不苟言笑、言语刻薄、眼神阴沉,但电视剧并没有停留在这些表面形象的渲染,而是从不同侧面表现出不同的性格特征:斩杀诺敏、张廷璐,力排“朋党”之害,表现了他的嫉恶如仇、果敢刚毅:乾清宫前对天下黎民的跪拜,表现了他知错能改,以民为天的人君风度:力排众议,重用李卫、田文镜和刘墨林,表现了他任人唯能,务实求真的政治抱负:对乔引娣和曾进的态度。表现了他豁达大度,雍容宽厚,不计前嫌的君王气度等。

其次,通过丰富的细节表现人物性格。历史细节的发掘,一方面有助于更加客观地展现历史面目,另一方面也会给观众以新的历史感受。如编导者们可以通过雍正将洒落的米捡

起来吃,又用白水冲刷着喝的细节,表现了他的朴素节俭:张廷玉听康熙脚步声而知其人到的细节,显出他的谨小慎微;处决张廷璐的刑场上,为解张廷玉之难,十三爷允祥深情地喊出一声“四哥”,从一个侧面衬托出允祥重惰讲义,柔心热肠的性格。另外,剧中一些小道具的运用也显示出编导者们的匠心独运:年羹尧死前掷落于地的那串曾是雍正之物的佛珠,年羹尧死前出现的那首纯真清亮的童谣,太监秦狗儿唱的那首乡俚小曲等。都为人物性格的刻画起到了潜移默化的作用。细节是历史的血脉,它可以使历史变得血肉饱满。

再次,通过社会关系的真实来表现人物性格的真实。该剧在表现人物性格时很注重表现与主要人物雍正的性格和命运发展有重要关系的其他人物。如天真直率,任侠仗义的十三爷:足智多谋,决胜于千里之外的邬思道:谨小甚微、又能力挽狂澜的张廷玉:表面俊逸儒雅,宽厚仁慈而内心暗藏机锋、野心勃勃的八爷等,都表现得淋漓尽致,活灵活现。正是上述人物活生生个性的总体凝聚,构成了雍正性格得以生成、发展与变化的具体历史环境。

有了以上这些,这就决定了《雍正王朝》的创作宗旨。这样就必然使老百姓从“民间记忆”中的“残暴君王”转变为“视觉效应”上的“改革皇帝”。

我们仔细地想想就不难理解。前面我们已经提到,雍正有功亦有过。雍正在该片中究竟是有功还是有过,这就看编导们去选择何种角度审视他了。

显然,编导们选择了雍正的功,当然这是他们的事。但是,我们也绝不能忽略时代精神,电视剧的创作也应顺应时代的发展。编剧刘和平就说:“我们有一个创作观点,就是把历史题材当现代题材写,把现代题材当历史题材写,这可以说已经成为我的一个创作原则。”[4]

电视剧作为被大多数人接触的叙事艺术形态,理所当然地要与它所处的时代保持一种一致的表象内涵。这与马克思的“时代精神“是相统一的,因此,电视剧作为一种时代的表象,不可能不反映社会生活。自上个世纪90年代以来,中国社会处在一个不断变化的极其复杂的多元结构中。市场经济全面启动,社会进入向商品经济转型的时代。人们从原先的精神化生存坠入了激烈的物欲竞争。转型期不可避免的社会心理问题随之纷纷出现:迷惘、焦躁、道德沦丧、价值失范……与此同时,中国在经历了20世纪80年代自觉的西化失败后又一次不得不向西方看齐,国人本已焦躁不堪、迷乱不已的心理越发脆薄:一方面不知所措,一方面又本能地滋生出反抗和拒绝。因而,人们开始讲目光开始投向中国的历史深处,企图从过去的辉煌里寻找到自我。如果该片中雍正不是一个“国家至上”的英主,不是一个“锐意改革”的明君。那么在中国改革的今天。老百姓能从中得到滋养吗?能和时代同步吗?

这也正是我们研究《康熙王朝》的归宿点。我们回过头去看我们的历史,我们就会发现,我们的民族从鸦片战争国门被打开到新中国的成立这一百余年的历史,实质上就是我们的民族在精神上受奴役的历史。为什么会受奴役?伟大的启蒙主义者鲁迅的一段话道出了“受奴役“的精髓:“假如一间铁屋子,是绝无窗户而万难破毁的,里面有许多熟睡的人们,不久都要闷死了,然而是从昏睡入死灭,并不感到就死的悲哀。现在你大嚷起来。惊起了较为清醒的几个人,使这不幸的少数者来受无可挽救的临终的苦楚。你倒以为对得起他们么?”鲁迅的话其实是指国民的一种精神状态。正因此,我们的先驱者才一次一次展开了不屈不挠的启蒙运动。1861年的洋务运动是启蒙:1898年的戊戌变法是启蒙:1919年的“五四”新文化运动是启蒙。难道新时期的这场更伟大的改革大潮就不需要精神启蒙了吗?我们的答案是需要的。

视觉掩蔽效应 篇4

目前,在说话人识别研究领域使用较多的有LPCC(线性预测倒谱系数)[1]、MFCC(Mel频率倒谱系数)[2]、LCP(线性倒谱对)[3]。其中,MFCC就是通过模拟人耳的听觉特性而提出的一种语音参数提取算法,该算法能很好地模拟人耳的听觉系统。现有的MFCC提取算法在低噪声环境下能达到很高的识别率,但噪声的存在仍会大大影响识别率。

噪声信号的存在能够影响整个语音识别系统的性能,主要是因为用于训练的语音的背景噪声与用于测试的语音的背景噪声不一致。现有的语音识别系统一般是为相对安静的实验环境设计的,当在实际环境中时,性能明显下降。导致这种识别率下降的因素主要有以下几种[4]:加性噪声、通道畸变、其他人为或瞬间噪声。这些因素使得传统的MFCC算法在实际应用中存在很多缺点,本文主要针对传统MFCC的缺点,提出了一种基于听觉掩蔽效应的MFCC提取算法,即在传统的MFCC提取算法中加入频率掩蔽滤波,使得语音信号在进入Mel滤波器组前得到降噪处理,从而使语音信号识别率得到提高。该算法对MFCC算法的实际应用有一定的帮助。

1 听觉掩蔽原理

1.1 听觉掩蔽效应

人耳能否听到声音取决于声音的频率,以及幅度是否高于这种频率下的听觉阈值。掩蔽效应是指当一个响度较大的声音A作用于人耳时,人耳听觉系统对时域和频域上邻近的另一个声音B感知下降,对于掩蔽门限的声音,人耳基本感受不到。这时A称为掩蔽声音(masking tone),B称为被掩蔽声音(masked tone)[5]。

心里声学实验也表明,人们难以听到在频率或时间上位于强信号附近的弱信号(当然也包括那些同时在频域和时域被掩蔽的弱信号)。总之,一个强度较小的频率成分可能被邻近的一个较强的频率成分所掩蔽。类似地,两个时间上很接近的信号也可能产生掩蔽现象。掩蔽可分成频域掩蔽和时域掩蔽,应用频域掩蔽时,一个基本的方法是将令人难受的背景残存噪声控制在听觉掩蔽门限以下,这些噪声是通过某种增强处理引入的,而听觉掩蔽门限是根据语音的谱估计得到的。我们感兴趣的是,在掩蔽这些残存噪声(通常是音乐噪声)的同时,要最大限度地抑制噪声,并且使语音失真程度最小[6]。

1.2 频率掩蔽算法

本文采用的是由Zhu Weizhong等人提出的一种FMF(频率掩蔽滤波)算法,该算法用一个非线性的双向滤波器来模仿人耳的掩蔽机能,从而得到更好的鲁棒性。通常,语音参数是从功率谱中提取得到的,为了使频率掩蔽模型简单化,滤波模型简化为三角滤波,三角形的斜率及频率和频谱的线性关系如图1所示。

该算法的步骤[7]为:

a)计算语音帧对应频率的功率谱xi;

b)利用下面算法对功率谱进行滤波。

运算时先对原始语音信号进行频谱运算,并对计算的频谱结果进行排序从而得到一个功率谱序列。

undefined

式中:xi为原始信号在频率索引i的功率谱(0≤i≤N);yi为滤波后的功率谱,α为低频掩蔽阈值。

此式执行的初始化条件是yN=xN,执行方向频率索引i由高到低。

undefined

式中:β为高频掩蔽阈值。

此式执行的初使化条件是y0=x0,执行方向频率索引i由低到高。

2 改进的MFCC提取

本文将对传统MFCC提取算法提出改进,改进的核心思路是通过掩蔽机制来抑制噪声信号,掩蔽的最终目的是增强纯语音信号和减少噪声信号成分。

考虑到噪声信号对MFCC参数的影响,在传统的提取算法上加入频率掩蔽滤波,从而使信号在进入Mel滤波器组前能很好地被过滤掉噪声信号。改进后提取的MFCC系数能更好地反映说话者的语音特征。改进MFCC提取算法流程如图2所示。

MFCC提取过程如下[8]:

a) 原始语音信号s(n)经过预加重、分帧、加窗等处理,得到每个语音帧的时域信号x(n)。

b) 将时域信号x(n)后补若干0以形成长度为N(一般取N=512)的序列,然后经过DFT(离散傅里叶变换)后得到线性频谱X(k),转换公式为:

undefined

在实际应用中,常常通过FFT(快速傅里叶变换)过程加以计算,其中N一般被称为DFT(或FFT)窗宽。

c) 将得到的信号X(k)经过频率掩蔽滤波器进行滤波得到信号Y(k)。

d) 将上述线性频谱Y(k)通过Mel频率滤波器组得到Mel频谱,并通过对数能量的处理,得到对数频谱S(m)。其中Mel频率滤波器组为在语音的频谱范围内设置的若干个带通滤波器Hm(i),0 ≤m

undefined

f(m)可以用下面的方法加以定义:

undefined

fL、fH为滤波器的频率应用范围的最低频率和最高频率,N为步骤b中DFT(或FFT)窗宽,Fs为采样频率,而B-1为B的逆函数:B-1(b)=700(eb/2 595-1) 。为了使结果对噪声和谱的估计误差有更好的鲁棒性,一般将上述经过Mel滤波器组得到的Mel频谱取对数能量。

由线性频谱Y(i)到对数频谱S(m)的总传递函数为:

undefined

e) 将上述对数频谱S(m)经过DCT(离散余弦变换)变换到倒频谱域,即可得到MFCC c(n):

undefined

改进后的MFCC提取计算过程只是在传统的MFCC提取算法的DFT和Mel频率滤波器组之间加入了FMF处理。该改进算法主要针对包含噪声的语音信号进行提取,更适合于现实环境中的语音信号。

3 仿真效果

实验仿真建立在HTK语音识别工具包基础上,以BBC英语信号作为标准语音,同时收集10个人的发音信号作为测试语音,在每个测试语音信号中加入白噪声信号作为干扰信号。

MFCC提取过程中的参数定义如下:语音信号的帧长为25 ms;每帧之间的帧移为10 ms;预加重权值为0.97;加窗信号为汉明窗;DFT点数N为256;MFCC通过23维的Mel滤波器组进行处理。

通过比较传统MFCC提取和基于FMF的改进算法的提取的结果得到表1。

此次试验中,用RI(relative improvement)来表示实验结果:

undefined

式中:NewScore为改进后的识别率;Baseline为传统算法的识别率。

为了使结果更加符合心理学实验,在设计FMF算法时,三角掩蔽阈值应该处在对数频率刻度下。在实验时,用一种简单的线性插入方法进行补偿。为了验证上述FMF算法对语音识别率的影响,我们设计了不同的α、β阈值。

α、β这两个阈值都在0~1之间,值越大,掩蔽效果越佳。心理学研究显示低频率有掩蔽高频率的趋势。同时我们的实验也揭示,在α≤β时,掩蔽算法能发挥更好的作用。

实验表明,当α=0.5和β=0.8时,识别率能提高4.47%,如表1所示。

本文中除了研究固定的阈值对识别率的影响,还想通过改变α、β阈值采用线性插补方法来设计频率掩蔽滤波器。通过索引i引入两组不同的αi和βi来设计频率掩蔽滤波器,得到了5.42%的相对性能提高。表2显示了固定阈值(α=0.5、β=0.8)和线性插补法(αi∈[0.3,0.5]、βi∈[0.6,0.8])对信号识别率提高的性能比较。从表2中可以看出,线性插补法在不同的信噪比水平上都比固定阈值有所提高,这种方法不仅能提高信号的全面识别率,同时对高信噪比的语音信号能起到减少负面效果的作用。

4 结束语

本文就传统的MFCC提取算法提出了一种改进算法,利用FMF实现对语音信号中的噪声信号的过滤,从而提高语音信号的识别率。实验表明,FMF算法对语音信号识别率有一定的提高。从实验可知α、β阈值的设定对于语音信号识别率是至关重要的,所以今后可以进一步研究不同的α、β阈值对包含不同噪声信号的语音信号的识别率的影响。

参考文献

[1]荣薇,陶智,顾济华,等.基于改进LPCC和MFCC的汉语耳语语音识别[J].计算机工程与应用,2007,43(30):213-216.

[2]胡玉龙.基于特征比较的语音评分在嵌入式系统中的应用[D].兰州:兰州大学,2007:21-25.

[3]李娟娟,瑜一彪,芮贤义.一种语音信号线谱对参数的优化算法[J].应用科学学报,2007,25(3):252-256.

[4]陈迪.语音参数提取算法研究及系统及实现[D].重庆:重庆大学光电工程学院,2007:25-26.

[5]杨波.基于听觉掩蔽效应的客观音质评价研究[D].成都:成都理工大学,2003:28-29.

[6]QUATIERI TF.离散时间语音信号处理[M].赵胜辉,刘家康,等译.北京:电子工业出版社,2004:542-543.

[7]许鑫,苏开娜,胡起秀.几种改进的MFCC特征提取方法在说话人识别中的应用[C]//和谐人机环境2005:第十四届全国多媒体技术、第一届全国普适计算、第一届全国人机交互联合学术会议(第一届全国和谐人机环境联合学术大会)论文集,2005年11月,昆明.北京:清华大学出版社,2006:336-342.

上一篇:流域生态下一篇:英语作为第二语言