语音信号处理课程改革

2024-07-14

语音信号处理课程改革(共6篇)

篇1:语音信号处理课程改革

《语音信号处理及加密》课程总结

本学期,我选修了《语音信号处理及加密》这门课。在本门课程的学习中,我系统地学习了现代语音编码技术的基本概念和基本知识,如什么是语音编码、对语音编码的要求、现代语音编码技术的作用和意义、现代语音编码系统的构成、分类以及主要性能指标等等,使我对现代语音编码有了初步的概要的了解。最近的二十几年来,随着数字通信、计算机、信号处理、微电子等相关技术的发展和广泛应用,语音编码技术发展非常迅速,取得了一系列突破性的成果,极大地促进了数字通信的发展和普及,是现代通信以及信息技术的一个亮点。所谓的现代语音编码技术,主要就是指最近二十几年发展起来并得到广泛应用的语音编码技术。

一、为什么要学习语音编码技术?

由于PCM的编码速率过高,不适应通信和信息技术发展的需要,为了压缩编码速率,减少传输占用的带宽,人们一直在致力于研究开发新的语音编码技术。这种强烈的客观需求是推动语音编码技术发展的巨大动力。另一方面,最近二十几年来,随着计算机、微电子、信号处理等相关技术的迅速发展和广泛应用,尤其是随着数字信号处理算法和器件(DSP芯片)的飞速发展和应用,为中、低速率语音编码器的发展和应用准备了必要条件。正是在这种情况下,从20世纪80年代以来的二十几年间,语音编码技术进入了一个飞速发展的时期。

现代语音编码技术就是指20世纪80年代以来发展起来的新的语音编码技术,这些新的语音编码技术的出现,极大地推动了通信和信息技术的发展,是现代通信发展史中的一个闪光点。

学习和掌握现代语音编码技术的基础知识、分析方法、关键技术和算法十分重要,只有了解和掌握这些已经成熟或基本成熟的方法和技术,才能很好地适应现代通信和信息技术发展的需要,才能研究开发新的方案和算法,提出具有自主知识产权的技术方案。

二、我学到了什么?

语音编码为信源编码,就是对模拟的语音信号进行编码,将模拟信号转化成数字信号,从而降低传输码率并使之可以在数字信道中传输。语音编码的目的是在保持一定得算法复杂程度和通信时延的前提下,占用尽可能少的通信容量,传送尽肯能高质量的语音。

语音编码按照传统的分类方法通常分为三类:波形编码、参数编码和混合编码。(一)波形编码

波形编码是将时间域或频率域或变换域信号直接编码为数字信号,力求使重建语音波形保持原始语音信号的波形形状。波形编码具有语音质量好、抗噪声性能强等优点。其缺点是所需用的编码速率高,一般在64~16Kb/s之间。波形编码是应用最早、人们最熟悉的语音编码技术。波形编码通常包括时域波形编码、频域波形编码和变换域波形编码三种类型。在课程学习中,我对这三种编码技术有了初步的了解。1)时域波形编码

课程中介绍了几种常用的时域波形编码,即脉冲编码调制(PCM)、增量调制(DM或∆M)、差分脉冲调制(DPCM)和自适应差分脉冲调制(ADPCM)。PCM是应用最早和最广泛的语音编码技术,在很长一段时间内,它一直在语音编码中占据统治地位,对于通信的数字化起到过极为重要的推动作用。近年来语音编码技术取得一系列突破性进展,出现了许多崭新的编码算法和技术,已经动摇了PCM的统治地位,但在通信和信息系统中,PCM的应用依然相当普遍。其工作原理是:在译码端,输入模拟信号经过取样、量化和编码,实现模/数转换,变换成为数字信号;到了译码端,再将接收到的数字信号通过译码、低通平滑滤波实现数/模转换,恢复为模拟信号。

DPCM是对相邻样值之间的差值进行编码,而不是对取样值本身进行编码,这样就能够降低编码速率。由于它是对预测误差信号进行编码,而预测误差信号的能量比输入信号的能量小得多,因此量化限幅电平也可以小得多。这样,在量化电平数不变的条件下,量化器的量化间隔就比输入信号的量化间隔小得多,使得量化噪声减少。而在保持信噪比不变的情况下,DPCM就可以通过减少量化比特数,降低编码速率。

ADPCM是采用自适应量化及高阶自适应预测技术的DPCM。自适应线性预测以帧为单位进行,根据本帧语音波形的时间相关性确定预测系数,使得预测误差信号的方差最小。

DM是DPCM的一种特殊形式。当系统的取样品率大于Nyquist频率许多倍时,相邻取样值之间的相关性很强,差分信号的幅度值会在一个很小的范围内变化,于是就可以用正负两个固定的电平来表示差分信号。因此,在DM中仅用1bit即可对差分信号进行量化,也就是只需指示出极性即可。2)子带编码

子带编码是一种应用比较广泛的语音编码技术,也是一种典型的频域波形编码技术。它利用带通滤波器(BPF)组首先将输入信号分割成若干个不同的小的频带(称为子带),通过等效于单边带调幅的调制过程,将各子带搬移到零频率附近,形成低通信号后,再以Nyquist速率对各子带输出取样,并对这些取样值分别进行通常的数字编码。在接收端,将各子带编码信号进行译码,并重新调制回原始位置,再将所有子带输出相加,恢复出原始信号。把语音信号分成若干子带进行编码主要有三个优点。首先,如果对不同的子带合理的分配比特数,就可能分别控制各子带的量化电平数目以及相应的重建信号的量化误差方差值,使误码率更精确地与各子带的信源统计特性相匹配。其次,通过调整不同子带的比特分配数值,可以控制总的重建误差频谱形状,使误差谱的形状适应人耳听觉特性,获得更好的主观听音质量。第三,子带编码的另一个优点是各子带内的量化噪声相互独立,被束缚在自己的子带内,这样就能避免输入电平较低的子带信号被其他子带的量化噪声所淹没。这种情况在非子带编码中就会发生,除非专门采用噪声谱形形成等技术来控制。3)变换域编码。

变换域编码又称为变换域波形编码,是语音编码中经常使用的编码方式之一,尤其是在宽频带高音质声频编码中,变换编码应用更为广泛。

变换域编码是将通常在时域描写的语音信号变换到另外一些变换域中描写(这些变换通常采用正交变换),然后再对变换后的信号进行量化和编码。在接收端,首先对通过信道传输的接收信号进行译码,然后进行反变换以恢复出原始输入的语音信号。在文献资料中经常介绍并在实际中获得广泛应用的集中主要正交变换是:K-L变换(K-LT或KLT)、W-H变换(W-HT或WHT)、Haar变换(HT)、斜变换(ST)、离散余弦变换(DCT)和离散傅里叶变换(DFT)。(二)参数编码

参数编码又称为声源编码或声码器,有时又成为分析-综合编码,它是将信源信号在频域或其他变换与提取特征参数,然后对这些特征参数进行编码或传输;在译码端再将收到的数字信号译成特征参数,根据这些特征参数重建语音信号。参数编码是通过对语音信号特征参数的提取和编码,力求使重建语音信号具有尽可能高的可懂度,即保持原语音信号的语意,但重建语音信号的波形语言语音信号波形却相差甚远。参数编码的有点是可实现低速率语音编码,其编码速率可低至2.4kb/s以下。其缺点是语音质量差,自然度较低,即使是熟人一般也定不出来讲话的人是谁。此外,参数编码的坚韧性也不够好。

参数编码的基础是语音的产生模型。根据这一模型对语音信号进行分析,就可以得到语音的谱包络、基音周期以及清浊音判决等参数。然后就可以对这些参数进行编码和传输。译码中所使用的声道滤波器的形式,与编码器中的谱包络分析器的形式必须相对应,才能够在同样的语音产生模型基础上合成出发送端的语音信号。(三)混合编码

语音混合编码是在采用线性预测编码(LPC)技术的语音参数编码的基础上,通过采用许多改进措施,使用合成分析法而形成的一种新的编码技术,是最近二十几年来在语音编码技术上的一种突破性进展,收到人们的普遍重视,发展迅速,应用广泛。它克服了波形编码和参数编码的缺点,吸收了它们的长处,在16~4kb/s速率上能够得到高质量的合成语音。多脉冲激励线性预测(MPE-LP)编码、规则脉冲激励线性预测(RPE-LP)编码和码激励线性预测(CELP)编码等都属于混合编码。

多脉冲激励线性预测(MPE-LP)编码是一种高音质语音编码算法,是第一个实用、有效的ABS-LPC类型的算法。在MPELPC中,不论是清音还是浊音,都用一帧中的有限多个脉冲经过最优化估值后作为激励信号。

规则脉冲激励线性预测(RPE-LP)编码是在MPELPC的基础上进一步改进而得到的。RPE-LTP编码方案的特点是算法简单,语音质量好,MOS分为4.0分。它是利用预测残差、感觉加权滤波器的单位冲击响应、位置脉冲模式等信息通过解线性方程组求得激励脉冲序列的,因此其算法较简单。

码激励线性预测(CELP)编码是目前应用最多的混合编码技术。CELPC采用分帧技术进行编码,帧长一般为20~30ms。CELPC基于合成分析(ABS)法的搜索过程、感觉加权、矢量量化(VQ)和线性预测(LP)技术。它用从码书中搜索出来的最佳码矢量,乘以最佳增益,代替线性预测的残差信号(余量信号)作为激励信号源。CELPC通常将每一语音帧分为2~5个子帧,在每个子帧内搜索最佳的码矢量最为激励信号。

三.学习体会

在现代通信中,随着科学技术的迅速发展,图像、数据等非话音信息在通信信息中所占的比例大大提高,而且这种提高的趋势仍然会继续下去。但是,到目前为止,在大多数通信系统中,传输醉倒的信息仍然是语音信号。在可以预见的未来的通信中,尽管语音信号在通信信息总量中所占的比例会有所下降,但仍然会是传输最多的信息。

语音编码技术在数字通信中的作用至关重要,现代语音编码技术已经成为通信技术中一个相当重要的学科,在各种通信网络中都得到广泛应用。在学习了这门课程之后,我对语音编码技术有了粗略的概念性的了解,并通过实验深入理解了语音编码及处理的基本原理,更加深刻地认识到语音编码的作用与意义。只有学习和掌握现代语音编码技术,我们才能更好地向着“降低编码速率,减少传输占用的带宽”的目标前进,推动语音编码技术的发展。

篇2:语音信号处理课程改革

应用MATLAB进行语音信号的处理是与我们所学课程及专业紧密相连的,有着很强的实践性。做这个课程设计的时候,并不是非常的顺利,我也有遇到很多困难。刚开始,我用自己的mp3录制的一个wav文件做语音信号处理,程序始终现实如下错误提示:

??? Error using ==> wavread Error using ==> wavread Data compression format(IMA ADPCM)is not supported.我在查阅了很多资料,在网上也查阅相关信息,花费了大量时间也没找出结果,最后发现在WAV格式的语音文件有两种格式,即PCM格式和IMA ADPCM格式,而在MATLAB中用wavread函数进行语音处理时,并不能直接处理IMA ADPCM格式的语音信号,经过格式转换之后(选择PCM格式),我运行出了正确的结果。刚开始由于对滤波器的滤波原理并不是很了解,于是我又翻出学过的数字信号处理课本,认真研究起各种滤波器了,这才使我明白了大多数滤波器是如何工作地,不再单单只是懂理论,理论与实际相结合是很重要的,只有理论知识是远远不够的,只有把所学的理论知识与实践相结合起来,从理论中得出结论。实验过程中,我感觉到初始语音信号和滤波输出后的语音信号在音色上有一定的差别,这说明了信号在处理、传输过程中有损耗。不管对于什么样的课题,其实也是有很多东西可以发掘的,这需要我们在平时多积累,多思考,只有这样,才能取得更大的进步,才能学有所用,学有所长。

通过这次设计,进一步加深了对数字信号处理的了解,让我对它有了更加浓厚的兴趣。通过这次课程设计使我懂得了,平时的理论知识只有通过自己动手做一个课题,从做这个课题的过程中发现问题,解决问题,这个学习的过程,会比我们平时只通过课堂上听讲得到的知识更加生动立体,跟让人记忆深刻。在设计的过程中,我发现同学间的互帮互助真的很重要。当我们有问题的时候,大家一起讨论,将自己的观点表达出来,当发现别人的观点与自己的不同的时候,我们通过查阅资料找到最终正确的答案,这个过程是互利互惠的。这也培养了我们以后走上工作岗位后的团队精神,对我们以后的为人处世都有很大帮助。同时我们在设计的过程中发现了自己的不足之处,对以前所学过的知识理解得不够深刻,掌握得不够牢固。

篇3:《语音信号处理》课程改革

关键词:教学改革,语音信号处理

“语音音信号处理”是研究用数字信号处理技术对语音信号进行处理的一门学科。它是在多门学科基础上发展起来的综合性技术, 涉及到语音学、语言学、生理学及认知科学、数字信号处理、模式识别和人工智能等许多学科领域。为适应当今电子信息处理的在本科教学中的要求结合学校所办专业的实际情况, 我校电子信息工程专业四年级开设该课程。该门课程的开设是对该专业高年级所学课程的一个合理有效的整合,它的开设为学生从理论学习到实践的接合提供了一个极好的平台,同时也为学生毕业实习提供了必要的支持。但由于该课程的理论性和实践性都很强,要求学生有较强的数学知识如概率统计、随机过程和专业基础知识如信号与系统、数字信号处理的理论基础;并涉及其它学科知识如模式识别、人工智能等。在教学过程中,出现了一些亟待解决的问题,如教学结构安排不合理,教学手段与教学资源不够丰富,实践条件不够理想等等。这些问题的解决将对该门课程教学质量起着极为重要的作用。

1《语音信号处理》课程在信号处理课程群中的地位与作用

目前,我校开设的信号处理课程群[1]涉及的相关课程有:《信号与系统分析》,《数字信号处理》,《语音信号处理》、《DSP原理及应用》,外围支持课程为:《Matlab程序设计》,《C程序设计》。其结构如图1所示,《信号与系统分析》和《数字信号处理》为理论基础课,《语音信号处理》为应用类,《DSP原理及应用》和《嵌入式系统》为实现类。语音信号处理是先导基础课程的延伸和理论知识应用的对象和场所,同时也为DSP原理的应用及嵌入式系统起支持作用。因此,《语音信号处理》课程在信号处理课程群中起到桥梁作用,为电子信息专业高年级学生提供一个将运用知识实践的平台,课程的开设将将有利于教学质量的提高,保证教学过程更加有效地进行,有效帮助学生进行学科知识的整合,建立合理的知识体系框架,通过对语音信号处理的学习与运用,将更加有效的回答:“为什么要学?学了有什么用?”。它是建设好信号处理课程类课程的关键环节,是基本理论与运用相接合的重要平台。

2 课程建设的主要内容

《语音信号处理》课程的改革,将以实践教学为根本出发点,以实践应用为落脚点, 突出教学手段与教学实践两个环节。展开课程的体系结构、教学内容、教学方法及实践环境等方面的改革与完善。

2.1 优化课程体系结构

课程体系的优化为该门课程建设提供前提与条件,语音信号处理是以数字信号处理和信号以系统分析为基础的, 所以这三门课程应该是先后紧密串行开设, 且一定要先给学生讲授《数字信号处理》和《信号以系统分析》的内容,而外围支持课程为《MATLAB程序设计》。我们曾尝试过如图2所示的开课程流程,保证了信号类课程的串行开设,《MATLAB程序设计》与《语音信号处理》并行开设的课程结构。由于《语音信号处理》是以MATLAB为辅助平台进行教学和实践,这种课程结构的设置出现的问题是语音信号处理需要直接调用MATLAB函数,用MATLAB编程实现语音信号。但由于这两门课程是同时开设,常常出现学生缺乏必要的MATLAB运用技能。在讲授《语音信号处理》时,要补充MATLAB内容;在实践环节中,学生也处于比较尴尬的境地。为此,我们提出以下如图3的课程结构调整,将《MATLAB程序设计》开设在《数字信号处理》与《语音信号处理》之间;同时调整《MATLAB程序设计》课程内容为以信号处理的运用为中心,强调MATLAB编程的基本技能。通过以上调整,很好的解决了上述问题,有效提高了《语音信号处理》授课与实践质量。

2.2 调整教学内容

教学内容的调整是课程建设的指导原则与方向,是课程建设的主体内容。《语音信号处理》课程主要由语音信号分析、语音识别技术及语音应用三方面。由于课程授课学时少,所以《语音信号处理》课程内容主要讲授两大部分:语音信号分析和基本识别技术。第一部分为语音信号分析, 主要从时域、频域、倒谱域对语音信号进行预处理, 时频域利用前面数字信号处理里面讲授过,并且在《MATLAB程序设计》课程中已涉及到, 因此采用讲授重点、关键点,通过实践强调时域的信号处理的技能。对于倒谱域是新内容, 进行了重点教学。成为信号分析部分的重点与难点。第二部分是识别技术, 主要讲授了时间规整(DTW)技术与隐马尔科夫(HMM)技术。第三部分的语音信号的应用方面, 可以说是理论与实践的结合,具有综合性、实用性强的特点。主要内容有语音编码、语音识别、语音合成、语音增强等内容。这一部分内容在《语音信号处理》中不作为讲授内容,而是通过设立为学生毕业设计的选题内容进行展开,通过二届毕业生的实践,证明是一个非常有效的方式,取得了一定成绩。

2.3 改进授课方式

授课方式的改进是课程建设中的一个中心环节,它是教学内容得以顺利开展、提高教学质量的关键措施,课程以Matlab为平台[2],构建起该课程的多媒体教学课程架构。

1) 以Matlab为平台的多媒体教学手段。多媒体教学已经成为一种比较普及的教学手段, 可以让学生理解和掌握更多的知识点。充分利用多媒体的特点,从视觉、听觉上全方位的应用。在讲授VQ、HMM时会涉及到大量的算法, 算法流程用多媒体教学更容易讲明白, 学生对图示的流程也易于接受。利用软件Matlab编程实现, 让学生直接感受语音信号处理的基本技术及应用,有助于学生形象化地理解教学内容,调动了学生的学习积极性。

2) 进行双语教学。由于该课程具有前沿性的特点,课程采用双语教材,讲义,进行双语授课,为学生提供该领域更新的国内外研究成果和研究动态。

2.4 丰富实验内容,培养学生的团队合作能力

语音信号处理是一门理论性强、实用面广、内容新、难度大的交叉学科。实验是对内容理解和掌握的检验和总结。实践教学内容的丰富是课程建设中的另一个重要环节,在实验教学环节中,以建立了一个以Matlab为平台的语音处理实验系列,开设了两类实验,一类的基础篇,另一类是提高篇。基础篇的实验内容与教学内容紧密联系,如ZCR的计算,Volume的计算,端点检测的实现,MFCC的提取等实验内容。提高篇是设计了一系列有趣、实用性强的综合实验,如用MATLAB编写0-9十个数字的语音识别程序,哼歌检索等实验,由于这类实验有一定难度,所以要求学生以3~5人一组完成,有意培养学生在学习过程中的团队合作精神。

2.5 注重科研联系教学

语音信号处理是目前发展最为迅速的信息科学技术之一,其研究涉及一系列前沿课题。因此,在教学实践中,除了教授学生语音信号处理的基础、原理、方法和应用等基本知识,还向学生介绍该学科领域近年来取得的一些新成果、新进展和新技术,如MLP语音特征参数提取,情感信息处理等,进一步调动学生对该门课程的兴趣。加强教学和科研互动,使其相互作用、相互影响,共同提高教学和科研水平。

3 结束语

《语音信号处理》通过优化课程体系结构,调整教学内容,改进授课方式、丰富实验内容和注重科研联系教学的改革,极大地调动了学生的学习积极性,锻炼了学生在语音信号处理的实践能力,该门课程的改革实践在第二轮的教学中已初显成效。课程的完善是一个多方面长期的不断探索、逐步完善的过程,今后在教学过程中,将继续进行教学改革研究,不断完善教学过程,提高教学效果与质量。

参考文献

[1]欧阳缮, 欧阳宁, 刘庆华.信号处理课程群的建设与改革实践[J].大众科技, 2008 (10) :185-186.

篇4:浅谈语音处理技术

关键词:语音用户界面;VoiceXML;语音技术

中图分类号:G202文献标识码:A文章编号:1009-3044(2007)12-21612-01

The Tray Talks about the Technology of Pronunciation Treatment

BAO Yuhong1,CAO Zhong2

(1.The Occupation Tec College of Changji Computer Department,Changji 831100,China;2.The Occupation Tec College of Changji,Changji 831100,China)

Abstract:Voice recognition is a multidisciplinary cross frontier branches of science,it needs the field professional knowledges such as linguistics,psychology, project and computer.Be going to be in progress to voice recognition and the speech synthesis technology studying,to want to be in progress to person in the field of pronunciation passage lower interactive mechanism, behavior way etc.too studying not only.

Key words:VUI;VoiceXml;Voice Technology

1 引言

语音处理技术是语音用户界面设计和开发的基础,为了有效的设计语音界面,我们应该也必须了解语音处理技术的基本概念和发展现状。主要包括语音合成、自动语音识别、双频多音和打断功能几个方面。

1.1语音合成技术

语音合成是人机语音交互的一个重要组成部分,它赋予了机器“说”的功能,并且目的是让机器象人那样说话。在20世纪60年代后期到20世纪70年代后期,实用的英语语音合成技术系统就已经首先被开发出来,随后各种语言的语音合成系统也相继被开发出来,包括中文,如清华大学的新华音霸KingVoice1.0[7]。现在语音合成技术己经能够实现任意文本的语音合成。语音合成技术的应用领域十分广泛,如:电信服务、自动报时、报警、公共汽车或电车自动报站、电话查询服务业务、语音咨询应答系统,打印出版过程中的文本校对、电子邮件、各种电子出版物的语音阅读等。这些应用都已经发挥了很好的社会效益。

文语转换技术TTS(Text to Speech)是语音合成技术中的一类,也是语音合成技术的主要方向。TTS是指通过一定的硬件、软件将文本转换为语音,并由计算机或电话语音系统等输出语音的过程,并尽量使合成的语音具有良好的自然度与可懂度[8]。使用该技术,业务提供者不用预先录制业务语音,就可以直接播放文本信息,满足信息的动态性和实时性的需求。文语转换系统能够提供一个良好的人机交互界面,可以用于各种智能系统,如信息查询系统,自动售票系统;也可作为残疾人的辅助交流工具,如可以用作盲人的阅读工具或作为聋哑人的代言工具;从长远看,文语转换系统还可以用于通信设备或一些数字产品中,如手机和PDA等,而且韩国己经推出了TTS功能手机。

文语转换系统的三个核心部分是文本分析、韵律控制和语音合成这三个模块。

其结构如图1所示。

图1 文语转换结构模型

1.1.1文本分析

文本分析的主要功能就是使计算机能够识别文字,并根据文本的上下文关系在一定程度上对文本进行理解,并知道要发什么音、怎样发音,并将发音的方式告诉计算机,甚至还需要让计算机知道文本中的词、短语、句子,以及抑扬顿挫。文本分析的工作过程可以分为四个主要步骤;

(1)将输入的文本规范化。用户可能的拼写错误将在这个过程中被处理,并将文本中出现的一些不规范或无法发音的字符过滤掉;

(2)分析文本中的词或短语的边界,确定文字的读音,同时在这个过程中分析文本中出现的数字、姓氏、特殊字符以及各种多音字的读音方式;

(3)根据文本的结构、组成和不同位置出现的标点符号,来确定发音时语气的变换以及不同音的轻重方式;

(4)文本分析模块将输入的文字转换成计算机能够处理的内部参数,便于后继模块进一步处理并生成相应的信息。

1.2.1韵律控制

任何人说话都有韵律特征,有不同的声凋、语气、停顿方式,发音长短也各不相同,这些都属于韵律特征,而韵律参数则包括了能影响这些特征的声学参数,如:基频、音长、音强等。最终系统能够用来进行语音信号合成的具体韵律参数,还要靠韵律控制模块。

1.3.1语音合成

文语转换系统的合成语音模块一般采用波形拼接来合成语音的方法,其中最具代表性的是基音同步叠加法(PSOLA)。其核心思想是,直接对存储于音库的语音运用PSOLA算法来进行拼接,从而整合成完整的语音。然而,基于波形拼接方法的系统有一个致命缺点,就是它的音库非常庞大,需要占据较大的存储空间。这对系统推广到掌上电脑或一些小的终端设备上非常不利。另外,在拼接时,两个相邻的声音单元之间的音谱的不连续性也容易造成音质的下降。目前,解决这些问题较好的途径是把基于规则的波形拼接技术和参数语音合成方法结合起来。

1.2自动语音识别ASR(Automatic Speech Recognition)

自动语音识别(ASR)就是让机器具有“听”的功能。它是计算机系统接收人的语音输入并返回对应于该语音输入的单词、短语或数字的过程。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分。

(1)语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序列。

(2)声学模型与模式匹配(识别算法):声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,从而得到最佳的识别结果。

(3)语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。对小词表语音识别系统,往往不需要语言处理部分。

语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别能力。

1.3双音多频

双音多频DTMF(Dual Tone Multi-Frequency)信令,已经使用在全世界范围内的按键式电话机上,因其提供更高的拨号速率,迅速取代了传统转盘式电话机使用的拨号脉冲信令。近年来DTMF也应用在交互式控制中,诸如语言菜单、语言邮件、电话银行和ATM终端等。双音多频(DTMF)系统通过电话网络中的硬件和软件对按键式电话的键盘输入进行翻译,实现音频播放。每个按键都能产生一个可被识别的独一无二的音频。该系统使得用户可以使用电话键盘将数字信息输入VoiceXML应用程序,并且由程序负责接受和理解这此数字信息。

1.4打断功能

用户通过双音多频(DTMF)输入或者语音输入来中断提示信息的播放,这种功能称为打断功能,这种打断功能有着非常重要的作用。有效的打断方案的目的是要最大限度地缩短最终用户请求停止播放提示到系统实际停止播放提示之间的时间。打断响应时间大约为几百毫秒或更短。

由于大多数语音门户结构均通过电话资源来支持DTMF,因此通过这个界面来传递TTS的输出很容易支持有效的打断机制。但是,对语音打断机制的支持在大多数情况下可、如DTMF打断机制那样有效。语音打断机制要求有一个活动ASR资源和TTS资源连接到相同的端日,连接到相同端口后,当提示播放时,用户发出的语音命令就可以“立即”被识别。当用户的语音命令被认定为有效命令时,语音处理器就被告知停止提示。

2 结束语

语音识别技术是2000年至2010年信息技术领域十大重要技术之一,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术的应用已经成为一个具有竞争性的新兴高技术产业。语音识别是模式识别的一种,它是让机器通过识别和理解过程将语音信号转变成相应的模型参数。作为一个专门的研究领域,语音识别又是一门交叉学科。

参考文献:

[1]顾良,刘润生.改进汉语数码语音识别中的语音特征提取性能[J].电路与系统学报,1997,2(4):1-6.

[2]姚涵珍,陆文秀.TTS中文语音合成技術的研究与实践[J].天津科技大学学报,2004, 3,Vo1.19,No.l,65-67.

[3]刘占军,计算机语音系统软件的研究与开发[J].计算机应用,2001.5,Vol.21.No.5,67-68.

篇5:DSP语音信号处理

语音信号处理是研究数字信号处理技术和语音信号进行处理的一门学科,是一门新型的学科,是在多门学科基础上发展起来的综合性技术,它涉及到数字信号处理、模式识别、语言学。语音信号处理是研究用数字信号处理技术对语音信号处理的一门学科。处理的目的是要得到一些语音参数以便高效的传输或存储;或者是通过处理的某种运算以达到某种用途的要求。语音信号处理又是一门边缘学科。如上所诉,它是“语言语音学”与“数字信号处理”两个学科相结合的产物。

语音信号处理属于信息科学的一个重要分支,大规模集成技术的高度发展和计算机技术的飞速前进,推动了这一技术的发展。在数字音频技术和多媒体技术迅速发展的今天,传统的磁带语音录放系统因体积大、使用不便、放音不清晰而受到了巨大挑战。本次课程设计提出的体积小巧,功耗低的数字化语音存储与回放系统,可以有效的解决传统的语音录放系统在电子与信息处理的使用中受到的限制。

本文提出了语音信号处理课程建设的实验环节中的一些考虑,作为专业课程的学习,实验内容不能仅仅停留在验证性实验上,还应增加实验延伸的设计要求,是学生加深对理论分析认识的同时,强调培养学生的实际动手能力和知识综合运用能力。从而提高语音信号的教学和实验的质量。实验内容采用MATLAB编程实现,不仅易于语音信号处理的实现,更易引导学生完成实验延伸的设计。

第一章 绪论

1.1选题背景

在我们的现实生活中从磁带、录像带到CD、VCD、DVD;从黑白电视机、彩色电视机、高清晰度电视机到具有数字信号处理功能的电视机;从留声机、录音机到语音信箱;现在正出在模拟信息到数字信息的变革之中,传统的磁带语音录放系统因其体积大,使用不便,在电子与信息处理的使用中受到许多限制。

虽然,目前广播电视系统尚未实现真正的数字化,相信在不久的将来,真正的数字电视、数字收音机、数字收录机将进入家庭。所以,研究音频信号的数字化存储、处理和回放系统有着很重要的现实意义。

通过设计语音信号实验箱可以对语音信号实现各种形式的变换,因此学会对语音信号的处理,也可自行研究将此语音处理技术应用到现实生活中。

1.2课题意义

语音信号处理的一门比较实用的电子工程的专业课程,语音是人类获取信息的重要来源和利用信息的重要手段,通过语言相互传递信息是人类最重要的基本功能之一,语音是人类特有的功能,它是创造和记载几千年来人类文明史的根本手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。

语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域刚也涉及面很广的交叉学科。

第二章 课程设计要求及系统原理

2.1 课程设计基本要求

(1)学会MATLAB的使用,掌握MATLAB的程序设计方法;

(2)掌握在windows环境下语音信号的采集方法;

(3)掌握数字信号处理的基本概念,基本理论和基本方法;

(4)掌握MATLAB设计方法;

(5)学会用MATLAB对信号进行分析和处理。

2.2 系统基本原理

语音采集原理是,人耳能听到的声音是一种范围为20Hz—20kHz,而一般语音频率最高为3.4kHz。语音的采集是指语音声波信号经麦克风和高频放大器转换成有一定幅度的模拟量电信号,然后再转换成数字量的全过程。

本次设计的基本原理是对语音的录音和放音进行数字化控制。其中,关键技术在于:为了增加语音存储时间,提高存储器的利用率,采用了非失真压缩算法对语音信号进行压缩后再存储,而在回放时再进行解压缩;同时,对输入语音信号进行数字滤波以抑制杂音和干扰,从而确保了语音回放的可靠质量。

通过设计一个GUI实验箱,并添加相应的控制控件,添加一个声音文件,通过MATLAB编程,使其通过各种按钮实现语音信号处理的各种功能,最后做成一个完整的语音信号处理实验箱。

第三章 设计方案论证

3.1 设计理论依据

3.1.1采样定理:

在进行模拟/数字信号的转换过程中,当采样频率fs.max大于信号中最高频率fmax的2倍时,则采样之后的数字信号完整的保留了原始信号中的信号,一般实际应用中保证采样频率为信号最高频率的5—10倍;采样定理又称奈奎斯特定理。

3.1.2采样频率:

采样频率是指计算机每秒钟采集多少个声音样本,是描述声音文件的音质、音调、衡量声卡、声音文件的质量标准。采样频率越高,即采样的间隔时间越短,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也就越精确,采样频率与声音频率之间有一定的关系,根据奈奎斯特理论,只有采样频率高于声音信号最高频率的2倍的时候,才能把数字信号表示的声音还原成为原来的声音,这就是说采样频率是衡量声卡采集、记录和还原声音文件的质量标准。

3.1.3采样位数与采样频率

采样位数即采样值或取样值,用来衡量声音波动变化的参数,是指声卡在采集和播放声音文件时候使用数字声音信号的二进制为数。采样频率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。

采样位数和采样频率对于音频接口来说是最为重要的两个基本指标,也是选择音频接口的两个重要标准。无论采样频率如何,理论上来说采样的位数决定了音频数据最大的力度范围。每增加一个采样位数相当于力度范围增加了6dB。采样位数越多则捕捉到的信号越精确。对于采样率来说你可以想象它类似于一个照相机。显然采样率越高,计算机提取的声音越多,对于原始的还原也越加精确。

第四章 图形用户界面设计

4.1 图形用户界面概念

图形用户界面或图形用户接口是指采用图形方式显示的计算机操作环境由用户接口。与早期计算机使用的命令行界面相比,图形界面对于用户来说更为简便易用。

GUI是MATLAB提供的图形用户界面开发环境,提供了一系列用于创建图形用户界面的工具,从而简化界面布局和编程工作。

4.2用户界面设计

4.2.1 GUI设计模板

在MATLAB主窗口中,选择File菜单中的New菜单项,再选择其中的GUI命令,就会显示图形用户界面的设计模板。

MATLAB为GUI设计一共准备了四个模板,分别是Blank GUI、GUI with Uicontrols、GUI with Axes and Menu、Modal Question Dialog。

当用户选择不同的模板时,在GUI设计模板界面的右边就会显示出与该模板对应的GUI图形。

4.2.2 GUI设计窗口

在GUI设计模板中选中一个模板,然后单击OK按钮,就会显示GUI设计窗口,选择不同的GUI设计模式时,在GUI设计窗口中显示的结果是不一样的。

GUI设计窗口由菜单栏、工具栏、空间工具栏以及图形对象设计区等部分组成。GUI设计窗口的菜单栏有File、Edit、View、Layout、Tools和Help六个菜单项,使用其中的命令可以完成图形用户界面的设计操作。

4.2.3 GUI设计窗口的基本操作

(1)前面板的设计:在GUI设计窗口创建图形对象后,通过双击该对象,就会显示该对象的属性编辑器。如下图所示。例如,创建一个Push Button对象,并设计该对象的属性值。

图4-1 按钮属性编辑器

通过以上的按钮属性编辑器可以根据个人情况对按钮的名称、颜色、大小等方面的属性进行修改,使按钮在视觉上变的更加完美。

(2)按钮功能的实现:在GUI设计窗口创建按钮后,通过右键单击按钮,选择View callbacks下的callback对相应的按钮进行编程,使按钮实现相应的功能,如下图所示对按钮的响应功能进行设置。

图4-2 按钮功能编辑器

进入到按钮程序编辑窗口,通过编程即可实现按钮的相应功能,如下图:

图4-3 按钮的编程实现界面

通过对各个按钮控件的修改,和对m文件程序的添加就完成对GUI窗口的设计,最后得到的图形化操作界面如下图所示:

图4-4 图形化操作界面

4.2.4 语音的录入与打开

在MATLAB中,[y,fa,bits]=wavread(‘Blip’,[N1 N2]);用于读取语音,7

采样值放在向y中,fs表示采样频率,bits表示采样位数。[N1 N2]表示读取从N1点到N2点的值。

Suond(x,fs,bits);用于对声音的回放,向量y则就代表了一个信号也就是说可以像处理一个信号表达式一样处理这个声音信号。

第五章 课程设计的软件实现

5.1 部分函数语法格式

读wav文件: x=wavread(‘filename’)数组a及b中元素相乘: a.*b 创建图形窗口命令: figure 绘图函数: plot(x)坐标轴: axis([xmin xmax ymin ymax])坐标轴注解: xlabel(‘„’)ylabel(‘„’)图例注解: legend(‘„’)一阶高通滤波器: y=filter([1-0.09375],1,x)分帧函数: f=enframe(x,len,inc)x为输入语音信号,len指定了帧长,inc指定帧移,函数返回为nXlen的一个矩阵,每一行都是一帧数据。

5.2语音信号处理的相关函数

5.2.1语音信号的短时谱:

周期性声门波可表示为:

(5-1)其中,g[n]是声门波的单周期的波形,p[n]是间隔为P的周期采样序列。当u[n]通过线性非时变声道,且该声道的单位冲击响应为h[n]时,声道输出为:

(5-2)为了观察一段语音,需要降生到输出乘以一个一时刻τ 为中心的窗函数 w[n,τ] ,即得到:

(5-3)

这段语音信号的频域表达式为:

(5-4)

即语音信号的谱包络为

语谱图就是现实时变频谱幅度特征的图形表达式为:

(5-5)

将语音信号短时谱程序写入到MATLAB中得到单色语谱图的波形如下:

图5-1 语音信号单色语谱图

5.2.2 自相关方法估计语音信号的声道参数:

由均方预测误差最小的得到正则方程:

(5-6)

其中,(5-7)

在最佳解时的误差为

(5-8)

在自相关法中式5-6,式5-8变为

(5-9)

(5-10)由式5-9和式5-10可列出方程组式5-11

(5-11)

解方程组式5-9求出线性预测系数,通过误差式5-11可求出增益G

(5-12)

加窗后信号频谱图如下:

图5-2 加窗后信号频谱图

通过以上的方法,改变参数分别求得4极点模型频率响应和6极点模型频率响应,6极点波形如下图所示:

图5-3 六极点波形图

最后通过以上方法用一个函数分别实现以上三个功能,三个波形显示在一个界面,通过观察图形,查看它们之间的分别。三者比较所得到的波形如下:

图5-4 三者比较波形图

5.2.3 基音周期检测

数据为浊音语音信号speech1_10k(10000样点/秒)用25ms的汉明窗对语音信号speech1_10k进行加窗处理,并画出所得到的加窗信号的自相关函数,再用根据中心消波法及三电平中心消波法原理改进程序,最后对比中方法基音检测的效果并分析结果。

实验原理及方法

(1)自相关检测原理:对于离散的数字语音信号序列x(n),如果周期N,则自相关函数也是同周期的周期函数。即:x(n)=x(n+N)。清音信号没有周期性,他的自相关函数也没有周期。浊音新海具有准周期性。自相关基音检测正是利用这一性质对语音信号进行基音检测的。

(2)中心消波法检测原理:中心消波处理是使用如下图所示的中心消波函数进行处理的:

图5-5 中心消波检测图

(3)三电平消波法原理:为了减少自相关计算中的乘法运算,可以把上述中心消波以后的信号y(n)的自相关用两个信号的互相关代替,其中一个信号是y(n)另一个信号是对y(n)进行三电平量化产生的结果。且这个信号有三种可能的取值,因而这里的互相关计算只需要做加减法,而这个互相关序列的周期性与y(n)的自相关序列是近似相同的。

三电平法对语音信号处理得到的波形如下:

图5-6 三电平法波形图

中心消波法得到的波形如下图:

图5-7 中心消波法波形图

5.3 GUI实验箱操作界面设计

通过对各个控件的编程和对参数的设计,最后得到的GUI实验箱操作界

面如下图所示,通过界面上的各个按钮即可实现相应的功能。

图5-8 GUI实验箱操作界面

第六章 心得体会

通过本次课程设计完成了对语音信号的读取与打开,与课题的要求十分相符;初略的完成了界面的设计,但也存在相当的不足,达到了打开语音文件,显示已定波形。语音信号处理时语音学与数字信号处理技术相结合的交叉学科,将语音当做一种特殊的信号,即一种“复杂向量”来看待。也就是说,体现了数字信号处理技术。

本次课程设计时希望将数字信号处理技术应用与某一实际领域,这里就是指对语音的处理。作为存储与计算机中的语音信号,其本身就是离散化了的向量,我们只需要将这些离散的量提取出来美酒可以对其进行处理了。

本次课设,用到了处理数字信号的强有力工具MATLAB,通过MATLAB李的几个命令函数的调用,很轻易的在实际化语音与数字信号的理论之间搭了一座桥。

最后,还利用了MATLAB的另一强大功能——GUI界面设计。设计出了一个建议的用户应用界面,可以让人实现界面操作。

通过本次课程设计让我更加了解了语音信号处理在现实中的强大的应用空间,同时查阅了很多相关的资料,应用MTALAB软件来完成,熟练掌握了MATLAB软件,本次课程设计要求用GUI设计模块,查阅了很多资料,更加深刻的陆奥了了这方面知识。

本次课程设计,我明白了理论的学习需要在实践中才能得到巩固。在课程设计中,只有动手慢慢研究,才能真正了解MATLAB软件平台中可以直接设计数字滤波器的各个函数的调用,对设计GUI实验箱的所有函数的运用有了比较好的认识。

通过这个课程设计,我学到了很多MATLAB和语音信号的知识,提高了自己在语音信号设计方面的知识能力,动手能力和思维能力都得到了一定的提升,希望自己以后可以更多的继续学习这一门课程设计方面的知识。

附 录

1.源程序代码:

参考文献

[1] 刘庆华 陈紫强《基于MATLAB和DSP的语音信号处理课程的建设》 电气电子教学学报 2006 10(3):124-128 [2] 张力 《MATLAB在语音信号处理辅助教学中的应用》 电气电子教学学报 2005 27卷2期:96-99 [3] 邓立新 杨震《信息技术融入“语音信号处理”课程的教学实践》电气电子教学学报 2005 27卷5期:13-16 [4] 胡航,《语音信号处理》 哈尔滨工业大学出版社 2005年2月,第二版:135-137 [5] 张平,《MATLAB基础与应用》 北京航空航天大学出版社 2007,第二版:85-92 [6] 谢德芳 《数字信号处理》 北京科学出版社 2005,第一版

[7] 张雄伟 《现代语音处理技术及应用》 机械工业出版社 2006,第二版 [8] 吴家安 《语音编码技术及应用》 机械工业出版社 2006 第一版 [9] 刘幺和 宋庭新 《语音识别与控制应用技术》 科学出版社 2008 第二版

[10] 李昌立 吴善培 《数字语音编码实用教程》 人民邮电出版社 2004 第一版

[11] 姚天仁 《数字语音处理》 华中科技大学出版社 1992 第二版 [12] 朱敏雄 《计算机语音技术(修订版)》 北京航空航天大学出版社 2002 第一版

篇6:语音信号处理课程改革

学号姓名注:1)此次实验作为《数字信号处理》课程实验成绩的重要依据,请同学们认真、独立完成,不得抄袭。

2)请在授课教师规定的时间内完成;

3)完成作业后,请以word格式保存,文件名为:学号+姓名

4)请通读全文,依据第2及第3 两部分内容,认真填写第4部分所需的实验数据,并给出程序内容。

1.实验目的(1)学会MATLAB的使用,掌握MATLAB的程序设计方法

(2)掌握在windows环境下语音信号采集的方法

(3)掌握MATLAB设计FIR和IIR滤波器的方法及应用

(4)学会用MATLAB对语音信号的分析与处理方法

2.实验内容

录制一段自己的语音信号,对录制的语音信号进行采样,画出采样后语音信号的时域波形和频谱图,确定语音信号的频带范围;使用MATLAB产生白噪声信号模拟语音信号在处理过程中的加性噪声并与语音信号进行叠加,画出受污染语音信号的时域波形和频谱图;采用双线性法设计出IIR滤波器和窗函数法设计出FIR滤波器,画出滤波器的频响特性图;用自己设计的这两种滤波器分别对受污染的语音信号进行滤波,画出滤波后语音信号的时域波形和频谱图;对滤波前后的语音信号进行时域波形和频谱图的对比,分析信号的变化;回放语音信号,感觉与原始语音的不同。

3.实验步骤

1)语音信号的采集与回放

利用windous下的录音机或其他软件录制一段自己的语音(规定:语音内容为自己的名字,以wav格式保存,如wql.wav),时间控制再2秒之内,利用MATLAB提供的函数wavread对语音信号进行采样,提供sound函数对语音信号进行回放。

[y,fs,nbits]=wavread(file),采样值放在向量y中,fs表示采样频率nbits表示采样位数。Wavread的更多用法请使用help命令自行查询。

2)语音信号的频谱分析

利用fft函数对信号进行频谱分析

3)受白噪声干扰的语音信号的产生与频谱分析

①白噪声的产生:

N1=sqrt(方差值)×randn(语音数据长度,2)(其中2表示2列,是由于双声道的原因)然后根据语音信号的频谱范围让白噪声信号通过一个带通滤波器得到一个带限的白噪声信号N2;

带通滤波器的冲激响应为:

hB(n)=c2

sinc(c2

(n))c1

sinc(c1

(n))其中ωc1为通带滤波器的下截止频率,ωc2为通带滤波器的上截止频率。其中下截止频率由每个人的语音信号的最高频率确定 滤波器的长度N由滤波器的过渡带确定,一般不宜太小(大于1000),α=(N-1)/2; ②信号y通过低通滤波器,得到信号为x1

低通滤波器的冲激响应为:

hL(n)c1sinc(c1

(n))其中的ωc1与上面的带通滤波器的下截止频率一致,滤波器的长度N也于上面的带通滤波器一致,α=(N-1)/2

③将N1加上x1得到一个受到噪声污染的声音信号

4)据语音信号的频带情况,设计FIR和IIR两种滤波器

5)用滤波器对受污染语音信号进行滤波

FIR滤波器fftfilt函数对信号进行滤波,IIR滤波器用filter函数对信号进行滤波

6)比较滤波前后信号的波形与频谱

7)回放滤波后的语音信号

4.实验数据及实验程序

实验数据

1)原始语音信号的时域波形和频谱图及语音信号的频带范围

2)带限白噪声信号的时域波形和幅频特性

3)受污染语音信号的时域波形和幅频谱图

4)滤波器的频响特性图

FIR滤波器的幅频响特性图

IIR滤波器的幅频响特性图

5)滤波后语音信号的时域波形和频谱图

6)滤波前后的语音信号时域波形对比图和幅频谱对比图

7)将实验的资料的电子文档交给班长(建立一个文件夹,里面包括:①实验报告的电子版;②采集的语音信号电子文件;③受污染的语音信号及滤波后的语音信号存在文件名为“姓名+学号.mat”文件的文件中)

实验程序:

1)实验主程序

2)FIR滤波器子程序

上一篇:校本教研指导下一篇:护理内外科试题