语音与书写识别

2024-06-28

语音与书写识别（精选八篇）

语音与书写识别篇1

2014年8月20日, 在国家会议中心, 科大讯飞宣布其人工智能的整体战略——讯飞超脑计划, 正式成立。科大讯飞超脑计划的首次发布时, 科大讯飞就对人工智能做了一个清晰的分割和鉴定, 它把人工智能划分成三个层面。第一个层面是运算智能, 让机器具备了能存会算的能力;第二个层面是感知智能, 让机器能听会说能看会认;但是最有挑战性的, 也是我们人区别于动物的最大的能力, 就是我们的认知智能。即认识和知道, 能理解会思考, 这样一个能力。

人工智能发展三要素——深度神经网络、大数据和涟漪效应当

世界因为人工智能而改变的时候, 我们开始思考为什么人工智能可以在过去的十年取得如此大的进步。胡郁先生认为, 其实, 虽然在整个学术界众说纷纭, 但是慢慢的大家越来越趋向于三个关键的因素。即, 深度神经网络、大数据和涟漪效应。

深度神经网络其实只是统计模式识别的一个很小的分支。但是它却和我们现在大的IT产业的发展背景很好地结合在一起。因为现在统计模式识别办法想要发挥出人工智能的威力, 就要有深度神经网络能够更好的使用以及互联网和移动互联网时代得到越来越多的大数据为大基础。

涟漪效应是科大讯飞提出的, 是指互联网和移动互联网, 把每个用户的经验和知识数据加入到我们核心技术研发过程中来的一种效应。像是一个水滴滴到水面的时候, 这个水面相当于所有的用户人群, 而这个水滴所激发起来的这个涟漪, 其实是这个核心技术一开始的效果。一开始水滴滴入水面振幅会很大, 说明它的效果并不好。就像大家今天看到科大讯飞的语音识别系统已经非常准确, 但是在2010年科大讯飞第一次发布会发布其语音输入法的时候, 识别率惨不忍睹。在实验室里面90%的正确率的识别系统放到真实环境下一用, 正确率只有55%。但是只要这个系统在上线运行中, 就会不断地有用户, 他们会不断的贡献数据, 从而为科大讯飞系统不断改进提供助力。当这个水波纹扩散出去的时候, 有更多人用的时候, 系统已经是改进过以后的系统。当这个水波纹已经能覆盖1000万人, 系统改进了以后, 当一千万零一个人来使用这个系统的时候, 对他来讲是第一次, 他会觉得:哇!怎么这么好。有了这三点我们继续可以在语音和图像的道路上持续的寻找下去。

科大讯飞的发展历程

发布会上, 胡郁先生为我们展示了科大讯飞在人工神经网络方面的发展。其实真正将神经网络应用在语音识别和图像识别方面并取得成功应该是在2010年的7月份。而在2011年9月份, 科大讯飞的研究人员在中国科学技术大学, 就跟邓力研究员进行了探讨。在2011年的年底, 科大讯飞就将深度神经网络用于语音识别上, 用于中文语音识别上第一个系统上线使用。在2012年4月份, 在日本召开的, 由微软研究院的移动研究院做的报告中, 将谷歌、微软和讯飞, 列为当时世界上, 最先将深度神经网络推荐使用的几个公司和研究机构。此后, 他们在2012年将深度神经网络用于参数语音合成。利用了深度神经网络的参数语音合成系统, 比我们原来使用的也是当时世界上最先进的, 基于隐马尔可夫模型的语音合成系统效果提升30%。现在已经成为整个业界的标配。而在2013年, 科大讯飞在语种识别方面, 第一次提出了一种新型构型的深度神经网络的构型。他们将当时的语种识别技术, 在nist测试的最先进的系统的基础上, 又提高了30%。现在也是整个业界标准的语种识别构型系统。2014年科大讯飞超脑技术发布, 在超脑计划里面他们又将深度神经网络应用在更多方面。进入2015年后, 我们看到了越来越多的成果。

科大讯飞的最新进展——不一样的递归神经网络和卷积神经网络卷积神经网络

我们听了很长一段声音之后, 就能够记忆起原来的东西, 这是人脑的一个非常特别的功能叫做记忆能力。人脑的这个记忆能力非常特别, 它包括瞬时记忆、短时记忆和长时记忆。深度神经网络能够比较好地模仿人类的大脑, 但是深度神经网络对于短时记忆的处理其实比较弱。最近国际上有一个新的名词叫做RNN (Recurrent Neural Network, 循环神经网络) , 也是我们讲的回归神经网络或递归神经网络。那么它相对传统神经网络的唯一改进就是他可以用前一个时刻的信息输入到当前时刻, 进而把原来的一些历史信息能够输入到当前来提高它的记忆能力。

一个真正的回归神经网络里面的工作系统是非常复杂的。它可能包括LSTM。这是一个长短时记忆系统, 它里面还包括一个双向语音识别系统。这个回归神经网络, 它会从正向识别一遍, 还会从反向识别一遍。而如果想要得到更好的效果, 他还需要加一个叫做CTC (Connectionist Temporal Classification) 的系统。那么这个ctc的系统, 可以保证在整个句子层面上的成功率是最高的。其实在这过程中我们会遇到很多的难题, 比如说这些叠加起来, 它的效果可能不是那么好。第二个是, 如果我们刚才要利用未来的信息来识别的话, 它的响应时间会受到影响。更加重要的是, 它是这么复杂的一个网络, 如果你要去训练它, 例如, 训练1万小时可能要一个星期。没有人能够忍受得了这种训练时间。

对此, 科大讯飞提出了自己的构型——FSMN (Feedforward Sequential Memory Network, 前馈型序列记忆网络) , 即前馈序列记忆网络。利用这种神经网络, 可以很好地有效地处理刚才碰到的各种问题。它可以把刚才的几个优点综合在一起, 它可以非常好的缩短响应时间, 它还可以非常好的提升我们的训练效果。现在我们1万小时从原来的一个星期现在已经缩短到了一天。

卷积网络是仿照人类视觉机理, 借鉴人类在大脑上处理的一些优势, 形成一个自下而上逐步细化, 从逐步地处理一些线条, 局部轮廓到最后整个人脸。这样的系统很好地仿照了人类大脑里面的结构。但是仅有这些还是远远不够的, 它在分析文字的时候还是会有一定误差, 处理图像的时候, 也略显模糊。

现在科大讯飞的卷积神经网络将整个图片处理、版面分析、文字分割和最后的处理完全集中在一起。它综合性地使用了卷积神经网络, 延迟性神经网络和我们的HMM的系统。当把这些系统综合在一起的时候, 能够更好地分析图文任务的一些具体的情况, 这将使我们得到一个最好的效果。

Neural Thinking Machine技术框架

利用深度神经网络可以把语音识别和图像识别都提升到一个非常高的层次, 但是人类最重要的是认知。

人脑的大脑皮层是人区别于动物最显著的一个脑结构变化, 如果把人类的大脑皮层完全摊开的话, 大概相当于一个桌布那么大。但是科学家研究表明这个桌布上的不同区域的功能是完全不一样的。中间有一部分是专门管视觉的, 它会把你脸的各个细节处理的非常好。还有一部分是管听觉的, 还有一部分是用来管触觉的。但是这些在感知层面上的各种信息都会汇聚到认知层面。就是概念语言与概念表达和理解。

当我们看到一只猫脸的时候, 其实我们马上脑袋里面就会形成一个猫的概念, 这个时候我们脑袋里面会同时知道猫的叫声, 我们知道摸猫会是一种什么样的感觉。多种不同感知内容最后会汇聚到我们的认知层面上。根据这种启发, 科大讯飞在讯飞超脑里面建立了感知和认知的综合智能引擎的布局。在感知智能方面有Neural Viewing Machine、Neural Reading Machine、Neural Listening Machine。它们分别会主管看到的东西、阅读和听觉。当这些东西感知到很多的信息以后, 它会被送到上面的一个叫做Neural Thinking Machine的地方, 在这个地方所有概念会进行汇聚, 这些概念会进行推理, 得出结论, 从而帮助我们进行决策。而决策以后的结果会通过一个叫做Neural Experssing Machine的结果返回来。从而形成整个的, 包括交互, 包括人类所有智能问题的完整闭环。其实Neural Thinking Machine是科大讯飞认知的实现核心。在这个核心实现过程中, 它主要实现包括我们讲的语言的理解、知识的表达、逻辑的推理和最后的决策功能。为了实现这样一个系统, 我们整个Neural Thinking Machine技术框架被定义成, 在自然语言表述下的语言理解与生成以及知识表达与推理。

注释

语音与书写识别篇2

设计：江西省抚州市临川罗湖中学邱员太

(未经作者同意，不得)

(每日上传1次，请朋友们把错误的地方指出来)

【应试技巧点拨】

纵观全国各地中考情况来看，这一考点的主要题型有：选择题、填空题、规范书写题、综合题。

对于选择题，要认真审读题干，把握关键词，是选择正确的一项还是选择错误的一项要特别分清。选择题可采用排除法或选优法进行解答，排除法是指发现某一项有误就迅速排除该项，再继续查找，留下的没有发现错误的一项就是答案;选优法是指直接选出没有错误的一项，那么答案即可确定。对于填空题，关键是掌握汉语拼音的拼写规则，能正确注音或根据拼音写汉字。对于规范书写题，要求结构安排合理，字体美观大方。对于综合题，要逐题分析，按要求解答。

汉字是音、形、义三位一体的文字。《语文课程标准》中要求：“初中生累计认识常用汉字3500个，其中3000个左右会写”。同时还指出：“对汉语拼音能力的评价，重在考查学生认读和拼音的能力……评价识字要考查学生认清字形、读准字音、掌握汉字基本意义的情况，以及在具体语言环境中运用汉字的能力。”

对于字音，关键在于掌握拼音规则的基础上，注意以下几个问题：

(1)i、u、ü单独成音节须增加或改换字头。如友谊(yǒuyí)、文武(wénwǔ)、岳云(yuèyún)

(2)j、q、x不和u相拼，只和ü相拼，和ü相拼时ü去掉上面两点，如屈(qū);ü跟n、l相拼的时候不能省略，如绿(lǜ)。

(3)iou、uei、uen前声母，省去中间的元音。如水牛(shuǐniú)。

(4)声调标调有a不放过，无a找o、e，i、u相拼标在后;轻声不标调。

(5)a、o、e开头的音节连在其他音节后，应用隔音符号隔开。如皮袄(píǎo)。

(6)韵母er,用作韵尾时写成r。如儿童(értóng),花儿(huār)。

(7)一个句子的开头字母和诗歌每行的每一个字母要大写、人名、地名、专用名词的开头字母要大写。

对于汉字，主要掌握产生错别字的原因：

(1)增加或减少了笔画。比如感染的“染”、纸张的“纸”，有人总爱多写一个点，沟壑的“壑”，有人总爱少写谷字上的一短横。

(2)形近而误写。如“誉”写成“誊”，土炕的“炕”字写成“坑”。

(3)偏旁部首相似而误写。如鬼鬼祟祟的“祟”写成“崇”。

(4)音同而误写。比如，“提纲”误写为“题纲”;“气概”误写为“气慨”。

对于汉字书写，关键在平时积累，一定不能马马虎虎，要抽空练习写正楷字。

【经典真题回放】

(20福建三明)阅读下面语段，完成1-7题。

快乐的人是会演奏快乐的。

演奏快乐，就是品快乐。不论是巍峨雄壮的高山，广mào无垠的大海，云彩飘飘的蓝天，还是qìn人心脾的气味，绚丽斑斓的色彩，感人肺腑的话语。这些如宝石一般晶璀璨的快乐总是在我们身边盘旋。眺望高山，我们应有心田huò然开朗之感;遥望大海，我们应为生命的宽广而骄傲;仰望蓝天，我们应为云朵飘散后的重聚而高兴。懂得品味这些快乐的人，自然会得到快乐的青。

演奏快乐，就是留住快乐。流星瞬间的消逝，昙花一现后的凋零，蒲公英随风飘零……这些转瞬即逝的美好，总会带给我们瞬间的幸福与快乐。快乐的人知道将快乐延续：①昙花凋零，还有来年绽放的期许;②蒲公英飘走了，还有随风飞舞的.绚烂;③流星消失，还有宁静美好的星空……即使人生路上，事业、前途、爱情、家庭都如泡沫一样破灭了也不必悲观。试图留住这些快乐，学会将快乐延续。那么，快乐的天使终将降临在你的身上。

万世cāng桑，悲欢岁月，痛苦难免，可是，懂得寻找快乐的人，快乐的旋律总会在他的心头回响。要相信，仰起头，就有蓝天!

(根据《演奏快乐》改写)

1.给加点字注音，写在横线上，注意规范书写拼音。

快乐乐章

2.根据拼音写汉字。

(1)广mào无垠(2)qìn人心脾

(3)huò然开朗(4)万世cāng桑

3.从括号里选择恰当的字填在方格里。

(1)品□(位，味)。

(2)晶□(荧，莹)。

(3)青□(睐，徕)。

4.结合语境，辨析“遥望”与“仰望”在文中的异同。

5.文中画横线的排比句子顺序已经打乱，请结合语境将它们重新排序。

，，。(填写序号)

6.写字要注意笔划笔顺，根据示例，完成下列填空。

“腑”字共有12画，其中第5画是“、”。

(1)“肺”共有画，其中第5画是。

(2)“脾”共有画，其中第10画是。

7.用正楷抄写下列三个词，要求书写正确、端正、整洁、不涂改。

巍峨

璀璨

斑斓

【命题目的剖析】

这是一道综合题。第1题考查考生对多音字字音的掌握情况;第2题考查考生对常用汉字的掌握情况;第3题考查考生根据上下文理解词语的能力;第4题考查考生对同义词的辨析能力;第5题考查考考生根据语感进行排序的能力;第6题考查考生对常用汉字笔顺的掌握情况;第7题考查考生规范书写的情况。

【经典真题解析】

解答第1题的关键是牢固掌握多音字在具体语境的读音，“乐”字有两个读音：lè;yuè。在“快乐”一词中读“lè”;在“乐章”一词中读“yuè”。解答第2题的关键是先准确认读拼音，再根据词语选择准确的汉字，如“广mào无垠”中的“mào”应为“袤”字。解答第3题的关键是先联系上下文的语言环境，再选择合适的字组成恰当的词语，如“品□(位，味)”的语言环境是：演奏快乐，就是品快乐。“品位”指物品质量或文艺作品所达到的水平，如“高品位的蚕丝”“节目的艺术品位较高”。“品味”指尝试滋味，仔细体味品质或风味等。前者指艺术作品的档次、水平，后者侧重欣赏、玩味。这就不难发现应选“味”字，而不是“位”字。解答第4题的关键是求同寻异，先“求同”，“遥望”与“仰望”的共同点是都有“望”字，即往远方看的意思;再“寻异”，“遥望”一词中的“遥”侧重远处看，“仰望”一词中的“仰”侧重抬头向上看。解答第5题的关键是掌握排序的方法，有语境的排序一般要联系上下文，从中寻找规律，如本题的前一句话是“流星瞬间的消逝，昙花一现后的凋零，蒲公英随风飘零……”，这句话先写“流星”，再写“昙花”，后写“蒲公英”，因此，后面的句子也要按照这种顺序来写，才能文脉贯通，自然流畅。解答第6题的关键是掌握常用汉字的基本笔顺，这关在于平时的积累。解答第7题的关键是把握题目要求：用正楷抄写，书写正确、端正、整洁、不涂改。

【参考答案】

1.lèyuè2.袤沁豁沧3.味莹睐4.这两个词都有“望”，即往远方看的意思。“遥望”指向远处看的意思，“仰望”指抬着头向上看的意思。所以，看大海用“遥望”，看天空用“仰望”。5.(3)(1)(2)6.(1)8一(2)12丿7.略

【中考全真预测】

一.选择题

1.下列词语中加点的字，每对读音相同的一项是【】

A.塑造/追溯教诲/悔恨贻笑大方/百战不殆

B.泛滥/门槛云霄/元宵鲜为人知/屡见不鲜

C.绮丽/畸形粗犷/空旷随声附和/心平气和

D.取缔/真谛急躁/燥热鞠躬尽瘁/出类拔萃

2.下列加点字注音有误的一项是【】

A、纤细的游丝拂(fú)着桥身坚硬的石块，令画家销魂。

B、池沼(zhǎo)或河道的边沿很少砌齐整的石岸，总是高低曲直任其自然。

C.草野在蟋蟀声中更寥阔了，溪水因枯涸(gù)见石更清冽了。

D.古老的济南，城内那么狭(xiá)窄，城外又那么宽敞。

3.下列词语中有错别字的一项是【】

A.浩瀚无垠不屑置辩吹毛求疵郑重其事

B.曲径通幽抑扬顿措不计其数委屈求全

C.惟妙惟肖地大物博络绎不绝意气风发

D.栩栩如生得天独厚怡然自得苦心孤诣

4.下列词语书写完全正确的一项是【】

A.抖擞姣洁冲耳不闻锲而不舍

B.轻捷暄闹因地治宜吹毛求疵

C.震憾茏统蓦然回首郑重其事

D.摧毁恭敬与日俱增无动于衷

5.下列词语的书写以及加点字的注音都正确的一项是【】

A.慰藉拮据笑吟吟劫掠jié汲取xī媲美bì

B.莲漪天娇文绉绉繁衍yán叱咤zhà窥探uī

C.凌驾萧索口头蝉栈桥jiàn稽首jī觅食mì

D.玄虚狩猎堰塞湖呵责hē轻捷jié琐屑xiè

6.选出下列字形和加点字注音全部正确的一项【】

A.炫耀中流底柱卖弄(lòng)惟妙惟肖(xiào)

B.执拗未雨绸缪拮据(jū)鲜为人知(xiǎn)

C.凛洌获益匪浅奔丧(sāng)苦心孤诣(yì)

D.归省锲而不舍娴熟(xián)怒不可遏(hè)

二.填空题

7.给下面文句中的两个加点的“落”字分别注音。

只顾低头采撷落(1)叶的人，脚步就会落(2)在季节的后面。

8.根据拼音写汉字。

(1)狭ài(2)qiè而不舍(3)通xiāo达旦

9.阅读下面文字，根据拼音写出汉字。

大地鸡鸣，人类的(chuī)烟升起。在这片友好的大地上，万物欢欣，生机(péng)勃，土地丰(ráo)。我们用感恩的心情，声声祈(dǎo)：大地，早上好!

10.根据拼音写出相应的汉字。

生命如一泓清水，需要流动。也许有时会变得浑浊，但生命之水将chuān(1)流不息，在浩荡之中再次变得清澈，变得bó(2)大，变得浩瀚无yín(3)。在阳光的照耀下，可以升腾为天上的云彩，也可以化做雨露，给干hé(4)的土地以绿色的希望。

11.根据拼音填写词语。

他是中国航天事业的diànjī( )人，在他心里，国为重，家为轻，科学最重,名利最轻。五年归国路，十年两弹成。开创祖国航天事业,他是先行人,劈荆斩棘,把智慧锻造成阶梯,留给后来的pāndēng( )者。他是知识的宝藏,是科学的qízhì( ),是中华民族知识分子的典范。

三.书写题

12.书写能力考查。

将下面杜牧的《赤壁》一诗，用楷书或行楷抄写在方格内。

折戟沉沙铁未销，，

自将磨洗认前朝。。

东风不与周郎便，，

铜雀春深锁二乔。。

13.将下面拼音组成的短语用汉字抄写在“田”字格内，要求做到准确、规范、端正、整洁。

kàngzhènjiùzāi

zhōngzhìchéngchéng

四.综合题

14.阅读下面一段文字，并按要求作答。

诸多撼动心魄的故事，让你的心中酿满感动和暖意。诸多浓缩生命的真帝的感悟，净洁你的心灵，使得目光中没有了心事。诸多描绘美好生活的情景，使得遭遇风暴的情感重新荡漾起生命的憧憬，在安祥的诗意中思索。

(1)给文中加点的字注音。

酿：憬：

(2)找出文段中的错别字并加以改正。

15.阅读下面的文字，按要求答题。

茫茫星空，寥廓而深邃，它以它的神奇mèi力，召唤栖()身于地球的人类，让他们满怀炽()热的情感，世世代代燃烧着奔向它的渴望。从“嫦娥奔月”的神话到“嫦娥一号”的升空，中国人以lǐn然之姿，向茫茫星空迈出了坚实的一步。

(1)给加点的字注音。栖()身炽()热

(2)根据拼音写出汉字。mèi力lǐn然

(3)请用正楷字将“嫦娥一号，中国的骄傲”工整地写在田字格内。

16.阅读下面一段文字，按要求回答问题。

年5月8日9时17分，“祥云勇士”把奥运圣火送到珠穆朗玛峰峰顶，这表明中国人民正履行着对世界的郑重承诺，显示出中国人民勇樊世界高峰的英雄气概，体现了中国人民( )的民族精神。

(1)请在后面的横线上写出加点字“履”字的读音：

(2)选段画线的句子中有一个错别字，请找出并改正：改为

(3)填入选段括号内的成语，最恰当的一项是()

A.雄心勃勃B.慷慨激昂C.趾高气扬D.奋发图强

参考答案：

一.选择题

1.D2.C3.B4.D5.D6B

二.填空题

7.(1)luò(2)là8.(1)隘(2)锲(3)宵9.炊蓬饶祷10.川博垠涸

11.奠基攀登旗帜

三.书写题

12-13.略。

四.综合题

语音与书写识别篇3

随着我国经济的快速发展,现代的生活节奏加快,人们之间的交流多种多样,当人们出现手不能及、分身无术的场景时,语音识别技术应运而生。随着科技技术水平的不断发展,语音识别技术也得到了巨大的发展。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事。目前,用语音来控制手机更是逐渐成为高端智能手机的必备功能之一。在很多特殊的环境中,比如驾车,或者只是放松的坐着,有时我们会希望解放我们的双手,通过声音就能操纵手机应用,让生活更便利。

本终端应用是一款基于android系统开发的,对手机进行语音操作的安卓语音软件。产品利用原生的Google语音搜索,加上GPRS或WIFI信号,就可以实现语音拨打电话,真正的实现用声音来控制手机。本文主要研究介绍语音拨打电话功能。

2 研究基础

2.1 Android OS架构研究

A n d r o i d手机系统是基于L i n u x平台的开源手机操作系统,该平台由应用,应用框架层,系统运行库,Linux kernal内核层四层组成。它采用软件堆层(software stack),又名软件叠层的架构,主要分为3部分。底层以Linux内核工作为基础,由C语言开发,只提供基本功能;中间层包括函数库Library和虚拟机(virtual machine),由C++开发,最上层是各种应用软件。

2.2 终端应用架构及运行流程

本远程终端应用是基于C/S服务架构开发,主要应用于通过语音信号识别用户指令,从而完成指定工作,客户端即为android手机,服务器为Google云服务端。本终端系统功能主要有一个子模块:语音拨打电话模块和语音发送短信模块。

拨打电话模块主要通过解析所存储的联系人信息与Google Voice语音搜索数据进行匹配,Google Voice模块通过与Google API的整合,运用多线程技术,匹配到联系人姓名或姓氏,并对匹配结果进行响应,若匹配到全部姓名,则直接拨打出电话,若匹配到姓,则返回出所有该姓联系人信息。

3 语音拨打电话模块

语音拨打电话的功能的实现原理是:调用Google语音搜索API后,用户说出想要拨打的联系人姓名,Google云服务端返回语音是别的数据到客户端,将这些数据与用户手机存储的联系人的数据进行匹对,如果姓名匹对成功,则拨出此联系人的号码。具体实现流程如图2所示:

拨打电话功能模块主要需要完成:(1)获取联系人的数据信息;(2)获得Google语音识别后返回的数据;(3)匹对联系人数据和语音识别数据;(4)拨打电话。

3.1 获得联系人的数据信息

获得手机联系人信息是语音拨打电话的前提,主要是需要取得联系人的姓名和电话号码。

获得手机上所有联系人的接口的方法为:

Cursor cur=get Content Resolver().query

(Contacts Contract.Contacts.CONTENT_URI,null,null,null,Contacts Contract.Contacts.DISPLAY_NAME+"COLLATE LOCALIZED ASC");

遍历cur,每读出一个联系人就将其放入bean中。

获得联系人号码的接口方法为:

Cursor phones=getContentResolver().query(Contacts Contract.Common Data Kinds.Phone.CONTENT_URI,null,Contacts Contract.Common DataKinds.Phone.CONTACT_ID+"="+contact Id,null,null);

遍历phones,判断phone Type是否为1,若是,则为家庭号码,否则,为手机号码,将手机号码放入bean中。

获得联系人的姓名和手机号之后,将它们作为数据存储到数据集链表contact之中。

具体的流程如图3所示:

3.2 获得语音识别的数据

语音识别系统是一个采用C/S系统架构模式,服务器端调用Google Voice功能,客户端实现语音输入,发送数据等功能。终端服务模式如图4所示:

语音拨打电话需要使用Google语音搜索服务,因此必须判断当前用户手机是否支持该服务,所采用的方法是通过query Intent Activities()方法,查询Android系统的所有具备Recognizer Intent.ACTION_RECOGNIZE_SPEECH的Intent的应用程序,点击后,能启动该应用。

同时,Google语音服务需要网络支持,所以也需要判断当前用户的网络连接状况,在类中写一方法checkNet Work Status()引用Connectivity Manager cwj Manager来判断网络是否连接正常。

获取语音识别数据的具体流程如图5所示。

3.3 数据匹对

获得手机联系人的数据和语音识别的数据后,将两者的数据进行匹对,匹配成功则进行拨号。

数据匹对需要遍历存储手机中的联系人的数据集链表name_list和语音识别的后返回的数据集链表voice Date_list。为了增加匹配的有效性,在匹配之前,要使用String类的replace()去掉两个数据链表中的无效的空格;此外,仅仅只是大小写不相同的字符应该视为相等,即需要用equals Ignore Case()方法来比较两个字符串是否相等。

首先使用sub Sequence()函数获得name_list数据链表和voice Date_list数据链表中每个字符串元素的第一个字符,判断这两个字符是否相等(即匹对姓氏),如果相等,则接着比较这两个字符串元素是否相等(即匹对姓名),如果是,则用变量current Name和current Phone保存当前匹对成功的联系人姓名和号码,并跳出匹对过程;反之,则将所有改该姓的联系人姓名和电话分别存储在scontact_namelist和scontact_phonelist数据链表中。

流程图如图6所示:

3.4 拨打电话

数据匹对完成后,如果匹对到完整的联系人姓名,则对拨号程序进行唤起。

设置intent Call的行为:

intent Call.set Action("android.intent.action.CALL");

指定拨打的电话号码:

intent Call.set Data(Uri.parse("tel:"+current Phone));

如果没有匹配到完整的联系人姓名,但是匹配到了联系人的姓氏,则将这些同姓的联系人的姓名和电话号码写入数据集链表person_list中,用my List View将这些数据呈现给用户,并对my List View上的每个item进行事件监听,只要用户点击其中一个item,则拨打出该条目中显示的电话号码:intent Call.set Data(Uri.parse("tel:"+scontact_phonelist.get(position).to String()))

拨出电话的流程图如图7所示。

6 总结与展望

基于android系统的语音拨号应用是对日益兴起的语音识别技术的一次创新性地尝试,语音拨号给人们的生活带来了新鲜和便利,这也是顺应如今越来越快的生活节奏的需要,对于不同层次的用户具有较大的吸引力。

参考文献

[1]靳岩,姚尚朗.Android开发入门与实战[M].北京:人民邮电出版社,2009:59-61.

[2]余志龙,陈昱勋,郑名杰.Google Android SDK开发范例大全[M].北京:人民邮电出版社,2009:75-97.

[3]张利国,龚海平,王植萌.Android移动开发入门与进阶[M].北京:人民邮电出版社,2009:45-89.

[4]E2ECloud工作室深入浅出Google Android[M].北京人民邮电出版社,2009:112-147.

探究图书数字化的语音检索与识别篇4

1 语音检索与语音识别基本概念

语音检索是取决于其自身概念库的包含范围, 如果语音识别系统未能正确的进行信息结果传递, 那么这就是其查找内容并未包含在特点的知识概念库中。反言之, 阅读群体通过进行语音检索输入之后经过系统的识别产生相对应的知识信息。但其不够灵活性, 往往不能够直接的找出阅读人想要搜寻的具体内容, 以这次不太准确的计算结果, 进行第二次的信息查询。这就有必要提升语音检索中的准确度, 增加相应的辅助查找功能。

语音检索的系统中主要包含一些语音形式的文件、资源、组织以及检索等功能的集中调配, 目前我们国家的语音检索系统尚且处于一个初级入门阶段。因为该系统的发展还不够成熟, 所以往往会与阅读者产生一定的分歧和误差。语音检索系统的语音语言分析都是过于理性化的, 难免在结果查找中产生一定的偏差。

语音识别是一门交叉学科。在近二十年来的发展里, 语音识别技术逐渐从实验室走向商业市场。之后语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。主要将人类语音文字发出的内容转换为计算机可读的语言, 例如按键、二进制编码或者字符序列进行语言输入。

数字化图书的查询成功与否主要由语音检索和语音识别两个方面进行判断的, 在计算机自身理解发声人的查询目的之后进行相应的查询结果输出, 以备查询人选择, 知道找到阅读人满意的结果为止。

2 语音检索与语音识别在图书数字化中的重要作用

2.1 语音检索的输出结果与关键词相关。

在数字图书的检索过程中, 能够准确的找到相应的检索结果需要在检索系统准确技术处理以及检索概念库所包含范围的大小都有着密切的关系。因为相关知识领域的相对薄弱使得语音检索系统不能准确的识别检索内容并输出检索结果。阅读群体在进行语音检索动作之后输出的这些信息, 我们可以把这些检索结果看成是有一定意义但有可能不够准确的关键词输入结果。那么阅读群体再根据这些检索结果进行进一步的检索结果查询之后才能找到自己心中理想的信息查询结果。

图书馆对所有的文献资源进行有效的划分归类, 并编制使用目录, 建立自身的馆藏目录体系, 这项工作的主要目的就是严格按照《中国图书馆图书分类法》所给出的形式进行规整分类, 分类以后更方便了阅读群体的查找和使用。在编制使用目录的同时加注该书籍的作者、出版社、出版年份及版次以及图书内容简介等基本资料信息, 方便阅读人查找。在图书语音检索系统的创建理念上主要也是以这种形式作为参考借鉴。所以在语音检索系统中也包含有不同层级的检索条件以及备选分类。通过多重的条件输入和选择实现检索结果输出的准确性。

那么检索条件的设置中对于其关键词, 也建立了一定的搜索类目。系统通过权衡阅读群体所输入的几个关键词, 根据权衡的结果给出相应的检索结果。阅读群体可以自行选择查找领域范围, 然后再进行语音检索, 这将会大大的提高检索结果的准确性。

2.2 语音识别与汉语特征

2.2.1 汉语声韵与语音识别。

汉语的声、韵、调集合成为一种和谐的声调与韵律, 所以每一个汉字的声韵都能够划分成两个相对独立简单的音节。而具体到某一个音节都有具体的汉字及意义。在汉语言中不似英语那般在音节结构方面有塞音, 汉语音节的划分是现代汉语语音教学中的重点, 在大学语文的课程中与对外汉语的课堂讲解中都是当作重点内容进行的。音节单元在前后的过渡中会出现不同的方式方法, 但在白话文写作或是口头语交流的过程中存在的机会不是很多, 听者与语言发出者之间可以正常的进行语义转达, 它主要是在语音检索编程中出现, 在编程的过程中按照严格的语音音标进行计算机语言输入, 以保证语音识别能够正常的进行。

2.2.2 汉字特点与数字图书语音识别。

中国自古就有“书画同源”一说, 这是因为最早的文字来源就是图画, 汉字发展的起源就是原始时期人类的图画, 商代以前的人们在生活中用图画文字来表话语内容。后来从甲骨文到秦代的文字发展到了以表形文字为基础, 以表音文字为主体, 再后来以形声字为主体, 还保留了一些表形字和表音字的形音文字阶段, 从秦汉到现代汉字都属于这一阶段。经过数千年历史沉淀汉字的音义变得愈来愈复杂多变, 古书中有说明发声与音训相同的概念, 在进行文字备注的时候通常选择声音相同或相近的汉字来注释汉字。无独有偶, 乾隆年间有与钱大昕、卢文、邵晋涵、刘台拱有“五君子”之称的学者王念孙也对“以因求义”的想法剖析入微。除此之外, 汉语中的拟声词与语气感叹词在进行语音识别是也是相对轻松容易的。

汉语语音与语音在其变化的过程中本身就有一定的类推和音义结合这正好方便了计算机检索语言的输入与识别。

2.2.3 数字图书的图片类资源检索。

除了文字类的数字图书检索还有一部分图片类目的信息检索。特别是在书法绘画、建筑图、戏剧等内容的数字化图书检索方面, 所以在相关图片检索的设置中需要在检索系统里录入作品的作者、材质、大小和一些简单的内容简介, 精确划分的检索类目可以帮助阅读群体更加准确的查找到所需要的内容。

结束语

语音检索识别是一项巨大的系统集合工作, 所以在检索识别系统设计初期就应考虑更多的知识类别划分与关键词索引形成, 打好系统基础, 以便于读者进行资料查询与阅读。此外, 数字图书必须做到与时俱进, 不断注入新的知识理念才能保证和满足阅读群体的需求。数字图书的购买与阅读确实方便了读者携带也为书籍的传播带来了新的方式并减少了书本的磨损为图书制造减轻了资源压力, 保护自然环境, 但数字划的图书不能达到读者对于纸质作品的喜好与偏爱, 图书数字化的同时还要注意在格式范本上与传统的纸质图书保持尽可能的一致。

摘要：图书与档案馆在社会职能上有着共同的社会责任, 随着受教育群体以及教育方式、教育环境的变化, 受教育对象更自觉更愿意进行快捷方便的信息获得形式。数字化以轻快的形式承载着文献资料, 以其独特的性质影响着我们的阅读学习习惯。主要介绍了图书数字化的语音检索与识别功能, 结合汉语语言的实际特征和检索模块这几个方面对图书数字化进行探讨, 总结出云因检索与识别的技术处理方法以及该技术未来的发展方向。

关键词：图书数字化,传统图书,语音检索,语音识别

参考文献

[1]丁聿.图书数字化的语音检索与识别[J].科技情报开发与经济, 2011, 5:83-85.

[2]李春卉.语音识别技术在图情领域的应用[J].情报探索, 2009, 8:93-95.

[3]陈梅.图书数字化:问题与思考[J].四川图书馆学报, 2005, 4:2-5.

语音与书写识别篇5

面对复杂的智能电视新功能以及种类日益繁多的应用软件,通过简单的遥控器和鼠标操作已经无法满足大多数消费者的需求。随着人工智能的推动发展,智能电视与语音识别技术的相结合,成功解决了多样化功能快速导航的技术难题。通过对语音输入内容的关键字提取以及语义分析技术,大大提高了智能电视的可操作性,是电视产业的一大突破点[1]。

1 系统设计架构

本系统以手机、遥控器或TV内置的传声器作为语音输入方式,将模拟语音信号经过处理后,送入语音识别引擎进行处理转化,电视系统根据实际需求进行识别结果的处理,调用各个函数接口执行相应的功能模块,如图1所示。

1.1 语音输入方式

手机:将手机与电视接入同一网段,手机客户端发送编码后的控制命令,电视服务端收到命令后,应答响应通知客户端开始录音,通过WiFi实时传输声音数据流,服务端接收数据包送入语音识别引擎进行识别。

TV内置传声器:遵循标准的USB Audio类标准设备。

遥控器:遥控器上内置了2.4 GHz无线传输模块,电视端内置了与之相匹配的2.4 GHz无线Dongle模块[2]用以接收语音信号。该模块是USB Audio类标准设备。

1.2 语音识别引擎

语音信号经过A/D转换后,进行数字信号处理提取语音特征,滤除大量冗余的数据,能有效地提高传输速率。识别系统接收到的语音数据是量化采样后的数字信号[3]。如图2所示,语音信号经过特征参数提取,解析出波形中随时间变化的特征序列。一方面可通过网络,先经过降噪处理,网络识别客户端负责将特征提取结果送到远端应用进行处理;另一方面可通过本地匹配,按照声学模型与语法模型并行匹配,输出本地识别结果。

语音识别引擎选择采用本地匹配或云端的方式[4],需针对不同的语音命令进行处理。

1)本地匹配:对于电视通用的一些功能,例如“观看电视”、“打开节目指南”、“浏览U盘”等语音命令,将其编译成静态的本地匹配库。而由于各个地区的节目名和每台设备用户安装的应用软件有所不同,为了最大化语音识别的可重用性,采用动态注册的方法,即初始化时自动扫描电视设备的节目信息和应用软件信息,并添加到动态匹配库中,动态注册的模式可有效提高语音识别的兼容性和匹配度。

2)云端识别:适用于中、英、中英文混合的语音文字输入以及信息的检索[5],通过云端语义识别能提高返回给用户检索结果的正确率。

1.3 智能语音处理

智能语音处理是将本地匹配或云端识别的结果进行语义分析,以便正确调用接口,运行对应的功能模块。若为本地匹配,则可得到与内容相匹配的静态或者动态的ID号,经过解析ID号发送命令执行功能模块;若为云端识别,对于语音文字输入,将匹配的结果发送到文本框,而对于搜索信息的方式则需先调用搜索接口,进行语义判定后根据需要调用并传递匹配的字符串给对应的功能模块进行检索,返回用户查询的内容。

2 关键算法与处理流程

为了能让功能模块更好地运行于不同平台(软件、硬件),从平台无关性的角度出发,基于Android NDK(Native Development Kit)与SDK(Software Development Kit)设计,将语音识别系统模块化,并做成以APK(Android Package)的形式安装[6]。若考虑将语音识别内嵌于系统,则当语音识别系统意外终止时可能会导致整个Android系统无法运行。

传统电视的功能是在Linux下实现的,而智能电视功能是在Android下实现的,因此本系统可分为Android空间和Linux空间[7],Voice Control Service模块在Android空间下基于语音识别库来实现语音识别功能,提供语音识别内容访问接口供Linux空间的程序调用,Voice Control Service在整个系统软件中的层次关系如图3所示。

语音识别系统的设计可分为语音识别引擎库的调用、Voice Control Service的实现以及UI设计3个部分。

2.1 语音识别引擎库的调用

Voice Recognition JNI对语音识别引擎提供的API进行封装,向Voice Control Service提供语音控制的Java API。封装接口主要包括识别引擎的初始化、识别器的创建、识别结果的回调处理等。在初始化识别引擎后,根据应用需求创建本地或网络识别器,启动开始识别过程,通过Java回调函数通知Java层获取语音识别结果,根据应用场景分别进行处理。

2.2 Voice Control Service实现

语音识别引擎通过匹配得到语音识别结果的字符串,在Framework层还需创建语音识别Service,对识别结果进行处理。Service的实现有本地服务和远程服务两种方式。出于安全性,考虑到本地服务内嵌入主进程时,主进程被中止后服务便会终止,从而该系统采用远程服务的方式实现。

语音识别服务针对不同APK应用处理识别结果,当系统接收到语音按键消息时,根据当前IME(输入法)的状态,判断是否对按键响应进行特殊处理。若IME开启,按键值将默认会送到Activity由IME响应,语音识别器是否启动由IME发起;若IME未开启,该按键值将被Voice Control Service处理并释放。

根据语音识别回调函数解析返回的内容和语音识别状态信息,若是TV端,将语音识别的结果通过Voice API传送给TV端执行;若是Android端,则匹配本地应用程序列表,如果语音内容与应用程序名称一致,执行启动动作。

2.3 Voice Control Service UI设计

组件Voice UI是语音识别过程、结果的信息显示。Voice UI开启/关闭与Service同步,具体是当用户通过菜单开启、关闭Voice功能时,Android端接收到TV端的事件将开启、关闭Voice Service和UI。UI包括应用软件的UI设计和Android中Framework层的Service UI设计,Framework层的Service UI设计是基于Voice Control Service实现语音识别Service UI的显示。

Voice Control Service与Voice Control Service UI通过广播的方式进行通信,基于以下2点:

1)根据是否有动态注册回调函数通信,区别是第三方还是默认系统启动引擎。如果没有任何应用程序注册回调函数,将通过广播通知Voice UI做相应的显示。

2)UI自身基于Service实现而不是Activity,需要通过接收广播后被动启动。

如图4所示为语音识别系统的处理流程序列图。

应用程序运行时向Voice Service注册回调函数。当开启语音识别后,启动语音识别引擎,检测到有语音信号输入时,开始进行实时识别;若无语音信号输入,则引擎超时自动退出识别过程。应用程序也可以主动停止语音输入,直接识别当前已输入的语音并返回识别结果。在识别结束后,通过回调函数通知应用程序进行UI显示。最后注销回调函数,释放引擎,使该引擎能即时地为不同的应用程序提供语音识别功能。

3 性能优化设计

3.1 稳定性

在对系统性能进行评估时,需要对系统的稳定性做相应的优化,避免因为出现各种异常而导致系统崩溃。分别对以下异常做了调整。

异常处理一:当网络信号中断时,使用基于WiFi的手机遥控中断与电视的连接,Android本身设置了监听网络的功能,在手机遥控的Service端需接收Android发送的广播,以便网络重新连接时能重新启动手机遥控服务。另外,在系统安装删除APK或语言改变时,Voice Service也接收系统广播并重新进行本地库的动态更新。

异常处理二:当网络状况差时,网络识别的时间过长,影响用户使用。识别引擎具有超时退出机制,在连续时间内(一般设置10 s)如果没有语音输入,则自动退出识别过程。当用户连续进行语音输入时,如果在15 s内还未识别成功则退出识别,避免用户一直等待。

3.2 可靠性

为了提高语音识别的灵活性、可靠性,面向更广泛的

语言,对系统的设计进行了优化,主要有以下几个方面:

1)在Android系统中language更改为English时,识别中需要做相应的转换。当动态扫描本地应用时,对于大部分的应用,均是将中文直接翻译为英文名称,而针对一些国内的应用,例如好123、百度等,其显示名称为hao123、baidu,所以在本地库中分别匹配其发音为“how 1 2 3”、“bye do”,用相近的英文发音来模糊匹配中文发音,就不会导致语言切换时无法识别出现错误,可提高识别准确率。

2)不同场景有特定的可识别命令,可有效提高识别准确率。例如进入Android空间时,自动屏蔽掉TV端的某些声控命令。

4 系统测试

电视系统在不同的环境中使用具有差异性,为了测试语音识别系统在复杂环境下的稳定性及其识别速度,对电视系统分两种方式进行测试:一是基于本地和云端服务器的识别时间测试;二是在复杂环境下的识别率。

4.1 识别速度

识别速度通常定义为输入语音的识别时间,但由于每次语音内容长短不一,为了更加可靠地衡量识别速度,可用RT(实时因子)来表征[8],例如3RT就意味着识别的时间是原语音时间的3倍。

测试分本地匹配和云端识别两种类型,统计了包括TV端和Smart TV端的基本操作,例如主页、上一台、音量加、智能电视、设置、功能菜单等本地匹配方式和搜索、语音文字输入等云端识别方式,云端的识别以30个词为测试基准,统计识别的平均RT值如表1所示。

从表1中的数据可见,本文所设计的语音识别系统的识别速度快,性能较好,本地的匹配时间和云端识别时间均能接近于原语音输入时间。

4.2 复杂环境下的识别率

信噪比(Signal to Noise Ratio,SNR),即正常声音信号与噪声信号的比值。信噪比是一个比较重要的参数,可用来衡量声音信号的质量以及所受到的噪声干扰。信噪比SNR与信号功率、噪声功率之间的映射关系为

式中:S为语音信号功率;N为噪声功率。

为了构建复杂的环境及保证测试的准确性,对语音信号进行外接模拟噪声信号。在不同的SNR下,分别统计了词汇插入率、替代率以及丢失率这3个参数,并计算出其词汇正确率为

测试结果如表2所示。

由表2中数据可以看出,当周围环境噪声较大,即SNR<5 dB时,识别率会有所下降。但是随着信噪比的不断增加,词汇错误率逐渐降低,并趋于稳定状态,系统的识别率保持在97%以上。实验证明,采用本系统,语音识别率高,且抗噪性能好,对复杂环境的适应性强。

5 小结

本文介绍了基于WiFi的手机遥控和2.4G无线传输的智能电视语音识别系统,采用本地匹配和云端识别的方式进行自动识别,识别命令动态注册的方法为第三方应用程序开发预留了接口。由于该系统是以平台无关性为出发点进行设计、开发,尽量考虑功能模块的移植性、低耦合、模块化等,所以只需要做很少的改动就可以运行于新的硬件平台。通过测试表明,本系统的识别率高,数据的处理速度快,符合实时性要求,对复杂环境适应性强,稳定性好。如何更好地提高智能电视的人机交互性,如何在语音识别系统中加入情感识别,是下一步研究的目标。

参考文献

[1]吴伟.智能电视技术分析[J].电视技术,2011,35(24):7.

[2]罗少锋,陈锐.基于多点触控及语音传输的智能电视遥控器[J].电视技术,2012,36(16):33-34.

[3]朱民雄.计算机语音技术[M].北京:北京航空航天大学出版社,2002.

[4]柳春.语音识别技术研究进展[J].甘肃科技,2008,5(9):41-43.

[5]李伟,李媛媛.基于中英文混合模型的语音识别研究[J].电声技术,2011,35(7):42-44.

[6]赵力.语音信号处理[M].北京:机械工业出版社,2003.

[7]刘幺和,宋庭新.语音识别与控制应用技术[M].北京:科学出版社,2008.

语音与书写识别篇6

与机器进行语音交流, 让机器明白你说什么, 这是人们长期以来梦寐以求的事情[1]。近二十年来, 语音识别技术取得显著进步, 已经成为语音识别领域发展的新方向。目前, 语音识别主要是利用DSP、专用单片机芯片或者ARM9以上处理器来实现, 这就大大阻碍了语音识别在低端电子产品中的应用, 特别是在消费类电子产品中的应用。

1 语音识别基础知识

语音识别属于模式识别。语音识别一般分两个步骤, 第一步是系统“学习”或“训练”阶段。这一阶段的任务是建立识别基本单元的声学模型以及进行文法分析的语言模型等。第二步是“识别”或“测试”阶段。根据识别系统的类型选择能够满足要求的一种识别方法, 采用语音分析方法提取出这种识别方法所要求的语音特征参数, 按照一定的准则和测度与系统模型进行比较, 通过判决得出识别结果[2]。

2 系统硬件设计

本系统利用意法半导体公司生产的基于Cortex-M3内核的STM32F103VET6处理器为核心, 配合语音输入放大滤波、存储电路、LCD显示屏、键盘、音频DAC等电路组成系统的硬件部分。通过芯片上的JTAG接口使JLINK8仿真器与PC相连, 以便于系统的调试。我们采用的STM32F103VET6芯片功耗很低。有三种低功耗模式:睡眠、停机和待机模式。512KB的闪存程序存储器, 高达64KB的SRAM。带片选的静态存储器控制器, 支持CF卡、SRAM、NAND存储器。还带有并行LCD接口, 3个12位模数转换器, 1us转换时间 (多达21个输入通道) [3]。

3 软件设计

软件设计部分主要包括:数据预处理、特征向量提取、语音识别算法等。在预处理中, 根据汉语发音的特点, 利用短时平均幅度和短时平均过零数结合检测语音信号的起始端。采用Mel频率倒谱系数 (MFCC) 作为特征向量, 使用计算相对简单、存储量较小的动态时间规整 (DTW) 算法完成语音识别。

3.1 DTW算法

在孤立词语音识别中, 最为简单有效的方法是DTW算法, 该算法基于动态规划 (DP) 的思想, 解决了发音长短不一的模板匹配问题。DTW算法与HMM算法在相同的环境条件下, 对孤立词的识别效果相差不大, 但HMM算法要复杂得多, 所以在孤立词语音识别中, DTW算法仍得到广泛的应用[5]。

如图1所示, 纵轴表示是训练后得到的参考模板, R={R[1], R[2], …R[M]};而横轴表示待识别的特性向量, T={T[1], T[2], …T[N]};图上的纵轴与横轴的交叉点是两者的距离测度d (T[i], R[j]) = (T[i]-R[j]) 2;我们要做的就是从 (1, 1) 点出发, 寻找一条通到 (N, M) 点的路径, 使得路径上各点的距离测度之和最小。我们通常的解决计算公式为:D (i, j) =d (i, j) +min (D (i-1, j) , D (i-1, j-1) , D (i-1, j-2) ) 。

3.2 对DTW算法的改进

传统的算法中, 计算量大, 对端点的依赖性很大, 识别效果不是很好, 利用搜索路径约束与松弛点 (包括松弛端点和松弛终点) 相结合的方法, 减小了运算量和存储空间, 提高了识别率。传统的算法中搜索的区域是整个N*M区, 改进后的DTW算法路径搜索区域如图2斜线所示的区域。

图2中采用的松弛端点与松弛终点常数都是2, 在软件设计中, 首先创建数组D[M], 给每个单元赋最大值, 图中第i列的D[j]值如下计算, Top为搜索区域中这一列的顶端值, Bottom是低端值。

这样用一个数组D[M]就可以搜索完整个区域, 减小了存储空间。为提高计算速度计算速度, 在加窗处理部分, 汉明窗函数h (n) 的值预先存储到数组h[N], N是一帧的长度。

4 实验结果分析

本系统完成后, 根据硬件的特点, 语音信号的采样频率采用8.929k Hz, 加窗后, 帧长为22.4ms (200个采样点) , 帧移100。采用MFCC为特征参数 (12维) , 利用改进的DTW算法对单字识别, 一个字的发音时间小于0.5s的, 我们取M=35、N=40, 语音参考模板数为20, 我们对松弛常数为2和4的情况进行运算速度的测试, 测试得到的运算速度 (10.3ms) 相差很小, 利用示波器 (JC1102CA) 观察不到差别。

分别对孤立词0到9进行30次测试, 通过对松弛常数为1和4的情况进行识别率的比较 (这样每个词测试60次) , 如表1所示。

从表1可以看出, 当松弛点常数大于等于3时, 识别率提高不大, 因此我们选用松弛常数为3, 即可达到识别要求。

结束语

综上所述, 本系统外部电路设计相对简单, 并对设计中用到的DTW算法做了详尽的分析, 结合硬件系统对算法进行了改进, 使运算速度得到了提高, 满足系统的实时性。有较好的通用性, 可以在众多的嵌入式系统中应用, 有很好的应用前景。

摘要：根据嵌入式系统的特点, 利用意法半导体公司生产的基于Cortex-M3内核的STM32F103VET6处理器和外围电路设计系统的硬件平台, 并对DTW (Dynamic Time Warping, 动态时间弯折) 算法进行了改进, 经过试验测试证明该系统可以有效的进行语音识别。

关键词：语音识别,嵌入式系统,DTW,STM32

参考文献

[1]赵力.语音信号处理[M].北京:机械工业出社, 2003.

[2]易克初, 田斌, 付强.语音信号处理[M].北京:国防工业出版社, 2000.

[3]王炳锡, 屈丹, 彭煊.实用语音识别基础[M].北京:国防工业出版社, 2005.

语音与书写识别篇7

1 C#语言的语音识别及合成的接口

C#是一种安全的、稳定的、简单的、优雅的, 由C和C++衍生出来的面向对象的编程语言。C#实现语音识别功能的主要接口有:Is Reco Context接口、Isp Recognizer接口、Is Reco Grammar接口、Isp Voice接口。

1) Is Reco Context接口:是主要的用于语音识别的接口, 能关注不同的语音识别事件, 安装或者卸载识别时使用的语法文件。

2) Isp Recognizer接口:一个程序拥有两种不同的语音识别引擎 (ISp Recognizer) 类型。一个是共享的语音识别引擎, 需要建立一个采用共享语音识别引擎的识别环境 (Isp Reco Context) , 应用程序需要调用COM接口位于Co Create Instance结构上的CLSID_SpShared Reco Context。然后SAPI会设立一个音频输入流, 并把这个音频输入流定义为默认的SAPI音频输入流。由于它可以与其他语音识别应用程序共享其程序资源, 所以在大多数场合中被推荐使用。另一个是非共享的语音识别引擎的语音识别环境, 应用程序首先需要调用COM接口位于Co Create Instance结构上的CLSID_Sp Inproc Reco Ins-

tance。然后, 应用程序必须调用Isp Recognizer的Set Input方法来设立一个音频输入流。最后, 应用程序通过调用Isp Recognizer的Create Reco Context方法来建立它自己的识别环境。

C#语言的语音合成的主要接口有:Voice Commands接口, Voice Dictation接口, Voice Text, Voice Telephone接口, Audio Objects接口。

1) Voice Commands API。对应用程序进行控制, 一般用于语音识别系统中。识别某个命令后, 会调用相关接口是应用程序完成对应的功能。如果程序想实现语音控制, 必须使用此组对象。

2) Voice Dictation API。听写输入, 即语音识别接口。

3) Voice Text API。完成从文字到语音的转换, 即语音合成。

4) Voice Telephone API。语音识别和语音合成综合运用到电话系统之上, 利用此接口可以建立一个电话应答系统, 甚至可以通过电话控制计算机。

5) Audio Objects API。封装了计算机发音系统。

其中Voice Text API, 就是微软TTS引擎的接口, 通过它我们可以很容易地建立功能强大的文本语音程序。

2 系统设计与实现

2.1 系统功能概述

根据对系统需求进行分析, 本系统需要完成操作、工具、用户管理、皮肤管理和帮助功能。这些功能将分成五个功能模块。操作功能:朗读、命令识别、文本识别、生成语音文件、添加操作命令、网页浏览;工具功能:训练、开机自动运行、取消开机自动运行;用户管理:添加用户、删除用户、修改用户;皮肤管理功能:皮肤的修改功能;帮助功能:帮助文档、关于作者

2.2 语音识别功能的实现

语音识别的原理就是将人发出的语音通过麦克风传到电脑的声卡, 然后语音引擎对对语音信息进行采取, 最后和语音库里面的信息匹配从而识别出相应的语音信息输出到电脑屏幕进行各种各样的操作。

语音识别的一个最大的难点就在于不能正确地对语音信息进行正确的识别, 这里在系统开发的时候需要做两个处理工作。

第一是对语音库进行大量的语音训练, 可以通过windows内置的语音识别训练系统进行训练, 该功能集成与微软的XP系统的控制面板的语音选项里面。鉴于每个人的发音都是有所差异的, 使用人必须先对语音引擎进行大量持久的语音训练, 这样才能不断地提高语音识别的正确率, 以方便计算机正确地识别出来需要操作的动作和需要对电脑输入的文字。在进行对语音库训练的前提是要安装微软提供的语音引擎Speech SDK 5.1, 在安装了该引擎之后方能对语音进行训练, 可以支持中英日三种语言的使用。

第二是对语音识别的结果进行模糊处理, 也就是说, 在不可能实现100%的识别率的情况下, 要尽可能地考虑到语音识别出来的错误信息, 比如本来要识别的信息是:open, 但是电脑识别出来的是opened, 这时候就要“将错就错”, 通过数据库将识别出来的opened告诉电脑这是一个open。如此进行常用字的多次测试, 并通过微软的sql server2000进行海量的数据识别模糊处理, 最大化地考虑到所出现的错误来更正。

2.3 文本识别功能的实现

文本识别功能的实现是要借助于微软的TTS (Test To Speech) 引擎进行来实现。TTS是“文本到语音 (Text To Sound) ”的简称, TTS语音引擎为我们提供清晰和标准的发音, 所用的关键技术就是语音合成 (Speech Synthesis) 。

该文本识别引擎可以支持中英日三种语言。要使用该功能是只需要进入文本识别界面并启动文本识别按钮, 然后将要识别的文字通过键盘输入到编辑框里面, 再单击朗读按钮, 这就可以将文本信息转化为语音信息通过音响发出。

2.4 多标签的语音识别浏览器功能的实现

首先是多标签浏览器功能的实现。由于C#有自带的Web Browser浏览器控件, 使用其自带的方法。而对于多标签功能的实现则要使用C#的多线程的技术, 也就是说支持多个线程同时不互相干扰的工作。

其次是具有语音识别功能浏览器的实现。这个过程可以参照之前所制作的语音识别制作的过程, 只需要的浏览器里面添加一个开启语音识别和关闭语音识别功能的按钮即可。当单击开启语音识别功能时, 系统将会提示已经开启语音识别功能, 这个时候就可以使用语音识别功能进行网上冲浪;当单击关闭语音识别功能是, 系统将会提示已经关闭语音识别功能, 这个时候系统会系统语音识别功能已经关闭, 此时的浏览器就和传统的多标签浏览器如360安全浏览器一样。

3 结论

本系统主要研究了用语音控制电脑的技术, 成功地利用微软新一代开发平台.NET Framework开发了语音识别系统的新产品。本系统打破了传统的人机交互方式, 实现的使用语音对计算机进行操作。使用微软的TTS语音引擎可以使系统具备识别中英日三种语言, 并且添加了国内的捷通语音公司的语音引擎, 可以识别粤语, 闽南语等方言, 对于文本识别的功能的实现, 提高了语言学习者的学习效率, 这给广大的语言学习者带来了福音。设计实现具有语音识别功能的多标签浏览器技术。主要是方便一些不会使用键盘打字的人群, 使得这类人群可以通过语音控制就可以上网冲浪。

摘要：语音文本识别系统是一款实现了语音对电脑进行操作的十分实用的软件, 对于一些年老的或手脚不灵便的人群来说, 键盘的操作给他们带来了极大地不便。语音文本识别系统可以大大提高了他们使用电脑的方便。

关键词：语音识别,文本识别,多线程浏览器

参考文献

[1]ZHANG Jinsong, Takatoshi Jitsuhir.An Introduction to the Chinese Speech Recognition Front—End of the NICT/ATR Multi-.Lin gual Speech Translation System[J].O'Reilly.2008.

[2]Arun Krishnaraj, Joseph K.T.Lee.Voice Recognition Software:Effect on Radiology Report Turnaround Time at an Academic Medi cal Center[J].2010.

[3]wu Zhiyong.CAO Guangqi.Voice Recognition Software:Effect on Radiology Report Turnaround Time at an Academic Medical Cen ter[J].2008.

[4]Jing Li.Thomas Fang Zhen91.A Dialectal Chinese Speech Recognition Framework[J].2006.

[5]国玉晶, 刘刚, 刘健, 郭军.基于环境特征的语音识别置信度研究[J].清华大学学报, 2009, 49 (S1) .

[6]林琳, 王树勋, 郭纲.短语音说话人识别新方法的研究[J].系统仿真学报, 2007 (10) .

[7]姚琳, 梁春霞, 张德干.基于实例推理的人机对话系统的设计与实现[J].计算机应用, 2007 (03)

[8]林茜, 欧建林, 蔡骏.基于Microsoft Speech SDK的语音关键词检出系统的设计和实现[J].心智与计算, 2007, 12-30:433.

[9]韩纪庆, 张磊, 郑铁然.网络环境下的语音识别方法[J].计算机科学, 2005 (01) .

[10]任锁柱, 黄继海, 宋海滨.从人类语音特点到计算机语音识别[J].中国科技信息, 2006 (4) .

语音与书写识别篇8

语音识别是建立在对人类语言的交互与判断上的, 这是一种多维度的识别过程, 一般可以分为两个阶段, 即信息汇集和识别。具体的识别过程包括了语音信号的前期处理、语音特征提取、建立语音模型库、进行模型的匹配、后期处理等主要的环节。机器人的语音识别实际上一种仿生式的模式, 即将语音转化为一直可以对别的语音特征, 然后与储存的信息进行对比, 并形成对其含义的判断, 人类对语音的含义的判断也是这样的过程, 只不过人类使用的是大脑而机器人利用的是数据库和芯片, 目前占有主导地位的语音识别技术的技术基础是统计模式的识别理论。

2 机器人语音识别系统的硬件设计

2.1 硬件系统的整体构成

语音识别的硬件系统中体的构成应当为了两个大系统构成, 即发射端和接收端, 即利用主要的芯片系统来接收语音信号, 并进行计算和识别, 然后利用信号输出端口将形成的指令传输给接收端的执行系统, 并以此控制机器人的各个电机和肢体部件, 来完成整个语音指令的执行。在这个系统中主要的硬件系统有:微处理器、音频模块、电机驱动模块、避障系统、机器人系统、电源控制模块。具体的系统构成如图1。

2.2 硬件系统的设计

在具有语音识别功能的机器人硬件系设计中应当对前面提到的各种功能模块进行单独的设计和实现, 然后利用线路和端口将整个系统连接起来, 这样就实现了机器人硬件系统的搭建。

人硬件系统的搭建。1) 电子芯片 (微处理器) 。在这里应用的是SPCE061A单机1) 电子芯片 (微处理器) 。在这里应用的是SPCE061A单机芯片。这种语音的专业芯片来构建机器人的语音识别和控制系统可以实现机器人的自动运这种语音系统的硬件基础就是SPCE061A控制器为核心的语音识别平台。这CE061A是一种具有语音特色的16位控制器, 采用的是模块化的结构, 内部了在线仿真处理器, 闪存、静态内存、通用的端口、定时和计数器、中断控、通道转换器、电压监控等模块。另外其数据处理核心能够为其提供较高的速度, 这样就可使其完成16位的运算、DSP内积率波运算、复杂数字型号芯片。这种语音识别的专业芯片来构建机器人的语音识别和控制系统可以实现机器人的自动运行。这种语音系统的硬件基础就是SPCE061A控制器为核心的语音识别平台。这种SPCE061A是一种具有语音特色的16位控制器, 采用的是模块化的结构, 内部集成了在线仿真处理器, 闪存、静态内存、通用的端口、定时和计数器中断控制器、通道转换器、电压监控等模块。另外其数据处理核心能够为其提供较高的处理速度, 这样就可使其完成16位的运算DSP内积率波运算、复杂数字型号处理, 但同时不需要进行额外接入专用的语音控制芯片辅助其进行语音的编码和解码。因此可以单独完成语音识别和控制, 具有体积小、扩展能力强、集成度高、性能可靠、中断处理功能完备, 价格低廉等, 即节省了成本也降低了设计难度。因此, 微处理模块采用了这种单机芯片, 并以此为核心开展硬件设计;

2) 音频处理模块。音频处理模块的构成是麦克风输入电路和音频输出电路组成。其中麦克风音频采集电路采用的是MICP和MICN, 这种设计可以通过MIC形成的波形变化在两个端口位置形成相反的波形, 通过两级放大电路的处理, 将放大的语音信号传输给ADC进行数字处理。这个数字信号也就是语音训练和进行识别的语音输入源, 音频输出模块对识别后的结果节能型输出, 采用的是SPY0030音频放大电路, 同时播放提示语音, 以便于实现智能化的语音控制, 以此完成了人与机器人的交互训练;

3) 电机驱动系统。在一般的设计中多采用ULN2803集成放大矩阵模块来完成对电动机的驱动, 这样可以实现对机器人内部多个电机的正向和反向运行。这个模块有高度集成、简单可靠等优势, 为了实现避障功能的实现提供了较好的硬件基础和很好的驱动能力。因为机器人使用的电机都需要实现正反向运行, 并且使用的电机数量较多, 因此需要一个稳定而功能强大的电机驱动模块。同时也必须可以与微处理芯片和其他系统进行良好的配合;

4) 红外线避障控制模块。利用红外线原理构建的红外线避障模块具有红外线发射和接收二极管为核心, 发射管所产生的定频红外线信号, 接收二极管则负责接收这一频率的信号。当红外线信号基础到前面遇到障碍的时候, 红外线所形成的反射信号就被接收管接收, 并进行处理, 然后通过数字传感器将信号传输到控制主机, 然后由主机进行判断并动作。目前设计中的红外线避障模块多采用多为HARP所生产的红外线传感器GP2D12, 这种设备的控制范围是10cm~80cm, 设备的接口为标准的三线口, 适用于智能化机器人;

5) 系统电源模块。在以SPCE061A芯片为核心的语音控制系统其电压的要求为3.3V, 而I/O端口的电压则在3.3V~5.0V之间。因此在控制板上将出现两种电压, 即5.0V和3.3V。系统可以采用3节电池来进行供电, 4.5V的直流电源可以通过稳压装置降低到3.3V, 为整个系统提供4.5V和3.3V的工作电压。

3 结论

机器人的语音识别功能需要最佳的硬件组合才能够实现较好的控制效果, 其中单机芯片是其控制的核心, 因此选择SPCE061A这样比较成熟的芯片来作为语音识别硬件系统的核心是有着明显优势的。同时配合其他硬件模块的合理选择就可以实现较理想的控制效果。

摘要：目前语音识别系统在机器人上的应用逐步得到了扩展, 其主要的硬件基础是基于单机芯片的发展和完善。因此, 在机器人语音识别功能时, 需要以单机芯片为核心, 完善整个硬件系统设计, 并以此达到连贯的语音控制。

关键词：语音识别,硬件系统,硬件模块,系统设计

参考文献

[1]丁易新.机器人的语音识别系统和控制器的硬件设计[J].信息化研究, 2009 (1) .

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处

【语音与书写识别】相关文章：

语音识别技术07-10

语音识别技术综述09-11

基于HMM的语音识别技术11-24

Office语音识别词典如何删除单词04-20