语音控制系统

2024-06-10

语音控制系统(精选十篇)

语音控制系统 篇1

随着WIFI技术的发展和普及,越来越多的手机,电脑等通信终端产品开始支持WIFI技术。部分厂家也都开始尝试将WIFI模块加入电视,空调等家用电器中,以搭建无线智能家居控制系统。现有的智能家居控制系统几乎都以个人电脑作为控制中心,使用时不方便携带,电脑的能耗也比较大。本文使用凌阳公司的SPCE061A单片机为控制核心,利用其特定人声识别函数,实现语音控制,再结合WIFI模块发送控制信息至各家电终端,组建了一个简单易用,便携,低能耗的无线家居语音控制系统。

1 系统工作原理

如图1所示,语音控制系统首先对用户的语音进行采样存储,然后提取出语音特征数据和早一步存储的语音特征样本进行比较,若有匹配项则将对应目标IP地址以及命令编码,通过WIFI模块发送至无线网关。无线网关再将命令编码发送到指定的家电终端上,完成整个控制流程。

1.1 WIFI技术简介

Wi-Fi (wireless fidelity)在无线局域网的范畴是指“无线相容性认证”,实质上是一种商业认证,同时也是一种无线联网的技术。它是一种短程无线传输技术,能够在数百英尺范围内支持互联网接入的无线电信号。随著技术的发展,以及IEEE802.11a及IEEE 802.11g等标准的出现,现在IEEE802.11这个标准已被统称作Wi-Fi。其突出优点有:1) WiFi的信号覆盖半径可达300英尺左右,约合100米;2)传输速度非常快,可以达到54Mbps,符合个人和社会信息化的需求;3)用户不用耗费资金来进行网络布线接入,从而节省了大量的成本。

1.2 SPCE061A语音识别过程

语音识别分为非特定人声识别和特定人声识别两类。非特定人声识别可以辨别任意使用者的语音命令。只要使用者发出的单音节或多音节命令与预设好的语音命令匹配即可完成识别,使用简单。但该方法易受外界噪声干扰,识别率不高,对多音节语音识别能力不强。

特定人声只能识别特定使用者的声音。如图2所示,在识别前需要预先进行训练,将使用者的声音特征提取出来,保存在存储器内。在识别过程中将采样到的声音和存储器内的样本进行比较,最后输出结果。该方法使用较为复杂,但识别过程中用户语音特征和训练中保存的特征样本有很高的相关性,有较强的抗干扰能力,识别率较高,可以较好的支持多音节语音识别。本系统主要针对家庭用户,使用者为有限的几名家庭成员,利用特定人声识别方法可提高系统的稳定性,也不会增加数据存储量。

2 系统硬件结构

系统以凌阳公司的SPCE061A单片机为控制核心。用户初次使用时,按下键盘中的训练按键即可进入训练阶段。SPCE061A单片机通过LCD显示屏提示用户要说出的语音命令,对MIC传送来的语音信号进行采样后将得到数据进行处理提取出语音特征样本,并把特征样本按规定顺序存放到SRAM中,每个特征样本都会分配一个编号。训练完成后,用户按下工作按键,系统即可进入识别控制阶段。若当前采样的语音特征找到了匹配的特征样本,则将该特征样本的编号输出。利用输出的编号作为索引,在预先编辑好的命令编码表查找到控制目标的IP地址和命令编码。通过WIFI模块将命令编码发送至无线网关。

SPCE061A单片机属于系统级芯片。芯片带有专用的MIC差分输入管脚,片内集成了自动增益放大模块和10位的模数转换器,并且有MIC供电输出管脚,大大简化了前端模拟电路的设计。单片机自带16KB的flash存储器和2KB的SRAM,容量较小,因此系统外接了一个2MB的SRAM存储器,用以存放特征样本。为防止掉电后SRAM中内容丢失,在电源管理模块中使用干电池单独为SRAM供电。

WIFI模块选用了文胜鼎公司的CG-WIFI-03串口转WIFI模块。该模块支持IEEE802.11b/g协议标准,工作频率为2.412GHz-2.484GHz,支持TCP、UDP等多种网络协议,支持基础网和自组网两种网络类型。单片机通过UART串口与之进行数据传输和参数配置。

3 系统软件设计

每个家庭使用的电器类型和数量以及对控制的要求都有所不同,用户也不可能在硬件层次对系统进行设置。所以系统使用的灵活性和易操作性是必须考虑的问题。为此,系统软件设计分为单片机程序设计和用户配置程序设计两个部分。其中用户配置程序在PC机上运行,使用者在PC机上将参数设置好后,通过下载接口下装到单片机内。

3.1 SPCE061A单片机程序设计

凌阳公司为了方便设计者开发,在其集成开发环境中专门设计了语音处理函数库,从语音训练,语音处理,语音识别到结果输出都可调用相关函数实现,节省了开发时间。首先利用BSR_DeleteSDGroup ()函数清空SRAM,然后调用BSR_IniRecognizor ()函数完成识别器的初始化,再调用PlaySnd ()函数开始识别,最后的结果由BSR_GetResult ()函数输出。上述函数都放在bsrv222SDL.lib库文件中。单片机程序工作流程如图4所示。

3.2 用户配置程序

系统中存储的语音命令特征样本及其对应IP地址和控制编码必须根据用户家居电器使用情况,由用户自己设置。这对系统的易操作性提出了很高的要求。为此,系统设置了在PC机上运行的用户配置程序,可将用户设置的参数自动生成一个头文件加入到单片机程序中,然后随程序烧写到芯片内部。配置程序用C++BUILDER实现,程序界面如图5所示。

4 结论

本文所设计的系统分别对一台特别改装过的空调和电视进行控制,取得了成功,语音指令识别成功率达到95%左右。系统使用集成度很高的SPCE061A单片机和WIFI模块简化了电路设计,成本低,体积小巧。用户配置程序提高了系统的易用性和灵活性。但当前自带WIFI模块的家用电器不多,各厂家的控制方式没有统一标准,这是建立智能化家居系统要进一步研究的方向。

摘要:文章介绍了一种用于智能家居的无线语音控制系统。系统使用集成度很高的SPCE061A单片机完成了特定人声语音识别,利用WIFI模块组建了家庭无线网络,实现了用语音命令控制带WIFI模块的家电。系统电路设计简单,成本低,体积小巧。专用的用户配置程序提高了系统的易用性和灵活性。

关键词:SPCE061A单片机,WIFI技术,语音识别

参考文献

[1]罗亚非.凌阳16位单片机应用基础[M].北京:北京航空航天大学出版社.2005.

[2]瞿少成,艾宁,等.基于SPCE061A单片机的无线语音控制智能小车的研制[J].微处理器应用,2008,31(12),151-154.

[3]刘幺何,宋庭新.语音识别与控制应用技术[M].北京:科学出版社,2008.

畅言语音教具系统使用心得 篇2

作为一名农村小学的英语教师,我一直都有一个愿望:让学生在每节课的课堂上都能听到地地道道的英语口语,师生畅言语音在课堂上用英语畅所欲言。但是由于多方原因,要达到这种境界似乎很难。

最近“畅言智能语音教具系统”的到来,让我的教学工作有了新的起色。一开始看到畅言智能教具,并没有在意。后来在慢慢的摸索,逐步使用的过程中,我终于体验到了它强大而奇妙的功能。现在,我在教学中已越来越离不开它了。我认为这套教具对于英语教师自身素质、英语课堂教学效果和学生的综合能力等各方面的提高有着重大作用。

下面就简单谈谈使用畅言语音教具的体会:

一、简单方便易操作,提高教学效率。

首先,畅言智能语音教具系统用法非常简单,教师只需用识别笔点击课本上的内容,主机就朗读相应的英文单词、句子,唱歌曲歌谣等等,不但节省了录音机倒带的时间,而且解放了教师。这样一来教师可以巡视、关注每一个学生的情况,了解学生学习效果,适时指导,增大了课堂容量。

其次,识别笔可以一笔多用,除了点击要播放的内容以外,识别笔的激光灯可以当作教鞭使用,引导学生观看要学习的目标;识别笔上的任意功能键还可以帮助维护课堂秩序,提醒学生们集中注

意力;另外在课堂上需要结束学生热烈讨论的时候,用此键可以起“唤醒”和“终止”的作用,提高了各个教学环节的学习效果。

二、优化英语课堂,调动学生学习英语的积极性。

传统的英语课堂教学,组织形式单一。只有老师的讲解、提问、学生的回答、跟录音机反复读,很难吸引学生的注意力,智能语音教具系统给这样的课堂注入了新的活力。

畅言智能语音教具中语音合成,自制教具的功能,可以把任意实物,图片,卡片等制成生动有趣的有声教具,让他们自己开口说英语,还可以利用人与主机对话交流,使英语课堂变得更加直观、形象、真实、从而课堂变得生动活泼有趣。例如,在讲动物单词的时候,我自己录制了猫和狗的叫声,来引入单词教学;讲蔬菜水果单词时,我将相应单词读音输入识别码中,然后贴到相应图片上,用笔一点就能说话,这样一来,学生觉得很奇妙,自然兴趣就提高了。还可以利用合成声音,选择女声或男声朗读,使学生在纯正的语言中感知英语。并通过有声实物,标准声音,有声图片等把枯燥的单词,抽象的叙述以生动活泼的形象显现出来,使学生的大脑变得异常兴奋,注意力非常集中,学习的积极性随之调动起来。

三、提高教师自身素质,促进学生的发展。

畅言智能语音教具系统提供的“发音评测”、“中英文朗读”功能为我们教师自身发展提供了很好的学习工具,在一定程度上也促进了学生的发展。

“发音评测”相当于随时随地的口语校正“老师”,利用它可以对教师自己的发音进行测试,比较差异,提高发音的标准度。也可以对学生单词、句子和篇章的发音准确性进行评测,系统立即打分,得出错对辨率,我们可以对照标准,改正错误的发音。

“中英文朗读”功能中的“每日推荐”板块提供了大量的英文阅读材料,是老师提升英语阅读及听力能力的绝妙的好机会,每日内容不同,涉及面广,我们不需要花大量的时间和精力去寻找或购买英语报刊等,很轻松地就能增加我们的课外知识,提高我们的语言综合运用能力。

除此之外,畅言智能语音教具系统还有许多重要的功能:

第一,畅言智能语音教具系统实现了中英文对照朗读功能,这 是区别于其他英语语音教具的一大亮点。

一般的语音教具仅能播放英语课文的朗读,很难实现英汉同步播放。为了能更好的利用畅言智能语音教具软件系统解决此类矛盾,服务于现代英语教学,我的想法是:在语音合成过程中同时输入英文和中文,对发音人进行配合选择,这样便可以听取中英文对照的朗读,解决了部分学生的听力理解较差的难题。具体的做法是将手头的中英文对照文本,或者是一段中文一段英文的文本上传至畅言智能语音教具软件,在软件的“高级朗读模式”中,可以用中文发音人(“中文男声”或者“中文女声”)来朗读中文,用英文发音人(“英文男声”或者“英文女声”)来朗读英文,这样,就可以听到中英文对照朗读了。若有的中英文对

照文本,英文较简单只需要朗读英文部分,而中文部分不需要朗读,那么可以这样设置:选择英文部分,选择英文男声或女声发音人;选择中文部分,选择“不朗读”即可。

第二,借助畅言智能语音教具中英文“高级朗读模式”你还可以根据课文的难易,学生的反应适当调节朗读的速度,获取最佳的听觉效果。

第三,系统软件上附带的“生词表”可以说是一本“活字典”,不仅可以帮助教师和学生查找任何一个生疏的单词,还可以点读、跟读、模仿,一定程度上降低了学生出现哑巴英语的可能性。从“生词表”中,可以看到生词以字母顺序进行排列,当鼠标指向某个词语或短语时,会给出词语相应的解释,使用者可以点击“试听”来听取标准的读音。最为便捷的是,用户还可以任意搜索需要的词语或者选择是否需要显示词语的解释,这样为使用者提供了很大的方便。

全语音控制 篇3

夹子外形设计 不像传统车载语音设备

Parrot Minikit Neo看上去并不像传统的车载语音设备,外形采用夹子设计,体积为94×54×39mm,重量也仅69g,用户可以很方便地将它夹在各种汽车的遮阳板上。在机身顶部可以看到突出的旋钮式按钮,旋转及按下的手感都还不错。在旋钮两侧,绿色LED灯对应的按键为通话键,红色LED灯则对应挂机/结束键。按钮下方的大块区域是平板扬声器,由于只是一款磨砂塑料材质的塑料板,所以外形上完全感觉不到它是一款扬声器。旋钮下方的小孔则是一个具有360度全方位声音感知的麦克风。

蓝牙3.0、NFC模块、振动传感器、双模式多点技术

配置方面,Minikit Neo采用了蓝牙3.0版本,支持HFP 1.6(免提)、A2DP(高清立体声传输)、PBAP(电话簿配置)等协议,并拥有双模式多点技术,能同时连接两部手机。而内置的NFC模块,同样有NFC模块的手机,只需靠近它即可完成配对。此外,Minikit Neo还配有振动传感器,可在用户进入车内时自动开启。当用户离开车厢,装置则自动转为待机模式,如果用户的手机曾与装置配对过,此时便会进行自动配对。

可以直接说出联系人名字拨打电话 通话效果理想

在通过NFC功能和蓝牙无线连接配对后,该装置会播放连接成功的提示音。此时,用户可通过语音提示设置电话簿、音量、添加语音标签等功能。Minikit Neo的指令词项也是语音控制选项,用户可以选择是否用自己的声音命令来接听、拒绝或拨出电话。在待机状态下,我们只要说出启动语音拨号的关键词“拨打电话”,就能激活装置,接着在语音提示后说出要拨打的通信录中的联系人名字,即可拨出电话。来电时,只要说出“接听”就能接通电话,或者说“拒绝”来挂断电话,整个过程我们都不需要去触碰该装置,真正解放了双手。而Minikit Neo的更新项还可将装置的数据进行升级或更换其它语种的数据,只需到Parrot官网相关页面下载相应数据包。

在实际操作中,Minikit Neo的语音识别准确率非常高,通信录里的人名基本上都能准确识别出来。这也得益于它采用的本地语音声控技术与苹果Siri一样都是来自美国Nuance公司提供的解决方案,这种语音声控完全基于语音芯片处理技术。

而通话效果方面,Minikit Neo的全方位感知麦克风具有良好的噪音抑制和回声消除功能,其3瓦NXT平板扬声器让对方的话音输出也很不错,使用效果相当理想。

续航方面,Minikit Neo内置了容量为1000mAh的锂离子电池,能提供超过10小时的通话时长和多达半年的自主待机时长,并只需3个多小时就能将电量充满。

总结:599元!真正实现语音控制拨打电话

具有语音功能的水温控制系统 篇4

本系统采用SPCE061A单片机、Pt1000及其外围电路设计了具有语音播报和显示功能的水温控制系统。凌阳十六位单片机SPCE061A实现温度处理和控制, Pt1000和电压放大电路实现温度信号采集, 系统通过PID算法实现对电炉通断控制。

该系统可以实现在烧水过程中对水温的控制, 极大地方便了人们的生活。该系统可应用于锅炉等需要进行温度控制的工业设备上, 能提高设备的安全性, 节约能源。

1. 研究内容

随着电子技术的快速发展, 具有语音功能的设备越来越多地在工业, 交通, 通信等领域得到应用。具有语音功能的设备的理论和技术也日趋完善和成熟。人们对设备语音化的实际需求也越来越迫切, 使得具有语音功能的实用化产品不断出现。语音技术的发展使得许多系统更加友好, 更方便用户对系统的控制, 比如说具有语音功能的手机、具有语音功能的家电控制系统。本系统设计的是一个具有语音功能的水温控制系统, 对象为1升净水, 加热器为1千瓦电热炉。要求能在40摄氏度至90摄氏度范围内设定控制水温, 静态控制精度为0.2摄氏度。并具有较好的快速性与较小的超调, 以及十进制数码管显示、温度曲线打印、语音播报温度等功能。

2. 方案设计

该设计包括测量和驱动控制两部分, 以下为两部分的方案设计和元器件选择。

(1) 测量部分

采用温度传感器铂电阻Pt1000。铂热电阻的物理化学性能在高温和氧化性介质中很稳定, 它能用作工业测温元件, 且此元件线性较好。在0—100摄氏度时, 最大非线性偏差小于0.5摄氏度。铂热电阻与温度关系是

其中Rt是温度为t摄氏度时的电阻;R0是温度为0摄氏度时的电阻;t为任意温度值, A, B为温度系数。

(2) 驱动控制部分

采用SPCE061A单片机实现驱动控制, 该单片机内置8路ADC, 2路DAC, 且在集成开发环境中, 配有很多语音播放函数, 用SPCE061A实现语音播放极为方便。另外, 比较方便的是该芯片内置在线仿真、编程接口, 可以方便实现在线调试, 这大大加快了系统的开发与调试。

3. 系统组成

本系统组成包括CPU、数据采集、键盘设定、语音播放、数据显示、打印、加热部分等模块。系统通过这几个模块的共同作用完成具有语音功能的水温控制系统, 并实现温度曲线的输出、打印, 系统组成框图如图3-1所示。

语音播放:语音播放通过键盘设定的温度值, 并播报整数温度变化。

键盘设定:用于温度设定。共KEY1、KEY2、KEY3三个按键。

数据采样:通过Pt1000和电压放大电路采集的电压信号经AD转换后, 换算成温度值, 用于播报和显示。

数据显示:采用三位八段数码管显示设置温度并在按下KEY3键后显示测量的温度, 测量的温度显示到小数点后1位数字。

串行口传输:将采样温度值, 上传至PC机, 描绘曲线并打印。

继电器/热电炉:通过三极管控制继电器的开关来完成对热电炉的功率控制。

4. 主程序

主程序主要完成对系统的初始化, 系统初始化部分包括系统时钟、I/O口、中断设置 (开外部中断) 。这里将系统时钟设置为49MHZ, 单片机的串行输入输出接口初始化, 初始化按键扫描程序, 开启FIQ_TMA中断。

在本系统中, 主程序不断循环的扫描任务标志变量, 根据标志变量的值执行相应的动作。主要任务包括键值处理、语音播报处理、PID计算和继电器控制等。如图4所示是主函数流程图。

5. 系统功能

系统上电后, 通过KEY1和KEY2设定需要加热的温度。该设定值会通过数码管显示, 在设定到需要加热到的温度后按下KEY3, CPU根据设定的温度值数据控制电炉开始加热, 同时温度采集系统开始工作。在按下KEY3的同时数码管清零, 并开始显示采集到的水的温度, 测量的温度在数码管上显示到小数点后1位。温度采集系统每5s向系统传送一次数据, 该数据不但会在数码管上显示出来并通过语音系统播报整数值的温度, 而且会通过串口上传至PC机。同时系统通过PID算法计算该温度是否达到了设定的温度, 若已达到设定温度, 则断开继电器从而停止加热, 若未达到, 则重复以上过程。在温度达到设定温度后系统停止加热, 语音系统提示温度已达到用户需要的值, PC机通过收集到得温度值数据绘制温度曲线图。

6. 结语

由于SPCE061A的时钟最高可达49M, 32个I/O口, 而且具有一定的语音处理功能等, 这些都为我们实现电路提供了非常便利的条件。同时也因为开发环境友好, 易用, 方便同时配有语音播放函数, 这些大大加快系统开发设计。本系统核心是控制算法的设计和实现, 各方面指标基本达到设计要求。

参考文献

[1]第三届全国大学生电子设计竞赛组委会.第三届全国大学生电子设计竞赛获奖作品选编 (1997) [M].北京:北京理工大学出版社, 1999.

[2]黄军辉, 董晓倩, 李建波.单片机原理与应用-凌阳SPCE061A[M].北京:人民邮电出版社, 2008, 2.

[3]阎石.数字电子技术基础[M].北京:高等教育出版社, 1998, 12.

[4]童诗白, 华成英.模拟电子技术基础[M].北京:高等教育出版社, 2001.

[5]张培仁, 张志坚, 高修峰.十六位单片微处理器原理及应用 (凌阳SPCE061A新世纪电子信息工程系列教材) [M].北京:清华大学出版社, 2005, 5.

[6]卢胜利.基于凌阳SPCE061A设计实验平台的专业综合设计教程[M].北京:机械工业出版社, 2007, 1.

[7]李学海.16位语音型单片机SPCE061A实用教程:基础篇[M].北京:人民邮电出版社, 2007, 3.

[8]李晓白, 秦红磊.凌阳16位单片机C语言开发[M].北京:北京航天航空大学出版社, 2006, 9.

[9]刘幺和, 宋庭新.语音识别与控制应用技术[M].北京:科学出版社, 2008, 2.

[10]孙余凯, 吴鸣山, 项绮明.传感技术基础与技能实训教程[M].北京:电子工业出版社, 2006, 11.

畅言智能语音教具系统的使用教案 篇5

2014年9月14日-15日

“课件制作工具”是畅言智能语音教具系统自带的工具,用户可使用随机附赠的“隐形识别标签”制作自己的读书笔卡片,帮助用户制作适合自己学习的有声卡片和挂图,和畅言智能语音教具系统配合使用,进行个性化学习。

点击主窗口“工具与设置”中的“课件制作工具”,打开界面如下图所示。在这个模块中,用户可以通过此工具,制作与畅言智能语音教具系统配套存储卡中格式相似的声音文件,并可以将文件保存到存储卡中,配合赠送的隐形识别标签,进行点读。

图2-36

课件制作工具操作流程示意

一、课件制作的操作流程

如图2-36所示,课件制作工具的操作流程如下:

① 获取声音。可以通过“打开声音文件”、“打开课本文件”、“生词表”和“自己录音”等多种方法来获取声音。

② 声音处理。课件制作工具提供了一系列声音编辑处理功能,如调整语速、插入静音和剪切、复制、粘贴、删除声音等。

③ 试听声音。可以通过“播放声音”和“停止”按钮来试听声音。

④ 设置隐形识别码。声音文件和隐形识别码的对应关系通过软件建立,点击“设置隐形识别码”后在弹出的对话框中输入识别码即可(范围是16384—18431之间整数)。如果需要更改识别码,可以通过“重设隐形识别码”来实现。

识别码是数字格式的,印刷在随读书笔赠送的隐形识别标签上。注意,在输入隐形识别码时,请使用半角字符(如 16399),不可以使用全角字符(如16399)。⑤ 保存声音文件到存储卡。设置好隐形识别码后,可以将设置好的文件(tcr格式)保存到存储卡上。

⑥ 查看存储卡文件。用户还可以通过“存储卡管理”打开存储卡,对存储卡的内容进行管理。

二、如何获取声音

可以通过“打开声音文件”、“打开课本声音”、“生词表”和“自己录音”这4种方式来获取声音。1.打开声音文件

点击课件制作工具界面左上方的“打开声音文件”按钮,可以看到其中包含“添加声音文件”和“新建声音文件”两种方法进行声音文件获取。

点击“添加声音文件”按钮,可以将计算机上的声音文件添加到课件制作工具,声音文件包括wav、mp3、由本工具制作的tcr文件以及通过中英文朗读保存的tcr格式的声音。在弹出的“打开”对话框中选中要添加到文件后,点击“打开”按钮即可。如下图所示:

图2-37

添加声音文件

点击“新建声音文件”,在课件制作工具中新建一个声音文件,可以对其进行声音编辑。如下图所示:

图2-38

新建声音文件

2.打开课本声音

本工具可以同步打开使用教具点读的课本声音,制作有声课件。首先,将SD存储卡通过读卡器插入到计算机的USB接口中,其次,在“打开课本声音”状态,点击“更新课本资源”按钮,在弹出的窗口中选择要更新的课本资源后,点击“确定”按钮即可。

图2-39

更新课本资源 如果要将所有课本资源一次全部更新到软件中,可以在“选择要更新的课本”窗口中,在“全选”前的方框内打勾后,点击“确定”按钮。注意,所有课本的资源需要占用较多的计算机硬盘空间。另外,还可以对已更新的课本资源进行管理。点击“打开课本声音”下的“管理课本资源”按钮,弹出“管理课本资源”对话框,如下图所示:

图2-40

管理课本资源

在管理课本资源窗口中,在课本名称前的方框内打勾,即可选中该课本资源;在“全选”前的方框内打勾,可以选择窗口内显示的所有课本资源。点击“删除”按钮,弹出确认删除的温馨提示,如下图所示:

图2-

课本资源删除提示

在提示窗口中点击“确定”,删除选中的课本资源。

3.生词表 生词表中包含了单词发音的声音文件,可以用来制作有声课件。点击“生词表”后,弹出生词表界面如下图所示:

图2-4生词表

在生词表界面中:

点击“英文”,可以切换到相应的英文生词表进行选择。②

点击“语文”,可以切换到相应的语文生词表进行选择。③

输入单词后点击“搜索”按钮,可以查找单词,具体方法是:

*1.搜索功能,只支持从单词第一个字符进行搜索,比如输入“da”,只能搜索到像 dad,date等这些以“da”开头的词语或短语,而像birthday这样的单词是不能被搜索到的。

*2.如果想搜索所有包含“da”的单词,可以输入“%da”即可,其中“%”是搜索语句中的通配符。

*3.在“语文”的“汉语拼音音节表”中搜索时,请使用数字表示声调,如“zhang3”表示搜索zhǎnɡ。用数字1表示阴平(一声),数字2表示阳平(二声),数字3表示上声(三声),数字4表示去声(四声),数字0表示轻声。

同样,也可以借助“%”通配符进行高级一点的搜索。如“%an”表示搜索所有包含an的音节,“%an3”表示搜索所有韵母包含an的声调为上声(三声)的音节。

点击字母,显示该字母开头的生词。⑤

点击“选择”按钮,添加该生词到声音到课件制作工具界面中,以供进行声音处理。⑥

点击“试听”按钮,可以听取该单词的发音。⑦

“上一页”按钮,点击显示上一页的单词。⑧

“下一页”按钮,点击显示下一页的单词。

4.自己录音

除了上述几种方法外,还可以通过自己录音制作有声课件。既可以在一段声音中插入自己的录音,也可以单独新建一个声音文件进行录音。

点击课件制作工具界面上的“自己录音”按钮后,弹出录音窗口如下图所示:

图2-4自己录音窗口

点击“录音”按钮,通过电脑的麦克风等外置录音设备输入语音,完成输入后点击“确定”按钮,录音就成功了。在录音过程中,可以暂停录音,也可以继续录音。

三、声音处理

通过课件制作工具,可以对获取的声音进行处理,以更好地满足教学需要。工具提供的处理方法包括调整声音的速度、在声音中插入一段静音,对声音进行剪切、复制、粘贴、删除和撤销等编辑操作。其中剪切、复制、粘贴、删除和撤销等操作,支持通过键盘快捷键操作。

1.调整语速

如果想将获取的声音播放速度调快或调慢,可以点击课件制作工具界面上的“调整语速”按钮进行调节。

方法:点击“调整语速”按钮,弹出速度调节提示框,如下图所示:

图2-4速度调节提示框

用鼠标拖拽滑块到合适语速时,点击“确定”按钮即可。每次可以调整的语速是原来速度的 0.5-2 倍。此操作可以连续使用,但是建议不要调整太多次,否则声音可能有较大变化,而不适合使用。

2.插入静音

可以在一段声音的任意位置插入静音,做成有适当停顿的有声课件,在制作听力点读时,非常实用。

方法:用鼠标点击选择要插入静音的位置后,在课件制作工具的界面点击“插入静音”按钮,弹出静音长度设置的提示框,如下图所示:

图2-4插入静音 输入所插入静音的长度后,点击“确定”按钮,即可将静音插放在声音文件中的指定位置。如果需要,此操作可以连续使用。

3.剪切

方法:选中一段声音后,点击课件制作工具界面上的“剪切”按钮,或者按“Ctrl+X”组合快捷键,可以对选择的声音进行剪切操作。

4.复制

方法:选中一段声音后,点击课件制作工具界面上的“复制”按钮,或者按“Ctrl+C”组合快捷键,可以复制选中的声音。

5.粘贴

方法:用鼠标点击确定要粘贴声音的位置后,点击课件制作工具界面上的“粘贴”按钮,或者按“Ctrl+V”组合快捷键,可以在指定位置粘贴已经复制的声音。

6.删除

方法:选中一段声音后,点击课件制作工具界面上的“删除”按钮,或者按“Delete”快捷键,可以删除选中的声音。

7.撤销

方法:点击课件制作工具界面上的“撤销”按钮,或者按“Ctrl+Z”组合快捷键,可以撤销上一步操作。本工具只可对上一步操作进行撤销,不可连续撤销多次操作。

四、试听声音

方法:点击课件制作工具界面“播放声音”、“暂停播放”、“停止”按钮听取声音。

五、设置隐形识别码

声音文件和隐形识别码的对应关系通过软件建立,点击“设置隐形识别码”后,在弹出的对话框中输入识别码即可(范围是16384—18431之间整数),识别码数字印制在识别标签上。如果需要更改识别码的设置,可以通过“重设隐形识别码”来实现。

方法:点击课件制作工具界面上的“设置隐形识别码”按钮,输入识别码后点击“确定”按钮即可。如下图所示:

图2-46

设置隐形识别码

六、保存

课件制作工具支持三种声音保存形式:保存到存储卡、保存到计算机和保存为提示音。1.保存到存储卡

设置好隐形识别码后,可以将设置好的文件(tcr格式)保存到存储卡上。请先将存储卡通过读卡器插在计算机的USB插槽中,或者将读书笔通过USB线连接到电脑上。保存的文件形式为:cy19366.tcr,其中数字“19366”是设置的隐形码数字。

方法:点击课件制作工具界面“保存”旁的下拉按钮,选择“保存到存储卡”后,在保存成功提示框中点击“确定”按钮即可。

图2-47

保存到存储卡

2.保存到计算机

设置好隐形识别码后,也可以将声音保存在电脑上的指定位置。方法:点击课件制作工具界面“保存”旁的下拉按钮,选择“保存到计算机”后,指定保存位置,在保存成功提示框中点击“确定”按钮即可。

图2-48

保存到计算机 3.保存为提示音

获取声音以后,可以将声音保存为可在读书笔上使用的提示音文件:a.tip或者b.tip。

方法:点击课件制作工具界面“保存”旁的下拉按钮,选择“保存为提示音”后,选择保存为“提示音a”或“提示音b”,指定保存位置后在保存成功提示框中点击“确定”按钮即可。

七、存储卡管理

点击课件制作工具界面上的“存储卡管理”按钮,可以打开存储卡,对存储卡的内容进行管理。

语音系统教学的认识与思考 篇6

关键词:语音教学;改革;调整

中图分类号:G633.41文献标识码:A 文章编号:1992-7711(2015)09-064-2

一、语音系统教学的认识

学习外语总是从学习语音开始,语音学习总是与语音教学密切联系的,语音学习的好坏直接影响到以后的学习。语音是研究语言性质、语言现象及其规律的。语音是语言实现社会功能的物质凭借,其物质性表现在物理属性和生理属性两个方面。语言的物理方面包括音高、音强、音长、音色,语音的生理方面与人的发音器官有关。如肺和器官,喉头和声带、咽腔、鼻腔、舌迟和口腔。一个人在发一个音时,几个发音器官协同活动,叫做发音动作,可以构成不同的系统,分系统和支系统。音素、重音、节奏、语调都是构成语音的要素。从系统论的观点看,系统要素相互联系、相互作用,只有它们之间构成具有特定功能的有机整体时,才能发挥传递信息的表义功能。语言体系是音义结合的词汇和语法体系。语音是语义的表现形式,没有语音的物质形式,语义就无法表达。每种语音在发音动作上的总的特点就是该语言发音法的基础,学习英语语音就是要掌握英语发音法基础。人是在大脑与身体,特别是发音器官协同工作中学习语音的。一个句子除了一定的语法结构外,还有相应的语音结构,语音结构是构成语音系统的基础,只有语音要素的协同运作,才能学到地道的语音。

二、英语语音教学的现状

1.忽视语音的基础知识学习

常见的情况是,学生六年以后还是没有系统音标的印象,甚至不知道英语元音和辅音是什么。学过的单词不会读,没有学过的单词就根本不敢读。这极大地妨碍了学生单词学习和记忆,影响学生口语能力的提高,影响学生的阅读速度,是导致英语学习事倍功半的重要原因。

2.忽视英语重音和节奏的学习和系统训练

重音和节奏是英语语音的灵魂。学生只会读单音节词,双音节词和多音节词就读不准。许多学生说的英文听上去不像英文而像中文,主要原因是没有掌握节奏。从节奏上讲,中文和英文是属于两种类型的语言。英文的节奏是由重音决定的(stressedtimed)。两个重音之间不管有多少音节,发音的时间是一样的。例如: We finally reached the top of the mountain.这句话中,重音之间有两个音节和三个音节,可是念起来的时候却是一样的时间,否则就没有了英语节奏。中文则不然,它的节奏是以音节体现的(syllabletimed)每个音节的发音时间基本上相同。例如,“我们终于到达山顶了”,如果学生用中文的节奏来读英语,中式英语就难免了。

3.忽视英语语调的模仿和系统训练

英语语调是英语的一个重要特色。中国学生的主要精力放在能够读出来,存在语调可以忽略不计的误区。事实上,语调有一定的表义功能,如:

(1)What is your name?↘表示问你叫什么名字这样一个事实。

(2)What is your name?↗表示提问这对被问者感兴趣,表示关心或同情之意。

两句子句一样,语调不同,表达语义迥异。这也是中国学生学习英语常忽视的一个问题。

三、语音教学与系统科学理论

1.语音教与学贯穿于音标学习始终

音标是英语学习的基础,掌握音标的发音技巧,有助于更好地学习英语。课本编写是分散的。在分散学习中我们学会正确的发音动作,而要知道|e|时,在bed, let 中的e长度是不一样的,也就是说音素中的[e]与在具体单词中[e]的发音不完全相同,主要受到音素之间的相互影响。有时两个相邻的音素相互影响,同化成新的音素,如education [edukeIn]。因此,音标的发音与单词音素发音有密切联系。

当学会全部的音标之后,建议学习国际音标的系统分类表,使得学生对国际音标有一个整体把握。如果语音这一关没有过好,那么势必会影响到学生口语发展和阅读能力的发展。

2.语音教与学贯穿于词汇教学始终

在每一课单词或词组学习过程中,要十分强调让学生根据音标朗读单词,双音节、多音节的词还要注意单词重音、节奏与韵律。

根据人脑会归类和联系的特征,在学习单词时,启发学生联想学过的单词与新单词的关系。把新的单词根据发音、拼写、意义等方面进行分类,促使大脑把以前学过的知识和现在学的新知识联系起来,形成新的词汇组块和认知结构。这样会巩固单词的学习。事实证明,学习系统的英语音标是符合学生认知结构的需要的,系统的语音学习能够较好帮助学生突破语音关。

3.语音教与学应把培养语感贯穿始终

实践中,我们强调模仿课文的录音,做好语音、语调和节奏的训练。这是培养语感的基础。学习课文语法时,帮助学习者认识语法,建立初步的语感框架,语法和语感是相辅相成的。教学课文还要调整思维,提高语感的悟性。思维是概括反映现实的过程。人的左脑倾向于以概念、判断、推理反映现实的抽象思维,而右脑倾向于以表情、意志、美感反映现实过程的形象思维。抽象思维和形象思维的成果都反映在语音单词的意义之中。英语思维是直线式的,通常以主题句开始,一层层展开主题,而后分别论述;汉语是螺旋式的,往往缠绕着主题外围转,而从不从主题入手。了解文化和思维的差异,也能很好地感悟语言,学到真正地道的英语。

4.语音教与学要在理论和实践的结合上下功夫

语言是最重要的交流工具。语言作为工具是怎样操作的呢?我们认为语言的操作是物质操作和观念操作的统一,这是由语言的物质性和观念性二重性的特征决定的。语言是以符号作为实体存在的,它有声音、有形象是可感物质,是一定形式的存在。语言符号又有意义性,这种意义性反映在表层意义上和深层意义上。

语言学习也要在物质操作和观念操作的结合上下功夫。物质操作是人的感觉器官的操作,通过感官的听、说、读、写活动。观念操作是大脑对英语本身规则的操作,对语音规则、拼写规则、语义规则的内化活动。传统语音教学缺少在两者结合上下功夫,缺少的是正确的理论指导实践。实践论告诉我们,感觉了的东西并不能深刻地理解它,只有理解了的东西才能更深刻地感觉它,记忆和使用它。

四、语音教学理念的变革

语音控制系统 篇7

语音不仅是人与人之间进行信息交流最直接、最方便和最有效的工具,也是人与机器之间进行通信的重要工具。过去的二三十年中,图形用户界面(Graphical User Interface,GUI)作为人与机器的通信接口取得了很大的进展,但使用GUI仍然摆脱不了手的操作,某些场合仍有不便。因此,语音用户界面(Voice User Interface,VUI)成为人们的下一个目标,人们希望通过声音可以对机器发出指令。

语音识别有着非常广泛的应用领域,例如智能家电、智能家居、智能导航、智能玩具等等,这些领域下,语音识别提高了设备的易用性。另外,在某些场合,操作者需要用手控制其它设备,比如驾驶员驾驶过程中,或者非常强调响应时间,比如军事训练种情况的紧急处置,这些场合不允许操作者进行复杂的操作,语音控制就成为一项必要的选择。

语音识别属于数字信号处理的研究领域,其算法初期是依靠计算机、数字信号处理器等来实现的,但随着微电子学和集成电路技术的新进展,近年来不断有语音识别集成电路投放市场。其中,ICRoute的LD3320就是一款性价比较高的芯片。

1 LD3320芯片介绍

LD3320是一颗基于非特定人语音识别(SI-ASR,Speaker Independent Automatic Speech Recognition)技术的语音识别/声控芯片。该芯片集成了语音识别处理器和一些外部电路,包括ADC、DAC、麦克风接口、声音输出接口等。该芯片不需要外接任何的辅助芯片如Flash、RAM等,直接集成在现有的产品中,即可以实现语音识别/声控/人机对话功能。

LD3320完成非特定人语音识别,每次识别最多可以设置50项候选识别句,每个识别句可以是单字、词组或短句,长度为不超过10个汉字或者79个字节的拼音串。另一方面,识别句内容可以动态编辑修改,因此可由一个系统支持多种场景。

芯片采用48脚QFN塑料封装,工作供电为3.3V。芯片内部电路的简要逻辑图如图1所示。其核心是语音识别运算器,配合输入、输出、AD/DA转换等模块,完成语音识别的功能。LD3320还支持并行和串行接口,串行方式可以简化与其他模块的连接。

2 LD3320的应用电路设计

LD3320的基本应用电路由一个微控制器(MCU)和LD3320组成。电路中的主控MCU芯片,是为了完成对LD3320芯片寄存器的操作。

对LD3320芯片的各种操作,都必须通过寄存器的操作来完成。比如设置标志位;读取状态;向FIFO写入数据;识别完成后获得识别结果等。例如在编辑关键词语时,主控MCU通过把关键词语的拼音串设置进LD3320相关寄存器来完成编辑。

其寄存器大体可以分为以下几类,FIFO数据缓存器、语音识别控制寄存器、音量调节、模拟电路和其它的辅助寄存器。寄存器读写操作有2种方式,即标准并行方式和串行SPI方式。LD3320寄存器的地址空间为8位,编号从00H到FFH,可参考文献[3,4]。

本文选用的主控MCU是51内核的单片机STC10L08XE。演示的软件程序全部烧录在MCU的内置Flash中。主控MCU直接控制LD3320完成所有和语音识别相关的工作。

电源设计可以使用NS公司的LM1117-3.3芯片,为LD3320提供3.3V的电压;音频输入和输出,可以使用柱极体MIC和0.5W的小喇叭;语音识别完成后,为了实现对后续电路的驱动,可以利用MCU的串行口与其它模块进行连接。

主控MCU与LD3320的连接关系如图2所示,MCU的P0端口的8根线和LD3320并行方式连接,控制线也分别连接。此外还连接了复位信号和中断信号。对LD3320来说,复位信号(RSTB)由MCU发出,而中断信号由LD3320发出,MCU负责接收。

另外,还有一些辅助电路,比如麦克风的偏置、喇叭音量的控制,以及电源的去耦等,这里不作详细介绍。

3 LD3320的软件编程

3.1 编程模式

主控MCU通过读/写LD3320的寄存器完成操作。用户有两种编程模式:"中断模式"和"轮询模式"。

所谓中断模式,就是系统的主控MCU在接收到外界一个触发后(比如用户按动某个按键),启动LD3320芯片的一个定时识别过程(比如5s),要求用户在这个定时过程中说出要识别的语音关键词语。过了这个过程后,需要用户再次触发才能再次启动一个识别过程。

所谓轮询模式,就是系统的主控MCU反复启动识别过程。如果没有人说话没有识别结果,则每次识别过程的定时到时后再启动一个识别过程;如果有识别结果,则根据识别作相应处理后(比如播放某个声音作为回答)再启动一个识别过程。

3.2 程序流程

语音识别的操作流程是:

(1)语音识别用初始化(包括通用初始化)。在此步骤中,对各寄存器进行初始化设置。

(2)写入识别列表。LD3320是一个基于词库的语音识别芯片,在此步骤中,应将待识别的短语写入识别列表。列表的规则是,每个识别条目对应一个特定的编号(1个字节),不同的识别条目的编号可以相同,而且不用连续,但是数值要小于256(00H~FFH)。

(3)开始识别,并准备好中断响应函数,打开中断允许位。

(4)响应中断。如果麦克风采集到声音,不管是否识别出正常结果,都会产生一个中断信号。而中断程序要根据寄存器的值分析结果。读取BA寄存器的值,可以知道有几个候选答案,而C5寄存器里的答案是得分最高、最可能正确的答案。

如果不用中断方式,也可以通过查询方式工作。在"开始识别"后,读取寄存器B2H的值,如果为21H就表示有识别结果产生。在此之后读取候选项等操作与中断方式相同。

LD3320芯片还具有MP3播放的功能,在这里不再进行介绍。

4 结论

LD3320的功能是完成有限词组的非特定人语音识别,我们将其应用在一个虚拟环境下战术训练课题中。战术训练中,常常需要下达一些短口令,而在我们所设计的训练环境中,如果口令采用键盘或鼠标的方式进行输入,显然有违设计的初衷。所以,我们使用LD3320设计VUI控制电路,用语音识别的方式,将获得的识别结果再转换成串口信号,输入计算机,达到语音控制的目的。

实践证明,这种方式可以满足语音控制的要求,但是语音识别的速度,即实时性还有待改进。

摘要:语音控制机器已经成为人机界面设计的一种重要手段。LD3320作为一款语音识别专用芯片,集成了语音识别处理器和一些外部电路,实现了有限词汇的非特定人语音识别。文章介绍了LD3320芯片的基本功能、电路设计以及控制软件的编写。

关键词:语音识别,集成电路,LD3320

参考文献

[1]柳春.语音识别技术研究进展[J].甘肃科技,2008,24(9):41-43.

[2]姚天任.数字语音处理[M].武汉:华中科技大学出版社,1992,4.

[3]ICRoute Ltd..LD3320开发手册[EB/OL].http://www.icroute.com/web_cn/DownLoad.html

智能语音风门控制系统的开发设计 篇8

风门控制系统的安全性直接关系到矿井的通风、安全及运输的通畅。但目前的风门控制系统在使用一段时间后, 大多因控制系统的可靠性问题而被拆除。为实现煤矿井下通车风门的智能化, 提高矿井通风系统的稳定性、可靠性, 提高智能化、人性化, 保证矿井的安全生产, 我们研制了智能化语音控制的风门控制系统。

一、控制风门系统的工作原理及功能

1. 系统的组成。

语音风门控制系统的部件安装如图1所示。对于两风门系统, 在回风巷和进风巷分别装有两台控制器, 一个电子锁, 一个门位置检测器。智能控制器上安装有光敏传感装置、手动操作按钮、语音扬声器以及门状态显示器。每个门内外各有一个智能控制器。光敏传感装置由头灯照射申请开门, 门限位置传感器安装于风门框架上部, 用于检测风门的开、闭位置;发光指示器显示风门状态, 手动操作按钮用于光敏传感装置故障时用来开门, 风门的开闭由人工完成, 控制器控制电子锁。系统的供电来自附近的127 V交流电源。

2. 工作原理。

根据人员所处的不同位置, 每一道门的开门申请有内外开门申请之分, 人员在两道门之间可照射的光敏传感装置为内申请开门, 人员在两道门之外可照射的光敏传感装置为外申请开门, 控制器内部组成原理如图2所示。

当人员从回风巷向进风巷行进至第一道门时, 头灯照射在第一道门控制器上的光敏传感装置, 如果这时第二道门处于关闭状态, 那么控制器会打开电子锁, 并语音提示门已经打开。如果第二道门此时处于打开状态, 控制器会保持电子锁的锁定状态, 并语音提示对方门已经打开请稍候。

当人员穿过第一道门行至第二道门时, 头灯照射在第二道门控制器上的光敏传感装置, 如果这时第一道门处于关闭状态, 那么控制器会打开电子锁, 并语音提示门已经打开。如果第一道门此时处于打开状态, 控制器会保持电子锁的锁定状态, 并语音提示对方门已经打开请稍候。当人员从进风巷向回风巷行进时, 与上述同理不再论述。

3. 功能介绍。

为了提高控制系统的稳定性、可靠性和实用性, 风门控制系统不仅要保证风门的正常开闭, 还设计有以下功能:

一是语音提示。在申请开门时带有语音提示, 语音报告是否门已经打开或不能打开的原因。二是门状态互锁。前面门打开的情况下不能开门。三是多种风门开闭方式。通常情况下, 人员通过头灯照射控制器上的光电传感器完成风门的门锁打开控制。如果光电传感器出现故障, 可以按手动按钮开门。在某些特殊情况下, 如控制系统出现故障、风门安装调试、检修维护等, 可通过强制开门开关打开门锁。

二、智能语音风门控制系统的硬件设计

智能语音风门控制电路由本安电源、单片机电路、语音电路、输入输出接口电路及扬声器组成。

本安电源按照GB 3836.4-2010设计, 为电路板提供安全用电。输入电压是附近供电开关送来的交流127 V, 经变压降为17 V交流, 然后整流调压, 具有多级过电流过电压保护, 满足本安电源的技术要求。

单片机采用STC系列单片机STC90C52。STC90C51系列单片机是STC推出的新一代超强抗干扰、高速、低功耗的单片机, 指令代码完全兼容传统8051单片机, 12机器时钟和6机器时钟周期可以任意选择, 内部集成MAX810专用复位电路, 5 V单片机工作电压可以在5.5 V~3.3 V, 并最多可以61 K程序代码空间和1280个字节的随机存储器。39个通用IO口。在系统可编程 (ISP) , 在应用可编程 (IAP) , 无需专用编程器, 带有看门狗、EEPROM。

语音电路采用ISD2520, 并附加了功率放大电路推动扬声器发声。ISD2520语音提示电路采用ISD2520芯片做数字录音器件。录放音时间可达20 s。可连续录放亦可通过地址线A0A9选择分段录放。事先将各种提示音录入芯片中, 单片机通过判断用户的不同操作, 选择不同提示音提示用户进行各种操作。CPU通过片选与写信号对语音芯片及录放电路进行录放控制。ISD2520芯片输出的声音信号功率比较小, 为此增加了音频放大器使得能驱动扬声器。

考虑到工业生产环境, 为了增强电路抗击电磁干扰的能力和增加系统工作的可靠性, 所有信号的输入输出接口均采用了光耦隔离。

三、自动风门的软件设计流程

电路板上电后, 单片机STC90C52开始初始化, 完成后检测两道门的状态, 即是关门还是开门, 该信号由位置检测器提供。

如果有人申请开门, 光电传感器接收到信号以后经光耦隔离的输入输出接口电路将信号送给单片机STC90C52。

如果对方的门已经关闭, 那么就断开本门电子锁, 并语音提示请通过。

如果对方的门已经打开, 那么就保持关闭本门电子锁的状态, 并语音提示前面门已经打开, 请稍等。风门控制系统的软件程序流程如图3所示。

初始化参数

检测门状态检测开门申请

打开电子锁

语音提示

图3自动风门控制系统的软件程序流程图

四、结论

本文介绍的智能化控制风门系统具有以下主要技术特点:一是采用智能化控制器实现风门的控制, 具有性能稳定、安全系数高、使用方便等优点。二是采用语音提示, 使得人性化程度得到提高。三是结合煤矿井下环境特点, 研制了光敏检测传感器, 首次实现了头灯照射申请开门的方式。四是充分考虑了现场的实际情况, 采用冗余技术和硬件, 确保控制的准确、安全与可靠。五是采用多种开门方式, 使得在各种情况下都能够方便地操作控制风门的开闭。

智能风门控制系统通过软、硬件有机结合, 采用硬件、冗余技术措施, 确保控制系统的可靠性。本系统采取了一些提高系统可靠性、安全性的措施, 克服了目前风门自动控制系统普遍存在的问题, 完善了系统的功能, 可以适应不同的现场条件及要求, 是一个可靠性高、使用维护方便的系统。

监控室力控系统软件网络版一套 (带5个客户端) , 上位机一台

参考文献

[1]陈绍华.机械设备电气控制[M].广州:华南理工大学出版社, 2012

[2]闫希合, 姜雪艳.程控自动压力平衡风门的研制及应用[J].煤矿机械, 2011 (11) :58—60

[3]吴厚强.井下自动风门电路设计[J].矿山机械, 2012, 34 (4) :154—155

[4]刘军, 彭担任.煤矿井下风门的连锁与报警[J].煤矿机械, 2005 (11) :121—122

[5]杜从商.PLC编程应用基础[M].北京:机械工业出版社, 2010

[6]吴海卫, 张宜明, 吴征艳.矿用自动风门技术的发展及其分析比较[J].工矿自动化, 2010 (1)

[7]邵昊, 蒋曙光, 秦俊辉, 等.基于PLC控制的自动风门程序设计[J].煤炭科学技术, 2008, 36 (4) :65—68

[8]罗忠, 柳洪义, 田洪海.现代机械产品智能优化设计方法及其应用[J].东北大学学报 (自然科学版) , 2008, 29 (7) :1004—1007

语音控制海尔Pad1011 篇9

海尔Pad1011整体采用黑色外观, 配合银色侧边设计, 增添了平板的时尚感。背部采用磨砂材质, 起到防滑的作用又能够避免留下指纹痕迹。机身厚度仅8.6mm, 重量为560g。10.1英寸的屏幕具备178度可视角度, 采用1290×800的高清润眼屏幕, 不仅可以呈现清晰的画面, 同时能够保护用户视力。

Pad1011采用Android2.3系统, 搭载的Tegra3四核处理器, 四颗主核可以提供流畅的网页浏览、高清播放、2D/3D游戏等;而伴核则负责常在待机、处理邮件、收发微博等工作, 以降低功耗, 平衡平板的资源。

作为海尔Pad1011的突出亮点, 具备国内首款语音控制功能, 在车载状态下可实现保持连接的“免提”模式, 提供语音启动导航功能、读邮件信息以及语音控制进行回复, 提供可了安全的驾车环境。

海尔Pad1011还配备了远端屏幕分享技术, 该技术可以实现平板电脑与电视、电脑、手机等设备之间的影片、音乐等的传送, 可将平板电脑上的视频传送到电视上, 也可以将手机上的图片发送到平板上, 实现资源共享。不仅如此, Pad1011的远端屏幕控制, 可以通过操作Pad, 即可将键盘、鼠标等指令传送到远端, 实现多屏合一。

海尔Pad1011在数据传输方面同样采用了前沿技术, 蓝牙4.0能够实现在最低功耗前提下提供极速传输, 最高速率可达25Mbps, 有效传输距离达到了60米。而阵列式双天线布局的WIFI设计, 能保持最强的讯号接收, 最大限度控制无线通信系统的覆盖范围。

智能家居系统——语音识别 篇10

关键词:智能家居,语音识别

随着计算机网络技术的发展, “智能家居”越来越被人们所重视。综观国内外的智能家居系统, 大部分侧重于利用Internet进行远程控制。由于受到上网设备的限制, 这种方式给智能家居系统的使用带来了不便。例如, 在用户回家途中希望能够打开空调, 很可能就因为不方便上网而无法实现。随着电话的普及, 利用电话对家电进行远程控制可以做到随时随地。目前国内外使用的控制方式主要有:利用短消息控制和用语音播放受控设备的名称或代号, 再根据用户的选择来控制相应的设备。

1 语音识别原理

语音识别技术已经发展成为涉及声学、语言学、数字信号处理、统计模式、概率论和信息论、发声机理和听觉机理、人工智能等等识别等多学科技术的一项综合性技术。基于语音识别技术研发的现代语音识别系统在很多场景下获得了成功的应用, 不同任务条件下所采用的技术又会有所不同。语音识别系统构建过程整体上包括两大部分:训练和识别。训练通常是离线完成的, 对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘, 获取语音识别系统所需要的“声学模型”和“语言模型”;而识别过程通常是在线完成的, 对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块:“前端”模块主要的作用是进行端点检测 (去除多余的静音和非说话声) 、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别 (又称“解码”) , 得到其包含的文字信息, 此外, 后端模块还存在一个“自适应”的反馈模块, 可以对用户的语音进行自学习, 从而对“声学模型”和“语音模型”进行必要的“校正”, 进一步提高识别的准确率。

语音识别是模式识别的一个分支, 又从属于信号处理科学领域, 同时与语音学、语言学、数理统计及神经生物学等学科有非常密切的关系。语音识别的目的就是让机器“听懂”人类口述的语言, 包括了两方面的含义:其一是逐字逐句听懂非转化成书面语言文字;其二是对口述语言中所包含的要求或询问加以理解, 做出正确响应, 而不拘泥于所有词的正确转换。

自动语音识别技术有三个基本原理:首先语音信号中的语言信息是按照短时幅度谱的时间变化模式来编码;其次语音是可以阅读的, 即它的声学信号可以在不考虑说话人试图传达的信息内容的情况下用数十个具有区别性的、离散的符号来表示;第三语音交互是一个认知过程, 因而不能与语言的语法、语义和语用结构割裂开来。

2 功能特点

对比语音识别技术的两个发展方向, 由于基于不同的运算平台, 因此具有不同的特点。大词汇量连续语音识别系统一般都是基于PC机平台, 而语音识别专用芯片的中心运算处理器则只是一片低功耗、低价位的智能芯片, 与一台甚至多台PC机相比起来, 其运算速度, 存储容量都非常有限, 因而这些由专用芯片实现的语音识别系统有如下几个特点:

⑴多为中、小词汇量的语音识别系统, 即只能够识别10~100词条。只有近一两年来, 才有连续数码或连续字母语音识别专用芯片实现。

⑵一般仅限于特定人语音识别的实现, 即需要让使用者对所识别的词条先进行学习或训练这一类识别功能对语种、方言和词条没有限制。有的芯片也能够实现非特定人语音识别, 即预先将所要识别的语句码本训练好而装入芯片, 用户使用时不需要再进行学习而直接应用。但这一类识别功能只适用于规定的语种和方言, 而且所识别的语句只限于预先已训练好的语句。

⑶由此芯片组成一个完整的语音识别系统。因此, 除了语音识别功能以外, 为了有一个好的人机界面和识别正确与否的验证, 该系统还必须具备语音提示 (语音合成) 及语音回放 (语音编解码记录) 功能。

⑷多为实时系统, 即当用户说完待识别的词条后, 系统立即完成识别功能并有所回应, 这就对电路的运算速度有较高的要求。

⑸除了要求有尽可能好的识别性能外, 还要求体积尽可能小、可靠性高、耗电省、价钱低等特点。

3 语音识别算法

在对语音信号提取MFCC特征参数及RASTA滤波去噪以后, 语音信号就转化成为一组组特征向量, 而语音识别算法的作用就是将待识别的语音信号的特征向量同系统中已建立起来的特征向量模板进行比较, 找出最优的匹配模板。目前, 常用的语音识别算法有隐马尔可夫模型 (HMM) 算法、动态时间规正 (DTW) 算法和人工神经网络 (ANN) 算法。其中, DTW算法具有系统开销小、运算速度快、对孤立词和小词汇表的识别简单而有效等特点, 非常适合嵌入式系统的研制, 而改进的DTW算法进一步减小了对计算量和存储空间的需求, 因而本系统选用它作为系统的识别算法。

DTW算法是利用动态规划的思想, 将一个复杂的全局最优化问题化为许多局部最优化问题来处理, 并自动寻找一条路径, 使两个特征矢量之间的积累失真量最小, 从而避免由于时长不同而可能引入的误差。

设参考模板共有M帧矢量, 待测语音模板共有N帧矢量 (一般M≠N) , 则动态时间归正就是寻找一个时间归正函数m=ω (n) , 它将测试矢量的时间轴n非线性地映射到模板的时间轴m上并使得测试矢量和模板矢量各帧之间的距离测度的累积和最小, 从而使得两矢量之间的匹配路径最小, 这样就保证了待测模板与参考模板之间具有最大的声学相似特性。通常, 规正函数m=ω (n) 被限制在一个平行四边形 (设为ABCD) 网格内, 它的起点坐标是 (1, 1) , 终点坐标为 (N, M) , 相邻两边的斜率分别为2和1/2。

即只需对位于平行四边形ABCD内的各点对应的帧匹配距离进行计算即可, 然而传统的DTW算法却对整个矩形区域MBND都进行了计算, 增加了系统的计算量。此外, 传统的DTW算法还保存了所有的帧匹配距离矩阵和累积距离矩阵, 而实际上每一列各个点上的匹配计算只用到了前一列的3个网格。改进的DTW算法对以上两点进行了改进, 把实际的动态规正拆分为 (1, Xa) , (Xa+1, Xb) , (Xb+1, N) 3段, 其中, Xa和Xb为最相近的整数且满足下式

由此可以得出M和N长度的限制条件。

当不满足以上条件时, 认为两者差别实在太大, 无法进行动态规正匹配。

而在X轴上的每一帧不再与Y轴上的每一帧进行比较, 而只与Y轴上[ymax, ymin]间的帧进行比较, 其中ymax, ymin由以下二式计算得到:

当Xa>Xb时, DTW可拆分为 (1, Xb) , (Xb+1, Xa) 和 (Xa+1, N) 3段, 计算过程类似。

对于X轴上, 每前进一帧, 弯折特征都是一样的, 累积距离的更新用下式实现

上式中, 矢量D用于保存前一列的累积距离, 矢量d用于计算当前列的累积距离。根据上式, 当在X轴上每前进一帧时, 按上式可求出当前的累积距离, 而它又可供下一列使用。如此不断的更新, 当进行到待测模板的最后一帧时, 矢量D的最后一个元素即为两个模板经过动态规正后的匹配距离。可以看出, 该算法并没有像传统的DTW算法一样保存整个距离矩阵, 从而节约了系统的存储空间。

4 结语

上一篇:数据处理与提取技术下一篇:行为和精神症状