智能语音技术

2024-05-06

智能语音技术(精选十篇)

智能语音技术 篇1

2014年8月20日, 在国家会议中心, 科大讯飞宣布其人工智能的整体战略——讯飞超脑计划, 正式成立。科大讯飞超脑计划的首次发布时, 科大讯飞就对人工智能做了一个清晰的分割和鉴定, 它把人工智能划分成三个层面。第一个层面是运算智能, 让机器具备了能存会算的能力;第二个层面是感知智能, 让机器能听会说能看会认;但是最有挑战性的, 也是我们人区别于动物的最大的能力, 就是我们的认知智能。即认识和知道, 能理解会思考, 这样一个能力。

人工智能发展三要素——深度神经网络、大数据和涟漪效应当

世界因为人工智能而改变的时候, 我们开始思考为什么人工智能可以在过去的十年取得如此大的进步。胡郁先生认为, 其实, 虽然在整个学术界众说纷纭, 但是慢慢的大家越来越趋向于三个关键的因素。即, 深度神经网络、大数据和涟漪效应。

深度神经网络其实只是统计模式识别的一个很小的分支。但是它却和我们现在大的IT产业的发展背景很好地结合在一起。因为现在统计模式识别办法想要发挥出人工智能的威力, 就要有深度神经网络能够更好的使用以及互联网和移动互联网时代得到越来越多的大数据为大基础。

涟漪效应是科大讯飞提出的, 是指互联网和移动互联网, 把每个用户的经验和知识数据加入到我们核心技术研发过程中来的一种效应。像是一个水滴滴到水面的时候, 这个水面相当于所有的用户人群, 而这个水滴所激发起来的这个涟漪, 其实是这个核心技术一开始的效果。一开始水滴滴入水面振幅会很大, 说明它的效果并不好。就像大家今天看到科大讯飞的语音识别系统已经非常准确, 但是在2010年科大讯飞第一次发布会发布其语音输入法的时候, 识别率惨不忍睹。在实验室里面90%的正确率的识别系统放到真实环境下一用, 正确率只有55%。但是只要这个系统在上线运行中, 就会不断地有用户, 他们会不断的贡献数据, 从而为科大讯飞系统不断改进提供助力。当这个水波纹扩散出去的时候, 有更多人用的时候, 系统已经是改进过以后的系统。当这个水波纹已经能覆盖1000万人, 系统改进了以后, 当一千万零一个人来使用这个系统的时候, 对他来讲是第一次, 他会觉得:哇!怎么这么好。 有了这三点我们继续可以在语音和图像的道路上持续的寻找下去。

科大讯飞的发展历程

发布会上, 胡郁先生为我们展示了科大讯飞在人工神经网络方面的发展。其实真正将神经网络应用在语音识别和图像识别方面并取得成功应该是在2010年的7月份。而在2011年9月份, 科大讯飞的研究人员在中国科学技术大学, 就跟邓力研究员进行了探讨。在2011年的年底, 科大讯飞就将深度神经网络用于语音识别上, 用于中文语音识别上第一个系统上线使用。在2012年4月份, 在日本召开的, 由微软研究院的移动研究院做的报告中, 将谷歌、微软和讯飞, 列为当时世界上, 最先将深度神经网络推荐使用的几个公司和研究机构。此后, 他们在2012年将深度神经网络用于参数语音合成。利用了深度神经网络的参数语音合成系统, 比我们原来使用的也是当时世界上最先进的, 基于隐马尔可夫模型的语音合成系统效果提升30%。现在已经成为整个业界的标配。而在2013年, 科大讯飞在语种识别方面, 第一次提出了一种新型构型的深度神经网络的构型。他们将当时的语种识别技术, 在nist测试的最先进的系统的基础上, 又提高了30%。现在也是整个业界标准的语种识别构型系统。2014年科大讯飞超脑技术发布, 在超脑计划里面他们又将深度神经网络应用在更多方面。进入2015年后, 我们看到了越来越多的成果。

科大讯飞的最新进展——不一样的递归神经网络和卷积神经网络卷积神经网络

我们听了很长一段声音之后, 就能够记忆起原来的东西, 这是人脑的一个非常特别的功能叫做记忆能力。人脑的这个记忆能力非常特别, 它包括瞬时记忆、短时记忆和长时记忆。深度神经网络能够比较好地模仿人类的大脑, 但是深度神经网络对于短时记忆的处理其实比较弱。最近国际上有一个新的名词叫做RNN (Recurrent Neural Network, 循环神经网络) , 也是我们讲的回归神经网络或递归神经网络。那么它相对传统神经网络的唯一改进就是他可以用前一个时刻的信息输入到当前时刻, 进而把原来的一些历史信息能够输入到当前来提高它的记忆能力。

一个真正的回归神经网络里面的工作系统是非常复杂的。它可能包括LSTM。这是一个长短时记忆系统, 它里面还包括一个双向语音识别系统。这个回归神经网络, 它会从正向识别一遍, 还会从反向识别一遍。而如果想要得到更好的效果, 他还需要加一个叫做CTC (Connectionist Temporal Classification) 的系统。那么这个ctc的系统, 可以保证在整个句子层面上的成功率是最高的。其实在这过程中我们会遇到很多的难题, 比如说这些叠加起来, 它的效果可能不是那么好。第二个是, 如果我们刚才要利用未来的信息来识别的话, 它的响应时间会受到影响。更加重要的是, 它是这么复杂的一个网络, 如果你要去训练它, 例如, 训练1万小时可能要一个星期。没有人能够忍受得了这种训练时间。

对此, 科大讯飞提出了自己的构型——FSMN (Feedforward Sequential Memory Network, 前馈型序列记忆网络) , 即前馈序列记忆网络。利用这种神经网络, 可以很好地有效地处理刚才碰到的各种问题。它可以把刚才的几个优点综合在一起, 它可以非常好的缩短响应时间, 它还可以非常好的提升我们的训练效果。现在我们1万小时从原来的一个星期现在已经缩短到了一天。

卷积网络是仿照人类视觉机理, 借鉴人类在大脑上处理的一些优势, 形成一个自下而上逐步细化, 从逐步地处理一些线条, 局部轮廓到最后整个人脸。这样的系统很好地仿照了人类大脑里面的结构。但是仅有这些还是远远不够的, 它在分析文字的时候还是会有一定误差, 处理图像的时候, 也略显模糊。

现在科大讯飞的卷积神经网络将整个图片处理、版面分析、文字分割和最后的处理完全集中在一起。它综合性地使用了卷积神经网络, 延迟性神经网络和我们的HMM的系统。当把这些系统综合在一起的时候, 能够更好地分析图文任务的一些具体的情况, 这将使我们得到一个最好的效果。

Neural Thinking Machine技术框架

利用深度神经网络可以把语音识别和图像识别都提升到一个非常高的层次, 但是人类最重要的是认知。

人脑的大脑皮层是人区别于动物最显著的一个脑结构变化, 如果把人类的大脑皮层完全摊开的话, 大概相当于一个桌布那么大。但是科学家研究表明这个桌布上的不同区域的功能是完全不一样的。中间有一部分是专门管视觉的, 它会把你脸的各个细节处理的非常好。还有一部分是管听觉的, 还有一部分是用来管触觉的。但是这些在感知层面上的各种信息都会汇聚到认知层面。就是概念语言与概念表达和理解。

当我们看到一只猫脸的时候, 其实我们马上脑袋里面就会形成一个猫的概念, 这个时候我们脑袋里面会同时知道猫的叫声, 我们知道摸猫会是一种什么样的感觉。多种不同感知内容最后会汇聚到我们的认知层面上。根据这种启发, 科大讯飞在讯飞超脑里面建立了感知和认知的综合智能引擎的布局。在感知智能方面有Neural Viewing Machine、Neural Reading Machine、Neural Listening Machine。它们分别会主管看到的东西、阅读和听觉。当这些东西感知到很多的信息以后, 它会被送到上面的一个叫做Neural Thinking Machine的地方, 在这个地方所有概念会进行汇聚, 这些概念会进行推理, 得出结论, 从而帮助我们进行决策。而决策以后的结果会通过一个叫做Neural Experssing Machine的结果返回来。从而形成整个的, 包括交互, 包括人类所有智能问题的完整闭环。其实Neural Thinking Machine是科大讯飞认知的实现核心。在这个核心实现过程中, 它主要实现包括我们讲的语言的理解、知识的表达、逻辑的推理和最后的决策功能。为了实现这样一个系统, 我们整个Neural Thinking Machine技术框架被定义成, 在自然语言表述下的语言理解与生成以及知识表达与推理。

注释

智能语音技术 篇2

智能生活,换成简单的说法便是简便生活,动一下拇指,发出点声音,便能解决之前必须手动才能完成的操作。在整个软件行业,不论是苹果手机、苹果电脑,还是百度输入法、腾讯的微信、米聊、UC的浏览器以及新浪的微博等等一些应用程序,都已经成为当下很多人以此取代传统短信进行交流的必备工具,这些软件在手机终端上面都有语音控制的功能。语音控制成了智能的一项标准。

在未来的物联网时代,“语音命令—得到反馈”的互动模式将进一步延伸。生活中的电器将被赋予“说”与“听”的功能,人们的生活将不再需要手动操作。

机器人语音交互实验平台>项目已列入了研究规划。“出发!对1号主变进行巡检。”一声令下,一个身高1米多的巡线机器人自动启动,沿着变电站内的小路,根据指令开始工作。语音控制功能不但能够有效利用用户个性化的语音,提高系统的识别准确率;而且能够提高用户输入词表的方便性和灵活性。随着指令发出者年龄的变化,还可以选择合适的语音替换用户原来的语音模型,使得语音智能平台具备更强的适应性,识别效果不会随着时间变久而变差。

除了在智能机器人开发领域中,智能家居建设方面也开始着重语音控制技术。随着智能家居行业内的大发展,以及随着时间的推移智能家居行业内的技术越来越成熟,同时随着科学技术的突飞猛进以及社会的进步,一切都变得可能,一切都会慢慢实现。手机做到了可以控制智能家居控制系统,只要将家中设置一台中枢式的控制设备,接收手机命令,通过一些技术即可实现随时随地的自由控制、管理家中所有的家用电器,这些操作都可以在手机操控端上完成。那么在手机操控端上加“语音控制”的软件,通过语音声控,给手机发出命令,从而实现语音控制家庭中各种产品,这个也就不会是梦想。

智能语音控制技术在智能家居领域的广泛应用,将实现一加一大于二的效果。在未来,语音控制技术将是智能家居设计方案中的主要部分。语音控制技术的成熟将为物联网的快速发展奠定基础。

语音识别技术在智能家居中的应用 篇3

关键词:嵌入式系统;语音识别;隐马尔可夫;智能家居

中图分类号:TP316.9

文献标识码:A

DOI:10.3969/j.issn.1003-6970.2015.07.021

0 引言

随着计算机的发展,智能家居在近几年也得到了大家的重视,智能家居利用各种通信、网络技术实现家居设备集成,为用户提供了更加舒适高效的环境。近几年人们对智能家居的便利程度提出了更高的要求,同时语音识别技术也进一步的发展,但是语音在智能家居中的应用还是相对较少,一般还要依靠遥控、手机等中控设备。语言是信息交流的重要手段,语音识别可以用声音来控制设备完成一些特定的命令,减少用户如手机,遥控等中控设备的依赖,使生活更加方便。

本文通过对语音识别技术与嵌入式控制技术的研究,用语音命令实现直接管控从而可以取代以往利用手机或者遥控方式来控制的方法,方便操作而又能提高效率。本系统基于NL6621板与语音芯片VS1003实现语音采集,并采用当今语音识别领域的主流技术一一隐马尔科夫模型(Hidden Markov Model,HMM)算法实现对人语音命令的识别主要是进行模型训练和匹配。实验证明在多个语音样本对系统的训练识别下,系统在非特定人、孤立词语识别上具有良好的效果。

1 语音识别与智能家居

1.1 语音识别技术

语音识别技术本质上是一种模式匹配识别的过程,是机器通过识别和理解过程把语音信号转变成相应的文本文件或命令的技术。根据模式匹配过程语音识别系统可以如下图表示。语音识别系统可以分为:特定人和非特定人的识别、独立词和连续词的识别等,无论哪种识别系统识别过程都主要包括了语音信号预处理、特征提取、训练等。分别通过对信号的预处理分析和计算建立模板,当对语音进行识别时,需要将输入的语音与系统中存放的语音进行比较从而得到识别结果。

1.2 语音识别算法

人的言语过程是一个双重随机过程。因为语音信号本身是一个可观察的序列,而它又是由大脑里的不可观察的、根据言语需要和语法知识状态选择所发出的音素(词、句)的参数流,大量实验表明,隐马尔可夫模型(HMM)的确可以非常精确地描述语音信号的产生过程。隐马尔可夫模型是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程,采用HMM进行语音识别,实质上是一种概率运算,根据训练集数据计算得出模型参数后,测试集数据只需分别计算各模型的条件概率(Viterbi算法),取此概率最大者即为识别结果。一阶离散马尔可夫模型可表示为:有N个状态,Sl,S2... SN,存在一个离散的时间序列t=0,t=1…在每个时刻t,系统只能处于唯一一个状态qt,下一个时刻所处的状态是随机出现的,当前状态qt只与前面相邻的一个状态qt-l有关, 与其他状态无关,用表达式

HMM语音识别的一般过程:

1.前向后向算法计算

已知观测序列 和模型 ,如何有效的计算在给定模型条件下产生观测序列O的概率

2.Baum-Welch算法求出最优解 :

(1)初始化

(2)迭代计算

(3)最后计算

3.Viterbi算法解出最佳状态转移序列:

已知观测序列 和模型 ,如何选择在某种意义上最佳的状态序列。

(1)初始化

(2)迭代计算:

4.根据最佳状态序列对应的九给出候选音节或声韵母

5.通过语言模型形成词和句子

2 基于NL6621嵌入式硬件设计

语音识别的硬件平台主要包括中央处理器NL6621,可读写存储器,声卡芯片vs1003以及一些外围设备,硬件体系结构如图2所示。

主系统使用新岸线公司的NL6621。MCU采用的最高主频为160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,软AP,WiFi保护设置以及WMM-PS和WPA/WPA2安全协议。codec芯片是vs1003,它与核心控制器NL6621的数据通信是通过SPI总线方式进行的。它集成了麦克风输入接口,音频输出接口,对话筒输入或者线路输入进行IMA ADPCM编码,能有效的接受和播放音频信息。

硬件电路实现:VS1003通过xCS、xDCS引脚的置高或低来确认是哪一个接口处于传送状态。通过串行命令接口(SCI)和串行数据接口(SDI)来接收NL6621的控制命令和数据,通过SCI HDAT1来获取语音流;VS1003的功能控制,如初始化、软复位、暂停、音量控制、播放时间的读取等,均是通过SCI口写入特定寄存器实现的。两条SCI指令之间要通过DREQ引脚信号判断上一次处理是否完成。

3 基于NL6621嵌入式软件设计

软件设计主要包括两部分实现软件控制嵌入式系统和基于HMM技术的语音识别算法编写,基本的软件架构如图3所示。

针对嵌入式系统控制部分,包括硬件初始化以及采集音频信号。主要是使用NL6621提供的软件开发包,利用SDK编写应用程序,包括硬件管脚初始化,波特率匹配,录音文件配置,WiFi配置,录音,音频文件格式转化、程序编写完成后需要用烧写工具进行烧写。系统启动后,先初始化硬件模块。然后系统开始工作,通过语音输入设备MIC采集语音,并通过声卡VS1003输入语音。当系统监听到语音输入,开始语音识别,判断识别是否正确,若正确,将命令发送给执行设备,入耳不正确,给出相应

的错误提示,不执行语音命令。判断识别是否结束,如果结束则退出,否则继续下一轮的识别。基于HMM技术的语音识别算法编写,还包括了语音预处理,特征值提取和匹配识别的部分。主要的原理如图4所示,输入语音经过预处理后,语音信号的特征被提取出来,首先在此基础上建立所需的模板,这个建立模板的过程称为训练过程。根据语音识别整体模型,将输入的语音信号特征与存在的语音模板(参考模式)进行比较,找出一系列最优的与输入的语音相匹配的模板。然后,根据此模板号的定义,通过查表就可以给出计算机的识别结果。采用HMM进行语音识别,实质上是一种概率运算。根据训练集数据计算得出模型参数后,测试集数据只需分别计算各模型的条件概率(Viterbi算法),取此概率最大者即为识别结果。除训练时需运算量较大外,识别时的运算量仅有模式匹配法的几分之一。

4 实验与总结

智能语音技术 篇4

现有通风柜的玻璃视窗大多为滑动安装在通风柜中部, 其需要操作人员手动将其推上或拉下, 存在操作不便, 费时费力的缺陷。通风柜的电控元件主要是控制灯光、风机和水流, 这些电控元件都需要人工按下相应的控制按键来完成, 但是因为实验室的用品多为化学品且有毒有害化学品多, 人操作时难免双手会接触到有害物体, 长期积累下来, 会对操作人员的健康和通风柜的长期使用造成一定的风险, 所以为了要尽可能少接触设备和用品, 需要一种能自动控制通风柜玻璃视窗、灯光、风机的设备和装置。

2 语音识别通风柜的系统组成

语音识别通风柜的组成主要包括:微控制器 (单片机) 、语音识别模块、无线麦克风、扬声器、电机、链条、钢化玻璃视窗、照明灯管、风机。

(1—通风柜柜体;2—照明灯管;3—玻璃视窗4—风机;5—扬声器;6—无线麦克风接收器)

如图1所示, 其中, 微控制器、语音识别模块、扬声器、无线麦克风接收器统一集成在柜体右侧前面的侧面上, 微控制器和语音识别模块内嵌在柜体内, 而扬声器和无线麦克风接收器裸露在外表面。电机和驱动链条连接在一起, 放置在玻璃视窗上侧的柜体内, 用于带动玻璃视窗上升或者下降。与无线麦克风接收器相对应的, 无线麦克风携带在实验人员的身上。在通风柜的柜体内, 每个部分:电机、风机、照明灯管通过各自的驱动电路和微控制器相连。

3 语音识别通风柜工作流程分析

通风柜以微控制器 (单片机) 为核心, 以语音识别模块为主要元件, 配以电机驱动电路, 灯管驱动电路, 风机驱动电路组成 (如图1所示) 。无线麦克风接收来自通风柜操作人员的语音信息, 经过无线传输到无线麦克风接收器, 接收器再将信号传输给语音识别模块, 语音识别模块根据人的语音信息进行识别, 并转化为相应的操作指令, 然后传送到微控制器, 微控制器根据接收到的操作指令对通风柜玻璃视窗、照明灯管、风机的运动状态进行控制, 如:玻璃视窗上升、下降、停止;照明灯管的亮与灭;风机的转动与停止, 于此同时, 扬声器会播报当前正在执行的语音指令的执行情况。

将需要用到的语音指令通过编程存放到语音识别模块中, 这些语音指令包括玻璃视窗、照明灯管、风机的控制指令, 玻璃视窗的语音指令可设置为“上升”、“下降”、“停止”;照明灯管的语音指令可设置为“开灯”、“关灯”;风机的语音指令可设置为“打开风机”、“关闭风机”。这些语音指令对应的二进制代码为:“上升”为0001、“下降”为0010、“停止”为0011、“开灯”为0100、“关灯”为0101、“打开风机”为0110、“关闭风机”为0111。语音指令设置完毕, 操作人员可开始通过麦克风发出相应的语音指令, 如发出“玻璃视窗请上升”时, 麦克风将这句语音传送到语音识别模块, 语音识别模块开始处理, 识别到预先设定的“上升”关键词, 开始调用“上升”的二进制代码0001, 并送到微控制器, 微控制器接收到后打开电机驱动电路, 电机连接着驱动链条, 链条连接着通风柜的玻璃视窗, 电机正转, 链条带动着玻璃视窗上升, 于此同时, 扬声器发出操作成功的语音, 如“玻璃视窗正在上升”, 以此来回应操作人员的“上升”命令;相对应的, 当操作人员发出“玻璃视窗请下降”时, 调用二进制代码0010, 控制电机反转, 链条带动着玻璃视窗下降, 扬声器发出相应的语音;当操作人员发出“玻璃视窗请停止”时, 调用二进制代码0011, 控制电机停止, 玻璃视窗不运动。

4 结束语

现有通风柜的玻璃视窗大多需要操作人员手动将其推上或拉下, 照明灯管和风机需要人工手动按下按钮来控制, 这些操作方式存在操作不便, 费时费力的缺陷。本文采用语音识别技术和无线语音通信技术, 以实现通风柜的智能化控制。系统通过操作人员的语音命令实现了通风柜的自动控制, 真正解放人的双手, 减轻了人的负担, 让操作人员更专注于试验对象。

参考文献

[1]陈康.实验室通风柜安全应用的影响因素研究[D].华东理工大学, 2014.

[2]赵侠.实验室通风柜系统设计应用[J].洁净与空调技术, 2012, (1) :62-65.

武警哨位智能语音联动报警器 篇5

一、武警哨位紧急报警系统是用于重要单位、场所和监狱的武警执勤哨位,发生突发事件时,哨兵上报紧急状况的装置。该系统由哨位报警分机、值班中心武警哨位紧急报警接收主机和主机的联动装置(如:语音播报大喇叭,警示声光警号,开关量输出箱,警情输出模块,视频联动复核摄像机)组成。武警哨位智能语音联动报警器分机和主机用无线传输方式工作,语音播报系统和声光报警相结合实现报警声、光、语音一体化预警,同时主机与接警应急指挥中心通过TCP/IP或GPRS传输上传。广泛应用于用于学校、医院、工厂,机场,派出所,监狱、武警各支队、中队的执勤哨位。

系统设计方案:在值班室、备勤室和各楼层分别安装武警哨位紧急报警接收主机,分机,哨位和移动执勤点可以随身携带移动式报警手持机可根据不同警情触发相关报警按钮,值班室、备勤室和各楼层同时发出预警喇叭鸣响并播报不同的警情语音,联动的警声闪烁鸣响,同时把警情上传到应急指挥中心。

武警哨位紧急报警系统示意图:

二、武警哨位紧急报警接收主机功能介绍:

主机具有演练演习和防暴恐应急两种工作模式,使用单位根据使用情况自由切换。

1、主机自带五个按钮,分别对应4种警情(火灾,暴力袭击,地震,空袭)及取消按钮(取消按钮一定要带,防止误操作情况下的终止警情。)。不管是演习模式还是应急模式下触发对应按钮大喇叭发出如下鸣响与紧急疏散提示语音(警情和处置预案声音可根据需要给使用单位定制。)。

A、火灾按钮:火灾警报声+(语音: “发生火灾,大家不要惊慌,请捂鼻猫腰,迅速按演习路线有序疏散到安全区域,不要推挤踩踏”)+火灾警报声。

B、暴力袭击:110警报声+(语音: “发生暴力袭击,大家不要惊慌,请关好门窗躲避到安全区域.安保人员紧急到岗处理”)+ 110警报声。

C、地震按钮:地震警报声+(语音: “地震警报”,大家不要惊慌,请先实施紧急避险,再按演习路线有序疏散到安全区域不要推挤踩踏”)+地震警报声。

D、空袭按钮:空袭警报声+(语音: “空袭警报”,大家不要惊慌,迅速按演习路线有序疏散到安全区域.不要推挤踩踏”)+空袭警报声。

2、自带功放,能驱动60W以内喇叭。并且预留外接大功率功放接口,备有广播设备电源强插驱动输出接口。

3、主机面板带数码管显示(比如01代表1号武警哨位,02代表2号武警哨位,03代表3号武警哨位。。。),可以迅速锁定警情事发地址。实现使用单位的各个防护点等核心应急地点的一警多发,一呼百应,警情群播,多警演练,群防群治。

4、主机可以自定义TTS语音播报功能,可根据需要设定相应报警内容,比如“******使用单位北门紧急报警”接警中心人员接到报警后电话会自动读出该自定意文字内容.5、在报警工作模式下,平台中心电话接到警情后可以跟报警者对讲,也可以切换成远程广播模式震慑不法分子或者指挥现场处置,(行业内产品通常是报警上传到接警中心,或对讲功能,该产品不但具有以上功能,还具有远程广播模式功能。)

6、支持按钮触发报警后发送短信(支持6组,短信内容可定义)与拔打电话(6组)双向对讲功能。

7、有线无线兼容,支持无线配件接入与预留4路有线防区,可以方便扩展周界防范防盗,消防预警功能

8、主机支持通过GPRS或TCP/IP上传接警平台功能,配合IPC摄像机,NVR录像机扩展视频联动复核,实现一键报警,视频多点联动。

9、主机可以与分机配套使用,无线传输距离(开阔地)室内天线1-3KM,分机群组使用根据使用单位面积大小无线距离可以级联扩展50公里以上。

10、主机具有演练模式与应急模式切换功能。在演练模式下,触发按钮只会现场语音播报与对应警情鸣响,不会上传接警平台,不拔打电话,不发送短信。

11、可以另外选配12V7A的蓄电池,停电不停机。

武警哨位紧急报警接收主机可联动下列设备:

1.开关量输出:用继电器开关触点输出用于联动相关设备。如:探照灯,报警后通过继电器开关打开联接探照灯特别是在晚上对暴力份子是一种威慑作用。

2.预警语音广播大喇叭:警情预警与警情语音播报。

3、可以联动于扩展周界防范设备。

4、可以扩展消防烟感自动探测设备。

5、配合平台可以与视频摄像机进行云端联动功能。

三、移动式报警手持机

岗哨及工作人员身上佩带的无线大功率移动式报警手持机。如图:

产品功能特点:每个终端移动式报警手持机对应一个哨位或相关人员,当某移动式报警手持机发出求救信号时,系统平台上会对应的弹出这个移动式报警手持机对应的ID号与对应的哨位信息,如名字,负责那个片区,报警时间等信息。

每个工作人员佩戴一个;自带5个按钮分别对应火灾,暴力袭击,地震,空袭,取消按键,根据对应的警情触发或取消警情(触发对应按钮喇叭播放声音与内容可以根据使用单位要求定制)。使用单位遇到任何突发事件可以触发按键发射信号给主机,终端主机驱动功率分配放大器带动 智能语音喇叭(喇叭播放声音与内容可以根据监狱要求定制);如果是工作人员误操作触发可以使用取消按键终止。(发射空旷距离1-3公里)为了省电,本机采用主芯片休眠模式设计,平时不显示待机指示灯状态。为了检测自己佩带的移动式报警手持机是否可以正常工作,建议按任何按钮键,看是否会正常发出B地响声。有响表示正常,不响表示机器已经有故障或没有电了,要充电。

配置:移动式报警手持机1个(内置锂电池)+ 电源1个。(电源为安卓手机电源接口)

四、应急指挥中心平台简介

1、可以扩展报警时录像,录像保存到平台接警端;

2、支持局域网及广域网下的网络视频设备的实时访问及录像;

3、支持P2P网络摄像机的接入;

4、支持接警服务接入:可以扩展接入市面上TCP/ip,GPRS传输协议的应急报警产品;

6、支持电子地图设置,网络地图访问,所有管理端共用地图服务器,实现地图文件专人导入;

* 分级管理地图,可显示主城市、城区和每个使用单位的详细平面地图;

* 地图上可方便放置每个使用单位的地点标识,发生报警时地图点闪烁提示;

* 具备使用单位防区的地点和防区详细说明,发生报警有详细和准确的地图说明显示;

7、支持接入市面上的主流品牌IPC与NVR等视频设备,支持报警联动触发:当收到报警信息,中心根据联动报警的设置开始触发所有的动作,如果有要录像则通知NVR自动录像,如果要报警视频要上墙则通知电视墙服务器视频上墙,如果有坐席在观看则坐席弹出视频。

8、支持远程视频观看:客户可以手机APP或电脑客户端随时随地观看实时视频

9.平台支持TTS语音播报,支持TTS文本转语音功能,迅速处理用户发出的各种警情,在报警弹出的同时自动播放警情内容,包含报警使用单位名称,地址,报警警情,时间等等。10.增加数据库备份、恢复和操作日志记录功能,防止数据遭到恶意破坏。支持数据自动同步备份:系统自动同步备份模块可实现所有重要数据的同步备份功能, 同步间隔时间可自行设置.11、如果对接IPC带云台的视频设备,平台支持云台控制:可以控制远程视频上下左右移动;

12、一键布撤防模块(群布撤防):实现一键报警主机的批量远程布撤防控制,此功能有别于定时布撤防。

13、自动状态检测模块(GPRS,tcp/IP传输):通过终端与平台的定时网络连接握手,检测终端状态。根据平台设定的间隔时间,如果终端超时未连接平台,则判断终端失去连接或已经被破坏,平台自动弹出报警信息。

14、支持平台中心电话与防暴恐演练演习处突应急终端进行语音对讲,远程广播;

15、支持缴费管理打印催缴服务费报表;

16、支持报警事件查询查询所有报警事件的记录;

17.多级平台架构,最高权限后台账号可以建立省级运营账号》市级运营账号》县级运营账号》区管理账号》镇级管理账号》用户的权限划分。6级管理,类似中国的行政级别,多用户管理,用户分级,权限明确,支持云数字子平台开设,支持多台接警中心硬件平台的协同工作,易于扩展;可同时给监管单位等多部门开设接警平台。18.支持云数字分级权限管理;

19.软件需支持扩展微信接警,管理,查询,可以不分时间,地点,随时,随地处理警情管理更简单,运营成本更低,远程维护,升级,更新。

20、支持报警代码警情自定义,根据后续功能需要灵活使用(特别是要能够在接警平台上自定义火灾,暴力袭击,地震,空袭警情定义,方便警情弹屏后快速识别什么类型警情进行警情预案处理)。

21、客户资料可编辑/打印/导出等维护功能,方便减少平台运维人员工作量。

22、服务到期提前提示功能,到期平台弹屏,同时也可以微信同时使用方,方便做好使用单位的后续服务管理。

23、系统用户密码经过多重加密,保证用户安全,支持多用户权限管理

24、扩展使用单位工作人员一键微信紧急求救报警功能,不管使用单位工作人员在世界的任何角落,遇到有潜在的危险后都可以悄无声息的向接警中心一键报警——中心可以定位您的位置和报警时间,报警人,同时也把警情通知到使用单位的领导,安保管理人员。

25、平台系统采用 CS + BS 架构,管理不受地点限制,BS用于管理,CS用于接警。相辅相成。不但降低运营费用,更方便运维管理,接警处理。行业创新新技术。

五、应急指挥中心系统方案优点

一键报警,方便迅速,预警喇叭在2秒内群播,群响;警情上传平台传输最快可达3s,解决报警滞后性的普遍问题;出警响应快,可使用单位就近距离快速出警。

不再是单一的电话报警方式,多键紧急按钮、网络报警,无线大功率等方式,GPRS传输,短信,大功率无线传输,有效避免被阻断、延迟报警的可能; 使用场合多,功能多。触发报警 方式多,移动式,固定式全部集成。

报警紧急按钮一般装置在隐蔽触手可及之地,避免误报;报警后平台中心自动弹出报警地点画面,视频确认;地图和使用单位方位图迅速定位,快速出警

利用现有网络(网线、GPRS、电话线)传输,无需重新布线;

报警按钮可固定也可随身携带,随心所欲;主机与分机之间大功率无线连接,不用施工布线,省时,省力,省钱,不许多余操作;

一键报警同步视频联动报警,群防预警联动,广播联动,方便简捷,一键报警,可同步上传报警信息至应急报警平台,方便使用单位及时快速出警;同步弹出报警视频监控、迅速定位报警地点,就近距离快速出警;

报警距离远,主机报警到平台不受区域的限制;移动按钮与固定式分机发射距离远,单发距离空旷3公里,接力群组50公里。

六、方案总结

本方案所采用的应急设备,接警平台系统具有上千个大、中型联网接警中心项目应用经验、应用实例,系统成熟、稳定;已经过市场长期检验,具有专业级的可靠性保证;而且平台以及终端均为深安集团独家研发生产,均具有完善自主生产链,能提供及时、周到、有效的技术支持以及售后保证。总体而言,系统充分体现开放性、可靠性、先进性、冗余、可扩展及可运营管理原则,是当前社会环境和技术条件下应急处突联网系统的优选方案。

销售总监:薛成强

工程师 手机:***直线:0755-33022888公司地址:深圳市南山区西丽镇麻勘工业园北区18号9栋邮编:518055

Siri与智能语音控制 篇6

在各类故事中,人与机械的交流总是令人充满想象的空间。比如《一千零一夜》中四十大盗的藏宝窟:只要来人说一声“芝麻开门”,大门就会打开;说一声“芝麻关门”,大门则会关上。不过,当计算机出现之初,人们与它只能直接通过机器语言来交流,这些机器语言由成千上万个“0”和“1”组成,并且被打孔机打在长长的纸带上。当DOS和UNIX出现后,就可以通过输入指令来让计算机从事相应的工作。图形界面的出现则是人机交流的一大飞跃,直到今天,无论我们是用鼠标,还是用手指在屏幕上点点戳戳,本质上都是基于图形界面的人机交流。那么,有没有可能我们说什么,就能让电脑执行什么呢?这的确是个很吸引人的课题。从本质上而言,无论智能手机还是机器人,都是电脑的一种存在形式。如果它们能够“听懂”我们的指令,并按照指令来行事,那真是很方便的一件事情。

也许有读者会说,这其实很简单,比如语音拨号,只要说出想要联系的人名,手机就会拨打此人的电话,这个功能在很早以前就已经实现了。不过,这仅仅是最初级阶段的语音识别:它基于的是手机自身的数据库,也是用手机自身的功能搞定拨号;而且,即使用户吐字清晰,并且电话簿没有重名,面对好几个“张军”、“张君”、“章均”,手机也会晕菜,更别提很多地方的用户“王”、“黄”不分等发音的差别了。这样简单的功能,本身已经是out了,让我们看看iPhone 4S搭载的Siri能够做什么。

惊艳的Siri

如果在几个月前看到右上图中的对话,或许你会以为这是一个人在与朋友聊天,而如今我们都知道,这是在Siri在评测中给出的回答。此外,通过网上大量的视频,我们还能够了解到Siri更加丰富的应用,比如设定和优化路线、天气预报等等。Siri的功能实现有着强大的后盾,首先是对话式的界面以及相应的语音识别数据库,其次是基于云计算的数据搜索和服务查询,最后则是各类功能的智能型整合。它的智能化程度超越了以往的各类语音识别应用软件,借助它的算法和数据库,Siri可以判断出你说的地方是宾馆还是超市,你想找的东西是化妆品还是食品。我们可以用一个应用例子来分析Siri都在做什么:对于“I like a romantic place for Italian food near my office(我想在我办公室附近找个浪漫的,有意大利食品的地方)”这句话,Siri 回答:“I am looking for a Italian restaurant which reviews say are romantic near your work in San Jose...(我在寻找一个你在San Jose工作地点附近的拥有浪漫点评的意大利餐馆)”。首先,Siri会根据上下文了解用户的需求条件是办公地点附近的,拥有意大利食品的浪漫之处,进而判断,意大利食品只能在意大利餐馆(要注意到,用户根本没有提restaurant这个词汇)得到,然后,它会通过GPS或者无线基站服务锁定用户大致位置,用云端的数据库搜索(远程平台)寻找该位置附近用户评价为“浪漫”的意大利餐馆,并把结果反馈给用户。

Siri起源于美国政府2003年投资的“个人学习型助理”研究计划,这一计划先后资助SRI International等多家公司和研究机构进行新一代的智能助理的研究,它们能够从经验中学习和推理,并听从指令完成特定的任务。此后SRI将这一部分分离出来成为Siri,又进行了商业融资并进一步开发。2010年,苹果斥资2亿美元收购了Siri,并将Siri应用放在App Store中销售,但在iPhone 4S上市后停止了销售,使之变成目前iPhone 4S独享的功能。而且,它已经被整合为iOS的一部分,可以想象,苹果未来的机型都可以搭载这一功能,而每次对系统的更新也会使Siri的用户受益。

智能语音控制与局限

以Siri为代表的智能语音控制与传统的语音控制相比最显著的区别是前者是模糊的、可学习的,而后者只能使用特定的指令,就像四十大盗的藏宝窟只对“芝麻开门”和“芝麻关门”两条指令产生响应,而智能语音控制则要灵活得多,只要包含有“开门”和“关门”这样的语句,它都会根据上下文环境来判断是否发出开关指令。一个典型的例子是,用户通过Siri提问“纽约的天气如何?”得到回答后,再提问“那么洛杉矶呢?”此时Siri依然会给出洛杉矶的天气信息,而不是到洛杉矶怎么走,或者是洛杉矶有多少人口。不过,智能语音控制实现的条件要求相当高。首先,程序必须要有足够优化的算法,以实现对语音的高效识别和判断。其次,要有足够庞大的云端数据库和足够的带宽,以便执行搜索和反馈。最后,平台要有相应的功能,用户既不能让iPhone 4S去打扫卫生,也不能让它变出一个美女来聊天。

智能语音控制的前景非常美好,Siri也是非常吸引人的功能,但任何事物都有一定的局限性。Siri对语音的识别并非准确无误,发音不准确会造成识别困难,而且目前苹果还没有开放中文的Siri功能,这是因为由单词和中文字组成的句子的语义识别算法有较大差异。此外,模糊化的语音控制本身也是一柄双刃剑,因为要有一定的容错性,因此很难判断接收到的语音和指令是否得到授权。据传苹果准备在iOS 5.1中加入更加基础的应用,如收发电子邮件的支持,添加或删除通讯录等等,这些功能可能需要用户的密码授权才能完成。

其他平台的智能语音控制

尽管苹果不是手机平台实现语音控制的第一家企业,但它绝对是做得最好的一家企业。在智能手机平台上,目前能够与iOS相提并论的只有Android,而且Google公司的搜索引擎无论在功能上还是信息量上都是最出色的,云端技术也非常强大,这也使广大Android用户对类似的功能充满了期待。事实上,早在苹果在系统中植入Siri之前,Android平台上已经出现了大量的语音识别软件,比如日本的NTT Docomo公司提供的Speakey和Voice IT。在Siri大红大紫之后,Iris、Speaktoit等Android平台第三方语音识别软件也借机火了起来。不过,这些软件的“智商”和“能力”都无法与Siri相提并论。我们也希望Google能够凭借自己强大的技术后盾做出类似的应用,不过在Android 4.0中提供的Voice Action也仅仅是过去传统语音识别的增强版。

一些智能型玩具和智能型机器人也能够理解用户的语音并完成一些云端提供的服务,但它们与智能手机平台的侧重点不同。比如腾讯推出的“Qrobot”在娱乐方面的功能就相当强大,可称得上是老少咸宜的互联网应用型智能玩具,连笔者都动心考虑给孩子买一台玩玩。总而言之,目前的智能语音控制技术只能算作刚刚起步,但我们对它的未来充满期待。

智能语音技术 篇7

综合交通枢纽是由两种以上运输方式的干线所组成的交通枢纽。随着城市规模大型化、人员流动高度化、城市土地资源短缺、城市交通流量密集,最大限度地提高交通效率成为城市尤其是大型城市解决交通问题的重点。综合交通枢纽作为各种运输方式之间、城市交通与城间交通之间的衔接关键节点,其规划发展受到越来越广泛的重视。国家“十二五”综合交通运输体系规划提出:全面推进综合交通枢纽建设,建成42个全国性综合交通枢纽。国内已有多个城市提出建设与城市功能相匹配,构建可持续发展、高标准、现代化的综合交通运输体系,支持经济繁荣和社会进步的交通发展目标。

综合交通枢纽智能管理旨在实现枢纽运行的“实时监控、信息通畅、快速反应、协调调度、内外畅通、高效换乘、智能调度”,主要实现四大功能:枢纽运行综合管理、实时运行数据统计分析、乘客服务、智能化调度管理。

综合交通枢纽智能管理针对枢纽自身、进站运输运营单位、政府部门和乘客等各类用户,建立面向日常监测与综合运行信息管理、安全疏散与应急管理、多种运输方式协调调度与联动支持、综合换乘诱导与信息服务、枢纽周边区域交通诱导、综合交通枢纽各种运输方式运营调度等服务领域的枢纽信息系统。提升枢纽运行效率和服务水平,为乘客出行提供便利,为政府行业监管提供有效手段。

具体来说,综合交通枢纽智能管理建设内容主要包括以下方面:

综合运行管理:日常监测和综合运行信息管理、安全疏散与应急管理、交通运输协调调度与联动支持等;

换乘服务:综合换乘诱导、乘客信息服务、周边区域交通诱导等;

运营调度:地面公共交通运营管理、轨道交通运营管理、长途客运运营调度管理等。

2 语音技术介绍

语音技术在计算机领域中的关键技术有语音识别技术(ASR)和语音合成技术(TTS)。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式,语音比其他的交互方式有更多的优势。

2.1 语音识别

语音识别(A u t o Speech Recognize,ASR)技术,是让机器通过识别和理解过程使之听懂人类语言的技术。语音识别技术是信息技术中人机交互的关键技术,目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。随着语音识别在语音搜索、语音控制等全新应用领域的深入应用,语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。自动语音识别技术所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。ASR技术在“能听会说”的智能计算机系统中扮演着重要角色,相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能,进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。

目前我国语音识别技术已取得了令人瞩目的成绩,国家也很重视,首先对于说话人识别技术,近年来已经在安全加密、银行信息电话查询服务等方面得到了很好的应用。此外,说话人识别技术也在公安机关破案和法庭取证方面发挥着重要的作用。其次对于语音识别技术而言,在一些领域中正成为一个关键的具有竞争力的技术。例如,在声控应用中,计算机可以识别输入的语音内容,并根据内容来执行相应的动作,这包括了声控电话转换、声控语音拨号系统、声控智能玩具、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、医疗服务、股票服务和工业控制等。在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的”提供者”和生活“伙伴”;使用电话与通信网络,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息;随着计算机的小型化,键盘已经成为移动平台的一个很大的障碍,想象一下如果手机仅仅只有一个手表那么大小,再用键盘进行拨号操作已经是不可能的。再者,语音信号处理还可用于自动口语分析,如声控打字机等。随着计算机和大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交互机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包含了语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。

2.2 语音合成

语音合成,又称文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。我们所说的“让机器像人一样开口说话”与传统的声音回放设备(系统)有着本质的区别。传统的声音回放设备(系统),如磁带录音机,是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开口说话”。

语音合成技术在2000年时已达到用户基本可接受的准实用水平,主要用于简单信息(如时间、金额、航班等)的播报。伴随着大语料库合成技术的流行,2005年以来语音合成技术已发展到逼近自然人甚至播音员发音的水平,并从单一的广播风格发展到多种语气和语调的合成能力。随着HMM语音合成技术的发展,嵌入式语音合成技术也逐步突破了对运算和存储要求苛刻的嵌入式使用门槛,目前已经可以在小资源环境(1MB存储资源和10MIPS运算资源)下产生出清晰流畅的语音效果,从而使语音技术在车载导航、移动终端、教具等设备中的应用门槛有效降低。未来语音合成技术将从清晰度和自然度的要求上升至对个性化合成的要求,如对语音、语调、情绪的丰富性要求等。

3 语音技术在综合交通枢纽智能管理中的应用研究

3.1 监控中心语音智能控制

监控指挥中心、运营调度中心是综合交通枢纽智能化和指挥调度的核心,通常都具有大量的信息化和智能化系统。在日常操作过程中,为了调取信息显示、控制信息切换,都需要进行大量的操作。信息的反馈也通常只有显示屏上的文本或图像。通过增加语音交互服务,提供新的控制方式,操作人员可以通过语音下达预先设置好的命令,启动预案或联动操作等,如图1所示。

信息系统的反馈和实时的信息,也可以通过语音交互服务器,直接播报出,提供更及时的信息反馈。对于一些过程控制的系统,可以实现语音交互式的过程控制,如:操作人员下达语音命令调度某处图像到显示屏幕上,通过语音询问系统与该视频相关的周边图像,系统通过语音反馈后,操作人员下达命令调取需要的图像到周边显示屏幕。

3.2 总机系统语音应用

通常用户在打电话前,用户需要查找电话接听人的联系方式,然后拨叫号码联系。在综合交通枢纽内,由于工作人员数量较多、机构分布大,为了节省办公费用,通常会采用IP电话系统。在IP电话系统中,由于工作人员很多,尽管具有网络通讯簿,这种方式查询也无法避免,浪费了大量的时间。当人员联系方式变动、部门变动后,经常需要经过大量的中转才能顺利联系到接听人。

在这些系统内,可以增加语音姓名直接呼叫的功能。用户只需要拨通服务中心的号码,即可按照语音的提示,说出接听人的姓名后,自动跳转到接听人的话机上,避免繁琐的查找工作,提供更快的联系方式。支持电话转接、电话留言、电话录音等功能,如图2所示。

3.3 公共广播系统语音应用

目前,在综合交通枢纽中的智能化系统中均包含公共广播系统。公共广播系统既作为消防紧急通知的渠道,也作为通知通告发布的渠道。系统结构图如图3所示。

在日常使用中,发布紧急或临时信息时往往需要人工播报,在播报的效果和准确度上很难进行保障。针对这种广播需求,利用语音合成技术,为公共广播系统提供文本转换成语音的设备,在通过公共广播系统发布通知通告时,将通知通告转换成发布语音。再将生成的语音通过广播系统发布出去。

为了便于用户的使用和维护,并可方便地进行升级扩展,可以将语音合成软件封装到一台小型的计算机中。封装后的语音合成器,可提供直接加电即可启动的配置。在配置了IP地址后,用户可以直接通过Web页面连接到服务器。用户提交需要完成音步频合成的文本信息,服务器合成完成后向终端用户返回合成结果,并将合成后的语音通过广播系统直接发布。该语音合成器与广播系统的终端软件建立调用连接,在广播系统中通过快捷方式可以直接启动语音合成器的终端界面,实现两系统之间的关联。

3.4 触摸查询系统语音应用

在换乘大厅或候车大厅里通常会配备触摸屏查询系统(图4)。通常的触摸屏查询系统只具有触目屏点击查询的功能,在操作性和信息提示效果上还不够简单易用、人性化。在一些设计中,可在传统的触摸屏交互方式上,增加语音查询的交互。按照屏幕上的提示,查询人说出要查询的内容命令,系统查询出后,自动通过屏幕显示和语音回馈查询人,如图5所示。

3.5 会议记录系统语音转写

自会议活动出现以来,会议记录工具经历了一个突变性的发展。早期的会议中,会议记录是由速记员进行快速记录成文字进行记录的。在音视频技术发展起来以后,通过音视频录播设备记录会议逐渐成为了主流。

图6是一个很典型的会议音视频录播系统的结构图。会议音视频录播设备只是将会议过程无损的原样进行记录,还停留在原始素材的记录上,并没有对音视频所记录的内容进行挖掘分析。

随着信息社会的快速发展,人们希望获取信息的速度越来越快。对希望快速获取会议全部内容阅读者来说,只有将会议视频从开始观看到结尾,才能获取到会议的全部内容。这个过程所花费的时间,接近会议过程的时间。这对于现代的人来说,是一个很严重的时间浪费。以至于实际使用中,除了组织基层进行二次学习时使用外,很少有人愿意花费同样的时间去将会议图像浏览一遍。并且,音视频的独特性限制了对内容的搜索使用,面对海量的音视频记录,很难查找到自己所需要的内容。除非有人二次进行文字转录处理,否则一段时间以后,对会议内容的查找都将无法实现。

基于语音识别的语音内容分析系统是为了解决这个需求所产生的构想。它除了应用在会议系统外,还可以应用在其他需要将语音记录成文字的场合。设备的应用定位是:与现有的音视频录播系统结合,对语音输入进行识别,形成识别的文字,向其他系统提供识别的文字信息,并可通过时间关联由录播统一成图像配文字记录的回放显示,增强录播系统的功能。设备最终形态可采用硬件设备的形式,提供自有的信息发布Web页面,并开放设备的接口协议,可以由各录播厂家进行集成。

4 结束语

智能语音技术 篇8

随着物联网在智能家居领域中的广泛应用,基于手机或其他移动设备控制各种家用电器的APP日益普遍,但大多数的APP仍然需要通过移动设备手动操作。对于行动不便或不习惯使用各种移动设备的老人或残疾人仍然存在一定的使用障碍基于语音识别与语音合成功能的自然用户界面可以为上述特定人群提供一个更接近于自然的交流方式,能够提供更为友好的用户界面,从而提高智能家居系统的使用范围与使用体验本文尝试在现有硬件平台的基础上,对智能家居控制系统软件进行二次开发,增加相应的语音控制与语音交互模块,所设计的APP能够实现完全基于语音控制各种智能家电的目标。

2 技术背景

2.1 智能家居硬件平台

一个基本的智能家居硬件系统拓扑结构如图1所示:

其中,物联网信息机是整个系统的控制核心,负责获取来自前端传感器的监测数据或来自用户的具体指令,并根据监测数据或用户指令发送相应的控制指令至控制模块,从而实现对具体家电的控制功能。整个系统中,数据可基于Zigbee、WIFI或蓝牙、红外等多种无线通信协议进行数据传输。

2.2讯飞语音云

讯飞语音云是科大讯飞发布的全球首个提供移动互联网智能语音交互能力的语音处理云平台。基于该平台,科大讯飞相继推出了“讯飞语音输入法”、“讯飞语点”等示范性应用,并与广大合作伙伴携手推动各类语音应用深入到手机、汽车、家电、玩具等各个领域,引领和推动着移动互联网时代大潮下输入和交互模式的变革。[1]

讯飞语音云平台软件建构图如图2所示。[2]

图中蓝色区域为MSP系统的实现范围,浅色区域是与MSP密切相关的组件或第三方角色。

MSP系统主要包括语音应用接口(Speech Programming Interface,SPI)、客户端(Mobile Speech Client,MSC)、服务器(Mobile Speech Server,MSS)和基础支撑(MSP Infrastructure)四个层次,这四个逻辑层从用户到服务器操作系统底层,共同构成了完整的MSP系统架构。

本系统使用的语音识别与合成均采用科大讯飞的语音云开放接口。调用讯飞语音云开放接口实际是访问MSP平台的服务端,服务端提供HTTP应用、用户管理、语音服务等服务,位于局域网内,对外统一接入Internet,为客户端提供唯一的访问点。

其中:HTTP服务器负责将客户端发送的服务请求发送至业务服务器,然后由业务服务器按照具体的服务类型进行处理,调用ISP语音应用平台获取具体的语音服务,而后把处理结果返回给HTTP服务器,再回复客户端。

3 功能划分与语音控制实现

3.1 功能模块划分

根据系统需求,该应用主要包括IP及端口配置、数据查看、语音控制、手动控制等五个功能模块。

IP及端口配置主要用于设置物联网信息机的IP地址及通信端口,在信息机联网之后,再进一步设置各智能设备节点地址。

数据查看功能用来接收智能设备状态信息或传感器上传的各种数据。

语音控制和手动控制模块可以分别使用语音和手动控制方式实现对各种智能设备的控制,如电视、加湿器等电器的打开、关闭,灯光的开关与亮度调节,窗帘等其他设备的相应操作等。

3.2 语音控制的实现

当系统接收到来自用户的语音指令后,使用如下规则完成指令判断和语音到文本的转换工作。

(1)建立本地的静态字段,分为两类,第一类是名词包含可控制电器的名称,如电视、窗帘、灯、浇花器等第二类是动词包括打开,拉开,关闭,调高、调低、降低等等;

(2)封装方法,以窗帘的控制为例,打开、关闭窗帘的命令,将字符转化为控制中可识别的16进制命令,并通过socket套接字传输命令;

(3)第一次输入指令:通过String的contains方法找出其中的名称和动词,然后将其识别为相应的语音指令,然后调用第二步所封装的方法;

(4)第二次输入命令时,检查名称和动词,如果没有名称就默认使用是一个命令的名称并执行相应的命令。

当完成对语音指令的识别与处理之后,命令会以字符形式存储并发送给控制模块,进而控制相关电器的相应操作。

系统工作界面如图3所示:

4 结语

本文基于讯飞语音云技术,设计实现了一个语音控制智能家居的APP,能够实现对各种智能家电的基本控制功能。由于语音识别部分主要通过讯飞语音云实现,系统对网络环境需求较高,当网络环境较差时,语音识别有一定的延迟,对用户体验有较大影响。未来考虑进一步修改该APP,使其使用本地语音引擎进行语音识别,以提高处理的效率。

摘要:本文给出了Android环境下基于讯飞语音云的智能家居控制系统功能描述。所开发的APP通过语音交互或手动控制的方式与智能家居的硬件进行交互通过语音识别技术识别用户语音命令,并将该命令发送到相应的控制模块,以达到控制智能家居硬件的目的。

关键词:语音识别,智能家居,控制系统,讯飞语音云

参考文献

[1]科大讯飞股份有限公司,讯飞语音云简介[DB/OL].2016-07-28.http://www.voicecloud.cn/gyxf.html.

智能语音技术 篇9

随着科技的发展, 语音交互逐步走了进人们的生活中。例如苹果手机中Siri和Win10系统中小娜都已被人们所熟悉, 小米语音识别遥控器也给智能家居带来新体验。考虑到智能语音识别技术在未来科技和生活中的普及是必然, 我国在上世纪末期已开展对其的研究。因此, 将非特定性语音识别技术运用到智能家居中, 并以语音控制方式进行控制家具电器设备, 为人们的生活带来了很大的便捷[1]。

1语音识别系统简介

语音识别技术其任务是将人类的声音转换成计算机可识别的信息。语音识别技术过程为:语音信号采集、预处理、特征信号提取、根据库模板测度估计、语音识别、语音输出[1]。

语音识别技术有两方面的应用[2]:一是连续语音大词汇语音识别系统, 应用于听写机及语言信息查询服务系统;二是体积小、方便携带的语音设备, 如智能手机、玩具、家电遥控器等。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术[3]。语音识别技术过程为:语音信号采集、预处理、特征信号提取、根据库模板测度估计、语音识别、语音输出。

2系统主要硬件组成

2.1语音识别系统的硬件总体设计

本系统包括语音信号采集模块、语音信号调理模块、单片机控制模块、语音识别模块、液晶显示模块、控制执行模块等[1]。

语音信号调理模块包括自动调整增益电路和带通滤波电路。语音信号强度会随传播距离的增加成指数下降, 为了防止近距离出现饱和限幅现象, 因此采用自动调整增益电路[1]。人类的语音信号主要分布在300Hz-3.4KHz, 带通滤波电路可以有效地防止造成干扰, 提高识别效率[1]。

2.2单片机控制模块电路设计

市面上可用于语音识别的单片机多种多样, 文章所用的是HR7P194单片机。HR7P194单片机具有单时钟周期短、运行速度快、性能稳定的特性, 采用哈弗型RISC, 66条精简指令集, 工作频率最高16MHz, 支持硬件除法器, 支持17个中断处理, 具有8KB Flash程序储存器、496字节的SRAM、1路8位定时器T8N、3路8位PWM时基定时器T8P1/T8P2/T8P3、1路16位门控定时器T16G、10位模拟数字转换器ADC、液晶显示控制器LCDC、41根I/O口线以及1个全双工异步串行口和1路IIC总线主控器IICM等。

HR7P194单片机控制模块最小工作系统电路如图1所示。

2.3语音识别模块

以LD3320为核心的语音识别技术有语音识别和声音控制方面的优势, 其优点是在不需要外围存储器及模数转换器的情况下, 由HR7P194进行独立控制;此外LD3320是一款自定义关键词进行识别的芯片, 用户语音操作便捷。

2.4液晶显示系统

相较于其他显示方式液晶显示具有显示便捷、功耗小、使用寿命长的优势[4], 基于液晶显示的优点文章采用LCD128*64液晶显示屏。LCD128*64这种通用模块其优点主要在能够显示文字、数字、字母及图形。利用该模块主要显示语音识别出的命令、处理器发出的控制指令及系统状态, 同时利用其可以显示图形的特点, 可以模拟显示人的声音动态波形, 科技感更强。

3系统软件设计

主程序开始先对包括单片机在内的所有外围元件进行初始化[4], 包括单片机控制模块初始化、语音识别模块初始化、液晶显示模块初始化、控制执行模块初始化。初始化之后进行语音识别, 通过对LD3320读写芯片的控制, 获取语音命令, 根据识别情况判断是否调用相应的子程序并进行数据处理, 最后控制继电器和液晶显示。

4系统测试

系统硬件实验平台设计、组装调试好后, 通过东软载波单片机开发工具HR10M将程序下载到HR7P194单片机中。然后分别在一个没有噪音室内环境中和具有一定噪音的室外环境中进行语音训练。通过训练后分别在两种环境中进行测试:通过5人分别说出“开灯”“关灯”等命令来进行验证。实验结果为:语音识别系统对5种不同的声音均可良好的识别并做出相应的动作, 在外界环境良好的状况下 (无噪音的情况下) , 识别效率在92%以上;在具有一定噪音的室外环境中, 识别效率有所降低, 在85%以上。

经过长期、多次测试结果表明:本系统能够识别语音信息, 识别效率高、性能稳定, 适合智能家居环境的语音交互系统。

5结束语

文章所构建基于HR7P194单片机和LD3320芯片的智能家居语音识别系统, 能够有效地识别人的声音, 实现语音控制电灯开关、风扇转速、电视及热水器等家用电器, 同时东软载波单片机具有非常良好的稳定性, 在后期产品稳定性测试中发挥重要作用。

摘要:随着科技的发展, 语音互动增加了智能家居体验乐趣。文章以东软载波单片机HR7P194为处理中心, 利用LD3320语音识别芯片识别人的语音, 根据命令控制家居中各种设备。实验结果表明:HR7P194单片机性能稳定, LD3320识别率高, 此语音识别方案具有较高的识别率和实用价值。

关键词:语音识别,智能家居,HR7P194单片机

参考文献

[1]陈涛, 高必梵, 艾菊梅.语音识别技术在智能家居控制系统中的应用研究[J].电子质量, 2015 (3) :1-3.

[2]语音识别技术新热点——语音识别专用芯片[J].世界电子元器件, 2002 (2) :26-27.

[3]杨梓艺.人工智能语音系统的实现[J].网友世界, 2014 (6) :23-25.

智能语音邂逅传媒业 篇10

编者按:“媒介即讯息”,加拿大媒介理论家麦克卢汉的这句话曾影响了无数人的媒介观念。在麦氏看来,经由媒介传播的内容并不是最主要的,媒介本身就是一种重要的讯息。语音,作为媒介史上最早的媒介,在经历了报纸、广播、电视、互联网时代以后,随着智能语音技术研究的突破进展,具有了全新的内涵。

随着林志玲的合成声音出现在高德导航系统中,智能语音邂逅传媒业已成为不争的事实。面对这一邂逅,传媒业该如何迎接机遇,借势而为?事实上,浙江卫视、湖北广电、广东省广播电视网络股份有限公司都已经在开始尝试与智能语音的跨界融合,网易新媒体实验室也已经多次尝试音频的切入。本期《中国传媒科技》为您详细解读。

(关于智能语音传媒应用的更多讨论将陆续展开,请扫描二维码关注《中国传媒科技》官方微信公号“梅子匠”)

上一篇:有效导入下一篇:业界培训成果