语音应用

2024-07-08

语音应用(精选十篇)

语音应用 篇1

语言是人类相互交流最常用、最有效、最重要和最方便的通信形式,语音是语言的声学表现,与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展,语音识别技术也取得突破性的成就,人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛,不仅涉及到日常生活的方方面面,在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术,使人们对信息的处理和获取更加便捷,从而提高人们的工作效率。

1 语音识别技术的发展

语音识别技术起始于20世纪50年代。这一时期,语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。

20世纪60年代,语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题,并通过语音信号的线性预测编码,有效地解决了语音信号的特征提取。

20世纪70年代,语音识别技术取得突破性进展。基于动态规划的动态时间规整(Dynamic Time Warping,DTW)技术基本成熟,特别提出了矢量量化(Vector Quantization,VQ)和隐马尔可夫模型(Hidden Markov Model,HMM)理论[1]。

20世纪80年代,语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别,识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面,由于HMM能够很好的描述语音时变性和平稳性,开始被广泛应用于大词汇量连续语音识别(Large Vocabulary Continous Speech Recognition,LVCSR)的声学建模[2,3];在语言模型方面,以N元文法为代表的统计语言模型开始广泛应用于语音识别系统[4]。在这一阶段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始广泛应用于LVCSR系统,语音识别技术取得新突破。

20世纪90年代以后,伴随着语音识别系统走向实用化,语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展[5]。同时,人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题[6]。此外,语音识别技术开始与其他领域相关技术进行结合,以提高识别的准确率,便于实现语音识别技术的产品化。

2 语音识别基础

2.1 语音识别概念

语音识别是将人类的声音信号转化为文字或者指令的过程[7]。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域[8]。

根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括:根据对说话人说话方式的要求,可分为孤立字(词)、连接词和连续语音识别系统;根据对说话人的依赖程度,可分为特定人和非特定人语音识别系统;根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

2.2 语音识别基本原理

从语音识别模型的角度讲,主流的语音识别系统理论是建立在统计模式识别基础之上的。语音识别的目标是利用语音学与语言学信息,把输入的语音特征向量序列X=x1,x2,⋯,xT转化成词序列W=w1,w2,⋯,wN并输出。基于最大后验概率的语音识别模型如下式所示:

上式表明,要寻找的最可能的词序列,应该使P(X|W)与P(W)的乘积达到最大。其中,P(X|W)是特征矢量序列X在给定W条件下的条件概率,由声学模型决定。P(W)是W独立于语音特征矢量的先验概率,由语言模型决定。由于将概率取对数不影响W的选取,第四个等式成立。log P(X|W)与log P(W)分别表示声学得分与语言得分,且分别通过声学模型与语言模型计算得到。λ是平衡声学模型与语言模型的权重。从语音识别系统构成的角度讲,一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统,对于不同的语音识别系统,人们所采用的具体识别方法及技术不同,但其基本原理都是相同的,即将采集到的语音信号送到特征提取模块处理,将所得到的语音特征参数送入模型库模块,由声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果[9]。

语音识别系统基本原理框图如图1所示,其中:预处理模块滤除原始语音信号中的次要信息及背景噪音等,包括抗混叠滤波、预加重、模/数转换、自动增益控制等处理过程,将语音信号数字化;特征提取模块对语音的声学参数进行分析后提取出语音特征参数,形成特征矢量序列。语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等。特征提取和选择是构建系统的关键,对识别效果极为重要。

由于语音信号本质上属于非平稳信号,目前对语音信号的分析是建立在短时平稳性假设之上的。在对语音信号作短时平稳假设后,通过对语音信号进行加窗,实现短时语音片段上的特征提取。这些短时片段被称为帧,以帧为单位的特征序列构成语音识别系统的输入。由于梅尔倒谱系数及感知线性预测系数能够从人耳听觉特性的角度准确刻画语音信号,已经成为目前主流的语音特征。为补偿帧间独立性假设,人们在使用梅尔倒谱系数及感知线性预测系数时,通常加上它们的一阶、二阶差分,以引入信号特征的动态特征。

声学模型是语音识别系统中最为重要的部分之一。声学建模涉及建模单元选取、模型状态聚类、模型参数估计等很多方面。在目前的LVCSR系统中,普遍采用上下文相关的模型作为基本建模单元,以刻画连续语音的协同发音现象。在考虑了语境的影响后,声学模型的数量急剧增加,LVCSR系统通常采用状态聚类的方法压缩声学参数的数量,以简化模型的训练。在训练过程中,系统对若干次训练语音进行预处理,并通过特征提取得到特征矢量序列,然后由特征建模模块建立训练语音的参考模式库。

搜索是在指定的空间当中,按照一定的优化准则,寻找最优词序列的过程。搜索的本质是问题求解,广泛应用于语音识别、机器翻译等人工智能和模式识别的各个领域。它通过利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识等),在状态(从高层至底层依次为词、声学模型、HMM状态)空间中找到最优的状态序列。最终的词序列是对输入的语音信号在一定准则下的一个最优描述。在识别阶段,将输入语音的特征矢量参数同训练得到的参考模板库中的模式进行相似性度量比较,将相似度最高的模式所属的类别作为识别中间候选结果输出。为了提高识别的正确率,在后处理模块中对上述得到的候选识别结果继续处理,包括通过Lattice重打分融合更高元的语言模型、通过置信度度量得到识别结果的可靠程度等。最终通过增加约束,得到更可靠的识别结果。

2.3 声学建模方法

常用的声学建模方法包含以下三种:基于模式匹配的动态时间规整法(DTW);隐马尔可夫模型法(HMM);基于人工神经网络识别法(ANN)等。

DTW是较早的一种模式匹配的方法。它基于动态规划的思想,解决孤立词语音识别中的语音信号特征参数序列比较时长度不一的模板匹配问题。在实际应用中,DTW通过计算已预处理和分帧的语音信号与参考模板之间的相似度,再按照某种距离测度计算出模板间的相似度并选择最佳路径。

HMM是对语音信号的时间序列结构所建立的统计模型,是在马尔可夫链的基础上发展起来的,它是一种基于参数模型的统计识别方法。HMM可模仿人的言语过程,可视作一个双重随机过程:一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程[10]。

ANN以数学模型模拟神经元活动,将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域,并结合神经网络和隐含马尔可夫模型的识别算法,克服了ANN在描述语音信号时间动态特性方面的缺点,进一步提高了语音识别的鲁棒性和准确率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估计音素或状态的后验概率。2011年,微软以深度神经网络替代多层感知机形成的混合模型系统大大提高了语音识别的准确率。

3 语音识别的应用

语音识别技术有着非常广泛的应用领域和市场前景。在语音输入控制系统中,它使得人们可以甩掉键盘,通过识别语音中的要求、请求、命令或询问来作出正确的响应,这样既可以克服人工键盘输入速度慢,极易出差错的缺点,又有利于缩短系统的反应时间,使人机交流变得简便易行,比如用于声控语音拨号系统、声控智能玩具、智能家电等领域。在智能对话查询系统中,人们通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,例如信息网络查询、医疗服务、银行服务等。语音识别技术还可以应用于自动口语翻译,即通过将口语识别技术、机器翻译技术、语音合成技术等相结合,可将一种语言的语音输入翻译为另一种语言的语音输出,实现跨语言交流[11]。

语音识别技术在军事斗争领域里也有着极为重要的应用价值和极其广阔的应用空间。一些语音识别技术就是着眼于军事活动而研发,并在军事领域首先应用、首获成效的,军事应用对语音识别系统的识别精度、响应时间、恶劣环境下的顽健性都提出了更高的要求。目前,语音识别技术已在军事指挥和控制自动化方面得以应用。比如,将语音识别技术应用于航空飞行控制,可快速提高作战效率和减轻飞行员的工作负担,飞行员利用语音输入来代替传统的手动操作和控制各种开关和设备,以及重新改编或排列显示器上的显示信息等,可使飞行员把时间和精力集中于对攻击目标的判断和完成其他操作上来,以便更快获得信息来发挥战术优势。

4 结语

语音识别的研究工作对于信息化社会的发展,人们生活水平的提高等方面有着深远的意义。随着计算机信息技术的不断发展,语音识别技术将取得更多重大突破,语音识别系统的研究将会更加深入,有着更加广阔的发展空间。

参考文献

[1]马志欣,王宏,李鑫.语音识别技术综述[J].昌吉学院学报,2006(3):93-97.

[2]RABINER L R,JUANG B H.An introduction to hidden Mar kov models[J].IEEE ASSP Magazine,1986,3(1):4-16.

[3]GALES M,YOUNG S.The application of hidden Markov mod els in speech recognition[J].Foundations and Trends in SignalProcessing,2008,1(3):195-304.

[4]JELINEK F.Continuous speech recognition by statistical meth ods[J].Proceedings of the IEEE,1976,64(4):532-556.

[5]倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112-123.

[6]顾亚强.非特定人语音识别关键技术研究[D].长沙:国防科学技术大学,2009.

[7]中华人民共和国国家质量监督检验检疫总局.GB/T210232007中文语音识别系统通用技术规范[S].北京:中国标准出版社,2007.

[8]王文慧.基于ARM的嵌入式语音识别系统研究[D].天津:天津大学,2008.

[9]何湘智.语音识别的研究与发展[J].计算机与现代化,2002(3):3-6.

[10]吕云芳.基于模板匹配法的语音识别系统研究与基本实现[D].天津:河北工业大学,2005.

畅言智能语音教具系统应用案例 篇2

----“畅言智能语音教具系统”应用案例

随着天祝二中这所新学校在天祝这块美丽的藏乡之地日益茁壮,“教学点数字教学资源全覆盖”项目也逐步在藏乡的每一所学校得到推广。数字教学资源在我校得到了充分有效的利用,电子教具成为了我们每一位教师的得力助手,成为了每一个莘莘学子的良师益友,也成了我们二中得以迅速发展的后盾力量。

作为一名英语教师我深刻体会到了电子教具,尤其是畅言语音教具系统给我们英语课堂教学提供了优越的条件。畅言智能语音教具系统的合理使用实现了教材内容的标准带读、学生的互动口语评测,以及实物的有声教学等功能,丰富了教学手段,形象了教学内容,提高了学习兴趣。更为师生们拓展了广阔的想象空间,让师生们的创新能力得到了充分的发挥。

以往去上英语课就是一本书,一支粉笔,一块黑板,一张嘴加一台录音机,长期下来形成了枯燥无味的应试教学模式。而且每天都是上两三个班的英语课,一旦各班上课进度不一样时,每次上课前都要事先把磁带倒好,往往会耽误很多宝贵的课堂时间。使用畅言教具系统,只需一张小小的存储卡,就可以把几十盘磁带的内容全部存放进去,再也不用换来换去,倒来倒去,想听哪里或是想多听一遍,只需拿识别笔在想播放的地方轻轻一点,立刻就可以听到,大大提高了课堂教学的效率。

畅言语音教具系统的标准语音带读功能给予学生标准的语 音示范,便于学生模仿正确的语音语调,使用起来方便快捷,彻底克服了那种老师念学生读的机械、枯燥的练习方法。在动物类单词的教学中,通过智能语音隐形码制作卡片呈现一首和动物有关的自编的小诗“Do you like this zoo? Here’s the horse,there’s the cat.Here’s the cow,there’s the rabbit.”以及一个小型的动物园来复习已学过的动物类单词;随后,引出这节课要教授的新单词“sheep, hen,lamb,等”;最后以学到的新单词进行练习,音乐又响起那首自编的小诗,请学生亲自来做代入练习。在这种看、想、说的过程中,学生在较短的时间内完成了对动物类单词的掌握,开阔了眼界。同时,畅言智能教具系统为我们Listening训练教学提供了极大的方便,有些听力材料中常有新词、生词出现,这给学生听力带来了极大的阻碍,为了消除学生听力恐惧怔,提高听力效果,我们可以运用点读笔点出文中生词、新词,让学生多听几遍,多读几遍,扫清听力障碍,这是以往录音机无法做到的,之后我们就可以通听听力材料了。如果遇到难一点的听力材料,可以点重点多听几遍,哪里不会点哪里。同样,畅言智能语音系统还让学生们兴趣倍增,如在教学七年级上册Unit11《How was your school thrip?》,学生们随着畅言智能语音教具播放的优美音乐《Yesterday once more》一首回顾过去生活的英文歌曲,步入本单元过去时态的学习。再如,教学时间表达法这一单元时,我采用了以下的教学方法:首先,出示实物闹钟,问学生 “ What’s this in English? What time is it?” , 学生第一个问题会回答,但是第二个可能不会。然后,创设情境、困难转移,利用课前制作好的有声课件与闹钟进行问答。教师:Ok,you can’t answer it , it doesn’t matter, let’s ask the clock.“Who are you? ” “What time is it? ” 闹表回答(点读有声课件闹钟上的即时贴“I’m a clock.”“ It’s seven o’clock ”)学生认真听、跟读并学习时间的表达法。最后利用这种方式让学生上前点读即时贴,调动他们的兴趣进行更多时间表达法的学习。(twenty-seven past nine, a quarter to ten, half past twelve…)其次,在教授课文方面,我利用语音教具辅助教学法制作了能够说话和唱歌的洋娃娃、圣诞老人等一系列有声教具,使其代替我的角色朗读课文、唱英文歌曲,达到了寓教于乐,以趣激学之目的。在如此美妙的声音和愉快的气氛中,学生在乐中学,在学中乐,教学效果良好。

总而言之,畅言智能教具系统为学生提供了更加科学的学习空间,学生能更加清晰而准确地聆听录音材料,集中精力投入学习状态这些有声材料吸引学生们注意力的同时,势必会大大提高学生们的学习兴趣,从而更好地提高学生的英语水平和英语课堂教学的实效性。

语音识别系统在电信充值业务的应用 篇3

关键词语音识别技术;200卡;自动提取信息;充值

中图分类号TN9文献标识码A文章编号1673-9671-(2010)072-0026-02

1需求概述

1.1业务需求

XX电信向我们提出需求,要建立一个系统通过自动语音识别交互控制,自动实现提取200现金卡信息,对200充值卡进行充值,并对这些充值结果进行统计。

1.2语音识别应用背景

语音识别技术在计算机硬软件发展的推动下,经过几十年的探索,逐步解决了一些技术上的难题,正进入一个推广和应用的阶段。目前的中文语音识别技术,已经可以完全基于电话信道实现无需训练的命令识别,而且语音命令的数量可以做到无限个。这使得利用语音技术开发各种电话语音交互应用成为可能。

1.3系统简介

基于十多年电信研发经验及技术基础,结合多年来在ASR、TTS中的实际应用经验,充分融合CELL-IVAP增值业务平台资源优势与业务优势,我们推出了语音识别融合增值业务系统CELL-VVAS(VOICE VALUE-ADDED SYSTEM)。系统采用分布式优良的识别引擎,研发了稳定高效的应用程序,通过与电信交换网络的完美集成,为用户提供多种人性化、个性化的应用服务。

CELL-VVAS系统语音识别/合成引擎的分布式结构具有伸缩性强、成本效率高和配置灵活等特点,具有支持大话务量、实时性高的能力;其客户/服务结构使语音识别应用程序强大,具有极其高效的容错性和负载平衡能力,保证了应用业务的高效可靠运行。

200自动充值业务系统就可以用CELL-VVAS语音识别业务平台实现。

2系统概况

2.1系统特性

2.1.1分布式结构

整个系统由多个识别/合成引擎通过局域网组成,资源管理器在语音识别/合成引擎间进行负载均衡,从而保证硬件的利用效率。对CPU运算强度需求很大的识别被放在单独的识别引擎/服务器上来执行,而不用占用应用程序的CPU资源。每个语音识别/合成引擎可以支持多个客户端,资源管理器可以将呼叫平均分布到多个语音识别/合成引擎上执行。这种结构优化了内存和CPU资源的使用,使得系统可以支持大话务量的实时性的语音识别任务,可以支持电信级、大企业级的应用需求。

2.1.2高容错和可靠性

整个识别引擎经过精心的设计,具有很高的容错和可靠性,使得各个引擎/服务器可以动态的加入和退出系统,而对整个系统的运行没有影响,因此,即使个别引擎/服务器失效,也不会使系统崩溃。当一个识别引擎/服务器失效时,资源管理器会自动停止向其发送请求,当引擎/服务器恢复时,又会自动开始向它发送请求。另外,系统允许配备备份服务器来保证系统的可靠运行。

2.1.3可伸缩性强

随着呼叫量的增加,系统可以随时动态增加ASR/TTS引擎/服务器,而无须停止任何运行着的应用程序或关闭IVR系统,这对那些需要常年连续运行的系统特别有用。

2.2系统架构

CELL-VVAS语音识别融合增值业务系统最小配置的基本架构如下图所示:

图1CELL-VVAS系统基本架构

语音识别(ASR)引擎/服务器、语音合成(TTS)引擎/服务器、资源管理器及客户端的个数是可变的,具体的多少和系统的大小和任务量有关。由于语音识别需要传输大量的数据,因此为了提高网络的传输效率,避免互相干扰,建议把语音识别系统的所有服务器单独组网,然后和IVR服务器相连,这种方法的好处是,网络传输效率高,且和系统其他数据传输互不干扰。另外,一个网络出错不会影响另一个网络。

语音识别的原理图如下所示:

图2语音识别原理图

从上图可看出,输入的语音首先要通过端点检测(也称静音检测模块),检测得到输入语音的有效语音数据部分(也就是去除了静音数据、噪声数据等);然后进入特征提取模块,这里需要提取语音信号最本质的信息,一般采用MFCC特征,它是采用复杂的数字信号处理技术来完成的;语音信号的特征信息被送入识别引擎,在声学模型和语言模型的指导下进行识别,最终得到识别结果,这里常常需要采用非常复杂的搜索算法,简单地说,它需要根据语言模型考虑各种词的组合(句子)及其发生概率,对于每一种可能的句子,都给出一个得分,选择得分最大者作为识别结果。但是由于可能的搜索空间非常大,所以需要利用剪枝技术,有效地去除大量冗余空间,加快搜索速度,满足实际系统的要求。

2.3系统核心模块

为了结合电话网络和互联网络开展业务应用,CELL-VVAS需要面向这两个网络增加接入的模块:Internet子模块、CTI子模块,以向用户提供使用通讯录的浏览器界面和语音界面,同时为了保证数据的一致性,需要后台建立一个用户的数据库服务器。

图3CELL-VVAS系统主要模块

Internet子模块相对比较简单,可以采用目前主流的网络服务方式进行服务;而为了更好服务用户,CTI子模块需要采用先进的语音合成和语音识别技术。

2.3.1语音交换接入单元

为了实现语音指令和语音拨号的功能,我们需要语音交换接入单元来控制整个系统的业务流程。从前端的交换机接入访问此系统的用户的话务,转接到语音交换接入单元;语音交换接入单元开始与用户进行交互,来完成此系统的整个业务流程。语音拨号服务器支持业务流程的基本功能包括:

完成系统语音的播放(直接播放预录音文件或者调用语音合成服务器来合成语音);

与语音识别服务器通信,获得用户的语音输入的识别结果,从而确定用户是需要语音拨号还只是为了查询个人电话本信息,抑或是增加电话,修改电话等等操作;

根据用户的需求进行指定的语音拨号,即按照用户指示拨打个人电話本相应的电话。

语音交换接入单元还要与认证和计费网关通信,将用户的个人身份信息送入认证网关进行身份认证。对用户服务一般费用以及语音拨号产生的通话费用等信息,需要送入计费网关,用于市网结算或者全网范围内的费用清算。

2.3.2语音识别(ASR)

在CELL-VVAS中,语音识别技术用以识别用户命令,从而实现自动服务,需要高准确率、高集成度。为了适应用户在不同场合下的使用,识别还必须有良好的抗噪音能力。针对系统的应用,还要求识别产品具备动态语法能力,使当用户完成一个联系人的添加后可以立即生效。Nuance产品在具备以上特点的同时还支持无限的词汇量,是目前全球电信领域应用实例较多的识别产品。

2.3.3语音合成(TTS)

在用户通过电话访问系统时,唯一的用户界面是语音,因此,系统提示语音是否准确、清晰、自然显得尤为重要。而人名、电话号码等动态信息无法采用人工录音的方式实现,必须使用语音合成产品。本系统选择作为国内先进的语音技术提供商的产品,拥有多个电信应用实例。

2.4系统实现的功能

分布式语音识别(ASR)引擎及语音合成(TTS)引擎是针对电信级、大企业级应用特点开发出来的一个基于多机的分布式ASR&TTS引擎,它通过局域网连接多个ASR及TTS服务器,来同时完成大量的语音识别与语音合成任务,极大的拓展了单机版引擎在识别任务上的限制,可以同时支持几百到几千个语音识别/合成任务的并发执行,从而满足电信级这样的具有大识别/合成任务量的应用。

系统的基本功能有:

支持非特定人、大词汇量、连续语音识别,能够达到高的识别准确率;

支持多语种识别;

多台语音识别服务器并行工作,通过局域网连接和传送数据;

有一个资源管理服务器(或多个,作备份),用来管理所有的服务器,并负责负载平衡;

有一个ASR/TTS License服务器,用来进行License管理;

系统可以同时启动任意多个引擎/服务器(或线程数),但同时最多只能用License所规定的线数。

2.5关键技术

CELL-VVAS在系统研发中,应用了几个关鍵的技术:

2.5.1 回声消除(Echo Cancellation,简称EC)

用于语音识别,IP电话,DTMF和音频检测技术。主要用来把外发的信号的回声从进入信号里面清除。

2.5.2 全双工操作

应用程序可以在同一个通道上同时接受和发送语音数据。

2.5.3 语音活动检测(Voice Activity Detector,简称VAD)

检测线路上是否有语音能量。

2.5.4 语音打断(Barge-In)

当在某一个通道上检测到语音能量,系统可以被设置为自动停止在那个通道上播放的提升语音。这可以很快的中止提示音,接收用户的输入,从而提高识别的准确度。如果不很快地中止提示语音,用户很可能口吃或者说话不清晰,那也会影响识别的性能。

2.5.5 语音事件通知

当检测到线路上语音能量,系统可以在不停止当前语音提示播放的时候给主机的处理器发出一个消息,语音识别的引擎可以做进一步判断以后停止提示音的播放。

2.5.6 预缓冲(Pre-Speech Buffer)

进入的语音数据被存在一个250毫秒的缓冲区里。当检测到语音能量,这一部分储存在缓冲区里的语音就会被转发到语音识别资源来被处理。这种预缓冲的里包含的关键信息在高识别准确率要求的时候是十分关键的。

2.5.7 统一的编程接口(API)

为了保证系统的可扩展性,不同密度的底层硬件之上,应用程序的编程接口必须要一样。

3业务功能及实现简叙

3.1现金卡管理

200现金卡:电信发行的,能用来对200充值卡进行充值的一种卡类。

需要将现金卡信息(卡号、密码、有效期等)保存在数据库中,可以单个卡号录入,也可以通过导入文件方式批量录入。

对现金卡进行查询、管理。系统提供一个基于Web的管理界面,可以进行现金卡的录入、批量导入管理功能。

3.2自动充值

200充值卡:电信发行的,能被用来反复充值的一类卡,最高余额不超过5000元(含赠送部分),需对余额进行控制。

需要通过自动拨打电信200语音平台,实现对200充值卡进行充值。

需要能够对200充值卡进行管理,管理200充值卡信息(卡号,捆绑电话号码)。

在拨打200平台时候,需要根据回复的语音自动执行下一个动作。自动提取可用现金卡信息,对200充值卡进行充值。并记录充值执行结果。

对于自动识别可以通过两种方式进行识别,一种是根据系统定义中文进行识别,一种根据事先录制的语音进行识别,对于200卡充值的固定语音提示,建议采用第二种方式进行语音识别。

3.3统计功能

充值金额报表:每日、月或指定时间段各200充值卡充值金额(各多少张现金卡)统计。

异常报表:对充值不成功的200充值卡或现金卡提供清单报表。

成功率统计:对不同时段充值成功率进行统计。

3.4系统功能

并发处理:需要实现多个话路对多个200充值卡同时进行充值。

策略管理:可定义自动充值的时间策略和动作策略。可以指定时间段进行充值,可以设置如何选取200卡号进行充值。

变换主叫:外拨的时候,可以在主叫号码库(一段电话号码)中随机选择号码作为主叫号码。

应用MATLAB分析语音信号 篇4

1 设计方案

文中利用MATLAB中的file菜单中的Import data命令来读入采集的语音信号, 将它赋值给向量y。再将该向量y看做一个普通的信号, 对其进行FFT变换实现频谱分析, 再依据实际情况对它进行滤波。对于波形图与频谱图 (包括滤波前后的对比图) 都可以用MATLAB画出。同时还可以通过sound命令来对语音信号进行回放, 以便在听觉上感受声音的变化。

2 具体设计

2.1 语音的录入与打开

利用MATLAB中的file菜单中Import data命令读入采集的语音信号, 采样值放在向量y中, fs表示采样频率 (Hz) 。sound (data, fs) 用于表示对声音的回放。向量y则代表了一个信号 (也即一个复杂的“函数表达式”) , 也就是说可以像处理一个信号表达式一样处理这个声音信号[1]。函数abs (x) 用于计算复向量x的幅值[2]。图1、图2分别表示原始语音信号采样前后的频谱。

2.2 滤波器设计相关原理

设计数字滤波器的任务就是寻求一个因果稳定的线性时不变系统, 并使系统函数H (z) 具有指定的频率特性[3]。数字滤波器从实现的网络结构或者从单位冲激响应分类, 可以分成无限长单位冲激响应 (IIR) 数字滤波器和有限长单位冲激响应 (FIR) 数字滤波器。数字滤波器频率响应的3个参数分别是:幅度平方响应、相位响应和群时延响应[4]。

文中利用MATLAB软件设计FIR低通滤波器频率fs=10 000。Rp=1;Rs=100;wdelta=ws-wp;wp=2×pi×1 000/fs;ws=2×pi×1 200/fs;调用函数N=ceil (8×pi/wdelta) ;wn= (wp+ws) /2;完成设计。

FIR高通滤波器设计频率fs=22050;wp=2×pi×5000/fs;ws=2×pi×4800/fs;Rp=1;Rs=100;wdelta=wp-ws;调用函数N=ceil (8×pi/wdelta) ;wn= (wp+ws) /2;完成设计。

FIR带通滤波器设计频率fs=22050;wp1=2×pi×1200/fs;wp2=2×pi×3000/fs;ws1=2×pi×000/fs;ws2=2×pi×3200/fs;Rp=1;Rs=100;wp= (wp1+ws1) /2;ws= (wp2+ws2) /2;wdelta=wp1-ws1;N=ceil (8×pi/wdelta) ;wn=[wp ws];调用函数[b, a]=fir1 (N, wn/pi, 'bandpass') ;完成设计。

IIR带阻滤波器设计频率fs=22050;[z, p, k]=buttap (3) ;[b, a]=zp2tf (z, p, k) ;, 调用函数[bt, at]=lp2bs (b, a, fs×2×pi, 2000×2×pi) ;[h1, w1]=freqs (b, a) ;[hh, wh]=freqs (bt, at) ;完成设计。

其中, 对于不同类型的滤波器参数wp和ws有一些限制:对于低通滤波器wpws;对于带通滤波器, wp和ws分别为具有2个元素的矢量, wp=[wp1, wp2]和ws=[ws1, ws2], 并且ws1

2.2.1 设计FIR低通滤波器

用MATLAB画出此语音信号在FIR低通滤波器滤波前、后的时域波形和在FIR低通滤波器滤波前后的频谱。其中图3表示设计的FIR低通滤波器, 此低通滤波器性能指标为:fb=1000 Hz, fc=1200 Hz, Rs=100 d B, Rp=1 d B。图4表示语音信号经过FIR低通滤波器前后的频谱。

分析:设计中最大衰减Rp=1 d B=0.89时, fb=1000 Hz, 由图4可看出基本上符合。而最小衰减为Rs=100 d B=0.00005时fc=1200 Hz也符合。由于采取的采样点数比较大, 滤波前后的频谱比较相近, 但仔细看图4中还是滤掉了高频部分, 只留下了想要的低频部分。

2.2.2 设计FIR高通滤波器

图5表示设计的FIR高通滤波器, 此高通滤波器性能指标为:fs=4800 Hz, fb=5000 Hz, Rs=100 d B, Rp=1 d B。图6表示语音信号经过FIR高通滤波器前后的频谱。

分析:设计中最大衰减Rp=1 d B=0.89时, fb=5000 Hz, 由图6可看出基本上符合。而最小衰减为Rs=100 d B=0.00005时fc=4800 Hz也符合。由于采取的采样点数比较大, 图6中还是滤掉了低频部分, 只留下了想要的高频部分, 但这部分高频幅度很小, 说明本语言信号低频成分比较多, 相反高频成分很少, 且幅值很小。

2.2.3 设计FIR带通滤波器

用MATLAB画出此语音信号在FIR带通滤波器滤波前、后的时域波形和在FIR带通滤波器滤波前、后的频谱。其中图7表示设计的FIR带通滤波器, 此带通滤波器性能指标为:fb1=1200 Hz, fb2=3000 Hz, fc1=1000 Hz, fc2=3200 Hz, As=100 d B, Ap=1 d B。

图8表示语音信号经过FIR带通滤波器前后的频谱。

分析:设计中最大衰减Rp=1 d B=0.89时, fb1=12000 Hz, fb2=3000 Hz, 由图7, 图8可看出基本上符合。而最小衰减为Rs=100 d B=0.00005时fc1=1000 Hz, fc2=3200 Hz也符合。图8中滤掉了不需要的低频和高频部分, 只留下了想要的部分, 但这部分幅度很小, 最大为0.7。

2.2.4 设计IIR带阻滤波器

用MATLAB画出此语音信号在IIR带阻滤波器滤波前、后的时域波形和在IIR带阻滤波器滤波前、后的频谱。其中图9表示设计的IIR带阻滤波器, 此带阻滤波器性能指标为:带宽为2000 Hz, 中心频率为fs。

分析:图9与图10比较, 原信号通过带阻滤波器后信号的幅度变小。通过带阻滤波器后, 频率幅值也相应地减小。在设计预想的3000~5000Hz内的频率部分被阻止, 留下了想要的频率部分, 基本符合初衷。

3 结论

文中实际上是想将数字信号处理技术应用于语音的处理这一领域。作为存储于计算机中的语音信号, 它本身就是离散化了的向量。只需将这些离散的量提取出来, 就可以对其进行处理了。文中用到了处理数字信号的强有力工具MATLAB, 通过对MATLAB中命令函数的调用, 很轻易利用数字信号的理论分析和处理实际化语音。这样就完全利用数字信号处理的知识来解决实际问题。

参考文献

[1]管爱红, 张红梅, 杨铁军, 等.MATLAB基础及其应用教程[M].北京:电子工业出版社, 2009:226-229.

[2]罗军辉, 罗勇江, 白义臣, 等.MATLAB7.0在数字信号处理中的应用[M].北京:机械工业出版社, 2005:87-115.

[3]黄海梅, 熊桂林, 杨勇.信号分析与处理[M].湖南:国防科技大学出版社, 2000:125-153.

[4]张智星.MATLAB程序设计与应用[M].北京:清华大学出版社, 2002:213-219.

语音应用 篇5

平安城市IP语音广播调度系统的应用 <一>平安城市IP语音广播调度系统的需求

随着我国整体经济发展,人民生活水平总体提高,加快城市化、城镇化的发展脚步,实现“十二五”全面实现小康社会,在经济发展、城镇化发展的同时,城市治安也日渐复杂,城市面临人员密集,人员流动性特别大,城市的犯罪案件越来越多,犯罪手段不断更新,犯罪性质恶劣,城市管理难度压力加大,不断改善人们的生活和工作环境,建设幸福城市、平安城市的工作迫在眉睫。

目前城市已经组建并逐步完善城市监控视频平台(天网工程),很大程度上实现城市治安管理中打击犯罪、远程视频监控、视频证据收集等作用;监控视频平台只能完成视频监控,无法实现进行远程语音通话和远程语音喊话,为此在城市的主要道路上、人员密集街道、容易发生事故区域设置城市报警点,在城市110报警中心和各街道派出所设置接警对讲话筒,借助公安专用网络组建一套城市联网双向语音报警系统。

城市联网双向语音报警系统主要解决城市治安管理中的市民报警求助,110报警中心远程广播通知、远程广播喊话、远程指挥调度,城市公安系统内部双向语音通话,城市监控网络联动触发等。

<二>平安城市IP语音广播调度系统主要功能

110报警:当城市报警点的对讲终端有市民报警求助时,立即传输到110报警值班中心,值班中心通过桌面IP语音对讲话筒即可进行语音双向通话,并实时录音保存;报警中心可设置多个接警岗位,报警发生时,值班中心出现接警岗位未进行处理时,可在预先设定时间内自动传至其他接警岗位。

远程广播:110报警值班中心通过桌面IP对讲话筒可对城市报警点进行远程广播,特别在监控视频中发现有可疑对象或紧急治安情况时,可进行远程喊话震慑可疑人员或远程指挥现场处理事件。

监控视频联动:当城市报警点发生求助报警时,报警终端输出信号触发监控摄像机按照预置位置定位,110报警值班中心自动弹出报警点现场视频画面,真正实现报警对讲与视频的联动集成。

深圳市华天成科技有限公司

内部通讯对讲:在城市110报警值班中心和各街道派出所设置桌面式IP语音对讲话筒,借助公安网络平台,可组成一套内部专用的通讯对讲系统,适用于报警值班中心与街道派出所的远程指挥调度。

语音识别技术在智能家居中的应用 篇6

关键词:嵌入式系统;语音识别;隐马尔可夫;智能家居

中图分类号:TP316.9

文献标识码:A

DOI:10.3969/j.issn.1003-6970.2015.07.021

0 引言

随着计算机的发展,智能家居在近几年也得到了大家的重视,智能家居利用各种通信、网络技术实现家居设备集成,为用户提供了更加舒适高效的环境。近几年人们对智能家居的便利程度提出了更高的要求,同时语音识别技术也进一步的发展,但是语音在智能家居中的应用还是相对较少,一般还要依靠遥控、手机等中控设备。语言是信息交流的重要手段,语音识别可以用声音来控制设备完成一些特定的命令,减少用户如手机,遥控等中控设备的依赖,使生活更加方便。

本文通过对语音识别技术与嵌入式控制技术的研究,用语音命令实现直接管控从而可以取代以往利用手机或者遥控方式来控制的方法,方便操作而又能提高效率。本系统基于NL6621板与语音芯片VS1003实现语音采集,并采用当今语音识别领域的主流技术一一隐马尔科夫模型(Hidden Markov Model,HMM)算法实现对人语音命令的识别主要是进行模型训练和匹配。实验证明在多个语音样本对系统的训练识别下,系统在非特定人、孤立词语识别上具有良好的效果。

1 语音识别与智能家居

1.1 语音识别技术

语音识别技术本质上是一种模式匹配识别的过程,是机器通过识别和理解过程把语音信号转变成相应的文本文件或命令的技术。根据模式匹配过程语音识别系统可以如下图表示。语音识别系统可以分为:特定人和非特定人的识别、独立词和连续词的识别等,无论哪种识别系统识别过程都主要包括了语音信号预处理、特征提取、训练等。分别通过对信号的预处理分析和计算建立模板,当对语音进行识别时,需要将输入的语音与系统中存放的语音进行比较从而得到识别结果。

1.2 语音识别算法

人的言语过程是一个双重随机过程。因为语音信号本身是一个可观察的序列,而它又是由大脑里的不可观察的、根据言语需要和语法知识状态选择所发出的音素(词、句)的参数流,大量实验表明,隐马尔可夫模型(HMM)的确可以非常精确地描述语音信号的产生过程。隐马尔可夫模型是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程,采用HMM进行语音识别,实质上是一种概率运算,根据训练集数据计算得出模型参数后,测试集数据只需分别计算各模型的条件概率(Viterbi算法),取此概率最大者即为识别结果。一阶离散马尔可夫模型可表示为:有N个状态,Sl,S2... SN,存在一个离散的时间序列t=0,t=1…在每个时刻t,系统只能处于唯一一个状态qt,下一个时刻所处的状态是随机出现的,当前状态qt只与前面相邻的一个状态qt-l有关, 与其他状态无关,用表达式

HMM语音识别的一般过程:

1.前向后向算法计算

已知观测序列 和模型 ,如何有效的计算在给定模型条件下产生观测序列O的概率

2.Baum-Welch算法求出最优解 :

(1)初始化

(2)迭代计算

(3)最后计算

3.Viterbi算法解出最佳状态转移序列:

已知观测序列 和模型 ,如何选择在某种意义上最佳的状态序列。

(1)初始化

(2)迭代计算:

4.根据最佳状态序列对应的九给出候选音节或声韵母

5.通过语言模型形成词和句子

2 基于NL6621嵌入式硬件设计

语音识别的硬件平台主要包括中央处理器NL6621,可读写存储器,声卡芯片vs1003以及一些外围设备,硬件体系结构如图2所示。

主系统使用新岸线公司的NL6621。MCU采用的最高主频为160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,软AP,WiFi保护设置以及WMM-PS和WPA/WPA2安全协议。codec芯片是vs1003,它与核心控制器NL6621的数据通信是通过SPI总线方式进行的。它集成了麦克风输入接口,音频输出接口,对话筒输入或者线路输入进行IMA ADPCM编码,能有效的接受和播放音频信息。

硬件电路实现:VS1003通过xCS、xDCS引脚的置高或低来确认是哪一个接口处于传送状态。通过串行命令接口(SCI)和串行数据接口(SDI)来接收NL6621的控制命令和数据,通过SCI HDAT1来获取语音流;VS1003的功能控制,如初始化、软复位、暂停、音量控制、播放时间的读取等,均是通过SCI口写入特定寄存器实现的。两条SCI指令之间要通过DREQ引脚信号判断上一次处理是否完成。

3 基于NL6621嵌入式软件设计

软件设计主要包括两部分实现软件控制嵌入式系统和基于HMM技术的语音识别算法编写,基本的软件架构如图3所示。

针对嵌入式系统控制部分,包括硬件初始化以及采集音频信号。主要是使用NL6621提供的软件开发包,利用SDK编写应用程序,包括硬件管脚初始化,波特率匹配,录音文件配置,WiFi配置,录音,音频文件格式转化、程序编写完成后需要用烧写工具进行烧写。系统启动后,先初始化硬件模块。然后系统开始工作,通过语音输入设备MIC采集语音,并通过声卡VS1003输入语音。当系统监听到语音输入,开始语音识别,判断识别是否正确,若正确,将命令发送给执行设备,入耳不正确,给出相应

的错误提示,不执行语音命令。判断识别是否结束,如果结束则退出,否则继续下一轮的识别。基于HMM技术的语音识别算法编写,还包括了语音预处理,特征值提取和匹配识别的部分。主要的原理如图4所示,输入语音经过预处理后,语音信号的特征被提取出来,首先在此基础上建立所需的模板,这个建立模板的过程称为训练过程。根据语音识别整体模型,将输入的语音信号特征与存在的语音模板(参考模式)进行比较,找出一系列最优的与输入的语音相匹配的模板。然后,根据此模板号的定义,通过查表就可以给出计算机的识别结果。采用HMM进行语音识别,实质上是一种概率运算。根据训练集数据计算得出模型参数后,测试集数据只需分别计算各模型的条件概率(Viterbi算法),取此概率最大者即为识别结果。除训练时需运算量较大外,识别时的运算量仅有模式匹配法的几分之一。

4 实验与总结

油田燃气语音系统开发与应用 篇7

1.1 概述

燃气公司的通知往往是通知用户多, 需要通知及时, 准确。而以往的通知方式使用手工拨打电话和张贴通知, 这远不能满足用户的需求。而且对于燃气公司的服务人员来说劳动强度大。方便快捷地把信息通知到用户, 并且减轻客服人员的工作强度, 成为目前需要解决的重要问题。吉林油田燃气语音平台正是在这样的需求下应运而生。

1.2 研究内容和技术指标

(1) 中继通信方式。

(2) 用户信息的采集与录入。

(3) Socket通信。

(4) 多线程操作。

(5) 语音板卡的操作。

(6) 7号信令传输。

2 开发工具

Oracle+Ajax+Vss+VS2008。

3 用户需求

燃气公司希望依照客服人员要求自动拨打用户电话, 及时准确地将信息通知到用户。

燃气公司希望统计每次拨打电话是否成功, 以备客服可以进行手工拨打, 人工进行通知。

燃气公司希望系统稳定, 拨打速度快。

燃气公司希望用户信息录入方便。

燃气公司希望用户数据库以小区、楼、单元、楼层、 住户为单位进行搭建, 可以使服务人员快速查询所需数据;

燃气公司希望语音重拨机制, 对于没有接收到语音通知用户, 可以进行重复拨打操作。

4 软硬件架构

(1) 软件: 根据用户需求, 即任意时刻任何PC可访问此系统, 因此选择B/S架构。

(2) 硬件 : 本系统硬件采用语音中继 , 以多线语音处理技术将语音文件发送给指定用户, 实现每次发送30个用户。

5 功能模块

5.1 楼房管理

楼房创建用于给小区创建楼的信息, 便于工作人员查找用户信息。

5.2 住宅信息管理

房间号界面如图2所示。

5.3 检索用户

如图3所示。

5.4创建发送项目

将信息录制成wav格式的音频文件, 通过此界面保存至服务器数据库中, 如图4所示。

5.5发送项目

查看发送的项目信息。在此界面可以将小区、楼房、住户批量添加至发送对象, 如图5所示。

5.6发送情况查询

可以按年份查看语音信息发送状态, 如图6所示。

点击某个发送描述, 可以打开如下界面, 显示未成功发送和成功发送的项目如图7所示。

5.7 审批

在发送语音项目时需要有关人员进行审批才可将消息发送至用户, 如图8所示。

6 结语

(1) 软件自主研发。不受设备厂商制约 。可以采购多厂家设备进行灵活使用。

(2) 软件更新速度快。从功能上 、使用的灵活性方面都要高于厂家软件系统。可以在几天内更新, 能较快满足不断变动的流程的需要。

(3) 适用性较高 , 自主开发燃气语音呼叫系统可以满足企业比较独特的需求, 实现许多外购软件难于实现的功能。

摘要:燃气公司在通知用户业务时,通过张贴通知与人工拨打电话的方式与用户交流。由于用户数量大,张贴通知的通知覆盖面有限,人工拨打电话通知耗费时间长、劳动强度大、通知不及时。本系统的应用能够方便快捷地把信息通知到用户,采取自动语音群呼的方式来发送通知,确保信息可以及时、准确地被用户接收。

无线语音通信系统在煤矿的应用 篇8

当今社会已进入飞速发展的信息化时 代,各大型企 业、事业单位、服务行业等信息化手段也在不断更新,不断完善。先进的信息化设备不仅方便了各类用户,而且给各个行业带来了巨大的经济效益。

煤炭行业的信息化手段近年来也在不断革新,各煤炭企业不论是大型矿井还是小型矿井,通信设备也在不断完善,煤矿井下不仅安装了有线通信系统,而且安装了广播系统和移动通信系统,实现了井下区域信号的全覆盖。先进的通信手段不仅提高了煤矿的安全生产,同时也保证了井下作业人员的人身安全。

1无线语音通信系统概述

煤矿井下无线通信受到无线电波在“限定空间”中传播特性的约束以及井下高噪环境的影响,一直是老大难问题,通信使用的频率要高于矿井的“截止频率”,不能使用扰射性能较好的短波频率,而直线传播的超短波、微波等频率又受到井下 不规则地形的影响,传输距离大大减少,因此在井下基本上使 用的是有线、无线相结合的通信方式。此类方式实际需要利用有线网络预先建立固定的基础设施,只是适当地扩大了有线网络的覆盖范围,在井下工作区域变动较大(尤其是掘进工作面),不能很好地提供通信服务。

本系统采用有线和 无线技术 相结合、多跳 式无线接 力联接、低功耗和较低的成本等正好适应井下无线通信的特点。用较高的频率,用视距联接的方式配置通信节点,就能实现 较好的无线连接。同时,手持机配备了专用的骨传导 耳机,改善了井下通信的质量,扩展了有效通信范围。

本系统安装后,平时可以为生产提供 语音通信 支持,危险发生时可以利用其指挥调度能力将危险信息快速传达到井下人员;矿难造成通信分站损坏时,利用手持话机也可以构 成紧急无线通话系统工作。

本系统的设计是以建设一个井下高速通信平台为目标,首先实现井下通信、定位功能。在此基础上,平台还可 扩展出瓦斯监测、风速监测、压力监测、视频监控等功能。

2技术优势

本系统利用2.4GHz无线自组网技术,配置灵活方便,传输带宽大,系统容量高,保证信息的实时有效传 输,可在竖井、斜井、直巷以及各种岔路、弯道、狭窄弯曲的工作面等各种复杂地形条件下,实现信号覆盖。骨传导技术更能将通信范围拓展至工作面,实现真正意义上的全矿覆盖。

3技术方案

3.1系统原理

3.1.1系统构成

矿井无线语音通信 系统主要 由SIP语音服务 器、调度软件、矿用分站、矿用无线分站、手持机、骨传导耳机、矿用本安型光交换机等组成。

SIP语音服务器:SIP服务器是 语音系统 在井上的 数据交互中心,井下所有的数据通过光纤传递到本服务器,并进行数据交换。

调度软件:实现系统设备管理、通话管理、广播、定位等功能。

矿用分站:矿用分站是系统的固定终端,在煤矿井 下系统的布设中起到支撑作用,是无线与有线之间的转接设备,并且可以在一定程度上不依赖井上的中心设备管理无线自组网工作,并通过光缆与地面的主机连通,通过无线网络连到就近 矿用无线分站、手持机。

矿用无线分站:矿用无线分站是系统固 定终端,在煤矿井下的系统布设中起到矿用分站的扩展作用,并且可以在一定程度上不依赖井上的中心设备管理无线自组网工作,也通过无线网络连到就近矿用分站、手持机。

手持机:手持机是井下无线语音通信的 移动终端,与矿用分站或矿用无线分站的2400 MHz无线网络连接,实现手持机的无线语音通信功能。

骨传导耳机:是手持机的配套设备,主要用于 工作面等 高噪环境。

3.1.2硬件部分工作原理

语音通信系统实现了语音通信功能。该系统设备包括SIP语音服务器、矿用分站、矿用无线分站、手持机、骨传导耳机、矿用本安型光交换机等设备。手持机通过无线网络(工作在特高频2.4GHz附近)连接就近矿用分站或矿用无线分站,并通过它们与地面语音服 务器连通,共同组成 一体的计 算机网络 系统,实现语音通话功能。手持机配备骨传导耳机后,可以在工作面等高噪 环境中实 现清晰通 话,解决综采 工作面通 话难的问题。

3.2系统主要功能及特点

(1)正常模式功能:通话功能、短信功能、漫游功能、操控功能、调度功能、管理功能。

(2)应急模式功能:通话功能、短信功能。

4系统主要硬件设备功能

4.1矿用分站

4.1.1设备技术说明

矿用分站通过光纤网络与地面的主机连通,通过无线网络连接就近矿用无线分站,并使其也与地面主机连通,共同组成一体的计算机网络系统;矿用分站还将通过2.4GHz无线网络连接就近的手持机,传递手持机与语音服务器之间的管理信息和语音信息。

功能特点:该产品采 用OMAP5912及ARM920T处理器和Linux操作系统进行设计,具有本质 安全型设 计、环境适应性强、处理速度快、软件智能化高、通信速度 高等特点,完全可以满足煤矿井下人员监测与跟踪管理及无线语音通信的自 动化和信息化管理要求。

4.1.2技术特性

最大传输距离:无阻挡环境下,视距400m。

4.2矿用无线分站

4.2.1设备技术说明

矿用无线分站通过无 线网络(工作在特 高频2.4GHz附近)连接就近矿用分站,并通过它与地面的主机连通,共同组成一体的计算机网络系统;矿用无线分站还将通过2.4GHz无线网络连接就近的手持机,传递手持机与语音服务器之间的管理信息和语音信息。

4.2.2技术特性

最大传输距离:无阻挡环境下,视距300m。

4.3井下手持机

4.3.1主要技术指标

无线协议:IEEE802.11b;频率范围:2.341~2.539 GHz;发射功率:-25~-10dBm/m;接收灵敏度≤-85dBm/m;最大传输距 离:无阻挡环 境下,视距400 m;调制方式:IEEE802.11b(DSSS)CCK、DQPSK、DBPSK根据所接 收信号强度自适应;电流:小于100 mA(静态电流)/小于500 mA(工作电流);额定工作电压:3.7V;电池参数:电池1节,额定电压3.7V,电池最高开路电压U0=4.3V,最大短路电流I0=3.3A。

4.3.2本安参数

本安电路最大输出电 压:DC4.3 V;本安电路 最大输出 电流:3.3A。

5无线语音通信系统在煤矿的应用

该系统2014年8月在某矿406盘区设计安装,现已开始试运行。系统主机安装在调度二楼机房,主机通过四芯光缆经副井井筒入井至大巷,从大巷延伸至406盘区轨道巷及皮带巷。

406盘区轨道巷长度800m,皮带巷长度800m,工作面长度800m,为了保证信号在轨道巷、皮带巷98%覆盖,在轨道巷材料斜井底、斜井 上、8607工作面、8607工作面以 里200 m、8603工作面安装了5台分站,工作面采煤机安装了1台无线分站;皮带巷人行斜井上、皮带巷头、皮带巷2603安装了3台分站,皮带巷过道安装1台无线分站;机房内安装1台分站。

手持机分配情况:运输二区4部、皮带队4部、综采四队4部。

该系统与调度交换机通过3条中继线 相连。手持机 用户可与调度交换机用户无阻碍通话。

系统在试运行阶段,各项指标运行正 常后,将在其他 盘区安装使用。

6需改进之处

基于网络流量的语音技术及应用 篇9

2013年,韩国三家通信运营商率先商用VoLTE。2015年,美国的两家运营商将基于4G蜂窝移动通信的移动语音(Voice over LTE,VoLTE)的商用规模推向了一个新高度。同年9月,全球主流运营商均开始加紧部署VoLTE,苹果公司将基于WiFi通信网络的移动语音(Voice over WiFi,VoWiFi)集成在当年新发布的iPhone6中[1]。VoWiFi,其本质与VoLTE一样都是互联网语音通信(Voice over Internet Protocol,VoIP)。基于网络语音通信的VoWiFi出现的时间早于VoLTE,由于技术方案不同,VoWiFi所提供的是非电信的语音业务,相互通性比较差,因此应用地和规模一直比较局限。

事实上VoLTE、VoWiFi和VoIP技术三种方式都可完成语音业务,实现基于流量传输的语音通信,只是由于技术特点不同,所适应的场景不同,它们之间是可以相互补充的。

2 VoLTE、VoWiFi、VoIP特点分析

2.1 VoLTE、VoWiFi、VoIP的基本概念

VoLTE是一种基于4G蜂窝移动通信的移动语音数据传输技术,该技术所有的业务都通过4G网络来实现,可以用于将语音数据与其他数据在同一网络下的传输。即在4G网络下,VoLTE不仅只是提供高速率的数据通信业务,而且还提供高品质的音视频语音通话,这里所述的音视频语音通话就需要VoLTE技术来实现。

VoWiFi是一种基于WiFi通信网络的移动语音数据传输技术。当4G蜂窝移动信号不佳时,使用VoWiFi技术的无线移动终端可弥补其缺陷,从而实现语音数据传输。

VoIP是一种基于互联网的语音通信,传统上,常采用固定有线通信的互联网进行语音数据传输,用于固定终端的语音通信,是将待传输的模拟信号转换为数字信号,将其数据封包在IP网络上进行近乎实时的数据传递。

VoIP最大的优势是能广泛的利用互联网和全球IP互连的环境,提供比传统业务更便宜的服务。VoIP可以在IP网络上低廉便捷地传送语音和数据等业务,如统一消息业务、电话、语音或传真邮箱、查号业务、互联网呼叫中心、互联网呼叫管理、电子商务、传真转发和各种信息的转发等。

2.2 VoLTE与VoWiFi和VoIP的关系

VoLTE技术与VoWiFi、VoIP技术之间是一种相互补充的关系,通过引入VoWiFi与VoIP技术,VoLTE技术可以更好地帮助运营商改善用户体验,增加使用基于网络语音通信的用户数量,与此同时,VoLTE技术也能解决一些地区覆盖无线蜂窝移动通信成本过高的问题,提供性价比更高的语音通信解决方案[2]。

VoLTE技术可以充分利用无线通信频谱,降低网络运营成本和无线蜂窝移动覆盖成本,提升用户基础语音通信体验。随着新型移动通信数据业务的发展,基于IP多媒体子系统(IP Multimedia Subsystem IMS)架构的VoLTE技术可以很好地跟随移动通信数据新型业务的发展。VoWiFi和VoIP可以弥补没有无线网络覆盖地区语音通信,通过WiFi和数据线接入有线网络,从而实现语音通话业务。在VoLTE部署信号比较弱的地区、无线信号没有部署的地区和室内无线信号质量比较差的情况下,VoWiFi和VoIP可以有效地填补VoLTE的通信的不足,使用户的体验更加地通畅。

从实际应用来看,已经有越来越多的运营商完成了VoWiFi与VoIP部署并投入到商用,设备终端和芯片厂商也在推动VoWiFi与VoIP的应用。将VoWiFi和VoIP作为VoLTE的补充用于商用,VoIP+VoWiFi+VoLTE的语音通信策略将会带给用户更好的通话体验[3]。VoLTE技术、VoWiFi技术和VoIP技术三者的协同互操作还有待进一步完善,包括协同的关键技术、VoWiFi与VoIP、VoLTE的切换策略等[4]。

3 VoWiFi、VoLTE语音业务实现方式

3.1 VoWiFi、VoLTE语音业务实现方式

VoWiFi业务的目的主要是为了缓解一些信号不好的室内及偏远地区的移动语音覆盖问题,同时VoWiFi是一种比较经济的覆盖方式。与蜂窝网使用相同的移动号码和签约业务是VoWiFi部署的基本特征。此外,支持VoWiFi和VoLTE的无缝切换和业务连续性,采用VoWiFi与蜂窝网语音共用统一拨号盘的方式,是VoWiFi需要解决的问题。

VoLTE语音业务实现方式中,VoLTE技术支持其终端只能在一个网络上执行业务,在LTE覆盖区域内,语音和数据业务都在LIE网络上处理,在长期演进(Long Term Evolution,LTE)覆盖区域外由2G/3G网络对其进行服务。

3.2 VoWiFi优势分析

VoWiFi是一种基于无线局域网络(Wireless Local Area Networks WLAN)接入的、IMS网络进行业务控制的语音业务,业务安全接入、统一鉴权、可管可控。

(1)低成本快速增强室内覆盖

有资料表明,目前有大约80%的网络数据流量由WLAN承载。截至2016年1月,中国WiFi热点数量超过581万个,位居全球第4位。未来WiFi热点数量还会增加。到2018年,全球热点数量有可能达到3.4亿个。WLEN已被用户逐渐接受,WLAN接入成为智能终端的基本功能。VoWiFi接入则由WLAN接入代替蜂窝网。WiFi热点的建立、改造比蜂窝网基站的建设、改进要容易。特别是对于商业地区、办公、住房楼宇等用户,不需要进行选址、建站以及推广入户等工作。在接入侧不需要额外投资,即可利用现有WLAN接入网络承载语音业务。VoWiFi语音通信方案,利用WLAN增强覆盖的方案,具有投资低、实施简单、直接入户、应用广泛等优势。

(2)降低语音业务成本

由于传统移动通信业务和短信业务萎缩,利用VoWiFi以更经济的方式来承载语音业务的特点,释放更多频谱资源、承载更高价值的业务,以平衡成本与价值之间的投入产出比。

(3)增强用户业务体验

目前国内约有百分之八十的语音通话在室内,有些商务地区可能更高,而室内又是无线蜂窝信号覆盖比较弱的地方。室内、地下室车库、高楼与高楼之间,可通过覆盖VoWiFi来解决语音通话业务这一问题。

4 VoWiFi、VoLTE未来部署展望

随着移动通信的发展,手机语音通信应用软件的大量开发,移动语音通信方式正在发生深刻的变化,正向着基于流量传输的语音技术转换,这必然引起移动通信理念的变化。这种变化体现在移动通信服务方式、服务内容的革新,这引出对传统移动通信的重新思考和定位,这既是挑战也是机遇。这种机遇不仅针对移动通信运营商,也针对新兴虚拟移动通信运营商,甚至对非移动通信行业。

智能手机软件进行语音通信:以智能手机软件为平台基于网络流量进行实时通信,承载更高价值的业务,降低成本。

智能手机语音控制系统:基于智能手机语音控制系统是一种以手机软件为平台的语音控制电器的应用。其原理是利用手机WiFi功能和App软件应用,将语音转变为控制信号实现对家用电器远程的控制,这一应用相比现在遥控控制更加快捷方便,

语音技术进行远程身份识别:随着语音识别技术的不断改进和通信安全的不断升级,语音通信还可在身份认证和快捷支付方面得到应用。其原理是通过提取语音信号中的特征产生语音数据,在进行远程支付时,通过语音通信和远程的数据库对比,起到身份验证作用。

5结束语

未来是VoWiFi、VoIP以及VoLTE相互融合、共同存在的时代。继续完善VoIP,加大VoWiFi技术的投入力度,扩展VoLTE的应用,使基于流量传输实现语音通信的技术未更加完善,不仅可以解决语音通信问题还可以解决远程控制问题,并带来新的应用。

摘要:对于基于网络流量的语音技术及应用进行了讨论,结合基于网络的语音通信技术的发展历程,系统介绍了VoLTE、VoWiFi和VoIP技术之间的联系,通过对VoWiFi、VoLTE语音业务实现方式分析,对随之所带来的新的机遇与挑战进行了研究,并对VoWiFi未来部署做出展望。

关键词:VoLTE,VoWiFi,VoIP

参考文献

[1]杨坚.基于非信任域EPC接入的VoWiFi技术初探与实践[J].电信技术,2015(08).

[2]当VoLTE遇上VoWiFi.[EB/OL].(2015-7-22)http://www.cctime.com/html/2015-7-22/20157221126358865.htm.

[3]崔沛东.戴国华.张婷.VoWiFi与VoLTE的协同策略研究[J].研究与探讨,2016(4).

发卡行主动语音支付的应用及效益 篇10

语音支付就是当交易在各种支付终端上发起支付时, 用户在自己的手机或其他语音设备上输入交易密码或第二密码, 再提交给银行认证的支付方式。这种语音支付不同于电话银行或电话支付, 其交易是在其他终端如互联网、POS机、商户POS机等发起, 由银行主动致电用户, 输入密码完成交易。

语音支付可以使第三方移动APP及其他应用直接接入银行网关, 从而扩大银行卡的使用结算量及节约支付中间费用。

要实现语音支付, 只需要在银行支付中心部署一套语音认证平台 (如Ringid独立版) , 并实现与账户系统的支付接口对接, 就可以实现语音支付。

二、语音支付的应用

(一) 大众版网银语音支付

大众版网银 (用户名+密码或卡号+查询密码) 开通方便, 但由于缺乏安全性, 一般不提供支付和不同账号转账功能, 可使用语音支付来提高其安全性, 提供安全支付功能。其基本流程为:登录大众版网银后, 选择支付或转账功能;选择银行卡号, 界面上不用输入支付密码;系统致电用户手机, 用户在手机上输入支付或语音支付密码;用户确认后就可以完成支付。

(二) 手机银行语音支付

当用户忘记携带令牌、矩阵卡等其他安全认证设备时, 可直接利用语音支付, 在本手机上操作手机银行来完成安全支付。考虑到手机病毒木马攻击, 基于安全考虑, 可以设计2种流程。

1. 静态密码流程为:

登录手机银行, 选择支付或转账功能;选择银行卡号, 界面上不用输入支付密码;系统致电用户手机, 用户在手机上输入支付或语音支付密码 (建议语音支付密码) ;用户确认后就可以完成支付。

此流程的特点是用户使用简单, 目前手机上窃听通话按键的攻击尚未爆发, 但也存在手机木马窃听密码的可能, 在安全性上有所欠缺。

2. 动态密码流程为:

登录手机银行, 选择支付或转账功能;选择银行卡号, 界面上不用输入支付密码;系统致电用户手机, 播放动态密码, 用户在手机上输入动态密码;用户确认后就可以完成支付。

此流程的特点是防止手机木马窃听密码, 但用户使用较为复杂。

(三) 商户手机POS

对交易量少的商户, 难以承受传统POS租用费及结算手续费, 而银行为了拓展银行卡应用和积分兑换等业务, 需要发展大量商户。基于手机+刷卡器的手机POS解决方案大大降低了POS的硬件和维护成本。

商户手机POS与个人POS (类似拉卡拉) 的最大不同在于:用户的支付密码输入安全问题, 尽管可以带密码键盘和密码控件的手机刷卡器, 但仍然存在摄像等外部物理安全威胁。

语音支付很好地解决了用户支付密码的问题, 在用户手机上输入用户密码, 基本流程为:

商户使用刷卡器刷用户的银行卡或输入用户的卡号 (积分兑换时输入客户号或手机号等关键字) ;商户输入支付金额;系统致电用户手机, 语音报送交易金额, 用户在手机上输入银行卡的支付或语音支付密码;用户确认后就可以完成支付。

(四) 更容易扩展在线商户

分析目前的支付市场 (见表1所列) , 银行往往很少直接对商户特别是移动商户提供支付服务, 由于通过第三方支付, 银行损失了手续费用, 目前余额宝的出现, 将进一步减少银行活期存款。

分析银行对移动商户等接入比较少的原因, 除市场因素外, 技术上的接入和安全性也是银行考虑的重点。采用语音支付可以使银行不再担心安全问题, 任何移动商户均可以很容易接入银行支付网关, 基本流程为:

用户购物或充值时, 系统将弹出第三方支付界面或直接选择银行及支付方式, 用户输入银行卡卡号并确认后, 系统致电用户手机, 语音报送交易金额, 用户在手机上输入银行卡支付密码或语音支付密码, 用户确认后就可以完成支付。

对于第三方支付, 除结算外, 只要在支付界面上输入用户银行卡卡号, 并直连银行的无卡支付接口, 就可以完成支付。

三、语音支付技术优点

(一) 更安全:双通道安全

用户在网吧上玩游戏时使用网银支付, 无论是否采取UKEY、令牌等均需要经过网吧线路, 存在着密码失窃的可能。又如用客户使用Wi-Fi操作WAP网银, 很容易被不法分子利用Wi-Fi窃取密码。上述这些均由于在单一IP通道上输入关键要素造成失窃, 而语音支付则是通过不同于IP的语音通道完成密码输入, 比其他密码保护方式更安全。

(二) 更便利和可移动性

语音支付的密码是在用户手机上输入, 因此在任何场合、任何时间用户只需要携带手机就可以进行支付, 用户只需要接通电话并确认交易就可以, 不需要在手机支付中再携带令牌、贴SD卡等额外操作。而且语音支付还使用语音提示交易信息, 更具有人性化。

四、语音支付的经济效益

从语音支付的应用看, 可以假定:在近三年来未来电子商务和移动商务的消费支付业务占30%, 每个典型商户带来的支付业务量每年为200万元 (贷记卡) , 按三年测算, 结果见表2所列。

由此可以看出, 推出语音支付后, 使商户更容易接入、更容易提高交易量, 在未来三年, 可以带来直接经济效益2.4亿元/年, 3年累积可达到10亿元的效益保障。

上一篇:肉牛产业现状下一篇:加固问题