文本识别

2024-08-17

文本识别（精选五篇）

文本识别篇1

随着互联网的快速发展, 人们开始更积极的参与进来, 积极传达和分享自己对各种事物事件的观点、表现自己的喜怒哀乐等情感。通过分析这些文本, 可以得到网民的情绪状况、所持有的对某个社会现象的态度、对某个产品的喜好等信息。这在网络舆情分析、商业决策等领域都有广阔的应用。文本情感分析粒度可以分为词语级、句子级、篇章级三种。新闻主题句抽取属于篇章级粒度。目前大多门户网站新闻的主题句都是表达观点的句子, 识别出主题句可以帮助我们了解社会舆情新动态。

2 相关研究

文本主题句提取已经成为网络舆情研究的一个热点, 具有很大的研究和应用价值。本文主题句提取首先对主题句识别、对已识别出的主题句进行情感分析进一步筛选。索红光等提出了基于词汇链的关键词抽取方法, 较流行的基于TF-IDF的中文关键词抽取算法, 都是以词语粒度为基础。最常使用的情感分析方法有基于语义和机器学习两种。Das与chen通过使用情感词词典识别出文本里的带有情感倾向的词语, 将这些倾向性词的极性累加得到整个文本的极性继而得出文本的情感分类。Lin等人研究了文本观点识别的问题, 提出了一种基于统计模型的学习算法来获取文本所反映的观点。Whitelaw等人将形容词作为特征使用空间向量模型来表示文档, 采用SVM进行分类, 来区别正面和负面评论的文档。Mei等人对Weblog上主题情感分析的问题提出了一个新的Topic-Sentiment Mixture (TSM) 概率模型, 同时捕捉主题和情感信息。北京大学的王伟等通过标题来提取主题句, 结合新闻句子的词频, 长度与标题的相似度等特征来计算句子的重要性, 取得了不错的结果。目前文本主题句识别方法大多以分析词汇或句子为基础, 不能保证所分析的句子都和主题相关, 或仅仅以情感判断来识别主题句, 这些都会影响文本主题句识别的准确性。如果我们先将与主题无关的句子剔除, 仅对文本主题相关的句子进行分析, 会提高最终的准确性。基于以上分析, 实验以句子为粒度, 首先识别出主题句, 在此基础上进行情感判断, 进一步对主题句筛选, 最终获得主题句。

3 新闻的主题句抽取

把新闻主题的部分关键词定位在新闻标题里, 用TF-IDF值表示权重。通过计算新闻正文句子与标题的相似度提取出候选主题关键句。新闻的主题关键句都是表达作者的态度和看法的, 带有情感倾向。通过机器学习支持向量机 (SVM) 技术对候选主题关键句进行情感倾向分析及极性判断。

3.1 基于VSM的文本表示

首先把文本数据处理成计算机可以处理的结构化数据, 用向量空间模型 (VSM) 表示新闻文本。向量空间模型把文本内容处理简化为向量空间中的向量, 每一个文档最终将映射为有一组规范正交词条向量张成的向量空间中的一个点。 ( (T1, W1) , (T2, W2) , …., (Tn, Wn) ) 表示一个词条向量, 其中Ti表示词条, Wi为Ti的权重。通过词的权重Wi来实现文档与文档、文档与用户目标之间的相似度计算。使用TF-IDF值来表示权重Wi。TF-IDF (term frequency-inverse document frequency) 用来评估一个字或词语对一份文件的重要性, 是在文本挖掘中一种常用的加权计术。公式如下:

TF (Term frequency) :词t在某个文档d中出现的次数。IDF (Tnverse Document Frequecy) 反文档频率:表示词t的重要性以及区分度。由总文件数目除以包含该词语的文件的数目, 再将取得的商取对数得到。

3.2 主题词提取

主题词是与文本中具有概括力的词, 找出主题词是抽取关键句的基础和前提。标题是新闻的眼睛, 一则新闻的部分关键词必然在标题中。王伟也在多次的试验中验证了这一想法的可行性和高效性, 实验将新闻主题词的定位在标题里。

新闻主题词不仅有很强的归纳能力, 也会在文中出现多次。将标题分成多个语义概念C (w1, w2, ....., wn) , 去掉“的, 了”等词。如标题为“中共反腐马年再发力”, 语义概念C (中共, 反腐, 马年, 发力) 。一个词语在文中出现的次数较多, 说明它是作者反复提到的描述对象, 很大可能是文本的主题词或与文本有较强的关联。计算C中的各个词在文本中出现的次数来计算其重要性。f (wi) 是词语wi在新闻文本中出现的次数。经过分析研究f (wi) 小于等于3的词语是主题词的概率极小。我们去除了f (wi) 小于等于3的词语, 剩下的作为新闻文本主题词。

3.3 候选主题句提取

已经从标题里确定了主题词, 把新闻中那些包含主题词的句子作为候选主题句 (S1..Si..Sn) 。与标题进行相似度计算的值作为其重要度, 对候选主题句进一步筛选。文本中的每句话都是用向量表示的, 向量中包含每个词的TF-IDF值。相似度是通过计算两个向量内积空间的夹角的余弦值得出的。我们把每个候选主题句与标题做相似度计算, 公式如下:

将Si的similarity值从大到小排序, 如果候选主题句个数大于等于10, 我们选出前10个主题句, 否则全部选为候选主题句。

4 基于SVM的关键句情感倾向性判断

新闻的主题句是作者表达的某种看法或主张, 大多带有情感倾向。我们在选出候选关键句的基础上来判断这句话是否是情感句以及它的极性。如果是情感句就选为主题句, 如果不是就放弃。我们选取词为特征、词的TF-IDF值为权重进行特征向量化, 通过机器学习训练出分类器对测试集进行情感倾向判断。实验流程图如下。

5 实验结果与分析

实验中采用的语料是来自门户网站搜狐、凤凰、新浪、腾讯新闻, 博客新闻, 论坛新闻, 中国新闻网新闻, 新华网新闻等共计一万篇。采用传统的评估标准:准确率, 召回率以及F1测度值进行性能评估。公式如下:

召回率 (Recall) =属于此类且被分类正确的文档数/被判为此类的总的文档数

准确率 (Precision) =属于此类且被分类正确的文档数/属于此类的总的文档数

随机选择180篇新闻标注, 人工选出主题句。得出标题与候选主题句的相关度, 相关度=主题句与标题相关的文本数目/总的标注的新闻文本数目。结果下表所示, 92%以上的标题里面含有关键词。充分证明了在标题中抽取主题句的可行性以及正确性。

采用SVM机器学习的方法进行候选主题句的情感判断, 情感判断结果如图2。

试验中首先选出候选主题句, 剔除了与主题无关的句子, 直接对主题相关的句子进行判断。并且在此基础上通过情感判断进一步筛选。省去了很多无用功, 极大的提高了准确率。最终的实验结果如下所示:

6 结束语

提出了新闻文本主题句的抽取方法, 通过标题确定主题词, 结合句子重要性, 确定主题句。采用机器学习方法对主题句进一步判断筛选, 确定最终的新闻文本主题句。文本主题句的提取研究具有重大的意义, 在后续的探索中将进一步完善方法, 提高准确率。

参考文献

文本识别篇2

关键词：介词短语条件随机场识别

一、引言

专利文献在国家经济发展和科技交流中发挥着十分重要的作用。近年来，中国专利的申请数量涨速飞快。面向专利领域的文本信息处理（如专利文本机器翻译）逐渐成为自然语言处理的重要应用领域之一，并引起了学术界和业界的广泛关注。

为了满足专利文本特定的表述需要，介词短语作为一种重要的短语类型，在汉语专利文本中分布广泛。据统计，在随机抽取的500句汉语专利语料中，包含介词短语的句子有226句，占到了样本总量的45.2%。[1]可见介词短语的出现比例非常高。汉语介词短语的自动识别具有较大的难度，主要表现在以下几点：

1.介词短语的内部构成相当复杂。介词短语可以由介词与其他词语和短语（动宾短语、名词短语、方位短语、时间短语等）构成，甚至可以由整个句子构成。复杂的内部结构很容易形成远距离的搭配关系。

2.兼类介词的存在。在一定的语境下，介词还可以兼做名词、量词、形容词、连词和动词等，必须结合上下文语境才能判断具体词性。

3.在同一个句子中经常会出现多个并列的介词短语，或者会出现复杂的嵌套介词短语。

下面是一个包含介词短语的真实专利语句示例：

（1）本发明【在条件允许的情况下】【通过[为一个宏块中的不同区域]提供不同的预测信息】而提出了许多更加准确的结果。

从例句可以明显地看出，专利文本中的介词短语通常具有更多的字数和更为复杂的结构。例句中用括号标示出了两个并列的介词短语结构，其中一个的内部还有另外一个介词短语，属于嵌套结构的介词短语。正确识别这些短语就比较困难了。

在句子S=W1，W2，W3……Wn中，假设字符串Wi，Wi+1……Wj为待识别的介词短语，介词短语识别的主要任务就是分别将Wi和Wj识别为该介词短语的左右边界。由于左边界就是介词本身，因此关键问题在于确定右边界位置。介词Wi通常称为前界，右边界Wj称为后界，紧邻右边界的词语Wj+1一般称为后词。

考虑到介词短语分布的广泛性和对专利文本处理的影响，本文尝试利用条件随机场模型（Conditional Random Field，即CRF），主要对大规模专利语料中位于同一分句内部的介词短语进行自动识别研究，希望能做出一些有益的探索。

二、相关研究

针对汉语介词短语识别的难点，国内外学者做了大量研究工作，提出了一些有效的方法，主要包括规则方法，统计方法和将二者相结合的混合方法。梁猛杰等（2013）通过考察介词规则库的处理特点，依据规则的覆盖程度从低到高进行分类，重新调整了规则的前后排序方案，同时对排序的规则进行优选，在保证时间复杂度较低的情况下提高了介词用法自动识别的准确率[2]（P152～155）。朱筠（2013）、胡韧奋（2015）等在概念层次网络理论（Hierarchical Network of Concepts，HNC）[3]的指导下，面向汉语专利领域的文本，专门构建了较大规模的汉语专利语料知识库，在利用规则方法开展汉英专利机器翻译研究的过程中探索了介词短语的识别方法和思想[4][5]。于俊涛（2006）釆用基于最大熵模型的方法，通过获取有效的特征集合完成了介词短语识别的任务。奚建清（2007）引入机器学习方法，提出了基于隐马尔可夫模型（HMM）的汉语介词短语边界确定方法。首先基于HMM自动识别介词短语，然后利用依存语法错误校正方法对识别结果进行修正，取得了不错的识别准确率[7]（P172～182）。胡思磊（2008）、宋贵哲（2011）、张杰（2013）利用CRF模型对介词短语进行识别，取得了较好的效果。于俊伟（2005）采用了规则和统计相结合的介词短语识别方法，提出了利用搭配模板获取可信搭配关系以及基于词性的三元统计模型和规则相结合的方法识别介词短语[11]（P17～23）。昝红英等（2013）在已有工作的基础上，提出了一种规则与CRF模型相结合的介词用法自动识别算法。通过将人工书写的规则与CRF在宏观层面和微观层面进行有机的结合，根据介词的具体特点，选择合适的识别方法，使最终的识别准确率达到了80%左右[12]（P2152～2157）。

三、CRF模型介绍

作为一种基于统计的判别式学习模型，CRF模型最早由Lafferty等人在2001年提出。该模型来源于最大熵模型。CRF通过计算和统计已知元素推理计算未知元素的条件概率。与隐马尔可夫模型不同，CRF可以利用上下文信息，而不需要严格的独立性假设，因此在序列标注问题中表现出很好的性能。此外，CRFs还解决了最大熵马尔可夫模型（MEMM）中的标注偏置问题。CRFs被广泛应用于自然语言处理领域的句法分析、命名实体识、词性标注等方面，并取得了很好的效果。CRFs是一种以给定的输入序列X为条件来预测输出序列Y概率的无向图（undirected graphical）结构模型。（X，Y）就是一个以观察序列为条件的随机域。概率计算可以通过如下公式得到：

其中，Z（X）是归一化因子，是特征集合，代表相应的权值。

四、基于CRF的介词短语识别

国外学者已经开发了完整的CRF模型工具包，利用工具包可以快速地训练模型并得到相应的结果。在本文中，将使用CRF++0.53版本的工具包①对中国专利信息中心提供的专利语料进行训练。

（一）序列标注

很多基于CRF模型的语块识别任务通常可以转化为序列标注问题。在识别介词短语的过程中，首先对包含介词短语的句子进行分词处理，然后对每个词语进行标注，确定介词短语的边界。我们采用{B， I， E， O}标记集进行标记。其中B表示介词短语的前界，I表示介词短语的内部成分，E表示介词短语的后界，O表示不属于介词短语的部分。

（2）本发明通过采用有效的方法提高汽车产量。

对于这个例句，可以做出如下标记：

本发明O通过B采用I有效的I方法E提高O汽车O产量O。O

将其反映到序列标注问题上，则可以认为：

输入序列X={本发明通过采用有效的方法提高汽车产量。}

相应地，输出标注序列Y={O B I I E O O O O }

（二）特征选择

特征是训练CRF模型必需的。在CRF中，特征选择是一个非常重要的问题，选择合适的特征对模型训练和测试都将十分有益。尽管可以不加限制地定义标记序列的特征，但不代表特征越多就越好。通过考察大规模语料中介词短语的特点，初步确定了以下五个特征及其属性值：

1.词特征。词作为句子的基本构成单元，是最基本的特征，模型可以通过词之间的差异性来寻找词本身的内部特征。

2.词性特征。通过分析发现，词性特征对边界的识别具有很大的提示作用。因此需要标记序列中词语的词性。本文采用北京大学《现代汉语语法信息词典》中的词性标记集进行标记。

3.候选前界特征。从当前词位置开始向前查找，查找位于同一分句中的介词。如果该介词存在，则该特征值为介词本身;否则特征值为“N”。

4.候选后界特征。如果认为当前词语可以作为介词短语的后界，则特征值记为“Y”，否则记为“N”。

5.候选后词特征。后词对介词短语的正确识别也起到了很大的提示作用，判断当前词是否是候选后词也能减小后界的选择范围。如果认为当前词语可以作为介词短语的后词，则特征值记为“Y”，否则记为“N”。

下表是例句2的标注实例：

表1：例（2）的标注样例

词语词性是否

候选后界是否

候选后词候选

前界介词短语

标记

本发明 n N N N O

通过 prep. N N 通过 B

采用 v N N 通过 I

有效的 a N N 通过 I

方法 n Y N 通过 E

提高 v N Y 通过 O

汽车 n N N 通过 O

产量 n N N 通过 O

。* p N N 通过 O

* 注：分词序列中所有的标点符号均标注为“p”。

将以上五个特征分为五列，对分词处理后含有介词短语的每一句语料进行标注，同时在最后一列加入{B， I， E， O}标记集，以确定介词短语的边界，以此形成训练语料和测试语料。

（三）特征模板

对于CRFs模型而言，根据选择的特征设计出不同的特征模板，根据特征模板系统生成不同的特征函数，会影响系统的性能。因此，特征模板选择的好坏将直接影响CRFs模型的效果。所以，特征模板的选择也是CRFs模型在介词短语识别中的重要问题之一。

CRFs模型的特征模板一般包括原子特征模板和复合特征模板。单独使用原子特征模板，只能表现出单个位置的特征信息，容易造成期望值和实际结果的偏差较大，导致参数的估计不准确。可以对原子特征进行组合，构成复合特征模板，通过定义各特征的窗口来描述标注单元和上下文之间的关系。本文将窗口大小定义为2。即分别考虑当前词、当前词前面两个词及后面两个词的五项特征。

当完成了序列特征标注任务，就可以利用CRF工具包对模型进行训练并识别介词短语了。

五、实验及分析

（一）实验结果

在这一部分，设计实验测试CRF模型识别介词短语的效果。从中国专利信息中心提供的专利语料中随机选择了1000句含有介词短语的句子作为测试集进行序列标注。实验采用四倍交叉验证方法，即将测试集按照数量均分为4等份，其中的3份语料作为训练语料，另一份作为测试语料，共进行四次实验，分别计算实验的三个评价指标：准确率（P）、召回率（R）和F1值，并将实验的平均值作为最终的参考结果。评价指标计算公式如下：

其中，“N”代表每次实验的测试集（250句）中介词短语的数量，“N1”代表模型识别介词短语的数量，“N2”代表正确识别的数量。

表2：实验数据结果

实验 P （%） R （%） F1 （%）

实验1 93.26 89.09 91.12

实验2 91.41 88.73 90.05

实验3 92.10 90.34 91.21

实验4 93.83 92.12 92.96

平均 92.65 90.07 91.33

（二）实验分析

从上表可以看出，实验的整体评价指标都达到了90%以上，表明CRF模型对于识别介词短语的有效性。

通过分析识别错误的结果，初步认为分析错误的原因可能有以下几点：

1.有的介词在训练集中出现次数很少或者几乎没有出现，因此CRF模型无法有效学习到这些介词的特征，当它们出现在测试集中，模型就难以正确识别。

2.有些介词短语具有歧义，模型不容易判断短语的右边界位置。例如：通过墨水着色剂可以有效地使染布上色。这句话中，两个名词“墨水”和“着色剂”挨在一起，不确定二者是否可以组成复合名词，不容易判断到底哪个名词才是介词短语真正的右边界。

3.CRF模型对于序列的标注特征比较敏感。在人工标注的过程中一些难以避免的标注失误或错误也会导致识别错误的现象。

六、结语

本文利用条件随机场模型尝试对汉语专利语料中的介词短语进行了识别研究。在分析大规模语料的基础上，选择了合适的特征，对语料进行序列标注，同时利用CRF工具包训练了识别短语的模型，最后设计了实验检验识别效果。实验整体的准确率达到了90%以上，表明提出的方法对于识别介词短语是有效的。

未来将加强对歧义介词短语的研究，考察更多语料，争取发现更多有效的特征，同时扩大测试规模，希望进一步提高识别的效果与性能。

（本文得到了“国家高技术研究发展计划”[863课题，项目编号2012AA011104]，中央高校基本科研业务专项资金以及中国博士后科学基金资助项目的资助，特此表示感谢！）

注释：

①http：//crfpp.googlecode.com/

参考文献：

[1]Li Hongzheng，Zhu Yun，Yangyang，Jin Yaohong.Reordering

Adverbial Chunks in Chinese-English Patent Machine Translation[A].Proceedings of CCIS2014.

[2]梁猛杰，宋玉，韩英杰等.基于规则排序的介词用法自动识别研

究[J].河南师范大学学报（自然科学版），2013，41（3）.

[3]黄曾阳.HNC（概念层次网络）理论[M].北京：清华大学出版

社，1998.

[4]朱筠.基本句群处理及其在汉英专利机器翻译中的应用[D].北

京：北京师范大学汉语文化学院博士学位论文，2013.

[5]胡韧奋.面向汉英专利机器翻译的介词短语自动识别策略[J].

语言文字应用，2015，1.

[6]于浚涛.基于最大熵的汉语介词短语自动识别[D].大连：大连理

工大学硕士学位论文，2006.

[7]奚建清，罗强.基于HMM的汉语介词短语自动识别研究[J].计算

机工程，2007，33（2）.

[8]胡思磊.基于CRF模型的汉语介词短语识别[D].大连：大连理工大

学硕士学位论文，2008.

[9]宋贵哲.汉语介词短语识别研究[D].大连：大连理工大学硕士学

位论文，2011.

[10]张杰.基于多层CRFs的汉语介词短语识别研究[D].大连：大连

理工大学硕士学位论文，2013.

[11]干俊伟，黄德根.汉语介词短语的自动识别[J].中文信息学

报，2005，（4）.

[12]昝红英，张腾飞，张坤丽.规则与统计相结合的介词用法自动

识别研究[J].计算机工程与设计，2013，（6）.

[13]Lafferty J.，Mccallum A.，Pereira F.Conditional

random fields：probabilistic models for segmenting and labeling sequence data[A].Proceedings of the International Conference on Machine Learning[C].2001.

基于文本无关的话者识别技术综述篇3

话者识别技术根据被检测语音和样本语音内容之间的关系可分为文本相关(Text-dependent)的话者识别技术和文本无关(Text-independent)的话者识别技术两种。所谓文本相关是指在被检测语音和样本语音内容完全一致的前提下进行的话者识别;文本无关与文本相关相对,是指不考虑被检测语音与样本语音内容是否一致而进行的话者识别方法。文本相关的话者识别技术是话者识别技术的起步阶段,虽然简单而且误识率低,但是在实际应用中,受限制的因素较多,因此基于文本无关的话者识别技术就成为了话者识别领域中的研究的重点和应用的热点。话者识别系统一般包含语音信号输入、预处理与数字化、特征提取、模式匹配和输出结果等几个模块,图1表示的是话者识别系统一般的流程图。

1 语音的特征参数

在对人的发声系统的发声机理、听觉系统的感知机理和语音信号的数学建模的研究基础之上,文本无关话者识别技术研究过程中已使用过的特征参数主要包括以下三类:

1.1基于发声特性的特征参数[7]~[8]

从法庭科学的角度来讲,人的发音习惯是运动习惯的一种,属于人的局部器官的协调运动,这种运动习惯由声带、声道和鼻、口、咽共振腔的生理结构决定,而基于语音的短时谱提取出来的特征参数正好能反映不同人之间的这种生理结构差异。基于发声特性的特征参数包括音强曲线、基音强度、共振峰强度和带宽等。

1.2基于听觉特性的特征参数

除了模拟人的发声特性,通过模拟人耳听觉特性也能够提取出说话人语音的特征参数,常见的主要是一些倒谱参数,例如美尓倒谱系数(MFCC)和感知线性预测倒谱系数(LPCC)等,大量研究表明这类参数在文本无关的话者识别系统中能够取得较好的效果。其中美尓倒谱系数(MFCC,Mel Frequency Cepstral Coefficients)MFCC参数是基于人的听觉特性的临界带效应[2],由于MFCC的计算要经过滤波、取对数、作DCT变换等几个过程,它的运算量要比LPCC参数大,但是MFCC的鲁棒性要强[9],对于较强的辅音和夹杂噪音的语音都有较强的识别度。王金明等人[3]通过验证发现基于LPCC参数的误识率为10.9%,而基于MFCC参数的误识率为8.8%,此外一阶差分特征参数与原参数组合的系统性能优于非组合型特征参数。

1.3基于声道参数模型的特征参数

基于声道参数模型的特征参数是指能够客观反映说话人声道特性的一类参数,常用的是线性预测倒谱系数及其派生参数(反射系数、对数面积比系数、自相关系数、线谱对参数等),线性预测倒谱系数及其派生参数能够有效表现声道特点,是最有效的语音特征参数之一[11]。线性预测倒谱系数(LPCC,Linear Prediction Cepstrum Coefficient)[4]LPCC是由LPC系数推算得到的倒谱系数,相对于LPC来说能够较好地排除说话声发音时的过激信息,通常只需要几十个倒谱系数就能够描述说话人语音的共振峰特性,能够客观地表现声道的发声特性。LPCC的推算流程如图2 所示。线性预测方法是建立在语音信号的相邻采样点之间具有很好的关联性的基础上的。研究表明不同人之间的相应特征之间的距离要大,而同一人相应特征之间的距离要小。

宁飞[5]经过对LPCC的数据进行详细分析,发现LPCC倒谱参数其实并不能完全表现不同说话人声音之间的特异性,倒谱参数的前五分之一反映的是说话人的声道特性,不同人之间差异度较小,不宜用于说话人识别,而倒谱参数的后五分之一主要反映说话人的声门特征,个体特异性显著,这类参数可以用于说话人识别。

由于单一特征法通常不能完全反映说话人的个人特征,多种特征参数融合的方法应运而生。多特征法是融合多种语音特征参量进行话者识别的方法,多特征融合的方法是在单特征法的基础之上发展起来的,算法和框架的设计都要更为复杂,但多特征融合的方法对于文本无关的语音识别准确率要明显高于单特征法。例如朱坚民等[6]提出了将MFCC特征和1/3 倍频程特征作为说话人语音的特征参数,设计并实现了利用贝叶斯网络进行话者识别的方法,50 人的样本库正确率可达100%。流程如图3所示:

2话者识别的模型

2.1模板匹配模型

模板匹配是一种比较传统的相似度计算与匹配方法,广泛用于语音、图片、文字和符号等各种模式识别领域。模板匹配的步骤:首先进行特征矢量的归一——即从样本语音库中提取出所需要的特征矢量,然后在测试阶段用同样的处理方法从待测语音中提取特征矢量,并与之前提取的样本特征矢量进行比较,进而得出识别结果。在模板匹配方法中可以使用多种距离测度,常用的是马氏距离和欧氏距离两种。[13]~[14]总体来说,模板匹配方法抗噪能力较弱,上述两种距离测度的变化会改变说话人的特征参数,最终导致识别率下降。

2.2矢量量化模型

在图像压缩和语音压缩等领域中矢量量化模型使用得比较多,它是将说话人语音中若干连续的特征参量取值分成一组,每组包含N个参数,这样就能够实现用N维向量表示一个说话人的语音特征的目的[15]。同样,矢量量化模型也分为学习和推理两个阶段:矢量量化模型学习时使用的是类聚算法,把M个说话人的语音特征参数类聚成M类,得到M个码本矢量;推理时先用同样的方法得到待测说话人语音的特征矢量,然后将这说话人的特征矢量与原有的M个码本矢量最小距离进行累加,将累加和最小的说话人作为识别结果。图4是一种基于VQ矢量量化模型的话者识别系统示意图。使用矢量量化模型的优点是数据量少、训练时间短,可以通过量化长时语音特征参数统计信息来达到识别说话人的目的,同时还可以有效地进行数据数据压缩从而提高识别效率。

2.3隐马尔科夫模型(HMM)

隐马尔科夫模型(Hidden Markov Model)是使用描述状态间转移来描述特征变化过程的一种模型,人们在说话时发出的语音特征是随着时间不断变化的,因此用隐马尔科夫模型来描述语音的动态特征是可行的。在做测试时,将待测语音作为观察值,把样本语音模型作为隐含状态,测试待测语音在每个样本语音模型下的条件概率,取条件概率最大的那个样本语音模型作为待测语音模型识别结果。图5 是基于隐马尔科夫模型的话者识别系统示意图。

2.4高斯混合模型(GMM)

用高斯定理的来分析说话人语音,每个人的语音特征在所有特征空间里都有一个特定的分布状态,这也和司法鉴定领域中关于语音的特异性的描述相一致,因此可以用语音特征的这种独特的分布来描述说话人的语音模型。高斯混合模型(Gaussian Mixture Model)将说话人语音特征的高斯分布进行线性组合,用这种组合的形式来表示不同说话人的语音特征在语音特征空间中的独特分布状态,将最能产生测试语音特征的高斯分布模型所对应的样本语音作为识别结果。在训练过程中,为每个人的语音建立一个模型,对每个人的特征分布状态进行统计,当所有训练结束后,保存每个说话人语音所对应的线性组合参数;在识别过程中,将待测语音与样本语音的参数进行比对,求出每个样本语音与待测语音对应的似然函数,将最大似然函数所对应的说话人作为识别结果[18]。基于混合高斯模型的话者识别系统的大体工作流程如图6所示。

2.5人工神经网络模型

虽然参数模型和非参数模型方法都已经在文本无关的话者识别技术中有所应用,然而目前来说这些方法与人脑识别的效果差距依然是很大的。人工神经网络模型是指参照人脑神经元思考问题的工作模式而建立的一种数学模型,使用这种模型能够在一定程度上模拟人脑进行话者识别的过程,因此人工神经网络模型为话者识别尤其是文本无关话者识别提供了一个新的、有效的途径。人工神经网络模型应用文本无关的话者识别技术领域中通常有两种形式:一种是前向神经网络,另一种是多层前向神经网络。前一种结构、分类相对简单,因此应用范围相对较广;而后一种网络的原理是将单个神经网络进行组合得到一个级联神经网络,例如BP型神经网络和RBF型神经网络,多层前向神经网络的话者识别系统具有较高的识别率,因此也逐渐应用到了文本无关的话者识别领域[19]。基于人工神经网络模型的话者识别系统采用相似程度来度量识别结果,陈全今等[10]引入对数似然率(LLR,Logarithm Likelihood Ratio)的概念,对检材和样本的相似程度进行评分,具体方法是定义对数似然率

其中E表示语音检材语音与样本语音出自同一人的后验概率;HP、Hd分别表示将检材语音与样本语音出自同一人的先验概率,陈金全等将LLR的评分分为10个档次,对应10个不同的结论,如表所示。

使用LLR的优点在于不仅能够通过分档量化得到检材与样本的相似或者差异程度,同时能验证LLR是否适用既定的检材和样本。

目前基于人工神经网络模型的文本无关话者识别方法所面临的难题在于,神经网络的结构会随着待识别人群数量的变化而变化,分类器设计也要随着反复的训练过程不断改变。而且基于人工神经网络模型的说话人识别系统的训练时间会随着待测人群数量的增大而呈指数增长的趋势,所以从理论上来说,当待测人群数量增大到一定数量级时,这样的系统无法在可接受的时间之内完成话者识别任务的训练过程。解决这一问题的方法在于实现大功能的神经网络分解成若干个子功能的小神经网络,再将这些小神经网络组合起来从而实现大网络的功能。

3 结语和展望

基于文本无关的话者识别系统应用前景广阔,单一特征参数法往往难以完全反映说话人的个人语音特征,因此目前研究的重点在于多种特征相结合的方法。文本无关的话者识别技术的难点在于它对提取参数要求很高,不能局限于表征个体单方面的特征参量,因此要形成一个有效、可靠的多特征结合的系统是当前研究的难点之一。此外,国内外诸多研究表明,语句的长短对文本无关话者识别性能有较大的影响,无论采用多少个不同类型的参数,只要能从足够长的语音中提取语音特征参数,总能实现一个较高的识别率。

摘要：基于文本无关的话者识别系统应用前景广阔,单一特征参数法往往难以完全反映说话人的个人语音特征,因此目前研究的重点在于多种特征相结合的方法。文本无关的话者识别技术的难点在于它对提取参数要求很高,不能局限于表征个体单方面的特征参量,因此要形成一个有效、可靠的多特征结合的系统是当前研究的难点之一。

文本识别篇4

关键词：VBA,智能识别,数据信息,匹配

1 引言

AutoCAD图形文件中记录着图形的几何信息,可以方便地进行显示、修改和传递。但是,图形文件(.DWG)中的数据以及图纸中表达的信息(如所用电缆的芯数)无法被后续的工程直接使用。若进行人工读取或编辑,不仅效率低下、劳动强度大,而且极容易出错。文中试图找到一种有效、可靠的方法来提取图纸中的数据和信息,并将其写入到相应数据文件中。即由计算机来完成从图形文件(.DWG)读取信息到所需的数据表格,将其存放到专门的Excel数据表中,以方便数据和信息的应用和检验。同时这些数据相互之间有关联需要找到一种方法来将这些数据进行计算和匹配,最终一次性生成清晰的电缆清册和信息点表。

2 数据的识别和匹配算法

已绘制的工程图中携带有许多的信息,如电缆的起点、终点、电缆所用芯数、回路号、端子号等图形数据,也有描述图形的几何形状的非图形数据。根据这些信息,并结合供配电系统中的规则,可以生成后续工程想要的电缆清册表和信息点表。针对绘制的工程图纸不同的样式采取交互式、可视化的界面并结合少量参数选择、输入的方式来实现数据和信息的提取和匹配。

2.1 数据识别和提取技术现状

CAD图纸中对数据的提取概括起来通常有坐标定位法和块行取值法两种:

2.1.1 坐标定位法

先选择所要提取的数据所属的大概范围,即确定提取数据的区域范围,对该区域范围内的所有实体对象进行逐一扫描,读出文字对象(TEXT、MTEXT)的(X、Y)坐标属性和字符串属性或者图元对象。通过文字对应坐标值的分析确定该文字在图纸中的位置以及和其他图元对象之间的关系,实现自动提取数据的操作。这种方法对单一数据提取效果较好,但对多个类型及大范围的的数据提取操作起来就较复杂且取数的精度也较难控制,算法速度不够快,实用效果不够理想。

2.1.2 块行取值法

即利用AutoCAD块行属性特征来提取信息。

在AutoCAD内部对象模型(AutoCAD Object Model)以层次结构组织起来,顶层可编程的Application对象启动AutoCAD应用程序的一个实例,通过Application对象定位到其他对象;第2层是Document和Preference对象,Document对象代表当前在AutoCAD应用程序窗口中打开并操作的一个AutoCAD图形文件,Preference对象对应于Preference对话框包含AutoCAD当前的配置信息;第3层是Document的集合对象,如ModelSpace,PaperSpace,Blocks对象等等,通过集合对象就可以访问当前图形中的所有实体。

2.2 基于数据描述的图元识别和提取

本文只利用了基本图元的3个数据描述,即一个特征代码和2个参数,这些数据为:元件代码、图心坐标X和Y。但因为每个设计者作图方式不一样,以及有些端子箱电缆图作法不一。因此在进行数据信息识别之前,按照作图的方式设置了几个参数,如电缆的横向和纵向,以及电缆纵向里又根据电缆芯分为横向和纵向两种。在进行提取之前,应先选择参数,每个参数下对应的智能识别算法并不一样。图1为数据信息识别和提取程序流程图,以“TEXT”为例。

以电缆横向为例:

对工程图中包含电缆元件及文本信息的矩形区域进行选择,获取“TEXT”、“MTEXT”文本、“polyline”和“AT-TRIB”等图元中的数值信息。并记录各个数据信息的X、Y坐标值。

读入“TEXT”,电缆的终点总以“至”为开头,按照这个关键字,并按X的大小,将电缆的终点文本读入数据库。从低开始,依次标记为。

读入“polyline”,用UBound命令,如果返回值≤5,则该“polyline”为电缆。记录“polyline”两端点的(X11,Y11),(X13,Y13)值,并设置该电缆的电缆芯数n=0。

所有电缆全部记录后,再读入剩下的“polyline”,同理,用UBound命令,如果返回值>5,则该“polyline”为电缆芯。

2.3 基于坐标的快速模板匹配算法

通过图元特征,可以轻易获得图纸上的数据信息,但数据信息之间存在着一定的关联,需要将这些不同图元的信息进行一一匹配,以利于后面生成正确的电缆清册和信息点表。

将数据库中一行的数据统称之为一个数据,它含有起点、终点、电缆芯数、屏位和电缆截面及型号5个属性。在进行数据提取的过程中,是按照属性的相关顺序进行。首先,根据特征提取电缆的终点文本,按坐标的大小存入数据库,然后提取电缆的编号,按匹配算法将电缆编号增加到相应的终点文本所在行,再定位每个终点文本对应的电缆,获得对应电缆的坐标信息,根据电缆的坐标信息来识别电缆芯,通过匹配算法将对应的电缆芯与电缆匹配,再将电缆芯这个属性添加到相应的行。

2.3.1 模板匹配的算法原理

模板匹配是数字图像处理的重要组成部分之一。把不同传感器或一传感器在不同时间、不同成像条件下对同一景物获取的两幅或多幅图像在空间上对准,或根据已知模式到另一幅图中寻找相应模式的处理方法就叫做模板匹配。此方法同样适应于在海量数据中搜索到与之相对应的准确信息并进行记录和保存。

首先将识别到的终点文本用X和Y坐标的二维数组形式来表示,每一行按Y坐标的升序排列,每一列按X坐标的升序排列,没有数据的地方用0补充。生成的数组称之为搜索区域。

假使读入一个新的文本信息(电缆编号(用(X,Y)来标记)),此称之为模板,要在搜索区域找到与模板的Y坐标最接近的数据,则可以在搜索区域按Y(即按列)搜索。

衡量模板和搜索区域数据的匹配,可以用下面的式子表示:

2.3.2 建立数据模型

模板匹配算法计算模板和匹配区域的相似程度,以最相似位置为匹配点。要判断起点文本与终点文本匹配只需考虑Y坐标最为接近即可。由于模板需要在匹配区域上逐次匹配,运算量很大。所以查找算法对整个匹配的效率有极大的影响。

因为一张图纸上的数据比较多,因此采取计算量最小的算法来确定目标位置是比较理想的做法。因为搜索区域已经按Y坐标的大小排列的,因此可以将数据看成是一个有序表,采取折半查找算法,同时可以用匹配误差的相对大小作为目标判别的依据,误差最小的位置就是目标位置,需要考虑绝对相似程度。

2.3.3 误差处理

由于图纸上的信息是人工绘制的,因此数据的位置往往并不是对应的,有些起点文本的Y位置刚好介于两个终点文本的Y坐标中间,这时根据匹配的条件,搜索区域有两个数据与之匹配。针对这种情况,采取下面的解决方案:

当文本识别提取完毕后再读入“polyline”,用UBound命令,如果返回值≤5,则该“polyline”为电缆。记录“polyline”两端点的(X11,Y11),(X13,Y13)值,并设置该电缆的电缆芯数n=1。按匹配算法将该电缆信息存入相应的行。

所有电缆全部记录后,再读入剩下的“polyline”,同理,用UBound命令,如果返回值>5,则该“polyline”为电缆芯。记录该电缆芯第二个点的X值,并通过数据库里记录的电缆信息的X和Y坐标组成新的搜索区域,模板通过X值搜索区域进行匹配。如果,则该电缆芯属于(X11,Y11),(X13,Y13)坐标值的电缆,同时n=n+1。

通过3次匹配,实现了电缆编号、电缆终点和电缆芯数的一一对应。在数据库中结果如图2所示:

A列为电缆编号,B列为电缆终点,H列为电缆芯数。

3 结语

数据的识别是按照图元的特征来处理的,该方法简单易实现,速度也快。影响整个识别和提取速度的是数据的匹配。上文采取的是模板匹配算法,该算法的主要计算量集中在数据的排序和折半查找。因为折半查找可以节省很多的计算量,而且后续需要多次用到数据查找,所以前者数据的排序就是必要的过程。从实时性考虑,主要的时间延迟可能会发生在延迟匹配,但因为这样的情况毕竟是很少见的,所以可以忽略不考虑。对于算法匹配的准确性,文中通过大量图纸数据的识别和提取证实了其可靠性。

参考文献

[1]冯林桥,许文玉,王姿雅.电力系统及厂矿供电CAD技术[M].长沙:湖南大学出版社,2004:1-14.

[2]姜宏岸,王民权.供配电CAD绘图系统的设计与实现[J].连云港华工高等专科学校学报,1999,12(3):9-11.

[3]王民权,戚万权,姜宏岸.可视化供配电CAD系统的研究与开发[J].计算机工程与设计,2002,6(23):59-61.

[4]张敏琳.低压配电系统自动成图的实现[J].新疆有色金属,2000,(1):37-41.

[5]宛延闿,定海.面向对象分析和设计[M].北京:清华大学出版社,2001:1-6.

文本识别篇5

关键词：数字视频光盘,播放器,私有流,字幕流,文本识别,DirectX

0引言

随着计算机技术与电子技术的发展, 新一代数字媒体技术应运而生了, 这就是当今最流行的视频载体DVD, DVD不仅提供了高清晰、优质视频画面, 而且提供了丰富的语音和字幕数据, 这为不同语境下的信息交流提供了极大的便利。然而, 所有这些数据是以二进制格式存储在光盘文件中, 字幕信息是采用行程压缩 (RLE) 技术[1,2]压缩的图片信息。

目前优秀的DVD播放器, 如MPC (Media Player Classic) 、PowerDVD等, 在显示字幕信息时, 都是将压缩的字幕信息进行解码, 还原成基本的位图, 再利用Overlay技术将字幕图片叠加到视频画面中。

字幕包含着丰富的文本信息, 目前的播放器都是将其还原成字幕图片, 无法充分利用其中的文本内容。下面通过对DVD视频光盘数据结构的分析, 总结字幕数据所在的私有流1存储格式和访问接口, 据此, 给出一种新型DVD播放软件的设计与实现方法, 该播放器支持字幕的文本识别 (OCR) 与查询。

1DVD字幕流数据分析

DVD光盘中, 每个扇区也叫包 (Pack) 包含2048字节数据, 包主要用于封包数据元素 (如音频、视频元素) , 这些元素将同步演播。每个包是由包头 (Header) 和包内容 (Content) 组成, 包头中可以包含用于同步的时间信息, 每个Pack的内容 (也叫封包主要流PES (Packetized Elementary Stream) ) 又是由Packet头和Packet数据组成的[3]。

字幕流数据是被封装在私有流1 (private stream 1) 的Packet结构中, 私有流1不仅封装了基本数据, 而且还包含相应的时间信息:演播时间戳 (PTS) 和解码时间戳 (DTS) 。私有流1除了封装字幕流数据外, 还可以封装非MPEG的音频流数据, 如AC3、DTS、LPCM等。私有流1 Packet中的实际内容是由子流编号来确定, 对于字幕流, 其子流编号为:0x20～0x3F, 最多可包含32种不同语种的字幕[4,5]。

1.1字幕流结构及访问接口

由于字幕流是位于私有流1中, 因此字幕流的访问要通过私有流1和字幕流共同完成。

对于每一个Pack都有一个4字节的启动识别码Pack ID, 定义为:0x00 00 01 BA, 私有流1的启动识别码定义为:0x00 00 01 BD;字幕流的子流ID定义为:0x20～3F, 其中0x20代表英文字幕, 当前字幕结束标志ID定义为:0x00 00 01 BE[6], 如表1所示。

1.2字幕流编码及控制技术

在私有流封包中, 紧接着子流ID就是字幕流数据, 其长度为Size, 共包括四个部分: (1) 字幕流数据大小Size, 占2 Bytes; (2) 控制命令包的偏移地址Control Command Offset, 占2字节; (3) 字幕流数据封包Data Packet; (4) 控制命令Control[6]。

1.2.1 字幕流数据编码技术

在字幕流数据结构中, 字幕流数据采用RLE (Run-Length Encoding) 行程长度编码技术对图片数据进行压缩编码, 图片以隔行 (Interlaced) 位图方式存储, 先存储奇数行 (奇场) , 然后是偶数行 (偶场) 。因此在解码字幕图片时, 需要将偶场信号和奇场信号进行内插合并, 从而得到一幅完整的字幕图片, 也就是一帧数据, 如图1所示。如果对图片的分辩率要求不高, 可以只取偶场或者奇场。

1.2.2 字幕流数据控制技术

在字幕流数据包中, 在RLE编码的字幕数据后, 紧接着是字幕显示控制命令表SPDCSQT (Sub-Picture Display Control Sequence Table) 。

在这个命令表中包含一系列当前字幕的控制命令串, 每个控制命令串依次包含以下三个部分:

(1) 执行当前命令串的等待时间 2字节, 单位是90KHz/1024。

(2) 下一个控制命令串的偏移地址 2字节, 以当前字幕单元计算偏移, 如果偏移是当前控制命令串, 表明这是最后一个控制命令串。

(3) 控制命令串由一系列的控制命令组成, 每个控制命令包含控制命令字和命令参数两部分, 控制命令字长度为1字节, 命令参数长度不固定, 因为不同命令具有不同数量的参数。

在字幕提取与识别过程中用到的命令有两个, 其格式如下:

(1) 字幕显示区域命令命令字0x05, 参数为长方形区域的2个坐标 (左上角和右下角) , 每个坐标3个字节, 共6个字节。

(2) 像素数据的偏移地址命令命令字0x06, 参数4个字节, 前2字节表示上半场 (Top Field) 数据偏移, 后2字节表示下半场 (Bottom Field) 数据偏移。

2字幕流文本识别算法

2.1字幕流分离与提取

从DVD视频对象 (VOB) 文件中分离字幕流, 根据表1中字幕流和私有流1结构描述, 需要经过以下几个步骤:

(1) 私有流1的分离依次读取VOB文件中的各个包Pack进行判别, 如果在包中偏移地址为15字节的内容为特征码0x00 00 01 BD, 则该包为私有流1, 否则是其它类型包。

(2) 字幕流分离在私有流1包中, 从偏移23字节处读取一个字节, 该数据为PES扩展数据的长度Lpes, 则相应的子流ID的偏移地址Addrsubid为:

Addrsubid=23+Lpes (1)

从子流ID的偏移地址读取子流ID, 如果子流ID在0x20到0x3F范围, 则该包为字幕流, 其中0x20为英文字幕。

(3) 计算当前字幕流数据长度在当前子流ID后读取2个字节数据, 该数据为当前字幕流数据长度, 如果长度大于2042 (其中私有流1特征码和子流ID占6个字节) , 表明该字幕流需要两个以上包, 当前包为字幕流数据的前半部分, 紧接着一个包中包含字幕流的后半部分。此时需要读取下一个包, 将两个包中的部分字幕流数据合并成一个完整的字幕流数据。

2.2字幕流解码算法

在解码字幕流数据前, 需要确定字幕图片的几个参数:字幕图片的尺寸Size, 上、下场数据的偏移地址, 这几个参数都可通过字幕流控制命令得到, 也就需要首先解码字幕流控制命令, 确定参数, 然后根据前述的字幕流编码技术对字幕流数据进行解码。

2.2.1 字幕流控制命令解码算法

从当前子流ID偏移3个字节, 读取2个字节数据, 该数据是字幕流控制命令在字幕流数据中的偏移地址, 依据前述的字幕流控制技术, 就可以实现控制命令的解码, 如图2所示。在字幕的分离与提取过程中, 需要通过控制命令得到字幕图片的尺寸及上下场像素数据的偏移地址。

2.2.2 字幕流数据的解码算法

创建一位图对象, 设置相应的高度和宽度为当前字幕的尺寸, 设置4色调色板分别为字幕文本、背景以及强调1和强调2的颜色, 为后续识别便利, 除字幕文本为白色 (White) 外, 其余三种均为黑色 (Black) 。依次从字幕流的上下场偏移地址中读取像素数据进行RLE解码, 将解码的结果写入位图对象的相应数据区。解码时设置一计数器Count, 统计半字节0的数目, 每次读取半个字节, 如果是0, Count加1, 接着读入半个字节, 如果还是0, Count加1, 继续读入, 直到读入的数据不为0, 根据Count的个数以及RLE编码规则, 选择接着读入数据的长度, 并根据编码规则分离出当前像素的颜色及数目, 将这些数据填充到位图对象相应的位置, 如图3所示。

2.3字幕图片分割

为了减少字幕图片中的文字粘连, 提高字符有效区域的精确定位, 在解码字幕图片时, 应将文字边缘的描边色去掉, 这样使得文字边缘信息更清晰, 然后通过文字的边缘特征、颜色特征、连通性特征进行文字检测, 根据文字四周的空白进行有效切割。在字幕图片中, 从左到右对图片进行扫描, 定位字符的有效区域。对于单个英文字符在水平方向是一个连续的区域, 因此字符分割可通过对字幕图片进行从左到右的水平扫描, 根据字符的水平间隙可有效地将字符分割成单个字符, 如图4所示, 对于中文字符, 除了字符间隙外, 所得到的字符区域宽度还应在一个汉字的最小和最大宽度之间。

2.4字幕文本识别

对于英文字幕识别, 为了提高识别速率和简化算法, 字符特征向量选取包含三个方面信息, (1) 字符尺寸3个:高度Height, 宽度Width, 上边距Top; (2) 字符形状特征1个:前景背景像素比Ratio; (3) 字符修饰3个:下划线UnderLine, 加粗Bold, 斜体Italic;其特征向量表示如下:

Data=[Height, Width, Top, Ratio, UnderLine, Bold, Itatic]

对于中文字幕识别, 可选取传统的点阵网格特征向量提取法[7]。该方法能基本反映汉字的本质特征, 同时还具有简洁和易于实现的特点。在字幕图片中, 一个汉字的宽度和高度大约为40个像素, 因此分割汉字应以10个像素为单位, 一个汉字被分割为4×4的网格, 4×4网格对应一个汉字字符的一组特征向量, 对于每一个分割的汉字, 分别计算每个网格的面积, 即前景颜色像素的数目, 也就是该维特征向量的值。

在具体识别过程中, 可将分割的特定字符与样本库中的特定字符进行模式匹配, 也就是特征向量相似度的比对, 选取最接近的字符作为识别的结果, 如果匹配的结果超出了容许的范围, 则给出不可识别提示, 允许用户将其特征加入样本库作为下次识别的样本。这样减少了算法应用的复杂性, 用户的识别过程同时也就是识别算法的训练过程。

在字幕的识别过程中, 第一次碰到字符, 为训练过程, 根据分割字符的提示, 选择正确的字符和相应的特征, 以后遇到时, 进行匹配识别, 根据匹配的相似程度, 给出结果或者要求再次训练。

3播放器系统设计

3.1系统逻辑结构

DVD播放器通常需要处理三种基本的数据流:分别是视频流、音频流和字幕流。为了完成字幕的识别和查询, 需要重新构建字幕流处理过程。系统逻辑结构如图5所示。

当播放DVD时, 先加载DVD视频文件 (VOB文件) , 首先通过视频解码器进行视频解码, 将解码后的视频流传递给视频叠加器;然后通过音频解码器从VOB文件中获取音频流传递给相应的音频输出设备;最后通过2.2节所描述的字幕流解码方法解码字幕流数据, 将得到的字幕流数据一方面传递给视频叠加器与相应的视频叠加后输出到视频输出窗口, 另一方面根据2.4节所述的识别方法对字幕进行识别和提取。

3.2字幕识别与查询过程设计

通过字幕流解码器得到字幕流数据后, 将其传递给视频叠加器时, 同时记录当前字幕图片的位置和尺寸信息。根据在视频输出窗口判断当前鼠标是否在字幕图片上, 如果在, 将鼠标位置信息转换成相对于字幕图片的坐标。接着对字幕图片进行分割, 计算鼠标所在字符索引, 对于英文字幕, 在当前字符索引的前后进行文字的识别, 直至遇到分割符为至, 这样就查询出一个单词, 对于中文字幕, 每次可识别一个句子, 具体流程如图6所示。

4播放器系统实现

该播放软件实现采用Windows环境下流行的多媒体处理技术——DirectX, 最新版本为10.0, 它提供了一整套的多媒体接口技术, 通过提供丰富的高层API接口以及完全遵从COM二进制对象工业标准的组件[8], 使得Windows中复杂的硬件控制变得相当简单, 特别是在游戏和多媒体领域有着广泛的应用。

DirectX开发多媒体软件的第一步是创建一个图表生成器 (GraphBuilder) , 利用该生成器来控制媒体的播放。第二步为创建一个图表 (Graph) , 用于实现不同的多媒体功能, 图表中的元素是过滤器 (Filter) , 每个过滤器实现不同的功能, 且具有不同数量和功能输入和输出脚, 类似于电子元件。多媒体的处理功能就是通过数据在这些过滤器间的流动来完成的。

因此, 要实现特定功能的播放器, 重要的是要建立相应的图表, 其余都很容易实现。具体的编程工作只是根据图表逻辑, 创建相应的过滤器对象 (COM对象) 并建立连接, 上述播放器的图表逻辑如图7所示。

5结论

DVD视频光盘作为一代数字媒体的载体, 包含着极其丰富的内容, 特别是多语音、多字幕使得不同语境下的信息交流变得很容易。但是由于DVD字幕采用图片压缩技术存储, 使得大量的文本信息难以处理。

目前流行的DVD播放器均是对字幕进行基本的展示, 本文通过对DVD数据结构的分析, 找出包含字幕信息的私有流1的访问接口, 根据这些访问接口, 设计了字幕流解码和文本识别的算法, 最后利用DirectX技术设计和实现了一个支持文本识别与查询的DVD播放器。结合外部字典, 就可实现视频的屏幕取词功能, 这对于外语学习者有着非常重要的意义。

参考文献

[1]蓝波, 林小竹, 籍俊伟.一种改进的RLE算法在图像数据编码中的应用[J].微电子学与计算机, 2004, 21 (5) :101-103, 107.

[2]芦亚亚, 丁维龙, 古辉.由行程编码改进的一种通用性压缩算法[J].浙江工业大学学报, 2007, 35 (1) :60-64.

[3]Versatile Logic.Is it easy to understand DVD format?[EB/OL]. (2001-10-24) [2008-02-15].http://web.archive.org/web/20011024182535/dvdpro.com/dvd.htm.

[4]DVD-Replica.Unofficial DVD Specifications[EB/OL].[2008-02-15].http://www.dvd-replica.com/.

[5]Jim Taylor.DVD Frequently Asked Questions (and Answers) [EB/OL]. (2008-01-04) [2008-02-15].http://www.dvddemysti-fied.com/dvdfaq.html.

[6]SoundWare Associates.DVD-Video Information[EB/OL].[2008-02-15].http://www.mpucoder.com/DVD/index.html.

[7]庄越挺, 刘骏伟, 吴飞.基于支持向量机的视频字幕自动定位与提取[J].计算机辅助设计与图形学学报, 2002, 14 (08) :750-753, 771.

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处

【文本识别】相关文章：

模式识别08-03