分词技术

2024-07-17

分词技术(精选十篇)

分词技术 篇1

词是汉语中最小的有意义的独立单位,但在汉语中,词与词之间是没有分隔的,计算机在识别汉语时,无法识别出汉语文本中哪些汉字串组合成词,导致它在处理中文信息时无法直接理解其含义,阻碍了人机的沟通,必须将中文文本进行切分,只有切分为合理的词序列,才能在此基础上进行其它分析处理。

1 汉语分词技术简介

1.1 汉语分词概念

将连续的字序列按照一定的规则重新组合成词序列的过程称为分词,而汉语分词,就是要把一句话中有意义的词汇都切分出来,并重新组合成正确的结果序列。

1.2 汉语分词的方法

现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。网上很多资料对其都有描述,我就不展开说明了。

2 分词词典的构造

目前的分词系统基本上都需要一个很大的词库作为支撑,所以要分词就得先建立一个相当庞大的词典,我的词典机制共分为两层:

2.1 首字HASH表

根据汉字的国标区位码(GB2312)给出,通过一次哈希运算即可直接定位汉字在首字HASH表中的序号,作为索引。GB2312是计算机可识别的编码,其中共收入有6763个汉字,其中一级汉字3755个,二级汉字3008个,我将所有汉字均存储在“dictionary.txt”中。

汉字有了,接下来就是要定义一个可以满足需要的HASH结构体了,我的首字HASH表的一个单元包括4项内容:

关键字:汉字本身;索引值:该汉字在HASH表中的序号;入口项个数:以该字为首字的词的个数;词典树的指针:指向该字的词典树根所在的位置。

结构体定义如下:

在此HASH结构,Word[3]用来存放汉字本身,这里把每个汉字作为一个字符串来存储;key用来存放当前汉字的索引值,一个汉字对应一个索引;WordNnum则用来记录以该字为首字的词的个数;Root是该字对应的词典树的根结点,这棵树是由以该字为首的词构成的。

由于要求每一个汉字都能对应一个HASH单元,所以需要定义一个长度大于汉字个数的HASH数组,这样就有足够的空间与汉字一一对应,接下来就是初始化该数组。

首先是Word[3],初始化的方法是将dictionary.txt中的汉字逐个读出并赋值给Word[3];接着是求索引值key,由于GB2312对所收汉字进行了“分区”处理,汉字所在区为16~87区,每区含有94个汉字,用sec和loc分别表示区码和位码,sec=(ch[0]+256)%256-0xA0-16,loc=(ch[1]+256)%256-OxA0-1,其中ch[0]表示高字节,ch[1]表示低字节,index=:sec*94+loc,index值即为key值;WordNum初始化时置为0,在构建词典时,每加入一个词典中没有的以该字为首的词,它的值会自动加1;Root是一个树结点类型,在此表示该字的词典树的树根结点。

2.2 词典树

词典树中的词均存放在“word.txt”中。

词典树由5项内容构成:

树根结点:该字的索引值;首孩子指针:指向当前结点的第一个孩子结点;兄弟结点指针:指向当前结点的下一个兄弟结点:结点类型:标识当前结点是叶子结点还是分支结点;成词标志:标识从根到当前结点是否构成一词。

词典树的结构体定义如下:

此结构用的是树的孩子兄弟表示法,Value中存入的是此树根所对应的汉字的索引值,由于索引值的唯一性,我们就可以将对汉字的比较转化为对于其索引值的比较,极大地减化了工作的难度。FChild是当前结点的首孩子,而Sibling则是当前结点的兄弟结点,用来连接其下一个兄弟。NodeType用来标识该结点类型是LEAF (值为0)还是BRANCH (值为1),LEAF表示该结点下一层再无孩子结点,FChild为NULL;BRANCH表示该结点下层至少还有一个结点,并由FChild指向。BeWord表示的是从根结点到该结点是否能构成一个词,是则置1,否则置0。初始化时,把Value置为0,FChild和Sibling均为NULL,NodeType为LEAF,BeWord为YES,即每个汉字均默认为一词。

接下来就是建立词典树,所有的词语均存储在文本文档“word.text”中,因此,在建立词典树时,使用文件读取函数fgets函数每次从文件中读出一词,再根据插入算法将该词插入词典树,直到文件中所有的词装载完毕。

3 分词算法

3.1 分词算法思想

词典构建出来之后,分词问题就解决了一大半,只剩下了分词算法。我采用的是正向逐字匹配的方法。具体分词的过程如下:

1.由于我使用的是基于词库的方法,因此在分词前必须先词库载入到内存中,这可以通过定义一个文件读取函数的方法完成;

2.对于段落处理,将不同段落分别存储于不同的字符串中;

3.接着将要处理的语段以标点符号位分隔打散成为一个个小短句,对于每个小短句分开处理,这样对于语段的切分就转化为对小短句的切分,简化了切分语句的过程。

4.文本切分的主要过程。

3.2 切分流程

我的大体思想是:逐个读取句子里面的汉字,并进入首字的词典树,将后面的字逐个与词典树中的词进行匹配,匹配时取最长的匹配结果,匹配出一个词,就将该词切出后加入分隔符,存放在事先定义好的一个匹配字符串中,接着再从该词后面的一个字开始作为首字继续匹配,将后面匹配出来的词加入该匹配字符串中,碰到标点符号则将标点直接加入匹配字符串,并由下一句话开始继续切分,直至段末;

4 结束

中文搜索引擎技术揭密:中文分词 篇2

搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度(www.baidu.com)、中搜(www.zhongsou.com)等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。

什么是中文分词

众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。

点击阅读更多学院相关文章>>

分享到 中文分词和搜索引擎

中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很多问题。下面就以这个例子来说明分词对搜索结果的影响,在现有三个中文搜索引擎上做测试,测试方法是直接在Google(www.google.com)、百度(www.baidu.com)、中搜(www.zhongsou.com)上以“和服”为关键词进行搜索:

在Google上输入“和服”搜索所有中文简体网页,总共结果507,000条,前20条结果中有14条与和服一点关系都没有。在第一页就有以下错误:

“通信信息报:瑞星以技术和服务开拓网络安全市场”

“使用纯HTML的通用数据管理和服务- 开发者- ZDNet ...”

“陈慧琳《心口不一》化妆和服装自己包办”

“::外交部:中国境外领事保护和服务指南(版) ...”

“产品和服务”

等等。第一页只有三篇是真正在讲“和服”的结果。

在百度上输入“和服”搜索网页,总共结果为287,000条,前20条结果中有6条与和服一点关系都没有。在第一页有以下错误:

“福建省晋江市恒和服装有限公司系独资企业”

“关于商品和服务实行明码标价的规定”

“青岛东和服装设备”

在中搜上输入“和服”搜索网页,总共结果为26,917条,前20条结果都是与和服相关的网页。

这次搜索引擎结果中的错误,就是由于分词的不准确所造成的。通过笔者的了解,Google的中文分词技术采用的是美国一家名叫Basis Technology(www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(www.hylanda.com)提供的分词技术。由此可见,中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。

点击阅读更多学院相关文章>>

分享到 中文分词技术

中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。

现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

1、基于字符串匹配的分词方法

这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器

1)正向最大匹配法(由左到右的方向);

2)逆向最大匹配法(由右到左的方向);

3)最少切分(使每一句中切出的词数最小)。

还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率,

一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。

对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。

2、基于理解的分词方法

这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

3、基于统计的分词方法

从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。

点击阅读更多学院相关文章>>

分享到 分词中的难题

有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。

1、歧义识别

歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。

交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?

如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。

2、新词识别

新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?

新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

中文分词的应用

目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。

分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。

上一页 123 4

点击阅读更多学院相关文章>>

独立分词结构——“名词+分词” 篇3

独立分词结构与状语从句

我们都知道,分词是英语里很重要的一种连词成句的手段(其他的手段还有介词和连词),独立分词结构作为分词的一种特殊结构,在英语造句方面也起着重要作用。对于这一重要的造句规则,有很多读者来信提问,他们往往不明白为什么会有独立分词结构这样的造句规则。要回答这个问题,首先,我们要明白,独立分词结构在句中都是用作状语,可以表示各种意义,比如表达时间、原因、让步等等。因此,独立分词结构与状语从句有着密切联系。下面我就通过比较独立分词结构和状语从句,来分析独立分词结构的由来。请比较下面例句:

(1)a. As so many directors were absent, the board meeting had to be put off.

b. So many directors being absent, the board meeting had to be put off.

妙语点睛:

在a句中,使用了一个由as引导的原因状语从句;在b句中,使用的是“名词(so many directors)+分词(being absent)”这样的独立分词结构。所以,我们看到这里独立分词结构替代了一个原因状语从句。这里名词短语“so many directors”是分词短语的逻辑主语,句子主语是“the board meeting”。b句是2000年一道四级考题,原题是“So many directors _____, the board meeting had to be put off”,四个备选项是:A. were absent B. being absent C. been absent D. had been absent。有读者会问:这里为什么不用谓语动词were absent或had been absent?而要用非谓语动词being absent这样的分词形式?这里因为逗号“,”后边已经有了一个完整的陈述句“the board meeting had to be put off”,又因为英语里逗号是不能连接两个句子的,所以逗号前面只能是短语的形式,故要用分词短语being absent,而不是谓语were absent或had been absent。以下例句中b句均由于此原因而采用了分词形式。

精品译文:

由于有很多董事缺席,所以董事会只好延期举行。

(2)a. When the machine malfunctioned, the worker called someone to fix it.

. The machine malfunctioning, the worker called someone to fix it.

妙语点睛:

在a句中,使用了一个由when引导的时间状语从句;在b句中,使用的是“名词(the machine)+分词(malfunctioning)”这样的独立分词结构。所以,我们看到这里独立分词结构替代了一个时间从句。这里名词短语“the machine”是分词短语的逻辑主语。

精品译文:

机器出故障之后,这位工人找了人来修。

从以上例句,我们可以看出,独立分词结构与各种状语从句有密切关系,或者可以说,采用分词短语,是简化状语从句的一种手段。

独立分词结构的连句功能

当然,分词的连句功能不仅体现在与状语从句的关系上面,还表现在其他方面,此时分词短语并不对应于某一个状语从句。请看例句:

(3)a. Karen’s boss makes all the key decisions. Karen only makes the small ones.

b. Karen’s boss makes all the key decisions, while Karen only makes the small ones.

c. Karen’s boss makes all the key decisions, Karen only making the small ones.

妙语点睛:

我们看到,这里a句是两个独立的陈述句,但由于两句在逻辑意思上有对照关系,所以我们可以用连词while连接,于是有了b句。而这种对照关系,我们可以通过分词短语表达出来,所以,我们可以进一步将其改写成c句。我们看到,这里的分词短语并没有对应于某个状语从句。这里,分词短语“Karen only making the small ones”即是一个独立分词结构,其逻辑主语是“Karen”,而句子的主语是“Karen’s boss”。

精品译文:

所有重大决策都是由Karen的老板做出,而Karen只是做一些不重要的决策。

(4) Most of his works today reflect his observations of Chinese people’s lives in their different aspects, the emphasis being on the countryside lifestyles of the northern Shanxi people and Tibetans in Zhongdian, in southwest China’s Yunnan Province.

妙语点睛:

这是一篇人物传记里的一段话,是写一名画家的文章。这个句子分为两部分,“Most of his works ... in their different aspects”,这是一个简单句,谓语是reflect。另一部分“the emphasis being on the countryside... in southwest China’s Yunnan Province”,这是一个独立分词结构:逻辑主语是the emphasis,分词being,因为这里逗号不能分割两个独立的句子,所以后边用了being,而不是谓语is。另外,这里emphasis和上文中observations是呼应的,是说在他“考察”Chinese people’s lives时,重点是放在the countryside lifestyles of...。这里独立分词结构表示强调说明。

精品译文:

他如今的大多数作品反映了他对中国人民生活方方面面的观察,尤其是中国农村生活方式的观察,这包括陕西及云南中滇藏民的生活方式。

以上我们讨论的句子,都是既可以采用分词短语也可以使用独立分句。下面我们来看看一些不便用简单陈述句,而要用独立分词结构的句子。

(5) His nose bleeding and his hands shaking, he left the theater.

妙语点睛:

这里独立分词结构“His nose bleeding and his hands shaking”是表示“他”离开剧院时的状态,称之为伴随状语,修饰动词left,即是伴随left同时进行的动作或状态。此时,我们不便将其改成两个独立句子,比如:His nose was bleeding and his hands were shaking. He left the theater. 这样一改写,前后两个句子关系非常松散,且不明确。或者我们通过加词这样说:He left the theater like that. 当然,这显然没有独立分词结构来得简单、明了。

精品译文:

他离开剧院时,鼻子流着血,双手也在颤抖。

(6) “No, I can’t accept payment for what I did,?the Scottish farmer replied, his eyes blinking at the strange Japanese dollar bills.

妙语点睛:

这里独立分词结构“his eyes blinking at the strange Japanese dollar bills”是表示“他”在回答时的状态,同样是伴随状语,修饰动词replied,即是伴随replied同时进行的动作或状态。此时,我们要想将其改成两个独立句子,只能加一些词这样说:“No, I can’t accept payment for what I did,” the Scottish farmer replied. His eyes were blinking at the strange Japanese dollar bills as he uttered the words. 即这里我们加了一个从句“as he uttered the words”才能表达出分词所要传达的伴随逻辑关系。显然,不用分词结构使句子变得复杂。

精品译文:

“不,我不能接受这些工钱”,说这话时,这位苏格兰农夫眨眼看着这些陌生的日元钞票。

综上所述,采用独立分词结构,可以使句子变得精炼、紧凑,这也是往往在书面语里多使用分词结构的原因。本期讨论的是“名词+分词”这样的分词结构作状语,上一期讨论的是“with+名词+分词”这样结构作状语。分词作状语还有第三种结构,即直接用分词作状语,分词前面没有名词出现,这是一种更为常见的分词结构,我们在下期详细讨论。

中文分词技术及其实现 篇4

现有的分词算法可分为3大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

1.1 基于字符串匹配的分词方法

这种方法又叫做机械分词方法, 它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配, 若在词典中找到某个字符串, 则匹配成功 (识别出一个词) 。常用的几种机械分词方法如下:①正向最大匹配法 (由左到右的方向) ;②逆向最大匹配法 (由右到左的方向) ;③最少切分 (使每一句中切出的词数最小) 。

1.2 基于理解的分词方法

这种分词方法是通过让计算机模拟人对句子的理解, 达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来处理歧义现象。它包括3个部分:分词子系统、句法语义子系统、总控部分。由于汉语语言知识的复杂性, 难以将各种语言信息组织成机器可直接读取的形式, 因此目前基于理解的分词系统还处在试验阶段。

1.3 基于统计的分词方法

从形式上看, 词是稳定的字的组合, 因此在上下文中, 相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好地反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计, 计算它们的互现信息。定义两个字的互现信息, 计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时, 便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计, 不需要切分词典, 因而又叫做无词典分词法或统计取词方法。

2 用计算机程序实现中文分词的过程

2.1 语料的预处理

在本文中, 下载的语料是已进行过切分的语料, 但在此基础上建立模型, 还需要作进一步的处理。下面是原始语料的例子:

“19980131-04-012-001/m 现实/n 的/u 顿悟/vn 却/d 被/p 描/v 出/v 形/Ng 来/v 。/w ”

可以看到, 因为这些切分语料的来源是报纸等媒体, 前面保留了日期编号。

预处理的主要目的, 是对语料进行一些标记改造, 以便完成2-gram建模。在本文中, 主要是按标点符号分句, 句子简单定义为 ( 。 ! : ;) 这5种标点符号结尾的词串, 句子首尾分别添加这两个表示句子开始和结束的标记。在处理过程中, 将对词类信息和日期信息进行忽略, 因为本切分系统不考虑词类标注。例如前面的例句预处理后应该转化为如下形式:

现实 的 顿悟 却 被 描 出 形 来 。

另外除了汉字, 考虑到所有的英文字符和数字的ASCII, 可以用下面一段JAVA程序来实现:

out ; //输出流

in; //输入流

StringBuffer s1 = new StringBuffer () ; //缓冲

char a = in.read () ;

while (a != -1) //判断是否已到流的终点

{

if ( (a == '。' || a == ' ' || a == '!' || a == ':' || a == ';' ) ) //一句结束

{

String s2 = new String (s1) ;

out.write ("") ; //在句子前加

out.write (s2) ;

out.write ("") ; //在句子末尾加

out.write ('/n') ; //换行

s1 = new StringBuffer () ;

}

else if ( a == '/')

s1 = s1.append ( (char) 32) ; //分词位置空格

else if (a > 256 )

s1 = s1.append ( (char) a) ;

a = in.read () ;

}

out.close () ;

in.close () ;

2.2 建立统计二元模型2-gram

根据语言样本估计出的概率分布P就称为语言L的语言模型。

对给定的句子s=w1w2…wn, ( wi为句子s的一个词) 。由链式规则 (Chain rule) 可知, 其概率为:

P (s) = p (w1) p (w2|w1) p (w3|w1w2) ……p (wn|w1w2w3…wn-1)

对p (wi|w1w2…wi-1) 而言, (w1w2…wi-1) 即为wi的历史。考虑前面n-1个词构成历史的模型即为n-gram模型。n越大, 提供的语境信息也越多, 但代价就越大, 且需训练语料多;n较小时, 提供的信息比较少, 但计算代价小, 且无需太多训练语料。为了简便起见, 本文使用2-gram模型, 所需语料约5万多个不同的词。

令c (w1, …, wi) 表示词串w1, w2…wi在训练语料中出现的次数, 则由最大似然估计, P (wn|w1, …, wn-1) = c (w1, …, wn) / c (w1, …, wn-1) . 同理, 则2-gram为P (wn|wn-1) = c (wn-1, wn) / c (wn-1) .

建立2-gram统计模型时不断要把每个词在训练语料中出现的频率统计出来, 还要把每个词及其后面的那个词组成的2-gram在训练语料中出现频率统计出来。因为在切分时会频繁地在建立的2-gram模型中查找相关的数据, 所有存储这个2-gram模型数据的数据结构一定要能提供高效的查找。故选择hash表, 它能提供常数时间的查找。Java类库里提供了HashMap类, 基于数据还不是非常大, 故可直接拿来用。在存储时, 每一个key值对应一个在训练语料中出现过的词语, 而每一个key值对应的value值又是一个HashMap。暂且称为子hashmap.这个结构有点类似文件结构里的二级索引。预处理文件里把词分别读出来, 每读入一行, 按空格分成String数组, 用个正则表达式匹配下即能得到。其相关代码如下:

//此方法传入的两个词组成一个2-gram, prewd为前一个词, currwd为紧随其后的词

public static void add (String prewd , String currwd) {

String key = prewd;

String curr = currwd;

boolean bb = HMap.containsKey (key) ; //Hmap是一个已存在的HashMap, 用来存储2-gram统计模型。在这里判断 preword 是否在 主map 中

if (bb == false) { //若 主map 中无, 则添加

HashMap hm = new HashMap () ; //首先, 新构造一个 子MAP

hm.put (key , new Integer (1) ) ;//存储主KEY的频率

hm.put (curr , new Integer (1) ) ; //存储 主KEY 后面紧接着的那个词频率

HMap.put (key, hm) ; //将 主KEY 和对应的 子MAP 放入 主MAP 中

}

else //若 主map 中含有该词

{

HashMap temp = (HashMap) HMap.get (key) ; //返回主KEY所对应的子MAP并修改值

int count = ( (Integer) temp.get (key) ) .intValue () + 1; //在 子map 中将 主key 次数加

1 temp.put (key , new Integer (count) ) ;

if (temp.containsKey (curr) ) //判断 子map 中是否含有该词

{

int value = ( (Integer) temp.get (curr) ) .intValue () + 1;

temp.put (curr , new Integer (value) ) ;

}

else

temp.put (curr, new Integer (1) ) ; //若无, 则将其存入子map

HMap.put (key , temp) ; //子map 修改完毕 , 将其重新放入 主map

}

}

}

因为语言中的大部分词属于低频词, 所以稀疏问题肯定存在。而MLE (最大似然估计) 给在训练语料中没有出现的2-gram的赋给0概率。所以还得对2-gram模型进行数据平滑, 以期得到更好的参数。目前平滑技术比较多, 如Add-one、Add-delta、Witten-Bell、held-out留存平滑等。本系统主要采用了Add-delta和held-out两中平滑方式, 下面就Add-delta平滑技术为例, 对2-gram进行平滑。对2-gram模型, 其平滑公式为:

P (wn|wn-1) =[c (wn-1, wn) + delta] / ( N + delta * V)

这里去delta为0.5

其中, N:训练语料中所有的2-gram的数量

V:所有的可能的不同的2-gram的数量

平滑思路 :①产生主hashmap的迭代器iterator, 依次读key;②对每一个key, 又读出其value, 即一个子hashmap;③然后根据平滑公式对子map里的值进行计算修改。

算法框架:

Iterator it = 主hashmap.keySet () .iterator () ;

While (it.hasNext () )

{

主key = it.next () ;

子hashmap = (HashMap) 主hashmap.get (主key) ;

Iterator itr = 子hashmap.keySet () .iterator () ;

While (itr.hasNext () )

{

根据平滑公式依次计算修改

}

}

注意问题:①因为计算得出的概率值一般都比较小, 为了防止出现下溢, 可对其取对数, 再取反;②每一个主key所对应的所有没有出现过的, 即频率为零的2-gram, 统一用一个键值对存储在相应的子hashmap里即可。

完毕, 对象序列化。使用该系统时, lazy load将其载入内存, 然后可让其一直存活在内存, 这会大大加快速度。

到此, 2-gram模型建立完毕。

2.3 实现全切分

切词一般有最大匹配法 (MM、RMM) , 基于规则的方法, 基于统计的方法。所谓全切分就是要根据字典得到所有可能的切分形式。歧义识别的方法主要有:基于规则的方法和基于统计的方法。这里就是采用基于2-gram统计模型的方法。为了避免切分后再进行歧义分析的时间浪费, 这里采用边切分边评价的方法, 即在切分进行的同时进行评价的方法。

对一个句子进行全切分的结果, 即所有可能的组合, 可以形成一棵解空间树。这里可用回溯法搜索最优解。

若将所有的全切分组合先搜索出来, 然后再根据2-gram选择最佳, 显然会很浪费时间, 因为过程中可能存在很多的重复搜索, 而回溯搜索的时间复杂度为指数时间, 所以, 在搜索过程中要结合剪枝, 避免无效搜索, 可提高效率。

采用树的深度优先法则, 可找到最优解, 具体算法如下:

Stack.push (BOS) //树节点

while stack不为空

x=stack.pop ()

pos:=x.Pos, w = x.w oldvalue:= x.value preword:=x.preword

if m>O then //m为首词串的个数

forj:=1 to m do

FWj为fwc的第j个元素l

if length (w+FWj) =length (c) 且概率最大

then output w+FWjl且设置最新的句子最大概率值

else

posl:=pos+length (FWj) l

if probability (w+FWj, posl, newsate) >maxValue (pos1)

stack.push (x)

endif

endfor

endif

endwhile

end.

在算法实现过程中需要考虑一些诸如树节点保存, 首词串处理等问题。

2.4 评估测试

因篇幅所限, 在此不展开, 另著文讨论。

3 结束语

目前在自然语言处理技术中, 中文处理技术比西文处理技术要落后很多, 许多西文的处理方法中文不能直接采用, 就是因为中文必需有分词这道工序。中文分词是中文信息处理的基础, 除了搜索引擎外, 也有着其他极为广泛的实际应用。

本文以JAVA语言实现2-gram二元模型为例, 简单阐述了使用计算机程序完成分词的过程, 意在抛砖引玉, 举一反三。要把中文分词技术的准确性、速度提高到一定水平, 并投入实际运用中, 更好地服务于更多的产品, 还有很长一段路要走。

参考文献

[1]GUDIVADA V N.Information retrieval on the World Wide Web[J].IEEEInternet Computing, 1997 (5) .

[2]李水平.数据采掘技术回顾[J].小型微型计算机系统, 1998 (4) .

过去分词和现在分词专项练习 篇5

1.____ the house on fire, he dialed 119.A.To see

B.Seeing

C.Having seen

D.Being seen

2.I fell down and broke three of my teeth.I wonder how many times I have to come here and get my falseeeth ____.A.fix

B.fixing

C.fixed

D.to fix 3.___________a post office, I stopped___________ some stamps.A.Passed, buying

B.Passing, to buy

C.Having passed, buy

D.Pass, to buy 4._________with the size of the whole earth, the highest mountain does not seem gh at all.A.Comparing

B.To compare

C.Compared

D.Having compared 5.Here are some new computer programs ____for home buildings.A.designing

B.design

C.designed

D.to design 6._________a little money, Jimmy was able to buy his mother a lovely new lamp.A.To save

B.Saving

C.Saved

D.Having saved 7.The teacher came into the classroom ____by his students.A.following

B.to be following

C.folwed ed

D.having followed 8.With the money ________, he couldn’t buy any ticket.A.to lose

B.losing

C.lost

D.has lost 9.There was so much noise in the room that the speaker couldn’t make himself ____.A.being heard

B.hearing C.heard

D.hear 10.The result of the test was rather _____.A.disappointed

B.disappointing

C.being disappointed

D.disappoint 11.I’ve never heard the word ____in spoken English.A.use

B.used

C.using

D.being used 12._____how to do the homework, I went to ask my teacher for help.A.Not to know

B.Not knowing

C.Knowing not

D.Not known 13.Deeply _________, I thanked her again and again.A.being moved

B.move

C.moving

D.to be moved

14.With winter _____on, it’s time to buy warm clothes.A.came

B.comes

C.come

D.coming

15.____the office, the foreign visitors were shown round the teaching building.A.Having shown

B.Showing

C.Has shown

D.Having been shown

16.He went from door to door, ____waste pars and magazines.A.gathering

B.gathered

C.gather

D.being gathered 17.The student corrected his paper carefully, _______the profess’s suggestions.A.follow

B.following

C.followed

D.being followed 18.The ________price will save youne dollar for each dozen.A.reduce

B.reducing C.reduced

D.reduces

19.People ____in the city do not know the pleasure of country life.A.live

B.to live

C.lived

D.living 20.The foreigner tried his best, but he still couldn’t make his point ________.A.understand

B.understanding C.to understand

D.understood 21.The scientists were waiting to see the problem ____.A.settle

B.settled

C.to settle

D.settling

22.The libra”s study room is full of students _____for the exam.s study room is full of students _____for the exam.A.busily prepared

B.busy preparing

C.busily prepare

D.are busilyreparing 23.The ground is ________ with_______ leaves.A.covering, falling

B.covered, falling

C.covered, fallen

D.covering, fallen 24.Lessons ____easily were soon forgotten.A.to learn

B.learn

C.learned

D.learning

25.The wlet ____several days ago was found ____in the dustbin outside the building。

A.stolen, hidden

B.stealing, hiding

C.stealing, hidden

D.stolen, hiding

27.A person _____a foreign language must be able to use the foreign language, ______all about his own.A.to learn, to forget

B.learning, to forget

C.to learn, fgetting getting

D.learning, forgetting

28.___different kinds of pianos, the workers farther improved their quality.A.To produce

B.Being produced

C.Produced

D.Having produced 29.The students in the university are all taking courses ___a degree.A.coming to

B.going to

C.leading to

D.turning to

30.Many things _____impossible in the past are very common today.A.consider B.considering C.considered

D.be considered 31.___many times, he still couldn’t understand.A.Having been told

B.Having told

C.He having been told

D.Telling

32.The old sick lady entered the hospital, ____her two sons.A.to support

B.supporting

C.suppoed by

D.having supported

33.China is one of the largest countries in the world, _____9.6 million square kilometres.A.to cover

B.covered

C.covers

D.covering

34.____and happy, Tonstood up and accepted the prize.A Surprising

B.Surprised

C.Being surprised

D.To be surprising

35.The visiting Minister expressed his satisfaction with the talks,____ that he had enjoyed his stay here.A.having added

B.to add

C.adding

D.adding

36“Can you read?” Mary said ____to the notice.A.angrily pointing

B.and point angrily C.angrily pointed

D.and angrily pointing

37._____ the composition, John handed it to the teacher and wt out of the room.A.Writing

B.Having written

C.Written

D.Being written 38.Were you ____when you saw that wild animal ?

A.fright

B.frightening

C.frightened

D.frighten 39.Properly _____wh numbers, the books can be easily found.A.marked

B.mark

C.to mark

D.marking

40.The child sat in the denti”s chair ____.A.tremble

B.trembling

C.embled embled

D.to trembled

A.inform

B.informing

C.informed

D.being informe

II.用适当的非谓语动词形式填空(25%)

分词技术 篇6

一、作表语时的区分方法

根据这两类形容词的基本意思来区分

ing分词表示主语所具有的特征,有“令人……’’之意,ed分词表示主语本身所处的状态,有“某人感到……”之意。如:

The result is very disappointing, for we lost the game.

结果很让人失望,我们输掉了比赛。

We are all very disappointed because we lost the game.

因为输掉了比赛,我们都非常失望

二、作定语时的区分方法

1、如果所修饰的名词是人或物,可根据ing分词和ed分词的基本意思来区分

She is an annoying women.(She made us annoyed)

她是一个令人气愤的女人

We are annoyed by her behaviour.

对她的行为我们感到很恼怒

2、如果所修饰的名词是look,expression等时,我们需要根据上下文的意思来判断到底应该用哪种形式

There was a disappointed look on David’s face when he knew he didn’t pass the driving test.

中文分词技术的研究现状与困难 篇7

随着计算机网络的飞速普及,人们已经进入了信息时代。在这个信息社会里,信息的重要性与日俱增,无论是个人,企业,乃至政府都需要获取大量有用的信息。谁掌握了信息,谁就能在竞争中处于有利位置。在这种环境下,搜索引擎技术逐渐成为技术人员的开发热点,而其中最为重要的技术就是分词技术。

分词技术属于自然语言理解技术的范畴,是语义理解的首要环节,它是能将语句中的词语正确切分开的一种技术。它是文本分类, 信息检索,机器翻译,自动标引,文本的语音输入输出等领域的基础。而由于中文本身的复杂性及其书写习惯,使中文分词技术成为了分词技术中的难点[1,2]。

1 中文分词基本算法

近年来人们对中文分词技术有了一定的研究,提出了多种多样的中文分词算法。目前的中文分词算法主要分为三大类:基于词典的方法,基于统计的方法和基于规则的方法。

1.1 基于词典的分词算法

这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同,该分词方法可以分为正向匹配和逆向匹配;按照长度的不同,可以分为最大匹配和最小匹配。常见的几种基于词典的分词方法思想如下。

1.1.1 正向最大匹配算法

正向最大匹配算法思想[3]:(1)从左往右取待切分汉语句的m个字符作为匹配字段,其中m为机器可读词典中最长词条的汉字个数。(2)查找机器可读词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来;若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配。重复以上过程,直到切分出所有词为止。

该算法流程如图1如示。

1.1.2 逆向最大匹配算法

逆向最大匹配算法思想[4]:该算法是对正向最大匹配算法的逆向思维,主要是从右往左对字符串进行最大匹配。匹配成功,则将这个匹配字段作为一个词切分出来;若匹配不成功,则将这个匹配字段的最前一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配。重复以上过程,直到切分出所有词为止。实验表明逆向最大匹配算法效果要优于正向最大匹配算法。

1.1.3 全二分最大匹配算法

全二分最大匹配快速分词算法[5]:是一种基于hash表,每次的匹配操作都可以记忆,不需要任何的重复匹配操作,而且匹配操作都是使用二分法进行的,这样就最大限度地提高了分词的效率。

基于词典的分词算法优点是易于实现,在对精确率要求不高的系统中得到了很好的应用。其缺点在于由于词典是在分词之前准备的,其规模和内容受到了限制,对于未登录词的补充较难实现。

1.2 基于统计的分词算法

目前基于统计的分词算法有很多种,较为常见的算法是,基于互信息的概率统计算法,N-Gram算法,基于组合度的汉语分词决策算法等等。

1.2.1 互信息的概率统计算法[6]

互信息是一种度量不同字符串之间相关性的统计量。对于字符串XY,其互信息的计算公式如下:

ΜΙ(x,y)=log2p(xy)Ρ(x)p(y)

其中,p(x,y) 为字符串XY共现的概率,p(x),p(y)分别为字符串XY出现的概率。

互信息MI(x,y)反映了字符串对之间结合关系的紧密程度:(1)互信息MI(x,y)>0,则X,Y之间具有可信的结合关系,并且MI(x,y)越大,结合程度越强。(2)MI(x,Y)=0,则X,Y之间的结合关系不明确。(3)MI(x,y)<0,则X,Y之间基本没有结合关系,并且MI(x,y)越小,结合程度越弱。

1.2.2 N-Gram模型算法

N-Gram模型思想[7]:一个单词的出现与其上下文环境中出现的单词序列密切相关,第n个词的出现只与前面n-1个词相关,而与其它任何词都不相关,设W1,W2,…,Wn是长度为n的字串,由于预测词Wn的出现概率,必须知道它前面所有词的出现概率,太过复杂。为了简化计算,规定任意词Wi只与其前两个相关,得到三元概率模型如下:

P(W)≈P(W1)P(W2/W1)∏i=3…nP

(Wi/IWi-2Wi-1)

以此类推,N元模型就是假设当前词的出现概率只同它前面的N-1个词有关而得出的。

1.2.3 组合度的决策算法

组合度的算法思想[8]:在一篇文章中,如果汉字B紧跟在汉字A的后面,称AB为一个组合。运用组合度的数学公式,计算出每个词组的组合度,组合度越高,说明它是词组的可能性越大,组合度越低,说明它是词组的可能性越小。公式如下:

ΗAB=-ln(Cn1kCn2kΚ!(Ν-Κ)!Ν!)

其中,HAB为AB在文章中的组合度,N为汉字个数,K为AB组合的个数,n1是A的个数,n2是B的个数。

基于统计的分词方法优点在于它可以从已有的大量实例中进行归纳总结,分析语言内在的关联信息,将其加入到统计模型中去。简单的统计方法不需要词典,而是通过训练语料的迭代,建立统计模型。但统计方法本身也有一定的局限性,尤其是对常用词的识别精度很差。

1.3 基于规则的分词算法[9]

基于规则的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来对文本进行分词。

这种分词方法优点在于它可以由实例中进行自动推理和证明,可以自动完成对未登录词的补充,但是由于它本身需要使用大量的语言知识。而汉语语言知识有其笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于规则的分词方法还不是很成熟。这种方法目前总是和其他算法结合起来使用。

2 中文分词的混合算法

由于中文分词的三种基本算法,都有其各自的优缺点,所以为了能够达到更好的分词效果,人们开始有目的的把分词的几种基本算法以及其他知识结合起来,这就形成了现在日新月异的混合型分词算法。

(1)吴建胜[10]等提出的基于自动机的分词方法,这种算法的基本思想是:在数据结构方面,把词典组织成自动机形式,在匹配算法上采用最大向前匹配算法,把二者有机的结合到一起,以达到更好的分词效果。

(2)赵伟[11]等提出的一种规则与统计相结合的汉语分词方法,这种分词算法的基本思想是:基于一个标注好了的语料库,并且结合了规则和语料库统计两种分词方法。

(3)张长利[12]等提出的一种基于后缀数组的无词典分词方法,这种分词算法的基本思想是:通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词,能够快速准确地抽取文档中的中、高频词,适用于对词条频度敏感、对计算速度要求高的中文信息处理.

(4)孙晓[13]等提出的基于动态规划的最小代价路径汉语自动分词方法,这种分词算法的基本思想是:基于最长次长匹配的方法建立汉语切分路径有向图,将汉语自动分词转换为在有向图中选择正确的切分路径,其中有向图中的节点代价对应单词频度,而边代价对应所连接的两个单词的接续频度;运用改进后Dijkstra最小代价路径算法,求出有向图中路径代价最小的切分路径作为切分结果。

混合型分词算法多种多样,所结合的知识点也有很多,可以结合数据结构知识来形成新的词典机制;也可以结合标记语料库的方法更好的完善分词算法。显而易见,混合型分词算法在大多数方面要优于基本型分词算法。它将成为今后分词算法研究中的一个热点。

3 中文分词目前的困难

由于中文词与词之间不象西文那样有明显的分隔符,所以构成了中文在自动切分上的极大困难。在现有的中文自动分词方法中,基于词典的分词方法占有主导地位。而中文分词的主要困难不在于词典中词条的匹配,而是在于切分歧义消解和未登录词语的识别。在中文分词过程中,这两大难题一直没有完全突破。

3.1 歧义处理[14,15]

歧义是指同样的一句话,可能有两种或者更多的切分方法。目前主要分为交集型歧义、组合型歧义和真歧义三种。其中交集型歧义字段数量庞大,处理方法多样;组合型歧义字段数量较少,处理起来相对较难;而真歧义字段数量更为稀少,且很难处理。

分词歧义处理之所以是中文分词的困难之一,原因在于歧义分为多种类型,针对不同的歧义类型应采取不同的解决方法。除了需要依靠上、下文语义信息;增加语义、语用知识等外部条件外,还存在难以消解的真歧义,增加了歧义切分的难度。同时未登录词中也存在着歧义切分的问题,这也增加了歧义切分的难度。所以歧义处理是影响分词系统切分精度的重要因素,是自动分词系统设计中的一个最困难也是最核心的问题。

3.2 未登录词识别[16]

新词,专业术语称为未登录词。也就是那些在字典中都没有收录过词。未登录词可以分为专名和非专名两大类。其中专名包括中国人名、外国译名、地名等,而非专名包括新词、简称、方言词语、文言词语、行业用词等。

无论是专名还是非专名的未登录词都很难处理,因为其数量庞大,又没有相应的规范,而且随着社会生活的变迁,使未登录词的数量大大增加,这又为未登录词的识别增加了难度。因此,未登录词识别是中文分词的另一大难点。

4 结束语

本文主要是对中文各类分词算法做出了系统的介绍,分析了每类分词算法各自的优缺点。提出了将中文分词算法分为基本分词算法和混合型分词算法两大类型,得出了混合型算法往往要优于基本型算法的结果。同时分析了中文分词的两大难点——歧义处理和未登录词的识别,指出了它们的困难所在,这就为以后的中文分词研究工作奠定了基础。

摘要:中文分词技术是中文信息处理领域的基础研究课题。而分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分。首先对中文分词的基本概念与应用,以及中文分词的基本方法进行了概述。然后分析了分词中存在的两个最大困难。最后指出了中文分词未来的研究方向。

分词技术 篇8

Lucene[1]是一个开放源代码的全文索引库。经过十多年的发展,Lucene拥有了大量的用户和活跃的开发团队。如果说Google是拥有最多用户访问的搜索引擎网站,那么拥有最多开发人员支持的搜索包也许是Lucene。它最初由Java开发而成,现在拥有了C#和C++等移植版本。利用Lucene可以开发出自己的搜索引擎。

分词技术对于搜索引擎来说是一个非常重要的指标,众所周知,英语等西方语言是使用空格和标点来分隔单词。但是在汉语等亚洲语种中,一般使用表意文字,而不是使用由字母组成的单词。所以相对于西方语言,Lucene对中文分词的效果并不是很好。Lucene处理中文分词常用方法有3种:

(1)单字方式:[咬][死][猎][人][的][狗]。

(2)二元覆盖方式:[咬死][死猎][猎人][人的][的狗]。

(3)分词方式:[咬][死][猎人][的][狗]。

但这3种方式并不能满足日常中文搜索的要求,利用Lucene的可扩展性来设计一种的基于逆向最大匹配算法和最大概率分词法的中文分词方法。

2 中文分词算法

中文分词(Chinese Segmentation)是指计算机通过一定的分词算法将汉语文本的字串自动转换为词串的过程。现有的中文分词算法大致可分为3大类:机械匹配的分词方法、统计的分词方法和知识理解的分词方法。

2.1 基于机械匹配的分词方法

这种方法又可称为基于字符串匹配的分词方法,是最常见的分词方法,其思想是按照一定策略将待分析的字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到这个字符串则匹配成功,否则失败。机械匹配主要利用正向或逆向最大匹配的方法来分词。例如,假设词典包括如下的词语:

今天天天气很好很好

输入“今天天气很好”,最后的分词结果为“今天/天气/很好”。

正向最大匹配和逆向最大匹配的实现大同小异,最大的区别就是正向最大匹配是正向扫描字符串,逆向最大匹配是反向扫描字符串。实验已经证明,逆向最大匹配的准确率会比正向最大匹配的准确率略高,正向最大匹配分词算法的匹配错误率是1/169,而逆向最大匹配分词算法的匹配错误率是1/245。例如,“有意见分歧”的正向切分结果是:“有意/见/分歧”;逆向切分结果是:“有/意见/分歧”。

除了这两种,另外一种最少切分的方法是使每一句中切出的词数最小。

2.2 基于统计的分词方法

这种方法也是比较常用的方法,该方法主要包含互信息的概率统计算法[2]、N-Gram算法[3]以及基于组合度[4]的汉语分词决策算法等。在实际应用中,统计分词系统都要使用一部基本的分词词典(常用词词典),进行串匹配分词,同时也使用统计方法识别新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

2.3 基于知识理解的分词方法

这种分词方法是通过让计算机模拟人类对句子的理解,达到识别词的目的,主要基于句法、语法分析、结合语义分析和上下文对词进行定界并判断歧义。这种方法的好处是切分比较准确,但需要大量的信息资源进行语言规则的学习,而且实现比较复杂,维护不易。现在这种分词方法还处于研究阶段,应用比较少。

3 最大概率分词方法

在分词的过程中,有时会遇到多种分词结果,例如,字符串“有意见”可以切分为“有意/见”,也可切分为“有/意见”,这时候可以利用最大概率分词方法切分出概率最大的语句,最大概率分词法可以弥补其他分词法中出现歧义的问题。其基本思想是:

(1)一个待切分的汉字串可能包含多种分词结果。

(2)将其中概率最大的那个作为该字串的分词结果。

中文分词切分路径如图1所示。

路径1:0-1-3。

路径2:0-2-3。

该模型的数学描述如下:

S:有意见

W1:有/意见

W2:有意/见

这里的S表示待切分的字符串,W1,W2分别表示切分的路径,计算概率P(W1|S)和P(W2|S),然后采用概率大的值对应的切分方案。

左邻词:假定对字符串从左到右进行扫描,可以得到w1,w2,…wi-1,wi…等若干候选词,如果wi-1的尾字跟wi的首字邻接,就称wi-1为wi的左邻词。比如“有”是“意见”的左邻词。

最佳左邻词:如果某个候选词wi有若干个左邻词wj,wk,…,其中累计概率最大的候选词称为wi的最佳左邻词。如“意见”只有“有”一个左邻词,“有”也就成了“意见”的最佳左邻词。而“有意见分歧”中的“分歧”有“意见”和“见”两个左邻词,其中“意见”的累计概率大于“见”的累计概率,因此“意见”是“分歧”的最佳左邻词。

在字符串“有意见分歧”中“分歧”是尾词,“意见”是“分歧”的最佳左邻词,分词结果为“有/意见/分歧/”。

4 Lucene中文分词的改进

文献[5]介绍了最大逆向匹配算法,其主要思想是:假设词库中的最长字条是i个字,则被处理文档的字符串序列中的后i个字作为匹配字段,接着查找词表,若词表中存在这样的一个i字词,则匹配成功[6](即识别出一个词户),匹配的字段被作为一个词切分出来;如果词表中找不到这样一个i字词则匹配失败,匹配字段去掉最前一个字,剩下的字段重新进行匹配,如此进行下去,直到匹配成功,也就是完成一轮匹配,切分出一个词为止;然后将剩下的字符串取后i个字(字符串长度大于i时,小于i时取整个字符串)作为匹配字段进行新一轮匹配。

这个算法很实用,也是应用特别多的一种分词方法,而且准确度也比较高,但每个分割出来的词都要经过整个剩余字符串一个字一个字地轮询分,有的字就会被重复分割很多次才回轮到匹配它的时候;而根据对句子的理解,句子中的一些单用词如“的”是可以作为切分句子的标志的,所以将建立一个词表A,用于收集停用词如“的”等和一些常见的单用词,如“是”、“在”等。在用逆向最大匹配法切分字符串前,先检测字符串中有没有词表A中的词,如果有,如字符串“我的家”中有停用词“的”,就可以在停用词处作为分割点,切分为两个字符串,再分别对两个字符串进行逆向最大匹配法。考虑到一个待切分的字符串可能包含多种分词结果,在进行逆向最大匹配法的同时结合最大概率分词法。

具体步骤如下:

(1)检查字符串中有没有词表A中的词,如果没有,直接进行逆向最大匹配。

(2)如果检查字符串中有词表A的词Xi,进行如下操作:

1)将字符串中处在Xi前后位子的词与Xi搭配,检测Xi在此字符串中是不是单用词,如果不是(如停用词“的”也有“打的”和“的士”这种搭配),将与Xi匹配的词和Xi一起作为一个分词,然后将字符串以该分词为中间段把字符串切分为前中后3段,再将前后两段进行逆向最大匹配;当然,也有可能Xi前后两个词都能与之匹配,如果是这样就用最大概率分词法确定分词。

2)如果检测出来的是单用词,这是最好的情况,那就可以以Xi作为分割点将字符串分成若干段,每段再进行逆向最大匹配,这样做的好处是减少了切割字符串的次数,举一个简单的例子,比如字符串“我的家在北京”,词表A中收录了“的”和“在”,而词典中收录了“我”,“家”,“在”,“北京”,那么直接就可以把字符串切分为“我/的/家/在/北京”,这样切分的速度就很快了。词表A中收录的词要尽可能的少,只收集最常用的几个词就行了,不然,单遍历词表A就会浪费不少时间。

具体分词过程如图2所示:

5 结语

针对Lucene中文分词的薄弱性,利用自己创建的词表A先对字符串做分割,然后结合了最大概率分词的方法和逆向最大匹配法,设计一种全新的中文分词器,有效地改善了Lucene自身中文分词的不足。当然,在利用最大概率分词的时候对于3字及3字以上的词没有做匹配工作,今后的工作可以针对3字及以上词做更深一步的改进。

参考文献

[1]http://forfuture1978.iteye.com/blog/691017.

[2]费洪晓,康松林,朱小娟,等.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,(7):67-68.

[3]吴应良,韦刚,李海.一种基于N-gram模型和机器学习的汉语分词算法[J].电子信息学报,2001,23(11):1148-1153.

[4]刘利东.基于组合度的汉语分词决策算法研究[J].德州学院学报,2003,19(2):65-70.

[5]苏景春.基于Lucene的全文检索系统的研究与应用[D].北京交通大学硕士学位论文,2010,(6):33-35.

分词技术 篇9

1 彝文的特点

字形上,彝文大部分是独体字,是不可再分的文字;音节上,彝文是单音节的文字,一个字代表一个音节,也即是一个具有独立意义的词;语法上,彝语是以词序和虚词为表达语法意义的主要手段。

彝文同汉文一样,每个字的大小基本相同,汉文被称为“方块字”,彝文被称为“石块字”。而且,字与字之间有明显的分界,字与词或词与词之间也没有明显的界限,不按词分写。此外彝语中的词没有固定或明显的词头、词尾和性、数、格变化等分词标志。彝文和汉文的这些相同的特点,决定了在彝文信息处理领域彝文同样面临着分词技术问题。

2 彝文分词概念与研究方法

2.1 彝文分词概念

彝文分词属于自然语言理解技术的范畴,是语义理解的首要环节,是按照特定的规范,将彝文语句中具有确定的语义或语法功能的词和词组按分词单位进行划分一种技术,它是彝文文本分类、自动标注、信息检索、机器翻译、语音识别与合成等领域的基础。从信息处理过程来看,可以把彝文自动分词看作是用计算机自动识别彝文文本中的词,并在词与词之间加入明显切分标记的过程。而从应用需求来看,彝文自动分词的主要目的是确定自然语言处理的基本分析单位,为进一步开展彝文的自动分析进而为实现机器翻译、篇章理解、自动文摘、文本校对、自动标引等应用处理系统做好前期准备工作。

2.2 彝文信息处理自动分词技术研究方法

目前彝文自动分词研究采用的方法归纳起来主要有以下三种类型:

2.2.1 机械分词法

主要有最大匹配法、逆向最大匹配法、逐词匹配法、部件词典法、词频统计法、设立标志法、并行分词法、词库划分和联想匹配法等,如:西南民族大学民族语言文字信息处理实验中心就采用了正向最大匹配法来设计与开发了“基于既定词表的彝文自动分词系统”,分词正确率达到了85%以上。

2.2.2 语义分词法

引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、约束矩阵法、语法分析法等,如:西南民族大学民族语言文字信息处理实验中心就采用了彝语语法分析法与综合匹配法来设计与开发了“基于语料特征的彝文自动分词系统”,分词正确率达到了95%以上,也是目前彝文自动分词技术研究的一个代表。

2.2.3 人工智能法

是对信息进行智能化处理的一种模式,又称理解分词法,主要有两种处理方式:一种是基于心理学的符号处理方法。模拟人脑的功能,像专家系统。即希望模拟人脑的功能,构造推理网络,经过符号转换,从而可以进行解释性处理。一种是基于生理学的模拟方法。神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。目前西南民族大学民族语言文字信息处理实验中心正在研发的“信息处理用彝文智能分词系统”就采用了此方法。

这三种方法又可分为两大类:一类是基于规则的,目前大多数彝文自动分词方法都采用此方法,如:基于既定词表的彝文自动分词系统;一类是基于语料库的,如:基于语料特征的彝文自动分词系统。基于规则的分词算法的计算模型均是概率论中的马尔可夫过程又称元语法、隐马尔可夫过程和通信中的信道噪声模型。但无论是马尔可夫过程还是信道噪声模型,最后都归结为计算彝文词频的统计信息,串频和互信息是词频的另一种表现形式。

3 彝文自身的特点与实现自动分词的难点分析

由于彝文文本是由连续的字符组成的,中间没有空格,不像西文那样有明显的分隔符,所以造成了彝文在自动分词上的极大困难。综观彝文自身的特点与现阶段计算语言学在自动分词上的研究,彝文自动分词研究目前主要存在以下两方面的困难。

3.1 语言学上的困难

3.1.1 对词的定义的不统一

词是最小的能够独立应用的语言单位,这是语言学界对词的形式定义。而对词的具体界定一直飘忽不定,至今没有一个公认的、具有权威性的词表。彝文同样存在这个困难:不仅没有统一、严格的非形式定义,对形式或抽象定义都还存在一定的问题。导致这个困难一方面是单字词与语素之间的划界,另一方面是词与短语(词组)的划界。

3.1.2 彝文分词还没有形成一个公认的分词标准

这样就造成了同一文本可能被不同的人划分为几种不同的结果。

如:(不该争而争,争荞饼熟不熟,争酸汤温不温)”至少就有四种切分结果:

此外彝文中有大量(尔比),即谚语、熟语。其结构紧密,语义完整,但其中的许多字符可以单独切分为词,也可以与其他字符或字符串组成词,在彝文自动分词上也是一个难点所在。

3.2 计算机技术方面的困难

3.2.1 彝文自动分词所需的语法知识规则库、语义知识规则还不完善

彝文信息处理,都不是单纯意义上的语言学研究。信息处理用自动分词的研究还广泛涉及到计算机科学、信息科学、数学、自动化技术、人工智能等多门学科。目前的彝文信息领域,都还没有与之相匹配的、权威公认的分词语法规则。

3.2.2 无合理的自然语言形式模型

彝文自动分词技术的研究尚处在起步阶段,没有任何关于彝文语言模型理论或实践的可供参考。

3.2.3 未登录词的识别和切分歧义消解

现有的彝文自动分词方法中,基于词表、词典的机械分词方法占有主导地位。而彝文分词的主要困难不在于词典中词条的匹配,而是在于未登录词语的识别和切分歧义消解。

3.2.3. 1 未登录词的识别

在彝文分词中的未登录词,最典型的是人名,如:未登录词还包括地名、产品名、机构名、商标名、简称略语、网络新词等。

无论是专名还是非专名的未登录词都很难处理,因为其数量庞大,又没有相应的规范,而且随着社会生活的变迁,使未登录词的数量大大增加,这又为未登录词的识别增加了难度,因此,未登录词识别是彝文分词的一大难点。而新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。目前彝文信息处理对未登录词识别这领域,还没有专项地去做研究,相信随着彝文分词技术的不断发展后会有新突破。

3.2.3. 2 切分歧义消解

歧义是指同样的一句话,可能有两种或者更多的切分方法。分词歧义处理之所以是彝文分词的困难之一,原因在于歧义分为多种类型,针对不同的歧义类型应采取不同的解决方法。同时未登录词中也存在着歧义切分的问题,这也增加了歧义切分的难度。

如:都是词,这个短语就可以切分成两种结果。

所以歧义处理是影响分词系统切分精度的重要因素,如果能处理好消歧的问题,分词的精度也会相应提高,也是彝文自动分词系统设计中以后需要不断深入研究的方向。

4 结束语

由于在彝语中词与词之间没有明显的切分标志,因此在彝文信息处理中彝文分词这一研究领域应运而生,并成为彝文信息处理中的基础课题之一。彝文自动分词技术在彝文信息检索、文字识别、机器翻译,语音识别与合成等领域中将有着广泛的应用前景。本文主要是对现有彝文的各类分词算法做出了系统的介绍,同时结合彝文的特,从语言学和计算机技术两个不同学科角度分析了实现彝文自动分词的难点所在,为以后信息处理彝文自动分词技术研究工作奠定了一个良好的基础。

参考文献

[1]冯志伟.计算机中文信息处理[M].北京:北京出版社,2001:20-145.

[2]沙马拉毅.计算机彝文信息处理[M].北京:电子工业出版社,2000:21-67.

[3]陈小荷.现代汉语自动分析[M].北京:北京语言文化大学出版社,2000:35-80.

[4]邓宏涛.中文自动分词系统的设计模型[J].计算机与数字工程,2005(4):138-140.

[5]孙铁利,刘延吉.中文分词技术的研究现状与困难[J].信息技术,2009(7):187-189.

[6]周文帅,冯速.汉语分词技术研究现状与应用展望[J].山西师范大学学报:自然科学版,2006(3):32-35.

分词技术 篇10

步入21世纪以来,随着国际互联网(Internet)的迅猛发展,网络信息急剧膨胀,国际交流日益频繁。翻译向着更加专业化的方向发展,且翻译信息量也越来越大。机器翻译正在逐渐成为克服语言障碍的重要手段。但到目前为止,由机器完成的翻译任务一般情况都会存在可读性差、难于理解的问题,这也正为CAT(辅助翻译系统)的出现提供了客观条件。但随着辅助翻译系统规模的扩大,翻译任务量的增多,便需要将待翻译的任务进行有效的预处理并将该预处理的结果作为选择翻译人员的依据。将中文分词技术应用于辅助辅助翻译平台的预处理阶段,必将提高预处理阶段翻译任务分配的准确性和科学性,必将提高翻译的效率,节约翻译的成本。

2 相关技术背景及在系统中的具体实现

2.1 机器翻译(Machine Translation)

机器翻译又称机译,是利用计算机把一种自然语言转变成另一种自然语言的过程。到目前,虽然机器翻译历经了70多年的研究,机译的译文质量确实还远不能令人满意[1]。由机器完成的翻译任务一般情况都会存在可读性差、难于理解的问题,这也正为CAT(Computer Aided Translation)辅助翻译系统的出现提供了客观条件[2]。

2.2 辅助翻译(Translation Memory)

辅助翻译TM(Translation Memory)是“译者运用计算机程序部分参与翻译过程的一种翻译策略。”它是通过计算机软件来实现的专业翻译解决方案,它与“机器翻译”有着本质的区别。目前,由于机器翻译的译文远不能够满足专业翻译的需要,翻译记忆技术成为了唯一的选择。

在我们模型中使用目前国际上比较流行的TRADOS系统做为辅助翻译平台,实现语料库,术语库等翻译资源的有效管理。

2.3 汉语分词

中文分词是由计算机自动识别文本中的词边界的过程,它是中文信息处理最重要的预处理。到目前为止还没有真正实用的分词系统出现,但已经出现了许多针对性很强的成功的分词系统。汉语自动分词在形形色色的中文信息处理应用系统中扮演着极为重要的角色.同时也是计算语言学界公认的一个经典问题,所蕴含的两大难点———歧义切分消解和未登录词处理,可能是世界上最令计算机感到棘手的语言现象之一[3]。常用的分词算法有基于字符串匹配的分词方法和基于统计的分词方法。

2.3.1 基于统计的分词方法

从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率能够较好地反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息(互信息),计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对文档中的字和词出现的频率进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些出现频度高、但并不是词的常用字组,并且对常用词的识别精度差、时空开销较大。

在我们系统实现中将以上两种方式实现了有效的结合。与常用的方式不同的一点是,在我们的系统中所使用的词典是一个“排除”词典,而不是包含词典。常用的基于词典的分词算法中,通过正向最大匹配等算法,从词典中查找,在词典中找的作为词来处理。而在我们的系统中通过正向匹配等算法在一个预置的排除词典中匹配,匹配的到不作为词来处理,即是所谓的通过词典来排除。排除操作发生在基于统计的分词操作之后。

3 模型实现

3.1 辅助翻译平台预处理模型

首先对待翻译任务进行预处理,得到任务相关信息,如文本字数,高频词,及语料库的匹配程度等信息,最重要的是可以得到针对该翻译任务的语料库,在库中存在的语料都是在大的语料库中与翻译任务中匹配的句对,因此在后续的翻译过程中查找库的效率更高且更准确。具体流程如图1。

在辅助翻译的预处理阶段,当得到文章的相关信息和针对翻译任务的项目库时标志着文档预处理任务的完成。此时可将文档及任务项目库分发给各个翻译翻译人员,开始具体的翻译工作。这样即保证了各个翻译人员能得到相关的翻译资源,也保证了总语料库的数据的安全性和有效性。翻译人员的翻译任务完成之后,将记忆库提交,只有通过审核的预料的才可以添加到总的语料库中。

3.1.1 辅助翻译平台预处理结果

如图2,通过使用辅助翻译平台的分析工具可以得到待处理文档和语料库的匹配程度等信息,通过导出操作可建立项目库,至此预处理阶段库的匹配操作已经完成。

3.2 汉语分词模型

分词系统中包含两大模块:分词算法、分词词库。在我们的具体实现中分词算法实现了主流的两种分词算法的结合:机械分词法和概率分词法。机械分词算法中的词典起到排除词的作用,将通过概率分词算法分出的结果通过在排除词典中执行正向匹配操作进行排除,从而得出频率更高且对后续的处理更加有益的词作为文章的特征。如图3。

3.2.1 统计分词算法

常用的两个基本统计量:互信息及t-测试差。

3.2.1. 1 互信息(mutual information)

定义对汉字串XY,汉字X,Y之间的互信息(或称为汉字X,Y间位置的互信息)定义为:

其中p(X)是子串x在文档在中出现的概率,在我们的系统中使用n(x)/文档字数来标示;p(Y)是子串Y在文档在中出现的概率,在我们的系统中使用n(Y)/文档字数来标示;P(XY)为子串XY出现的概率,即n(XY)/文档字数。用互信息来估计两个汉字直接的连接力度,其间互信息越大,两个汉字结合的紧密程度越高;互信息越小,结合的紧密程度越低.并给出了两个相邻汉字断连与否的判别规则:互信息超过某一阈值,则连;否则断[3]。

3.2.1. 2 t-测试差(difference of t-test)

对汉字串VXYW,汉字X,Y之间的t-测试差定义:

其中t(X,W)(Y)为Y相对于XW的T测试度。无论何种情形,均有dts(X,Y)越大,连的倾向越大,dts(X,Y)值越小,断的倾向越大。dts(X,Y)为0时,则无任何倾向(此为t-测试差的“盲区”);利用t-试差对两个相邻汉字断连与否进行判别的规则与利用互信息时类似:t-测试差超过某一阈值,则连;否则断。T-测试差的理论均值应为0。因此,判别连、断的dts阈值宜取其均值0.00。实验证明dst的阈值取0时分词的错误率最低。

3.2.1. 3 互信息与t-测试差相结合

针对辅助翻译平台的预处理的具体性质,没有必要将系统中的词都准确的分出来,且分出的大部分词对后续的工作是没有意义的,因此我们的目的是得出对文本分类更有用的词。一般情况是对文档分类起作用越大的词必然在文档中出现的频率会很高,这些出现频率高的词往往正说明了文章的所属领域。因此我们针对辅助翻译平台设计的分词系统只要能得到出现频率在某一阈值以上的此即可。互信息和t-测试差都是根据词频计算得出的统计量,因此正好适合辅助翻译平台的需求。考虑到他们各自的缺点和优点,将二者结合起来应用于我们的系统中。结合的过程是:先计算互信息,通过互信息进行初次筛选,将互信息值在某一阈值以上的词作为候选词,再用t-测试差对这些候选词筛选,经过二次筛选,最后剩下的词已基本能符合提取高频词的要求。互信息阈值的均值与3.49非常接近.故判别是否是词的Mi阈值宜取其均值3.50[3]。

3.2.2 统计分词算法结果

对于一篇字数为63886的文本,用互信息作为统计量提出的词为845个,且可以看出分值较高的词都是出现频率高,且把这类作为文档分类的依据比较准确。同一篇文本,用t-测试差作为统计量提出的词为867个,且可以看出分值较高的词都是出现频率高,且把这类作为文档分类的依据比较准确。

同一篇文本,先使用互信息作为统计量初步提出候选词,再使用t-测试差作为统计量进行二次筛选。提取出的词为808个,且可以看出分值较高的词都是出现频率高,且把这类作为文档分类的依据更加准确。

3.3分词结果与辅助翻译预处理的结合

通过对待翻译文档的预处理,可以得到该文档与语料库匹配信息,并建立对应于该翻译任务的语料库,以便于后续的翻译工作。利用分词处理结果中提出的高频词可以比较准确的确定文档所属领域,从而实现有针对性的任务分配。即将该翻译任务分配到相关领域的翻译人员,最终实现有效准确的翻译。

4 总结

辅助翻译已经日渐成为人们解决语言障碍的重要手段,利用分词技术实现文本中高频词的提取,利用这些高频词来确定文本所属领域,进而实现辅助翻译系统预处理阶段的任务分配,已在大规模的辅助翻译系统中显的尤为重要。本文中提出的相关模型在实际的辅助翻译系统中已经得到充分的试验,试验结果显示,将分词结果应用于辅助翻译平台预处理阶段任务分配过程,大大提高了任务分配的准确性和科学性,为预处理阶段任务分配提供了更加有价值的依据。

摘要:探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法,结合中文分词过程,在自动进行中文分词的结果之上,自动提取文本中特定出现频率以上的高频词条,将这些词条作为辅助翻译预处理阶段任务分配的重要依据,从而有效提高了辅助翻译平台预处理过程中的任务分配效率及任务分配准确率。

关键词:信息提取,中文分词,高频词提取,机器翻译,辅助翻译

参考文献

[1]王金锉.计算机翻译技术的新发展[D].江苏:扬州大学外国语学院,2004.

[2]梁三云.机器翻译与计算机辅助翻译比较分析[D].江苏:外国语学院,2004.12.

[3]孙茂松.基于无指导学习策略的无词表条件下的汉语自动分词[D].北京:清华大学智能技术与系统国家重点实验室.

[4]许高建.文本挖掘中的中文分词算法研究及实现[D].安徽:安徽农业大学2007.12.

上一篇:成本简析下一篇:外部和谐