分词优化

2024-08-14

分词优化(精选九篇)

分词优化 篇1

在目前信息量剧增的时代,能够检索到想要的信息是一个必须要解决的问题。而面对海量的中文资料,检索系统就需要有一个很好的中文分词模块,将需要建立的索引文档进行切分。中文分词是其他中文信息处理的基础,在中文信息的搜索引擎中中文分词是实现可用系统的前提。没有中文分词,中文文本无法建立高效快速的索引结构。而目前的中文分词仍然有很多问题有待解决。由于汉语的复杂性,分词过程中很容易出现歧义。目前也有很多解决歧义的算法,但是在解决歧义之前还是需要正确地找到可能出现的交集型歧义字段。目前已有的几种采集歧义字段的算法主要为双向最大匹配算法、逐字扫描的最大匹配算法、最长词次长词发现法[1]和正向回退一字组合法[2]。因此找到一种算法解决歧义词识别的问题是非常重要的。

1 各种歧义识别算法比较

双向最大匹配检索算法是最简单也是最基本的发现算法。但是这种算法不能完全找到歧义字段,只能大致地查找[3]。最长词、次长词发现法突破了双向最大匹配检索法和逐词扫描的最大匹配法难以识别组合型歧义的难题,实现了交集型歧义字段和组合型歧义的同时识别,但都并不完全[4]。正向回退一字组合法是基于正向最大匹配算法和逐词扫描算法而提出的一种新的歧义发现算法。这种歧义发现算法思想简单,易于实现,耗时相对较低,识别效果比较好。但只能检测链长为1的交集型歧义字段[5]。逐词扫描的最大匹配算法的原理是从字符串中的起点取出不超过词典最大长度的汉字串,作为匹配字段;在词典中查找该匹配字段,找到则切分出一条词,并与最近切分的词的做比较,根据歧义类型做出标记;未找到则去除匹配字段的最后一个汉字,作为新的匹配字段重新匹配,以此类推。直到匹配字段字数为零,才后移一个字作为下一次分词的起点,反复操作直到字符串全部匹配完为止[6]。比较这几个歧义发现算法,其中逐词扫描法查找的交集型歧义字段更为精确,因此可以运用这种方法来查找歧义字段。文献[7]中介绍了一种正向的增字最大匹配算法,这种算法虽然可以有效地找到容易出现歧义的词,但是匹配的次数太多,处理效率并不是特别高。因此本文在此基础上提出了一种结合逐字扫描和逆向最大匹配的算法,来改善歧义识别过程效率不高的缺点。

2 最大匹配算法

2.1 逆向最大匹配算法

假设分词词典中最长词的长度为M,则取被处理材料的字符串序列中的后M个字作为匹配字段,如果和词典中的最长词匹配,则将这个长词切分出来,如果不匹配,则将这个匹配字段的最前一个字去掉,得到一个长度为(M-1)的新的匹配字段,再和词典的次长词进行匹配,如果匹配,则切分,若不匹配,则再去掉该字段的最前一个字,重复这个匹配操作,直到匹配字段的长度为0或是匹配成功。第一轮匹配成功后,再取切分后剩下的字段中长度为M的字段作为匹配字段,具体步骤和之前相同,一直到被处理材料的开头时结束。

正向最大匹配算法和和逆向最大匹配相似,只是匹配的方向是从左到右,而正向最大匹配是从右到左。

虽然事实证明逆向最大匹配算法比正向最大匹配的分词准确率高,但由于歧义的原因,单纯靠逆向匹配算法还是不能完全满足分词的要求。比如对“这苹果真好吃”进行逆向分词,结果为“这/苹/果真/好吃”。显然,这里出现了歧义,正确的切分结果应该为“这/苹果/真/好吃”。因此如何发现并消除歧义是分词过程中必须要解决的问题。

2.2 增字最大匹配算法

文献[7]中提出了一种改进的正向增字最大匹配算法,该方法可以有效地保留有用信息,并且能很好地发现交集型歧义。但是该算法将每个字都进行增字匹配操作,而且每个字都要一直增到词典最大词长为止,所以匹配次数很多。并且最后进行组合型歧义的处理时,并不是很有效。相对来说,总体效率不是特别高。因此可以利用这个算法的优点,进行一定程度的改进。

3 改进的歧义识别算法

3.1 算法思想

改进后的歧义识别算法结合了逐字扫描法和逆向最大匹配算法的优点。单一靠逆向最大匹配算法,分词后的结果很容易出现交集型歧义,而逐字扫描法很容易出现组合型歧义。虽然增字最大匹配算法可以保留很多词的信息,但是匹配的次数太多了,而且它是最后处理组合型歧义的,所以就算找到了所有的交集型歧义,但是有的交集型歧义是无意义的,同时也浪费了很多时间。本文的算法仍然利用逆向最大匹配算法分词较准确的优点,只不过原先的匹配算法是找到了最大的词后就切分,而本文是从右到左,逐字进行最大逆向匹配。每匹配成功一个词,都要和前面一个词进行比较,如果包含于前面的词,就继续保留前面的词,删掉现在匹配的词,如果不包含,就要看看是否与前一个词有交集,如果有就记录。也就是匹配一个词后紧接着就和之前的词比较,而不像增字最大匹配算法那样,等全部的词都匹配结束后,再判断交集型歧义,之后再查找组合型歧义词。这样就省去了很多判断交集型歧义的时间,也避免找到一些无用的交集型歧义词。

3.2 算法过程

设被切分字符串词长为L,词库中最大词长为M。首先从第L个字开始,取出字符串中长度为M的字段,并将其和词典进行匹配,如果匹配成功,就记录该词,记为W1。如果没有匹配成功,就重新取出长度为(M-1)的字段,将其和词典进行匹配,成功则记录,不成功则继续将匹配字段长度减1,这样一直到匹配成功为止。

第二轮匹配中,首先从第(L-1)个字开始,取出长度为M的字段,将其和词典进行匹配,匹配成功就记录,且将匹配成功的词记为W2;如果匹配不成功,同样将匹配字段长度减1,继续匹配,直到匹配成功,记录下匹配成功的词。将W2与W1进行比较,如果W2包含于W1,则删除W2;如果W2的后缀和W1的前缀相同,则认为两个词产生了交集型歧义,此时需要进行标记,以便之后进行交集型歧义处理。

同样第三轮匹配中,首先从第(L-2)个字开始,取出M个字的字段,再将其按照上述方法进行匹配,将匹配成功的词W3与前一个词进行比较,如果W3包含于上个词,就将W3删掉,如果W3的后缀和前一个词的前缀相同,就再次标记,等待最后进行交集型歧义处理。

重复上述操作,直至将字符串中所有词都匹配完,并记录下匹配成功的词和交集型歧义词,进而进行处理。

3.3 算法分析及流程图

在此同样采用“这苹果真好吃”为例。

第一轮匹配中,W1=“好吃”,直接记录;第二轮匹配中,匹配出W2=“真好”,将W2与W1进行比对,W2没有包含在W1中,但是两者有一个交集字“真”,证明此时有交集型歧义字段,将W1和W2记录进行标记,并传到交集歧义处理程序中;第三轮匹配中,W3=“果真”,将其与W2进行比对,同样发现两者有交集,然后将其标记,并传到交集型歧义处理程序中;第四轮匹配,得到W4=“苹果”,比对后发现与W3有交集,再记录,传送交集歧义处理;第五轮匹配,W5=“苹”,与W4比较,发现W5包含在W4中,则删掉W5,不记录,进行到下一轮匹配。第六轮匹配,W6=“这”,与W4既没有包含关系,也没有交集关系,则直接记录。匹配结束。

匹配结束后,交集歧义处理程序中有几个字段:“苹果”、“果真”、“真好”、“好吃”。此时运用文献[8,9,10]中的歧义处理策略进行处理,于是得到“苹果”、“真”、“好吃”这几个正确的字段。至此整个匹配和歧义处理过程结束。其中图1为本算法的流程图。

从该流程图可以看出,本文算法还是保留了逆向最大匹配算法和逐字扫描算法的特点的,而且在每一次匹配中,都会判断组合和交集型歧义,这样就减少了很多重复的时间。

4 实验结果分析

该实验所用的分词语料是从人民日报2011年7月6日第01版中所有文章中随机抽取的,是真实有效的。表1和表2中列出了分词语料中汉字数不同时,两种算法分别所用的时间和找到交集型歧义词的个数。

从表1中可以看出,不管随机选择的语料中汉字数是多少,本文中提出的改进的歧义识别算法所用时间总是比增字最大匹配算法少。表2中可以看出,本文算法找到的交集型歧义数比增字最大匹配算法找到的要略少,但是增字最大匹配算法中找到的有些交集型歧义词是无意义的,下面举个例子进行分析。

比如,语料中有一句话“企业要对这些事负责任”。用增字最大匹配算法的匹配结果为“企/企业/业/要/对/这/这些/些/事/负/负责/负责任/责/责任/任”,然后再找交集型歧义,找到“负责”和“责任”两个词是交集型歧义词,之后再处理组合型歧义词,得到结果“企业/要/对/这些/事/负责任”,由此可见就算刚才找到了“负责”和“责任”两个歧义词,但是这并没有意义。而用本文的算法时,每匹配成功一个词,先进行组合型歧义的判断,再进行交集型歧义的判断,结果为“企业/要/对/这些/事/负责任”,虽然两者最后的结果相同,可是本文的算法并没有把“负责”和“责任”两个词记录为交集型歧义词。因此,不管是交集歧义识别的精度还是所用时间,本文的算法都有明显的优势。

5 结 语

改进后的中文分词歧义识别算法保留了原先的逆向最大匹配算法准确分词的优点,利用了增字最大匹配算法可以有效查找交集型歧义的方法。改进后的算法实现过程简单,处理效率和精度也有所提高。

参考文献

[1]孙晓,黄德根.基于最长次长匹配分词的一体化中文词法分析[J].大连理工大学学报,2010,50(6):1028-1034.

[2]罗智勇,宋柔.现代汉语通用分词系统中歧义切分的实用技术[J].计算机研究与发展,2006,43(6):1122-1128.

[3]李天侠,戴新宇,陈家骏.基于混合模型的交集型歧义消歧策略[J].计算机工程与应用,2008,44(22):6-8.

[4]谭琼,史忠植.分词中的歧义处理[J].计算机工程与应用,2002,38(11):125-127.

[5]张彩琴,袁健.改进的正向最大匹配分词算法[J].计算机工程与设计,2010,31(11):2595-2597.

[6]翟凤文,赫枫龄,左万利.基于统计规则的交集型歧义处理方法[J].吉林大学学报:理学版,2006,44(2):223-228.

[7]金在全,赵照,杜秀全,等.一种改进的增字最大匹配算法[J].科学技术与工程,2007,7(18):4761-4764.

[8]王思力,王斌.基于双字耦合度的中文分词交叉歧义处理方法[J].中文信息学报,2007,21(5):14-17.

[9]许高建.一种改进的中文分词歧义消除算法研究[J].合肥工业大学学报:自然科学版,2008,31(10):1622-1625.

搜索引擎优化的关键词分词技术分析 篇2

提要:分词是一门技术,它在网络营销中的高效运用也将成为优化提升的有利抓手。

我做的是二手房的关键词,但是我的页面上的关键词设置却是“二手房源”,可能有的朋友会说,这个没什么问题啊,“二手房源”不是包含了二手房这个关键词吗?如果没有仔细对百度的分词进行研究,大家可能看不出这两个词会有什么区别网络推广,不过大家只要稍微留心一下搜索出来的结果,就可以看出端倪了,百度在对“二手房”和“二手房源”这两个词分词出来是不一样的,百度自己建立有自己的词库,所以他会把“二手房“这个词当作一个整体,但是对于”二手房源“这个词,百度则拆分成了”二手“和”房源“两个词,自然别人在搜索二手房这个关键词的时候就找不到我的页面了。通过这个小细节,我觉得有必要对百度的分词进行一下深入的研究,我大概地总结出了以下这么几点:

1、百度分词是根据内容中,第一次出现关键词相关词为标准来分的。例如“今日新开热血江湖sf”这个词 如果你的正文中第一个出现的是“今日”这个词,那么你的页面上的关键词就会被拆分成”今日”和“新开热血江湖sf“两个词,标题中一定要包含关键词,但不一定要完全匹配,但内容中出现的关键词是要跟百度分词完全匹配的,在完全匹配中又会根据文件URL路径的深度来进行排序,在关键词都完全匹配的情况下,比如说目录比文件有优先权,根目录下的文件要比二级目录下的文件有优先权,完全匹配的会排在前面,然后再是部分匹配的。

2、在关键词没有完全匹配的情况下,如果有分词,比如说:游览器下载这个关键词,网络推广有一个网页里第一次出现的关键词是游览器,并且有较高的关键词密度,但是这个网页中却没有”下载“这个关键词而另一个网页里第一次出现的关键词是下载,那么这个网页的关键词就会被拆分成游览器下载两个词,虽然第二个网页里包含有“游览器”“下载”但是第一个网页还是会排在第二个网页的前面,这说明关键词的前面部分是最重要的。

3、关键词第一部分出现的频率是排名的关键,比如说”游览器下载“,如果两个网页都没有完全匹配,都是含有两个分词,那么“游览器”这个分词密度高的网页将会排在前面。

4、如果完全匹配,但是关键词第一出现是在页面内容的最后面部分,那么这个网页的排名将比前面这些页面还要低,

所以关键词尽早在内容中出现是非常重要的。

5、百度根据第一次出现的相关关键词切词,如果第一次出现的相关关键词是关键词的尾部,网站推广那么就从后面开始切,如果是前面部分就从前面开始切,也就是根据网页内容的顺序和反序进行分词,顺序的时候就是以关键词前半部分为起点,反序的时候就是以关键词的后半部分为起点。例如:”今日新开热血江湖sf“这个关键词,如果你的网页中第一次出现的关键词是”热血江湖sf“,那么你这个页面的关键词会被拆分成”热血江湖sf”和“今日新开”两个词。

6、可以根据百度的切词原理,自己来选择比较好作的关键词头部(也就是调整你网页内容中第一次出现的关键词)。也就是进行人为切词,百度会进行从前往后判断,也会从后往前面切。

7、如果切词出现前半部分和后半部分有重复的话,那么有重复的会比没重复的排名低,但如果都有重复那么就是根据前半部分的密度来判断。例如:今日新开热血江湖sf如果被切成今日新开热血江湖|新开热血江湖sf(这样切出来的词前半部分太长,所以排名不利)那么排名肯定要比切成今日新开|热血江湖|sf的排名差

8、如果在关键词没有完全匹配的情况下,网站推广并且关键词出现得不完整,比如说:今日新开热血江湖sf,网页的内容包含的关键词中如果没有“今日”这个词,那么切词就会从“新开”开始,但是这样的网页都会排在比较靠后了,因为你关键词的前部分都没有包含

9、缺词的情况下下,如果与不缺词的网页进行比较的话,那还是根据切词前部分的密度进行排序,也就是说按照切词的顺序,如果切出来的词,前部分的密度比后部分的密度比例是关键,例如一个网页中,前部分与后部分关键词的比例是1:2,另外一个网页的比例是1:4,那么当然前面的那个网页排名要靠前。同样在缺词的情况下,切出来前词短的排名有优势

10、如果不缺词,但是关键词后面部分比前面部分先出现,例如“今日新开热血江湖sf”sf这个词先出现,但是“今日新开热血江湖”这个词的密度又不高的话,那么排名会比那些缺词的还要靠后

11、同样是后词出现在前面,但是前词与后词的比例是关键,例如一个网页中包含有“sf”“今日新开热血江湖”这样两个词,比例为1:1另外一个网页包含的是“新开热血江湖”“sf”“今日新开”比例是2:1:1,那么前面的那个网页排名有优势,关键词的数量不是关键,出现的位置,以及分词的比例是非常关键的。越靠后的分词占的比例越多,排名越不利

基于Web知识的中文分词结果优化 篇3

中文分词是将句子根据一定的规则切分为词序列的过程[1],是中文信息处理的关键技术之一,在中文文本信息自动化索引、分类、聚类、信息抽取、语义分析、机器翻译等领域都有着广泛的应用[2]。对此许多研究者进行了大量的研究并取得了一定的成果,例如: 基于字符串匹配的分词方法、基于统计的分词方法和基于自然语言理解的分词方法等[3],相关的改进算法也有很多[4,5,6,7,9,10,11]。但是由于汉语言本身的复杂性和灵活性,以及计算机在处理中文等东方语言方面的天生不足等原因,导致了进一步提高中文分词的精度存在着一定的困难。

特别是在Web环境中,各种网络新词层出不穷给中文分词系统带来了更大的挑战。例如,2013 年国家语言资源监测与研究中心利用语言信息处理技术,从平面、有声、网络媒体10 亿字次的动态海量语料库中提取了2013 年度十大网络用语,如: “喜大普奔”、“土豪金”、“涨姿势”、“女汉子”等。Web应用系统必须能够对类似的新词及时识别与处理才能提高服务的质量和效率,这对中文分词提出了更高的要求。而实际上中文分词系统在处理包含网络用语的文本时存在着一定的问题,例如,用中科院分词系统ICTCLAS对字串“比特币最新行情”分词的结果为“比特/币/最新/行情”; 对字串“他是个吃货”分词的结果为“他/是/个/吃/货”。以上分词结果都存在着偏差,主要原因是分词系统对网络新词的识别率较低。

虽然随着中文分词技术的不断发展,中文分词的两个难点问题: 未登录词识别和切分歧义处理得到了较好的解决,但是对未登录词中的新词的识别效率还有很大的提升空间。与专有名词对比,新词没有特定的构词规律可循,所以识别起来更加困难。目前中文分词系统对新词的处理方法通常是采用人工添加新词到分词词典的方法来解决,这种方法存在实时性差、自动化程度低等缺陷,不能满足Web应用对新词识别时效性的要求。

统计发现由未登录词造成的切分错误数量远远高于歧义造成的切分错误[3]。对分词系统分词结果的优化方向主要还是对未登录词中网络新词的识别。为解决该问题,本文提出利用Web作为知识库自动识别网络新词,实现对中文分词系统分词结果的优化的方法,从而提高分词准确度。Web上包含多种知识可用于分词结果的优化: 首先,搜索引擎( 如百度搜索) 是一个巨大的实时知识库。当某个新词汇被网民大量使用时,使用该词汇搜索时,搜索引擎会返回大量的搜索结果,从而使该词汇具有不同的统计特征; 其次,Web上还存在一些由网络用户共同参与维护的知识库,如百度百科、维基百科中文版等。一些网络新词出现后会被网民作为词条迅速加入到这些知识库中。因此本文利用百度搜索和百度百科作为知识库,结合统计和匹配的方法来识别新词,实现分词结果的二次优化,以提高分词的准确度。本文的实验结果也证明了该方法能够提高中文分词中的网络新词识别效率,具有一定的实际应用价值。

1 基于搜索引擎的网络新词识别方法

网络新词在微博、论坛和贴吧等社交网络上流行度很高。统计分析后发现,网络新词的词长基本上都小于5,通常是由二个、三个和四个字组成[2]。网络新词种类繁多,涉及各个领域和行业,而且没有固定的构词规律。根据对分词结果的统计可知99% 以上的未登录词都会被切成单字[1],因此网络新词主要以单字碎片的方式存在于由分词系统已完成的分词结果中,即文本经过分词系统分词后,其中未能识别出的新词都以连续单字碎片形式存在。

如果连续碎片字是一个新词,则其相对于两个单字来说统计特征更加明显,因此可以通过计算连续碎片字的互信息,并把互信息值大的两个连续碎片字作为二字新词候选词。根据互信息公式,两个连续碎片字的互信息定义为:

定义1 连续碎片字的互信息。有序汉字串AB中汉字A、B之间的互信息为:

其中,P( AB) 为汉字串AB同时出现的概率,P( A) 为汉字A单独出现的概率,P( B) 为汉字B单独出现的概率。如果规定在语料库中AB出现的次数为n( AB) ,A、B单独出现的次数为n( A) 、n( B) ,N是统计语料库中的词频总数,则有:

根据引言中的分析可知选择搜索引擎作为统计语料库时则更能满足网络新词识别的时效性。具体的方法为,分别以A、B、AB为关键词利用搜索引擎进行搜索,以搜索引擎返回的结果作为各自的词频。例如: n( A) 是由搜索引擎搜索出A单独出现的统计词条数,n( AB) 是搜索出A、B共现的统计词条数,本文中取n = 100 亿作为统计语料库中的词频总数。根据式( 2) - 式( 4)分别计算P( AB) 、P( A) 、P( B) ,进一步根据式( 2) 计算A、B的互信息值。当相邻字AB的互信息值大于预先设定的阈值时,则被选为新词候选词。如: 计算字串“东/ 突/ 恐怖/ 分子”连续碎片字的互信息值。搜索引擎统计出数据: n( 东) = 100 000 000、n( 突) = 100 000 000 和n( 东突) = 9 390 000,“东突”字组合的互信息值( 东,突) = 3. 231125。

2 分词结果初次优化

基于第1 节提出连续碎片字互信息的计算方法,提出如下分词结果的初次优化方法。在分词系统的分词结果上,统计长度大于1 的连续单字碎片; 计算连续碎片字组合的互信息值,筛选出2 字候选新词,匹配百科词典,识别2 字新词; 过滤掉互信息值高却不是一个词的字组合,如: “他是”、“是个”、“与学”和“求不”等; 在识别完2 字新词之后,继续采用匹配百科词典的方法匹配出3 字和4 字新词。具体算法如算法1 所示。

算法1 分词结果初次优化算法

3 分词结果二次优化

初次优化算法的结果还可能存在着一些问题。( 1) 对没有连续单字碎片的字串,就无法使用初次优化算法进行分词结果优化。如: “熊/孩子/你/干嘛”,在实际的分词结果中这种现象出现频率很大。( 2) 对NLPIR的分词结果经过初次优化后,并没有实现正确的分词结果,也没有连续单字碎片。例如: 字串的NLPIR分词结果为“流行/ 的/ 甄/ 嬛/ 体”,对其使用初次优化算法优化后得出的分词结果是: “流行/的/甄嬛/体”,但事实上,正确的分词结果应该是“流行/的/甄嬛体”。

在初次优化的基础上需要继续二次优化以提高对新词的识别准确度。经过初次优化后的分词结果,基本上不会出现连续单字碎片的情况,分词结果由已分出的词和不连续的单字组成。其组合存在几种情况,如: 字/词/字…、词/字/词…、字/词/词…和词/词/字…等。二次优化方法如算法2 所示。

算法2 分词结果二次优化算法

4 实验及分析

本文的实验数据主要来源于搜狐网、新浪网、猫扑论坛、百度贴吧和腾讯微博等。因为这些网站具有信息全面、涉及领域广泛、用户多和实时性强等特点。在这些网站中,网络新词的出现率和流行度高。本文从上面几个网站中摘取具有代表性的100 句含有网络新词的字串,作为实验数据。本文新词识别方法是基于分词系统实现的分词结果的基础上进行的。先使用NLPIR分词系统对实验数据进行初步的分词,获取初步的分词结果。

4. 1 词频统计实验

百度搜索引擎拥有庞大、丰富的文档库,采用百度文档库作为训练的语料库,更有代表性。利用搜索引擎来统计相邻字共现频次。在分词结果的基础上,统计实验字串中连续碎片的共现频次。如: “东/突/恐怖/分子”、“大龄/剩/女”、“裸/婚/时代”、“微/信/公众/平台”、“北/漂/生活”、“他/是/个/吃/货”、“学/霸/与/学/渣”、“跪/求/不/挂/科”等。把相邻碎片字作为候选词,统计候选词出现的次数。结果如表1 所示。

表格数据表明: 一些新词共现的频次相对不是很高,但有些共现频率高的字组合却不是一个词,这是导致最后分词优化误差的原因之一。

4. 2 候选词互信息值计算实验

经过上述词频统计处理后,利用互信息计算公式依次计算候选词的互信息值。词语及所对应的互信息值如表2 所示。

表格数据表明: 存在个别新词互信息值相对不高和部分字组合的互信息值较高却不是一个词的现象,这是导致最后分词优化误差的原因之一。

4. 3 网络新词识别实验

对摘取的100 个含有网络新词的句子,采用本文所提出的新词识别方法来进行识别测试。最后的新词识别实验结果如表3 所示。

网络新词主要有2 字词、3 字词和4 字词组成。实验结果表明: 对2 字新词、3 字新词和4 字新词的识别准确率都达到80% ,取得不错的识别效果。

4. 4 中文分词优化实验

由于本文研究主要针对网络新词的识别,所以我们选择从网络新词出现率比较高的几个网络平台采集测试语料,如: 新浪网站、天涯论坛和腾讯微博。对中文分词的测试指标主要是正确率、召回率、F-测度值,本文通过以上三个指标来评价分词结果优化方法的效果,计算的公式分别如下:

最终的中文分词优化如表4 所示。

因为选择的实验数据主要针对含有丰富新词的文本,故由分词系统对这些文本进行分词,其分词效果并不理想。在分词系统的分词结果上,利用本文的新词识别方法来识别新词,并最终优化分词结果。实验数据显示: 三个评价指标都达到相对高的值,取得了不错的分词效果。

4. 5 分词优化具体示例

( 1) ICTCLAS分词结果: 微/信/公众/平台

优化后的分词结果:微信/公众/平台

(2)ICTCLAS分词结果:熊/孩子/你/干/嘛

优化后的分词结果: 熊孩子/你/干/嘛

( 3) ICTCLAS分词结果: 安倍/参拜/靖/国/神/社

优化后的分词结果: 安倍/参拜/靖国神社

5 结语

本文提出一种对网络新词识别新的方法。在分词系统完成的分词结果的基础上,借助搜索引擎知识库实现对网络新词的识别,实现对分词结果的二次优化,进一步提高分词系统的中文分词效果。但是,本文提出的新词识别方法仍然存在一定的不足,有一定的局限性,例如对一些共现频次相对低的新词,就难以正确识别,这些缺点有待进一步改善。但是在识别网络新词方面,本文提出的方法相对于现在的分词系统在精度和准确度方面都有一定的提高,适当的提高了中文分词效率,具有一定的实用价值。

摘要:随着人们在互联网上的活动越来越频繁,网络新词不断涌现。现有的中文分词系统对新词的识别效率并不高。对新词的识别效率直接影响分词的精度,也对互联网应用系统的服务质量产生影响。在分词系统分词结果的基础上,提出利用搜索引擎和百度百科等Web知识,结合统计和匹配实现新词识别的方法,进一步实现对系统原始分词结果的优化。实验数据表明,该方法能够有效识别网络新词并实现分词结果的优化。

关键词:中文分词,未登录词,网络新词,搜索引擎,分词优化

参考文献

[1]贺欢.统计与规则相结合的中文分词模型设计与实现[D].成都:西南交通大学,2013.

[2]何爱元.基于词典和概率统计的中文分词算法研究[D].沈阳:辽宁大学,2011.

[3]岳中原.词典与统计相结合的中文分词的研究[D].武汉:武汉理工大学,2010.

[4]张赢,万仲保.对专业搜索引擎中未登录词的识别研究[J].计算机技术与发展,2009,19(5):134-137.

[5]岳晓光,梁晓诚,麦范金,等.基于.NET中文分词系统设计与实现[J].微计算机信息,2010,26(4):215-217.

[6]郑阳,莫建文.基于专业术语提取的中文分词方法[J].大众科技,2012,14(4):20-23.

[7]蔡勇,刘美玲,李玫,等.一种中医药行业搜索引擎的推荐词产生方式[J].计算机系统应用,2013,22(5):151-154.

[8]谢红薇,王栋.基于Web文本挖掘中的一种中文分词算法研究[J].电脑开发与应用,2007,20(7):6-8.

[9]张五辈,白宇.一种中医名词术语自动抽取方法[J].沈阳航空航天大学学报,2011,28(1):72-75.

[10]都著,熊海灵.基于论坛语料识别中文未登录词的方法[J].计算机工程与设计,2010,31(3):630-633.

过去分词和现在分词专项练习 篇4

1.____ the house on fire, he dialed 119.A.To see B.Seeing C.Having seen D.Being seen

2.I fell down and broke three of my teeth.I wonder how many times I have to come here and get my false teeth ____.A.fix B.fixing C.fixed D.to fix 3.We’re ___ to listen to her ____ voice.It’s ___ to hear her sing.A.pleased;pleasing;pleasure

B.pleased;pleasant;a pleasure C.pleasing;pleased;a pleasure D.pleasing;pleasant;pleasure 4.___a post office, I stopped____ some stamps.A.Passed, buying B.Passing, to buy C.Having passed, buy D.Pass, to buy

5.____with the size of the whole earth, the highest mountain does not seem high at all.A.Comparing B.To compare C.Compared D.Having compared 6.Here are some new computer programs ____for home buildings.A.designing B.design C.designed D.to design

7.____a little money, Jimmy was able to buy his mother a lovely new lamp.A.To save B.Saving C.Saved D.Having saved

8.The teacher came into the classroom ____by his students.A.following B.to be following C.followed D.having followed 9.With the money ___, he couldn’t buy any ticket.A.to lose B.losing C.lost D.has lost

10.There was so much noise in the room that the speaker couldn’t make himself ____.A.being heard B.hearing C.heard D.hear 11.The result of the test was rather _____.A.disappointed B.disappointing C.being disappointed D.disappoint

12.I’ve never heard the word ____in spoken English.A.use B.used C.using D.being used

13._____how to do the homework, I went to ask my teacher for help.A.Not to know B.Not knowing C.Knowing not D.Not known 14.Deeply __, I thanked her again and again.A.being moving B.moved C.moving D.to be moved 15.With winter _____on, it’s time to buy warm clothes.A.came B.comes C.come D.coming

16.____the office, the foreign visitors were shown round the teaching building.A.Having shown B.Showing C.Has shown D.Having been shown

17.He went from door to door, ____waste papers and magazines.A.gathering B.gathered C.gather D.being gathered

18.The student corrected his paper carefully, ____the professor’s suggestions.A.follow B.following C.followed D.being followed 19.The ___price will save you one dollar for each dozen.A.reduce B.reducing C.reduced D.reduces

20.People ____in the city do not know the pleasure of country life.A.live B.to live C.lived D.living

21.The foreigner tried his best, but he still couldn’t make his point ___.A.understand B.understanding C.to understand D.understood 22.The scientists were waiting to see the problem ______.A.settle B.settled C.to settle D.settling

23.The library’s study room is full of students _____for the exam.A.busily prepared B.busy preparing C.busily prepare D.are busily preparing

24.The ground is _____with ____ leaves.A.covering, falling B.covered, falling C.covered, fallen D.covering, fallen

25.Lessons ____easily were soon forgotten.A.to learn B.learn C.learned D.learning

26.The wallet ____several days ago was found ____in the dustbin outside the building。A.stolen, hidden B.stealing, hiding C.stealing, hidden D.stolen, hiding

27.A person _____a foreign language must be able to use the foreign language, ______all about his own.A.to learn, to forget B.learning, to forget C.to learn, forgetting D.learning, forgetting

28.___different kinds of pianos, the workers farther improved their quality.A.To produce B.Being produced C.Produced D.Having produced

29.The students in the university are all taking courses ___a degree.A.coming to B.going to C.leading to D.turning to

30.Many things _____impossible in the past are very common today.A.consider B.considering C.considered D.be considered

31.___many times, he still couldn’t understand.A.Having been told B.Having told C.He having been told D.Telling

32.The old sick lady entered the hospital, ____her two sons.A.to support B.supporting C.supported by D.having supported

33.China is one of the largest countries in the world, _____9.6 million square kilometres.A.to cover B.covered C.covers D.covering

34.____and happy, Tony stood up and accepted the prize.A Surprising B.Surprised C.Being surprised D.To be surprising

35.The visiting Minister expressed his satisfaction with the talks,____ that he had enjoyed his stay here.A.having added B.to add C.adding D.added

36.“Can you read?” Mary said ____to the notice.A.angrily pointing B.and point angrily C.angrily pointed D.and angrily pointing

37._____ the composition, John handed it to the teacher and went out of the room.A.Writing B.Having written C.Written D.Being written

38.Were you ____when you saw that wild animal ? A.fright B.frightening C.frightened D.frighten

39.Properly _____with numbers, the books can be easily found.A.marked B.mark C.to mark D.marking

40.The child sat in the dentist’s chair ____.A.tremble B.trembling C.trembled D.to trembled

41.At this moment the bell rang, _____the end of class.A.announce B.announcing C.announced D.to announce 42.He walked down the hills, ____softly to himself.A.sing B.singing C.sung D.to sing

43.I had to shout to make myself _____ above the noise.A.heard B.hearing C.hear D.to hear

44.The graduating students are busy ___material for their reports.A.collect B.to collect C.collected D.collecting

45.The cars ____in Beijing are as good as those ____in Shanghai.A.produce, produce B.produced, produced C.produced, producing D.producing, producing

46.When I came in, I saw Dr.Li _____a patient.A.examine B.examining C.to examine D.examined

47.____a satisfactory operation, the patient recovered from illness very quickly.A.Having been given B.Having given C.Giving D.Being given

48.____a satisfactory operation, the doctor believed the patient would recover from his illness very soon.A.Having been given B.Having given C.Giving D.Being given

49.He wrote a letter to me _____that his trip to Japan had been put off because of the bad weather.A.inform B.informing C.informed D.being informed

50.He reads newspapers every day to keep himself ____about what’s going on in the world.A.inform B.informing C.informed D.being informed II.用适当的非谓语动词形式填空

1.She caught the student _______(cheat)in exams.2.When I got there, I found him _________(repair)farm tools.3.When I got there, I found the farm tools _______.(repair)4.Just then he heard someone _______(call)for help.5.He worked so hard that he got his pay ______.(raise)6.The missing boys were last seen _______(play)near the river.7.___________(compare)with the old one, the new building looks more beautiful.8.The workers had the machines _______(run)all night long to finish the work on time.9.People in the south have their houses ______(make)of bamboo.10._______(lose)in thought, he almost ran into the car in front of him.1.(江西卷22)_____ the right kind of training, these teenage soccer players may one day grow into the international stars.A.Giving B.Having given C.To give D.Given

2.(江西卷34)The government plans to bring in new laws _____ parents to take more responsibility for the education of their children.A.forced B.forcing C.to be forced D.having forced

3.(辽宁卷22)When we visited my old family home, memory came______ back.A.flooding B.to flood C.flood D.flooded 4.(辽宁卷27), you need to give all you have and try your best.A Being a winner B To be a winner C Be a winner D Having been a winner 5.(湖南卷21)Every evening after dinner, if not from work, I will spend some time walking my dog.A.being tired B.tiring C.tired D.to be tired

6.(湖南卷25)At the age of 29, Dave was a worker, in a small apartment near Boston and ______ what to do about his future.A.living;wondering

B.lived;wondering

C.lived;wondered

D.living;wondered

7.(湖南卷29)Nowadays people sometimes separate their waste to make it easier for it.A.reusing B.reused C.reuses D.to be reused

8.(山东卷22)We are invited to a party _______in our club next Friday.A.to be held B.held C.being held D.holding 9.(山东卷25)The number of foreign students attending Chinese universities ___ rising steadily since1990.A.is B.are C.has been D.have been

10.(重庆卷29)With the world changing fast, we have something new _______with all by ourselves every day.A.deal B.dealt C.to deal D.dealing 11.(北京卷27)The way the guests ___ in the hotel influenced their evaluation of the service.A.treated B.were treated C.would treat D.would be treated 12.(北京卷28)All of them try to use the power of the workstation ___ information in a more effective way.A.presenting B.presented C.being presented D.to present 13.(北京卷34)____ twice, the postman refused to deliver our letters unless we changed our dog.A.Being bitten B.Bitten C.Having bitten D.To be bitten 14.(天津卷4)__ the project in time, the staff were working at weekends.A.Competing B.Having completed C.To have completed D.To complete 15.(天津卷9)_____ by the advances in technology, many farmers have set up wind farms on their land.A.Being encouraged B.Encouraging C.Encouraged D.Having encouraged 16.(浙江卷3)_____ and short of breath, Andy and Ruby were the first to reach the top of Mount Tai.A.To be tried B.Tired C.Tiring D.Being tired

17.(浙江卷7)There is a great deal of evidence that music activities engage different parts of the brain.A.indicate B.indicating C.to indicate D.to be indicating

18.(全国卷II 6)It is often ___that human beings are naturally equipped to speak.A.said B.to say C.saying D.being said 19(重庆卷25.)Michael’s new house is like a huge palace, ____with his old one.A.comparing B.compares C.to compare D.compared 20.(四川卷2)He told us whether ___a picnic was still under discussion A.to have B.having C.have D.had 21.(四川卷4)Ladies and gentlemen, please remain ____ until the plane has come to a complete stop.A.seated B.seating C.to seat D.seat 22.(四川卷10)________ many times, he finally understood it.A.Told B.Telling C.Having told D.Having been told 23.(江苏卷26)Schools across China are expected to hire 50,000 college graduates this year as short-term teachers, almost three times the

number hired last year, _____ reduce unemployment pressures.A.help B.to have helped C.to help D.having helped

24.(江苏卷32)Distinguished guests and friends, welcome to our school, the ceremony of the 50th Anniversary this morning are our alumni(校友)from home and abroad.A.Attend B.To attend C.Attending D.Having attended 25.(全国卷I 30)The children all turned the famous actress as the entered the classroom.A.looked at B.to look at C.to looking at D.look at 26.(全国卷I 35)Now that we’ve discussed our problem, are people happy with the decisions____ ? A.taking B.take C.taken D.to take 27.(福建卷32 not to miss the flight at 15:20, the manager set out for the airport in a hurry.A.Reminding B.Reminded C.To remind D.Having reminded 28.(福建卷34)In April, 2009, President Hu inspected the warships in Qingdao, ____the 60th anniversary of the founding of the PLA Navy.A.marking B.marked C.having marked D.being marked 29.(全国卷II 16)They use computers to keep the traffic ______ smoothly.A.being run B.run C.to run D.running 30.(陕西卷12)I still remember to the Famen Temple and what I saw there.A to take B to be taken C taking D being taken 08 1.(全国I卷26)I like getting up very early in summer.The morning air is so good ____.A.to be breathed B.to breathe C.breathing D.being breathed 2.(安徽卷30)__ in the fields on a March afternoon, he could feel the warmth of spring.A.To walk.B.Walking C.Walked D.Having walked 3.(福建卷22)___ in the queen for half an hour, the old man suddenly realized he had left the cheque in the car.A.Waiting B.To wait

分词优化 篇5

状语从句转化为分词短语分如下几步:

1) 找出从句中谓语部分的主要动词。如:

When he finished his homework, he went out to play football.该从句中的finish是主要动词。

Although he has been told many times, he still couldn’t understand.该从句中tell是主要动词。

Because she didn’t know his telephone number, she had some difficulty getting in touch with John.该从句中know是主要动词。

The secretary worked into the late night, as he prepared a long speech for the boss.该从句中的prepare是主要动词。

2) 判断从句中的主要动词与主句主语的关系。若主句主语为从句主要动词的执行者, 考虑使用现在分词短语做状语;若主句主语为从句主要动作的承受者, 则考虑使用过去分词短语做状语。

在第一个句子中, 主句主语he是从句主要动词finish动作的执行者, 则finish考虑使用现在分词短语做状语。

在第二个句子中, 主句主语he是从句主要动词tell动作的承受着, 则tell考虑使用过去分词短语做状语。

在第三个句子中, 主句主语she是从句主要动词know动作的执行者, 则know考虑使用现在分词短语做状语。

在第四个句子中, 主句主语the secretary是从句主要动词prepare动作的执行者, 则prepare考虑使用现在分词短语做状语。

3) 去掉引导从句的连接词、主语以及谓语部分中的助动词, 主要动词变分词短语。上述四个句子可以变为:

Having finished his homework, he went out to play football. (因finish动作发生在主句动作go out动作之前, 所以用现在分词的完成式)

Told many times, he still couldn’t understand.

Not knowing his telephone number, she had some difficulty getting in touch with John. (因not know动作与主句动作have动作同时发生, 所以用现在分词的一般式)

The secretary worked into the late night, preparing a long speech for the boss. (因prepare动作与主句动作work同时发生, 所以用现在分词的一般式)

注意:过去分词短语实质上相当于现在分词的完成被动式。如上第二个句子也可以写成:Having been told many times, he still couldn’t understand.

当从句部分为否定意义时, not仍然要保留, 放在分词的前面即可, 如上述第三个句子。

若不能构成分词短语时, 则保留引导状语从句的连接词。如:

If it is heated, water can be changed into vapor.→If heated, water can be changed into vapor.

Though we are beaten, we are not discouraged.→Though beaten, we are not discouraged.

4) 若从句中的主动词跟句子主语构不成逻辑上的主谓关系或动宾关系, 则用分词独立主格结构来表达 (名词+分词) 。如:

As Miss Gao fell ill, Mr.Wang took her class instead.→

Miss Gao falling ill, Mr.Wang took her class instead.因为句子主语Mr.Wang即不是fell ill动作的执行者, 也不是fell ill动作的承受者。也就是从句中的主动词跟句子主语构不成逻辑上的主谓关系或动宾关系。选择现在分词还是过去分词, 看主动词跟从句主语的关系, 若从句主语是该动作的执行者, 选现在分词;若从句主语是该动作的承受着选过去分词。如:

If weather permits, we’ll go sightseeing.该从句中weather是permit动作的执行者, 所以要用现在分词。改写成:Weather permitting, we’ll go sightseeing.

When bread is cooked, you can enjoy it.该从句中bread是cook动作的承受着, 所以要用过去分词。改写成:Bread cooked, you can enjoy it.

请同学们以愉快地心情来完成下列习题:

1) a reply, he decided to write again.

A.Not receiving B.Receiving not C.Not having received D.Having not received (提示:主句主语he是receive动作的执行者, 且receive动作发生在decide to write动作之前, 所以要用现在分词的完成式, 否定词not放在—ing之前。选C)

2) The teacher stood there__ by the students.

A.to surround B.surrounding C.surrounds D.surrounded (提示:主句主语the teacher是surround动作的承受者, 所以要用过去分词。选D)

3) __from a plane, the park can be see n clearly.

A.Seeing B.Seen C.To see D.See (提示:主句主语The park是see动作的承受者, 所以要用过去分词。选B)

4) He had a wonderful childhood, __with his mother to all corners of the world.

A.travel B.to travel C.traveled D.traveling (提示:主句主语He是travel动作的执行者, 用现在分词。选D)

5) __the teacher’s suggestion, Tom finally found a way to settle the problem.

A.Following B.To follow C.Follow D.He followed (提示:主句主语Tom是follow动作的执行者用现在分词, 选A)

摘要:在非谓语动词的学习中, 很多学生对现在分词和过去分词的用法感到迷惑不解, 在应用的时候很容易混淆。本文就现在分词和过去分词做状语帮助学生理清学习思路, 找出状语从句和分词短语做状语的转换方法, 帮助学生快速有效地掌握其用法。

分词优化 篇6

1. 作定语

1) 持续性动词过去分词和及物动词现在分词的被动式都可以当定语, 但两者在时间关系上是有差别的。如果定语所表示的动作是在谓语动词表示的动作之前发生或者是没有一定的时间性, 一般用过去分词。例如:

This is his written promise.

这是他的书面保证。

I have got a radio made in shanghai.

我买了一台上海的收音机。

如果定语所表示的动作在说话时正在进行或是与谓语所表示的动作同时发生, 则一般用现在分词的被动式。例如:

The bike being repaired is mine.

正在修理的那辆自行车是我的。

The problem being discussed is of vital important.

正在讨论的问题极其重要。

2) 现在分词被动式当定语一般只能置于被修饰的名词之后。例如:

Is this book being written?

这是那本正在写着的书吗?

The house being built is our reading-room.

正在修建的房子是我们的阅览室。

3) 短暂性动词的过去分词可以作定语, 短暂性动词的现在分词被动式一般不可作定语。例如:

Right:The book bought yesterday is very interting.

Wrong:The book being boughtyesterday is very interesting.

4) 不及物动词的过去分词可以作定语, 表示主动的、完成的意思。例如:

He is the comrade come from Beijing.

他便是那位北京来的同志。

The escaped prisoners were captured.

那些逃跑的罪犯被抓获了。

2. 作宾语补足语

1) 在使役动词have, get等后一般用过去分词而不用现在分词被动式。例如:

I must have these printed.

我一定得让人把这些东西印好。

Have you had your watch stolen?

你的表被人偷了吗?

2) 在感观动词see, hear, feel, find等后作宾补的分词, 如果表示完成意思的就用过去分词, 如果表示说话时正在进行的动作, 或是与谓语动词表示的动作同时发生, 则用现在分词的被动式。例如:

I find his room cleaned.

我发现他的房间打扫过了。

I heard the song being sung.

我听到有人在唱那支歌。

3. 作状语

过去分词与现在分词的被动式都可以作状语。例如:

Combined with practice, the theory is easy to learn.

理论只有与实践相结合, 才容易学到。

Being combined with practice, th theory is easy to learn.

但是在这种情况下, 过去分词用得较多, 现在分词被动式用得甚少。如果强调这个动作是此刻正在进行的, 或是与谓语表示的动作同时发生的, 我们可以用现在分词的被动式形式。例如:

Being asked to sing af song, she couldn’t very well refuse.

有人请她唱支歌, 她不好拒绝。

Being protected by a tombstone he felt be was quite safe.

有墓碑掩护着, 他感到很安全。

注意:如果这个动作先于谓语动词表示的动作, 可以用完成时的被动式。例如:

Having been experimented several times, this new product wil be put into mass production.

经过数次试验后, 这种新产品将投入批量生产。

Having been invited to speak, I’ll start marking preparations tomorrow.

由于应邀讲话, 明天我将开始作准备。

如果不强调这个动作的时间性, 可用过去分词。例如:

Confined to bed, he needed to be waited on in everything.

他卧病在床, 什么事都需要伺候。

United as one, they are fighting a battle.

他们团结得象一个人一样进行战斗。

4. 作表语

及物动词和不及物动词的过去分词都可以作表语, 但现在分词被动式不可作表语。如可以说:He is married.而不能说The tree is fallen.可以说:He is being married.而不能说:The tree is being fallen.

中文分词算法解析 篇7

何为分词?中文分词与其他的分词又有什么不同呢?分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子有take me home,用中文则为:“带我回家”。计算机可以很简单通过空格知道home是一个单词,但是不能很容易明白“回”、“家”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。具体到计算机科学,中文分词则是在计算机中通过人为的规则,编写一个计算机应用程序来对中文文本进行处理,得到词的序列的过程。中文分词是为方便处理中文信息而产生,属于中文信息处理技术的范畴。

2 中文分词算法

根据不同的分词算法:常用的分词算法有最大匹配,最大概率分词法等等。

最大匹配法(Forward Maximum Matching method,FMM法)

2.2.1 最大匹配法剖析

选取包含6-8个汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目相匹配,如果不能匹配就削掉一个汉字继续匹配,直到在词典中找到相应的单词为止。匹配的方向是从右向左。例如图1:最大分词算法。

1)S2="";S1不为空,从S1左边取出候选子串W="计算语言学";

2)查词表,“计算语言学”在词表中,将W加入到S2中,S2=“计算语言学/”,并将W从S1中去掉,此时S1="课程是三个课时";

3)S1不为空,于是从S1左边取出候选子串W="课程是三个";

4)查词表,W不在词表中,将W最右边一个字去掉,得到W="课程是三";

5)查词表,W不在词表中,将W最右边一个字去掉,得到W="课程是";

6)查词表,W不在词表中,将W最右边一个字去掉,得到W="课程";

7)查词表,W在词表中,将W加入到S2中,S2=“计算语言学/课程/”,

将W从S1中去掉,此时S1="是三个课时";

8)S1不为空,于是从S1左边取出候选子串W="是三个课时";

9)查词表,W不在词表中,将W最右边一个字去掉,得到W="是三个课";

10)查词表,W不在词表中,将W最右边一个字去掉,得到W="是三个";

11)查词表,W不在词表中,将W最右边一个字去掉,得到W="是三";

12)查词表,W不在词表中,将W最右边一个字去掉,得到W=“是”,这时W是单字,将W加入到S2中,S2=“计算语言学/课程/是/”,并将从S1中去掉,此时S1="三个课时";

13)S1不为空,从S1左边取出候选子串W="三个课时";

14)查词表,W不在词表中,将W最右边一个字去掉,得到W="三个课";

15)查词表,W不在词表中,将W最右边一个字去掉,得到W="三个";

16)查词表,W不在词表中,将W最右边一个字去掉,得到W=“三”,这时W是单字,将W加入到S2中,S2=“计算语言学/课程/是/三/”,并将W从S1中去掉,此时S1="个课时"。

2.2.2 最大匹配法分词的问题

1)长度限制;

2)效率低;

3)掩盖分词歧义;

4)最大匹配的并不一定是想要的分词方式。

2.2 逆向最大匹配法(Backward Maximum Matching method,BMM法)

匹配方向与MM法相反,是从左向右。实验表明:对于汉语来说,逆向最大匹配法比最大匹配法更有效。逆向最大匹配的分词原理和过程与正向最大匹配相似,区别在于前者从文章或者句子(字串)的末尾开始切分,若不成功则减去最前面的一个字。比如对于字符串“处理机器发生的故障”,第一步,从字串的右边取长度以步长为单位的字段“发生的故障”在词典中进行匹配,匹配不成功,再取字段“生的故障”进行匹配,依次匹配,直到分出“故障”一词,最终使用BMM方法切分的结果为:故障、发生、机器、处理。该方法要求配备逆序词典。

2.3 双向匹配法(Bi-direction Matching method,BM法)

比较MM法与BMM法的切分结果,从而决定正确的切分,双向匹配法属于最大匹配算法的一种增强算法。这种算法有它的优点:可以兼顾汉语句法规律的多样性(即以正向优先为主,逆向优先仍然存在的情况),但是需要一种评估机制来评估两种方向的优劣,比如在我们的系统中,采用了结合度来对不同的分词结果进行分析。但是,正向匹配和逆向匹配都固有的缺点—不能有效处理歧义字段。因此,要提高双向分词的正确率,除了建立对两个方向进行评估的有效机制外,更为根本的是要对正向匹配和反向匹配本身进行改进,以提高其准确性。

由于以上四种方法都是基于字符串匹配的分词方法,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。所以后面不做过多陈述。

2.4 最大概率法

基本思想是:一个待切分的汉字串可能包含多种分词结果;将其中概率最大的那个作为该字串的分词结果。如图2所示为最大概率法分词。

1)对一个待分词的字串S,按照从左到右的顺序取出全部候选词w1,w2,…,wi,…,wn;

2)到词典中查出每个候选词的概率值P(wi),并记录每个候选词的全部左邻词;

3)按照公式1计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词;

4)如果当前词wn是字串S的尾词,且累计概率P'(wn)最大,则wn就是S的终点词;

5)从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即为S的分词结果。

最大概率法问题:

1)并不能解决所有的交集型歧义问题;

2)无法解决组合型歧义问题。

3 总结

以上分析了各种算法的优缺点,就目前而言,分词算法已经算是比较成熟了,有简单的有复杂的,比如正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等。这里就不展开说了。但是要记住一点的是:判断一个分词算法好不好,关键看两点,一个是消除歧义能力;一个是词典未登录词的识别比如人名、地名、机构名等,比如著名的ICTCLAS分词系统就是采用最大匹配算法。

摘要:中文分词是计算机中文信息处理中的难题,而中文分词算法是其中的核心,但由于中英文环境中语素的不同特点,使得中文必须要解决分词的问题。这篇文章较为深刻的阐述了中分分词的算法,基于对分词算法的理解和对匹配法分词的分析,对最大匹配分词方法进行了较深入的研究探讨,提出了什么算法是解决分词效率的最佳方法以及各种方法的比较优劣等问题,及可能产生的歧义,对不同的算法给予了充分的解释,通过对各种算法的比较,总结出了比较常用和效率较高的算法。

关键词:中文分词,最大匹配算法,最大概率算法,算法,系统

参考文献

[1]张华平,刘群.基于N-最短路径方法的中文词语粗分模型[J].中文信息处理学报,2002,16(5):77-83.

[2]黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997,6(1):72-78.

[3]孙宏林.现代汉语语料库分词中的若干问题[M].北京:清华大学出版社,1997.

[4]朱珣.中文自动分词系统的研究[D].武汉:华中师范大学,2004.

[5]张利,张立勇,张晓淼,等.基于改进BP网络的中文歧义字段分词方法研究[J].大连理工大学学报,2007,41(1):131-135.

[6]张卫;中文词性标注的研究与实现[D].南京师范大学,2007.

[7]钱揖丽,郑家恒.文本切分知识获取及其应用[J].计算机工程与应用,2003,39(2):63-64.

汉语分词技术初探 篇8

词是汉语中最小的有意义的独立单位,但在汉语中,词与词之间是没有分隔的,计算机在识别汉语时,无法识别出汉语文本中哪些汉字串组合成词,导致它在处理中文信息时无法直接理解其含义,阻碍了人机的沟通,必须将中文文本进行切分,只有切分为合理的词序列,才能在此基础上进行其它分析处理。

1 汉语分词技术简介

1.1 汉语分词概念

将连续的字序列按照一定的规则重新组合成词序列的过程称为分词,而汉语分词,就是要把一句话中有意义的词汇都切分出来,并重新组合成正确的结果序列。

1.2 汉语分词的方法

现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。网上很多资料对其都有描述,我就不展开说明了。

2 分词词典的构造

目前的分词系统基本上都需要一个很大的词库作为支撑,所以要分词就得先建立一个相当庞大的词典,我的词典机制共分为两层:

2.1 首字HASH表

根据汉字的国标区位码(GB2312)给出,通过一次哈希运算即可直接定位汉字在首字HASH表中的序号,作为索引。GB2312是计算机可识别的编码,其中共收入有6763个汉字,其中一级汉字3755个,二级汉字3008个,我将所有汉字均存储在“dictionary.txt”中。

汉字有了,接下来就是要定义一个可以满足需要的HASH结构体了,我的首字HASH表的一个单元包括4项内容:

关键字:汉字本身;索引值:该汉字在HASH表中的序号;入口项个数:以该字为首字的词的个数;词典树的指针:指向该字的词典树根所在的位置。

结构体定义如下:

在此HASH结构,Word[3]用来存放汉字本身,这里把每个汉字作为一个字符串来存储;key用来存放当前汉字的索引值,一个汉字对应一个索引;WordNnum则用来记录以该字为首字的词的个数;Root是该字对应的词典树的根结点,这棵树是由以该字为首的词构成的。

由于要求每一个汉字都能对应一个HASH单元,所以需要定义一个长度大于汉字个数的HASH数组,这样就有足够的空间与汉字一一对应,接下来就是初始化该数组。

首先是Word[3],初始化的方法是将dictionary.txt中的汉字逐个读出并赋值给Word[3];接着是求索引值key,由于GB2312对所收汉字进行了“分区”处理,汉字所在区为16~87区,每区含有94个汉字,用sec和loc分别表示区码和位码,sec=(ch[0]+256)%256-0xA0-16,loc=(ch[1]+256)%256-OxA0-1,其中ch[0]表示高字节,ch[1]表示低字节,index=:sec*94+loc,index值即为key值;WordNum初始化时置为0,在构建词典时,每加入一个词典中没有的以该字为首的词,它的值会自动加1;Root是一个树结点类型,在此表示该字的词典树的树根结点。

2.2 词典树

词典树中的词均存放在“word.txt”中。

词典树由5项内容构成:

树根结点:该字的索引值;首孩子指针:指向当前结点的第一个孩子结点;兄弟结点指针:指向当前结点的下一个兄弟结点:结点类型:标识当前结点是叶子结点还是分支结点;成词标志:标识从根到当前结点是否构成一词。

词典树的结构体定义如下:

此结构用的是树的孩子兄弟表示法,Value中存入的是此树根所对应的汉字的索引值,由于索引值的唯一性,我们就可以将对汉字的比较转化为对于其索引值的比较,极大地减化了工作的难度。FChild是当前结点的首孩子,而Sibling则是当前结点的兄弟结点,用来连接其下一个兄弟。NodeType用来标识该结点类型是LEAF (值为0)还是BRANCH (值为1),LEAF表示该结点下一层再无孩子结点,FChild为NULL;BRANCH表示该结点下层至少还有一个结点,并由FChild指向。BeWord表示的是从根结点到该结点是否能构成一个词,是则置1,否则置0。初始化时,把Value置为0,FChild和Sibling均为NULL,NodeType为LEAF,BeWord为YES,即每个汉字均默认为一词。

接下来就是建立词典树,所有的词语均存储在文本文档“word.text”中,因此,在建立词典树时,使用文件读取函数fgets函数每次从文件中读出一词,再根据插入算法将该词插入词典树,直到文件中所有的词装载完毕。

3 分词算法

3.1 分词算法思想

词典构建出来之后,分词问题就解决了一大半,只剩下了分词算法。我采用的是正向逐字匹配的方法。具体分词的过程如下:

1.由于我使用的是基于词库的方法,因此在分词前必须先词库载入到内存中,这可以通过定义一个文件读取函数的方法完成;

2.对于段落处理,将不同段落分别存储于不同的字符串中;

3.接着将要处理的语段以标点符号位分隔打散成为一个个小短句,对于每个小短句分开处理,这样对于语段的切分就转化为对小短句的切分,简化了切分语句的过程。

4.文本切分的主要过程。

3.2 切分流程

我的大体思想是:逐个读取句子里面的汉字,并进入首字的词典树,将后面的字逐个与词典树中的词进行匹配,匹配时取最长的匹配结果,匹配出一个词,就将该词切出后加入分隔符,存放在事先定义好的一个匹配字符串中,接着再从该词后面的一个字开始作为首字继续匹配,将后面匹配出来的词加入该匹配字符串中,碰到标点符号则将标点直接加入匹配字符串,并由下一句话开始继续切分,直至段末;

4 结束

分词优化 篇9

___%not to miss the flight at 15:20, the manager set ou for the airport in a hurry.

A.RemindingB.RemindedC.To remindD.Having reminded

该题考查非谓语动词。逻辑主语是句子的主语“the manager”, 非谓语动词与句子主语是被动关系, 且其表示的动作在谓语动词“set out”之前已经发生, 用过去分词表原因状语, 选B。

单项填空第34题考查的是现在分词的用法, 题目如下:

In April, 2009, President Hu inspected the warships in Qingdao, ___the 60th anniversary of the founding of the PLA Navy.

A.marking B.marked C.having marked D.being marked

此题考查的也是非谓语动词。非谓语动词作状语, 其后有宾语, 故与逻辑主语是主动关系, 且表示的动作与谓语动词的动作同时进行, 用现在分词, 故选A。

因此, 我们在学习分词时, 很有必要把过去分词与现在分词放在一起比较学习。

分词分为现在分词和过去分词。现在分词表示动作是主动的和正在进行;过去分词表示动作是被动的和已经完成。结构形式如下表:

分词在句中可以作定语、表语、宾语补足语和状语。

一、作定语

单个分词作定语时, 放在被修饰的名词之前;分词短语作定语时, 放在被修饰的名词之后。区别:过去分词表示动作已经完成或与被修饰的名词存在被动关系;现在分词表示动作正在进行或与被修饰的名词存在主动关系。例如:

(1) a fallen leaf:落叶

a falling star:流星

(2) (1) Is there anything planned for tonight?今晚有什么活动吗? (刘锐诚, 2008)

(2) The man standing there is our headmaster.站在那里的那

个人是我们的校长。

分词作定语时, 作用相当于一个定语从句。例如:

The man talking there is my father.=The man who is talking there is my father.

但是, 需要注意的是:过去分词作前置定语时可以表示完成且有主动的含义 (仅限于某些不及物动词的过去分词作定语) , 例如:an arrived visitor (一位来客) , an escaped prisoner (一个逃犯) ;用在表示情绪的词语中, 例如:a worried look (愁容) , a puzzled expression (困惑的表情) (郭凤高, 2005) 。

二、作表语

区别:过去分词作表语, 表示主语所处的状态或主语的感受, “感到……”;现在分词则表示主语的特征或性质, “令人使人……”。例如:

(1) They feel disappointed at the election.他们对这个选举感到失望。

(2) How disappointing the election is!这个选举是多么令人失望啊!

常见的这类词有:interested—interesting, puzzled—puzzling, surprised—surprising等。

三、作宾语补足语

分词作宾补的用法主要出现在几类动词后, 所以下面把这类动词进行归类, 再加上一个常见结构, 分四点进行解释。

1. 表示“希望、要求”的动词:“want/wish/expect/order+宾语+done”表示“希望/要求某人或某事被……”。例如:

I want the task finished by Friday.我希望星期五完成任务。

2. 表示心理状态的词或感官动词:see/hear/find/notice+宾语+done, 例如:

We saw the burglar caught by the police.我们看见这个盗贼被警察抓起来了。

注:在感官动词“一感 (feel) ”“二听 (listen to/hear) ”“五看 (look at/see/watch/notice/observe) ”后, 过去分词、不定式、现在分词都可作宾补, 但有很大的区别:过去分词强调与宾语存在被动关系, 不带to的不定式强调动作发生的全过程, 现在分词强调与宾语存在主动关系和动作正在进行。例如:

(1) I saw him taken out of the classroom.我看到他被带出了教室。

(2) I saw him come into the classroom.我看到他进了教室。

(3) I saw him coming into the classroom.我看到他正走进教室。

3. 使役动词:leave/get/have/keep+宾语+done/doing, 用过去分词作宾补表示被动, 用现在分词表示主动。例如:

(1) He had his watch repaired.他请人修理了他的手表。

(2) The workers had the machine running all day.工人整天让机器运转着。

注:make后直接过去分词不接现在分词作宾补;catch send/set/start后只接现在分词不接过去分词作宾补。例如:

(1) It’s hard for a teacher to make himself understood by althe students.教师很难让所有的学生都明白自己的话。

(2) I often catch Tom sleeping in class.我经常看见汤姆上课睡觉。

4. 在“with/without+宾语+done/doing”结构中, 其区别同3。例如:

(1) With him homework finished, he watched TV.他做完作业后看了电视。

(2) With winter coming, it’s time to buy warm clothes.冬天要来了, 是时候买保暖的衣服了。

四、作状语

分词作状语既是考查的重点, 又是学习的难点。

1. 作时间状语, 例如:

(1) Asked why he didn’t do it, he began to cry.当被问到他为何做那件事时, 他开始哭泣。

(2) Hearing the good news, they all cried with joy.当听到这个好消息时, 他们都喜极而泣。

2. 作条件状语, 例如:

(1) Given more time, I can catch up with you.如果给我更多时间, 我就能赶上你。

(2) Exercising every day, you’ll keep fit.如果每天锻炼, 你就能保持健康。

3. 作原因状语, 例如:

(1) Born and brought up in the village, he knows manypeople there.由于在这个村庄出生和长大, 他认识那里的许多人们。

(2) Being a student, I must study hard.因为是学生, 我必须努力学习。

4. 作让步状语, 例如:

(1) Defeated many times, they continued to fight.虽然被打败了很多次, 他们仍然继续战斗。

(2) Thinking you are right, I still disagree with you.虽然认为你是对的, 我仍然不同意你的观点。

5. 作伴随状语, 例如:

(1) The teacher entered the classroom, followed by some stu-dents.老师进入教室, 后面跟着一些学生。

(2) The teacher entered the classroom, carrying two books inhis hand.老师进入教室, 手里拿着两本书。

区别:过去分词作状语表示动作与主句的主语是被动关系, 现在分词作状语则表示该动作与主句的主语是主动关系。

▲其他注意事项:1.分词作状语时, 有时为了使意思更明确, 可以在分词前加上对应的连词, 如when, if, because等 (佚名, 2009) 。例如:

If given more time, I can catch up with you.

2.分词还可作插入语。其结构是固定的, 意思上的主语并不是句子的主语 (佚名, 2006) 。例如:generally speaking (一般说来) , judging from (从……判断) , all things considered (从整体来看) , taking all things into consideration (全面看来) 。

参考文献

[1]郭凤高.英语语法实践指南[M].上海:复旦大学出版社, 2005.

[2]刘锐诚.学生实用英语高考必备[M].北京:中国青年出版社, 2008.

[3]佚名.英语语法大全[EB/OL].http://www.wwenglish.com/en/z/grammar/, 2008-5-25, 2006.

上一篇:超临界参数下一篇:批量下载