分词方法

2024-06-24

分词方法(精选十篇)

分词方法 篇1

关键词:汉语自动分词,词库,分词算法

0 引言

汉语自动分词是中文信息处理领域的一项基础性课题,也是智能化中文信息处理的关键,因为“在中文信息处理中,凡是涉及句法、语义等研究项目都要以词为基本单位”[1]。英语等西方语言的书面形式以空格作为词与词之间分隔标志,而汉语的书面形式却是连续的汉字串。这样,理解汉语的首要任务是把连续的汉字串分割成词的序列。本文给出各种传统的自动分词方法并分析这些方法的特点和所遇到的各种问题。

1 各分词方法简介

1.1 机械匹配法

机械匹配法的原则是预先建立所有可能出现的词的一个词库。对特定的待分词的汉字串S,依据某种确定的基本思想切取S的子串,假如本子串和词库中的某词条一致,那么本子串为词,然后继续分割剩余的部分,直到剩余部分是空的;假如本子串和词库中的某词条不匹配,那么本子串不是词,转上重新切取S的子串进行匹配。

依据切取子串的方向,可以把机械匹配法分成以下两种:(1)正向匹配法;(2)逆向匹配法。通过实验发现,正向匹配法的切分正确率比逆向匹配法较低。为了方便发现歧义切分,我们能够把它们有机地衔接在一起,进而生成双向匹配法。因为两者对词库的安排有不一样的要求,因此,把两者结合,需要再次思考词库的安排,旨在它们都可以迅速的执行。依据在进行每次匹配的时候,是首先考虑短词还是长词,我们又能够将机械匹配法分成以下两种:(1)最大匹配法;(2)最小匹配法。因为绝大部分的汉字都能够组成单子词,因此,如果依据(2)(最小匹配法)进行分词的话,其结果通常由于分得过于细致而与要求不相符。在相反情况下,待分串中出现“词中含词”的时候,如果依据(1)(最大匹配法)进行分词的话,其结果或许会由于分得过于粗而与要求不相符。

例如现有短语“计算机科学和工程”,假设词库中最长词为7字词,于是先取“计算机科学和工”为匹配字段,来匹配分词词库,由于词库中没有该词,故匹配失败,去掉最后一个汉字成为“计算机科学和”作为新的匹配字段,重新匹配词库,同样匹配失败,取“计算机科学”作为新的匹配字段,来匹配词库,由于词库中有“计算机科学”一词,从而匹配成功,切分出第一个词“计算机科学”。用同样的方法可以继续切分出第二、第三个词……。

机械匹配法的的原理简单,易于在计算机上实现,时间复杂度也比较低。但是,最大词长的长度很难确定,如果定得太长,则匹配时花费的时间就多,算法的时间复杂度明显提高;如果定得太短,则不能切分长度超过它的词,导致切分正确率的降低。

1.2 语义分析法

为了说明语义分析法的作用,下面考察一下几个汉语句子的切分问题。对汉语句子“他在计算机房基建投资”。按机械匹配法,它既可切分成“他/在/计算机/房/基建/投资”,又可切分成“他/在/计算/机房/基建/投资”。到底该选哪个作为切分结果,机械匹配法无法确定。但是,只要对它们进行语法分析,就不难发现前者不合汉语语法,后者符合汉语语法。所以应以后者作为切分结果。相反,汉语句子“他在计算机房调试程序”应切分成“他/在/计算机/房/调试/程序”。因此,相同的汉字串“计算机房”在不同的语言环境中可有不同的切分,对特定的语言环境到底采用哪种切分可借助语法分析来确定。同理,“何时何地任何职”应切分成“何/时/何/地/任/何/职”,而“任何人都应遵法守纪”应切分成“任何/人/都/应/遵法/守纪”。事实证明:借助语法分析来提高切分正确率是完全可能的[4]。

语义分析法的原则是,预先设置一套汉语语法的规则,在规则之中,一方面确定了某成分的结构,另一方面也给出其子成分间要达到的限制条件。此外,我们还应预先设置所有或许出现的词以及其各种可能的词类的一个词库。对特定的待分词的汉语句子S,依据某种确定的基本思想切取S的子串,假如本子串和词库中的某词条相一致,那么从词库中选出本词的所有词类,其次依据语法规则进行语法的分析。其中包含了构建语法分析树以及检查限制条件,此时,不仅应使用本词的所有词类,同时还应使用前面已经分析部分的结果。假如分析准确,那么本子串就是词,记录语法分析的结果(以便给后继切分做基础),然后继续分割剩余的部分,直至剩余部分是空的;在相反的情况下,本子串不为词,转上重取S的子串进行匹配。

语义分析法虽然提高了分词的精度,但它要求保存分析时产生的所有中间结果(语法分析树),故它的空间开销要大些,也加大了实现的难度。不过,由于分词的最终结果包括一棵语法分析树,所以后继处理中就不必再进行语法分析了。

1.3 理解切分法

理解切分法又称人工智能法,这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。基本思想就是在分词的同时进行句法、语义分析,利用语法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。它与语义分析法的关系是,后者是前者的基础[2]。然而,在语法分析之外,其还应有语义分析。

需要说明的是,为了能够更好的实现理解切分法,仍有许多问题亟待研究。同时,即使是使用了理解切分法也不可以处理整个的歧义切分问题。

例如,汉语句子“乒乓球拍卖完了”既可切分成“乒乓球/拍/卖/完/了”又可切分成“乒乓球/拍卖/完/了”。并且两者都是可理解的。因此,这种分词方法需要具有进一步的语用和语境知识,否则的话,即使人也也不可能断定到底该使用那一种切分。然而,因为汉语语言知识本身具有的复杂性,不容易把每一种语言信息组成一种形式,去让这种形式直接的被机器所读取,因此,当前以理解的分词系统为基础仍然处在试验之中。

2 结论

汉语自动分词虽然是一个非常基本的问题,但是,要想使之不断完善,就必须深入研究汉语的词法、语法、语义甚至语用和篇章理解。每一种汉语自动分词方法都是相互联系的,它们各有优缺点,我们要扬长避短,充分利用每种方法的优势。今天,汉字和汉语日益发挥出它的巨大威力。从这个意义上说,应加紧攻克汉语自动分词及其它中文信息处理领域的难题。

参考文献

[1]龚汉明,周长胜.汉语分词技术综述[J].北京:机械工业学院报,2004,19(3):52-61.

[2]张国煊等.汉语自动分词的直接匹配算法及其词典结构[M].北京:电子工业出版社,1992.

[3]刘开瑛等.自然语言处理[M].北京:科学出版社,1991.

[4]韩世欣等.基于短语结构文法的分词研究[J].中文信息学报,1992.

[5]奉旭辉等.切分与理解交替进行的汉语理解系统[M].长沙:国防科技大学出版社,1991.

[6]孙茂松,左正平,黄昌宁.汉语自动分词词典机制的研究实验[J].中文信息学报,Vol.14,No.1,2000.

[7]黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997,(1).

[8]黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19.

分词方法 篇2

1、字典是最好的教辅书

为什么我喜欢查字典?首先,可靠。英语是非常客观的,是什么就是什么,所以字典告诉你的要比你去问老师同学来得更可靠些;其次,全面。遇到一个陌生的单词,问别人可能只能知道它的意思,但如果你查字典,从读音,到它的各个意思,以及例句,它所引导的短语,就全都知道了。当然,仅限于知道是不够的,还需要记在笔记本上,反复的去记忆。

比起抱一本词汇书去背,这种方式虽然看上去慢一点,但自主性更强一些,学到的东西也更多一些。

2、查什么单词?

在平时做题中,你会接触到大量的单词,尤其是阅读题,完形填空题。有的单词,你明显不会,这肯定要查;有的单词,模模糊糊,似懂非懂,这也要查;还有的单词,你明明知道啥意思,但就是放到这个句子里你翻译不出来,这说明你对它的掌握还是不全面,更要查。

比如我们举一个非常有趣的例子

I think that that that that that student wrote on the blackboard was wrong

这个句子几乎没什么生词吧,但要正确翻译出来却不是一件容易的事。这其实就是对that这个单词各种用法的一个考察。

I think that-1 that-2 that-3 that-4 that-5 student wrote on the blackboard was wrong.

为了看的方便,把5个that都依次编上号,下面进行拆

1.I think (that-1) that-2 that-3 was wrong (that-1,连接词,后接宾语从句,自身无意义,可省略;that-2,指示代词,那个;that-3,指的是写在黑板上的单词that)

2.that-2 that-3 that-4 that-5 students wrote on the blackboard was wrong (that-4,连接代词,引导定语从句,代替写在黑板上的单词that做定语从句(that student wrote on the blackboard)中wrote的宾语)

3.that-5 student wrote on the blackboard (that-5,指示代词,那个学生)

全句意为:我认为那个学生在黑板上写的那个单词(that)是错误的.

当然这个例子比较极端,平时也很少能碰上这样的句子。用意很明显,就是提醒大家一个单词往往有很多用法,通过查单词把他的常见用法都掌握才算是学会一个单词。

3、记忆模糊怎么办?

任何一个单词在最初发明的时候,绝对有一个原始的意思,而不是直接就有词典上的各种意思,而这多种意思一定不会是凭空冒出来的,一定与原始含义有关联。一词多义的掌握和近义词的差别分析,是单词学习的最高水准。

比如这个句子

The band booked the studio to record their record.

record: ① v. 录制 ② n. 唱片

分词方法 篇3

一、考查过去分词作状语的被动性用法

考点说明:过去分词作状语常表被动性动作,体现过去分词的基本特点。

典型考例:

1. ____ in 1636, Harvard is one of the most famous universities in the United States.(NMET2000上海)

A. Being foundedB. It was founded

C. FoundedD. Founding

析:C分析语境逻辑可知,哈佛大学是1636年被建的,因此该空应用过去分词Founded作状语。

2. ____ more attention, the trees could have grown better. (MET1990)

A. GivenB. To giveC. GivingD. Having given

析:A 由语境可知,树是被给予关心的,因此该空应用过去分词Given作状语。

方法揭秘:分析语境逻辑和句子结构看空档是否作被动性状语。

二、考查过去分词作状语的非被动性用法

考点说明:有些过去分词来自于系表结构,作状语时无被动之意。

典型考例:

____ in thought, he almost ran into the car in front of him. (NMET1996)

A. LosingB. Having lostC. LostD. To lose

析:Clost in thought,沉溺于思考之中,它来源于系表结构be lost in thought,没有被动色彩。

方法揭秘:分析语境逻辑和句子结构看空档是否作状语,是否来源于内含过去分词的系表结构。

三、考查过去分词创新结构作状语的用法

考点说明:过去分词可用于“with+名词/代词+过去分词”独立主格结构作状语,这属于过去分词的一种创新结构,过去分词仍表被动动作。

典型考例:

The murderer was brought in, with his hands ____ behind his back. (MET1991)

A. being tiedB. having tiedC. to be tiedD. tied

析:D 语境逻辑制约该空表被绑,可用“with+名词+过去分词”结构作伴随状语。

方法揭秘:分析语境逻辑和句子结构看空档是否符合“with+名词/代词+过去分词”独立主格结构的特点。

四、考查过去分词复合结构作状语的用法

考点说明:过去分词作状语时前面可加上连词、副词构成过去分词复合结构,此时过去分词仍表被动动作。

典型考例:

1. When first ____ to the market, these products enjoyed great success. (NMET2004全国II)

A. introducingB. introduced

C. introduceD. being introduced

析:B 分析语境逻辑可知,这些产品是被引进市场的,因此该空应填过去分词introduced,构成“连词+过去分词”复合结构作时间状语。

2. The research is so designed that once ____ nothing can be done to change it.(NMET2002)

A. beginsB. having begunC. beginningD. begun

析:D 分析语境逻辑可知,该空表被开始,应填过去分词begun,构成连词+过去分词复合结构作条件状语。

3. Generally speaking, ____ according to the directions, the drug has no side effect.(NMET2003上海)

A. when takingB. when taken

C. when to takeD. when to be take

析:B分析语境逻辑可知,该空表当被使用时,因此应用“连词(when)+过去分词(taken)”复合结构作时间状语。

方法揭秘:熟悉过去分词复合结构表现形式,增强其使用意识。

五、考查过去分词作状语时人称一致问题

过去分词作状语时其逻辑主语为主句主语,因此此时应注意人称一致。

典型考例:

Seen from the top of the hill, ____ looks more beautiful.

A. we can find the cityB. it seems that the city

C. it is certain that the cityD. the city

析:D 分析语境逻辑可知,Seen from the top of the hill的逻辑主语应为城市,所以A、B、C均错误。

分词方法 篇4

在基于中文的自然语言处理中,由于不像英文中词与词之间有固定的自然分界符,因此对中文进行分词通常是中文信息处理任务中最基础的任务;同时由于中文自身的复杂性,中文分词也一直是中文信息处理任务的难题。中文分词是进行词性标注、命名实体识别、关键词提取和文本聚类等后续自然语言处理任务的基础,也是语义分析等深层次文本理解任务的基础。在中文搜索引擎、输入法、机器翻译和智能问答系统等应用中也起到了支撑作用。

中文分词作为中文自然语言处理领域的重要基础研究,近些年来很多专家学者致力于该领域的研究,研究方法主要分为两种:1)基于规则的方法;2)基于切分语料的统计的方法。

基于规则的方法利用构词原理结合标注的词性等信息,构建基于句法-语义规则的分析系统,配合语法信息字典,并补充了大量消除歧义的信息。文献[1,2]均利用语法规则,文献[2]在语法规则的基础上增加了领域特征,进行中文分词的处理。基于规则的方法优点是具有针对性和暂时较高的准确率,但由于句法构造的领域相关性,适应性较差,词典与歧义消解处理难维护。

基于切分语料的统计的方法主要为基于字标注的机器学习方法,即字在字串的标注问题,该方法能平等地看待词典词和未登录词的识别。随着SIGHAN国际中文分词评测Bakeoff的展开,基于字标注的中文分词方法广泛应用,在评测中取得性能领先的系统均应用了此类思想[3,4]。文献[5,6]中采用基于最大熵模型的四词位标注集(B,M,E,S)的方法进行中文分词。文献[7]提出使用链式条件随机场CRFs(Conditional Random Fields)模型应用于中文分词。文献[8,9]使用四词位标注集基于链式CRFs模型,选择多种特征模板在Bakeoff语料进行实验,研究得出TMPT-10`的特征模板取得更好的结果。文献[10,11]采用链式CRFs模型,使用六词位标注集(B,B2,B3,M,E,S)和TMPT-6(六特征模板)实现的分词系统,取得很好的分词效果。在此基础上,文献[12,13,14]提出了基于子串标注方法。以上方法对于未登录词的识别率效果仍不是很好。

综合以上研究者的工作发现,线性链CRFs相对于SVM和最大熵等其他机器学习模型,无需设计独立的状态转移特征来表达词位变化。应用到中文分词中具有简洁性,且是对所有特征进行全局归一化,可得到全局最优值。因此本文的工作基于条件随机场模型。首次采用六词位标注集(B,B2,B3,M,E,S)结合TMPT-10和TMPT-10`特征模板,同时使用四词位标注集结合TMPT-10`特征模板和六词位标注集结合TMPT-6特征模板的方法。通过在Bakeoff评测提供的多项封闭语料上进行实验对比,分析使用不同标注集和特征模板集的训练模型对分词性能的影响。研究结果表明,本文提出的6tag-tmpt10方法能取得与其他最好方法相当的F1值,却能得到更好的未登录词召回率,从而互联网领域的中文分词能取得很好地性能。同时,将该方法应用到人力资源领域进行新词发现和词库构建,这对于该领域的自然语言处理和数据挖掘工作有着重要的意义。

1 基于字标注分词的学习模型

基于字标注的分词方法将分词过程转化为每个字在字串序列的标注过程[11]。在中文中,由于一个词语中每个字都占一个确定的词位,因此可以将分词过程视为学习这个字的词位信息的机器学习的过程。采用字标注的分词方法一般过程可分以下三个步骤:1)训练语料中所有的字根据预定义的特征进行词位信息的学习,得到一个训练模型;2)在测试语料的字串上,根据计算最大联合概率,得到每个字的词位标注结果;3)根据词位信息的定义,转换成测试语料的分词结果。采用字标注的分词方法,不依赖于特定的词典,可以平等地看待词典词和未登录词,对于未登录词的识别具有很好的效果。

1.1 条件随机场模型

条件随机场是一种无向图概率模型,在给定输入序列状态的条件下,计算输出序列节点状态的联合概率分布来预测输出序列节点状态的概率。最常应用于中文分词任务的序列标注的CRFs是一种线性链CRFs,在线性链CRFs中,无向边标识随机变量间的依赖关系。

记输入的未标记的字序列为x=x1,x2,…,xn,标签序列为y=y1,y2,…,yn。在给定输入序列下,其状态序列的线性链CRFs条件概率为:

其中,fj为特征函数,ωj为对应特征函数的权值,i表示序列中当前正要标记的字的位置,Z(x)是归一化因子。虽然理论上特征函数fj可以与所有的输入序列x有关系,但考虑到中文由字构词的窗口宽度,通常选择的仅是当前输入和前后相邻几个输入作为该特征函数的自变量。

线性链CRFs相比通用CRFs存在一定的限制:当前标记yj除了与输入序列x有关,仅与前一个输入yj-1相关。在本文基于字的词位标注中文分词中,需要预测当前字与邻近字能否构成一个词,结果不仅依赖这几个字的标记值,而且依赖于上一个字的预测结果,这与线性链CRFs的概率模型非常一致。

在分词应用中,对于SVM和最大熵模型,需要设计独立的状态转移特征来表达词位的转化;而线性链CRFs模型将词位状态移化过程自动集成到模型中,不需专门制定,非常简洁,故对于CRFs模型的字标注方法,仅需考虑字特征。相对于最大熵模型只能求得局部最优值来说,CRF模型是对所有特征进行全局归一化,因此可以求得全局最优值。

1.2 标注集和特征模板的选择

线性链CRFs模型的学习中,每个特征对应了一组相应的特征函数,因此特征的选择对模型的建立至关重要。特征函数定义在H×T集合上,其中T是可能的标注集合,H是可能的上下文集合。

标注集,即每个字对应的词位信息熵预定义的标注。已有的研究工作中常用的标注集有三种:二词位、四词位和六词位标注集,各词位标注集的定义参考表1所示。四词位的标注集主要用于最大熵模型的分词系统[6],二词位的标注集大多用于早期基于字标注的CRFs分词系统[15],文献[10]在Bakeoff-2中首次使用了六词位的标注集,六词位标注集相比于四词位和二词位标注集更能表现字在词语中的词位信息,表达能力更强。

上下文特征按照共同的属性进行的抽象形成若干分组,称为特征模板。对于中文分词,主要考虑字特征,即当前字本身及其上下文构成的特征,通常使用n-gram特征模板,常见的主要有Unigram、Bigram和Trigram类型的特征模板。字特征的主要参数为上下文窗口的宽度,根据在Bakeoff前两届评测的全部训练语料统计发现[11],99%以上的词在是由5个字或5个以下的字构成,得出5个字的上下文窗口宽度比较理想的。

特征模板的配置定义了从训练语料中提取特征的方法,因为特征模板配置的是特征的位置关系,因此在训练语料中出现符合这个位置的成为一个特征。已有的研究中,TMPT-6、TMPT-10、TMPT-10`是最常用的特征模板,文献[8]表明基于四词位标注集采用TMPT-10`特征模板能取得更好的效果,文献[10,11]基于六词位标注集采用TMPT-6特征模板。常用的特征模板集详情如表2所示,Unigram表示单字模板,Bigram表示两个字组成字串的模板,Trigram表示三个字组成字串的模板。其中模板标识Cn代表与当前字相距n位的字,比如C0代表当前字,C1代表当前字的后一个字,C-1表示当前字的前一个字,以此类推。

基于六词位标注的示例训练语料如表3所示,以特征模板“%x[0,0]”为例(特征模板%x[row,col],row和col分别用于确定相对的行偏移和列偏移),当前位置为第一个字“始”。CRF会自动生成一组特征函数集合(func1,…,func L×N),在训练语料每行生成一个特征函数,如下:

一个模板生成的特征函数总数为L×N,其中L为标注集的数量,N是根据特定模板扩展出的特定特征的数目。若将训练语料第一行代入函数中,函数返回1,若训练语料在某行的第一列是“始”,并且它的output也为B,则这个函数也在这一行返回1。通过配置特征模板提取了训练语料中对CRFs模型有表征意义的特征,根据特征进行词位信息的学习每个特征函数的权重参数ω,得到训练模型。在测试语料中,每个字根据特征模板生成一系列的特征函数,这些特征函数的值与该函数的权重值的乘积最后求和得到一个评分函数,采用Viterbi算法计算最大联合概率,得到每个字的词位标注结果,根据词位信息的定义转换成测试语料的分词结果。

本文采用的方法6tag-tmpt10和6tag-tmpt10`采用六词位标注集分别与TMPT-10和TMPT-10`特征模板结合。由于中文词语中字的分布,采用六词位标注集更能表现字在词语中的词位信息,表达能力更强。相比于特征模板TMPT-6,TMPT-10和TMPT-10`配置了5字窗口的上下文宽度,配置了更多的单字、双字字串和三字字串的特征,对于未登录词的识别具有更好的作用。

2 实验及分析

2.1 实验环境、数据集和评测指标

本文实验的环境为Supermicro X9DR3-LN4F服务器,主要参数CPU:2*Intel(R)Xeon(R)CPU E5-2620 v2@2.10 GHz,内存:2.56 GB,操作系统为Ubuntu14.04 64 bit。使用CRF++0.58工具包进行基于字标注模型的学习。

本文实验采用的训练语料和测试语料是由SIGHAN举办的第二届国际中文分词评测Bakeoff所提供的封闭语料,分别由Academia Sinica、City University of Hong Kong、Peking University和Microsoft Research四家研究单位提供,在本文接下来的内容中分别简称为AS、CITYU、PKU和MSR。

在中文分词性能评估中,采用了分词评测常用的R(召回率)、P(准确率)、F(综合指标F值)、ROOV(未登录词召回率)和RIV(词典词召回率)等五项评测指标,以F值为主要评测指标。

2.2 实验对比及结果分析

本文设计了四组实验,提出的采用六词位标注集结合TMPT-10和TMPT-10`特征模板方法,与文献[8]中取得最好分词性能的四词位标注集结合TMPT-10`特征模板,以及文献[10]中在评测中取得最好性能的六词位标注集结合TMPT-6特征模板进行实验。实验项分别记为6tag-tmpt10、6tag-tmpt10`、4tagtmpt10`和6tag-tmpt6。

通过不断地调整CRF++训练模型的参数,在封闭测试集上取得效果最好的一组,并与当年度Bakeoff评测最好的结果(记为Bakeoff-2 Best)[16]进行对比。表4-表7分别是实验方法与Bakeoff评测最好结果在AS语料、CITYU语料、PKU语料和MSR语料上的结果比较。

通过分析表4-表7结果可以发现,首先,在除PKU以外的语料上,本文设计的四组基于CRF模型的实验方法在各指标上都表现得比Bakeoff评测中最好结果要更好。经分析发现,相比于PKU的测试数据,四组实验的方法中文分词切分的粒度较粗,没有针对该语料进行细节调整导致了性能差异;然后,基本上使用六词位标注集的方法均取得了比使用四词位标注集更好的结果;最后,通过对比采用六词位标注集的三种方法,6tagtmpt10方法在F值、召回率以及准确率的结果与最好的6tagtmpt6方法相当接近。但通常能获得更好的未登录词召回率,在AS、CITYU、PKU和MSR语料上未登录词召回率分别比6tagtmpt6方法提高了2.77%、1.45%、3.4%和1.64%。

本次实验中使用六词位标注集的方法不论采用何种常用的特征模板,性能均优于4tag-tmpt10`方法。实验表明,使用六词位标注集的方法相对于使用四词位标注集的方法性能更好,能更有效地标注每个字的词位信息。基于链式CRFs模型,结合更多双字、三字特征的方法通常能获得更好的未登录词召回率,这对于新词发现具有重要意义。

2.3 新词发现

由于获取的人力资源领域数据的特殊性,通常不是连续的自然语言,多项数据是以短语的形式以空格分隔开。为了方便CRF模型处理,需要进行数据的预处理,消除中文和中文间以及中文和英文间的空格;而且,数据中存在大量的无意义的标点符号和常见的中英文停用词,需进行停用词过滤操作。

本实验使用基于链式CRFs模型的6tag-tmpt10方法,训练数据使用2014年人民日报的语料(75 MB),待进行新词发现实验的人力资源领域数据有331万条招聘数据,含31亿5千万个字符,共3.0 GB。通过实验,发现了12万新词,包含诸如“软件工程师”、“系统架构师”、“Linux”、“My SQL”、“Hadoop”等明显标识行业色彩的词,也包含“五险一金”、“薪酬福利”、“包三餐”等人力资源领域员工福利的词,还包含像“office办公”、“Photoshop”、“Auto CAD”等应用技能的词。

通过人力资源领域发现的新词,可加入到中文分词工具的词库中,将显著影响分词的性能,对于该领域的自然语言处理和数据挖掘工作有着非常重要的意义。

3 结语

本文的工作基于条件随机场模型,首次采用六词位标注集(B,B2,B3,M,E,S)结合TMPT-10和TMPT-10`特征模板,同时与常用的标注集和特征模板组合在Bakeoff评测提供的多项封闭语料上进行实验对比。研究得出使用六词位标注集的方法更能表达字的词位标注信息,取得更好的分词效果;本文提出的6tag-tmpt10方法能取得与其他最好方法相当的F1值。同时能得到更好的未登录词召回率,将很好地改善互联网领域中文分词的性能。将该方法应用到人力资源领域进行新词发现并构建词库,这对于该领域的自然语言处理和数据挖掘工作有着重要的意义。

摘要:基于链式条件随机场模型的序列标注中文分词方法随着中文分词评测Bakeoff的展开得到广泛应用。词位标注集和特征模板集对该模型的学习至关重要,但当前的研究大多采用单一的标注集和特征模板集进行实验,缺乏标注集和特征模板集结合的尝试,使得中文分词中未登录词识别率不高,从而影响互联网领域语料的分词效果。首次采用六词位标注集结合TMPT-10和TMPT-10`特征模板,并与常见标注集和特征模板集的组合在Bakeoff语料上进行实验对比,结果表明,改进的方法 6tag-tmpt10取得更好的未登录词召回率,在互联网领域中文分词能取得很好的效果;同时在F值上也与其他最好结果相当。

过去分词和现在分词专项练习 篇5

1.____ the house on fire, he dialed 119.A.To see B.Seeing C.Having seen D.Being seen

2.I fell down and broke three of my teeth.I wonder how many times I have to come here and get my false teeth ____.A.fix B.fixing C.fixed D.to fix 3.We’re ___ to listen to her ____ voice.It’s ___ to hear her sing.A.pleased;pleasing;pleasure

B.pleased;pleasant;a pleasure C.pleasing;pleased;a pleasure D.pleasing;pleasant;pleasure 4.___a post office, I stopped____ some stamps.A.Passed, buying B.Passing, to buy C.Having passed, buy D.Pass, to buy

5.____with the size of the whole earth, the highest mountain does not seem high at all.A.Comparing B.To compare C.Compared D.Having compared 6.Here are some new computer programs ____for home buildings.A.designing B.design C.designed D.to design

7.____a little money, Jimmy was able to buy his mother a lovely new lamp.A.To save B.Saving C.Saved D.Having saved

8.The teacher came into the classroom ____by his students.A.following B.to be following C.followed D.having followed 9.With the money ___, he couldn’t buy any ticket.A.to lose B.losing C.lost D.has lost

10.There was so much noise in the room that the speaker couldn’t make himself ____.A.being heard B.hearing C.heard D.hear 11.The result of the test was rather _____.A.disappointed B.disappointing C.being disappointed D.disappoint

12.I’ve never heard the word ____in spoken English.A.use B.used C.using D.being used

13._____how to do the homework, I went to ask my teacher for help.A.Not to know B.Not knowing C.Knowing not D.Not known 14.Deeply __, I thanked her again and again.A.being moving B.moved C.moving D.to be moved 15.With winter _____on, it’s time to buy warm clothes.A.came B.comes C.come D.coming

16.____the office, the foreign visitors were shown round the teaching building.A.Having shown B.Showing C.Has shown D.Having been shown

17.He went from door to door, ____waste papers and magazines.A.gathering B.gathered C.gather D.being gathered

18.The student corrected his paper carefully, ____the professor’s suggestions.A.follow B.following C.followed D.being followed 19.The ___price will save you one dollar for each dozen.A.reduce B.reducing C.reduced D.reduces

20.People ____in the city do not know the pleasure of country life.A.live B.to live C.lived D.living

21.The foreigner tried his best, but he still couldn’t make his point ___.A.understand B.understanding C.to understand D.understood 22.The scientists were waiting to see the problem ______.A.settle B.settled C.to settle D.settling

23.The library’s study room is full of students _____for the exam.A.busily prepared B.busy preparing C.busily prepare D.are busily preparing

24.The ground is _____with ____ leaves.A.covering, falling B.covered, falling C.covered, fallen D.covering, fallen

25.Lessons ____easily were soon forgotten.A.to learn B.learn C.learned D.learning

26.The wallet ____several days ago was found ____in the dustbin outside the building。A.stolen, hidden B.stealing, hiding C.stealing, hidden D.stolen, hiding

27.A person _____a foreign language must be able to use the foreign language, ______all about his own.A.to learn, to forget B.learning, to forget C.to learn, forgetting D.learning, forgetting

28.___different kinds of pianos, the workers farther improved their quality.A.To produce B.Being produced C.Produced D.Having produced

29.The students in the university are all taking courses ___a degree.A.coming to B.going to C.leading to D.turning to

30.Many things _____impossible in the past are very common today.A.consider B.considering C.considered D.be considered

31.___many times, he still couldn’t understand.A.Having been told B.Having told C.He having been told D.Telling

32.The old sick lady entered the hospital, ____her two sons.A.to support B.supporting C.supported by D.having supported

33.China is one of the largest countries in the world, _____9.6 million square kilometres.A.to cover B.covered C.covers D.covering

34.____and happy, Tony stood up and accepted the prize.A Surprising B.Surprised C.Being surprised D.To be surprising

35.The visiting Minister expressed his satisfaction with the talks,____ that he had enjoyed his stay here.A.having added B.to add C.adding D.added

36.“Can you read?” Mary said ____to the notice.A.angrily pointing B.and point angrily C.angrily pointed D.and angrily pointing

37._____ the composition, John handed it to the teacher and went out of the room.A.Writing B.Having written C.Written D.Being written

38.Were you ____when you saw that wild animal ? A.fright B.frightening C.frightened D.frighten

39.Properly _____with numbers, the books can be easily found.A.marked B.mark C.to mark D.marking

40.The child sat in the dentist’s chair ____.A.tremble B.trembling C.trembled D.to trembled

41.At this moment the bell rang, _____the end of class.A.announce B.announcing C.announced D.to announce 42.He walked down the hills, ____softly to himself.A.sing B.singing C.sung D.to sing

43.I had to shout to make myself _____ above the noise.A.heard B.hearing C.hear D.to hear

44.The graduating students are busy ___material for their reports.A.collect B.to collect C.collected D.collecting

45.The cars ____in Beijing are as good as those ____in Shanghai.A.produce, produce B.produced, produced C.produced, producing D.producing, producing

46.When I came in, I saw Dr.Li _____a patient.A.examine B.examining C.to examine D.examined

47.____a satisfactory operation, the patient recovered from illness very quickly.A.Having been given B.Having given C.Giving D.Being given

48.____a satisfactory operation, the doctor believed the patient would recover from his illness very soon.A.Having been given B.Having given C.Giving D.Being given

49.He wrote a letter to me _____that his trip to Japan had been put off because of the bad weather.A.inform B.informing C.informed D.being informed

50.He reads newspapers every day to keep himself ____about what’s going on in the world.A.inform B.informing C.informed D.being informed II.用适当的非谓语动词形式填空

1.She caught the student _______(cheat)in exams.2.When I got there, I found him _________(repair)farm tools.3.When I got there, I found the farm tools _______.(repair)4.Just then he heard someone _______(call)for help.5.He worked so hard that he got his pay ______.(raise)6.The missing boys were last seen _______(play)near the river.7.___________(compare)with the old one, the new building looks more beautiful.8.The workers had the machines _______(run)all night long to finish the work on time.9.People in the south have their houses ______(make)of bamboo.10._______(lose)in thought, he almost ran into the car in front of him.1.(江西卷22)_____ the right kind of training, these teenage soccer players may one day grow into the international stars.A.Giving B.Having given C.To give D.Given

2.(江西卷34)The government plans to bring in new laws _____ parents to take more responsibility for the education of their children.A.forced B.forcing C.to be forced D.having forced

3.(辽宁卷22)When we visited my old family home, memory came______ back.A.flooding B.to flood C.flood D.flooded 4.(辽宁卷27), you need to give all you have and try your best.A Being a winner B To be a winner C Be a winner D Having been a winner 5.(湖南卷21)Every evening after dinner, if not from work, I will spend some time walking my dog.A.being tired B.tiring C.tired D.to be tired

6.(湖南卷25)At the age of 29, Dave was a worker, in a small apartment near Boston and ______ what to do about his future.A.living;wondering

B.lived;wondering

C.lived;wondered

D.living;wondered

7.(湖南卷29)Nowadays people sometimes separate their waste to make it easier for it.A.reusing B.reused C.reuses D.to be reused

8.(山东卷22)We are invited to a party _______in our club next Friday.A.to be held B.held C.being held D.holding 9.(山东卷25)The number of foreign students attending Chinese universities ___ rising steadily since1990.A.is B.are C.has been D.have been

10.(重庆卷29)With the world changing fast, we have something new _______with all by ourselves every day.A.deal B.dealt C.to deal D.dealing 11.(北京卷27)The way the guests ___ in the hotel influenced their evaluation of the service.A.treated B.were treated C.would treat D.would be treated 12.(北京卷28)All of them try to use the power of the workstation ___ information in a more effective way.A.presenting B.presented C.being presented D.to present 13.(北京卷34)____ twice, the postman refused to deliver our letters unless we changed our dog.A.Being bitten B.Bitten C.Having bitten D.To be bitten 14.(天津卷4)__ the project in time, the staff were working at weekends.A.Competing B.Having completed C.To have completed D.To complete 15.(天津卷9)_____ by the advances in technology, many farmers have set up wind farms on their land.A.Being encouraged B.Encouraging C.Encouraged D.Having encouraged 16.(浙江卷3)_____ and short of breath, Andy and Ruby were the first to reach the top of Mount Tai.A.To be tried B.Tired C.Tiring D.Being tired

17.(浙江卷7)There is a great deal of evidence that music activities engage different parts of the brain.A.indicate B.indicating C.to indicate D.to be indicating

18.(全国卷II 6)It is often ___that human beings are naturally equipped to speak.A.said B.to say C.saying D.being said 19(重庆卷25.)Michael’s new house is like a huge palace, ____with his old one.A.comparing B.compares C.to compare D.compared 20.(四川卷2)He told us whether ___a picnic was still under discussion A.to have B.having C.have D.had 21.(四川卷4)Ladies and gentlemen, please remain ____ until the plane has come to a complete stop.A.seated B.seating C.to seat D.seat 22.(四川卷10)________ many times, he finally understood it.A.Told B.Telling C.Having told D.Having been told 23.(江苏卷26)Schools across China are expected to hire 50,000 college graduates this year as short-term teachers, almost three times the

number hired last year, _____ reduce unemployment pressures.A.help B.to have helped C.to help D.having helped

24.(江苏卷32)Distinguished guests and friends, welcome to our school, the ceremony of the 50th Anniversary this morning are our alumni(校友)from home and abroad.A.Attend B.To attend C.Attending D.Having attended 25.(全国卷I 30)The children all turned the famous actress as the entered the classroom.A.looked at B.to look at C.to looking at D.look at 26.(全国卷I 35)Now that we’ve discussed our problem, are people happy with the decisions____ ? A.taking B.take C.taken D.to take 27.(福建卷32 not to miss the flight at 15:20, the manager set out for the airport in a hurry.A.Reminding B.Reminded C.To remind D.Having reminded 28.(福建卷34)In April, 2009, President Hu inspected the warships in Qingdao, ____the 60th anniversary of the founding of the PLA Navy.A.marking B.marked C.having marked D.being marked 29.(全国卷II 16)They use computers to keep the traffic ______ smoothly.A.being run B.run C.to run D.running 30.(陕西卷12)I still remember to the Famen Temple and what I saw there.A to take B to be taken C taking D being taken 08 1.(全国I卷26)I like getting up very early in summer.The morning air is so good ____.A.to be breathed B.to breathe C.breathing D.being breathed 2.(安徽卷30)__ in the fields on a March afternoon, he could feel the warmth of spring.A.To walk.B.Walking C.Walked D.Having walked 3.(福建卷22)___ in the queen for half an hour, the old man suddenly realized he had left the cheque in the car.A.Waiting B.To wait

分词方法 篇6

1) 现在分词表示主动意义,过去分词表示被动意义。

2) 现在分词表示动作正在进行,过去分词表示状态或动作已经完成,或表示被动的动作。

下面就对它们的用法和含义作一具体说明。

一、 单个分词作定语修饰名词时,通常常放在被修饰的名词前面,说明被修饰名词的性质或特征。表示“……的”或“用作……的”。

1. 现在分词作定语

A. 现在分词表示主动意义。如: a moving film 一场感人的电影; the surprising news 令人惊讶的消息

B. 现在分词表示动作正在进行。如: a developing country一个发展中国家; a sleeping boy 一个正在睡觉的男孩; boiling water 沸水

2. 过去分词作定语

A. 过去分词表示被动意义。如: boiled water 开水(烧开过的水); a broken cup 一个破杯子(被打破的杯子); an honored teacher 一个被人尊敬的老师

B. 表示动作已经发生或者完成。如: an injured boy一个受伤的男孩(已经受伤); a retired worker 一个退休工人(已经退休); a developed country一个发达国家(已经完成发展的过程); some fallen leaves 一些落叶(已经落下的叶子)

二、 分词短语常作后置定语,放在被修饰的名词后面,相当于一个定语从句。

1. 现在分词常带有“正在……”的含义。例如:

The boy standing near the window is my brother. (相当于The boy who is standing near the window is my brother.) 正站在窗户旁边的那个男孩是我的兄弟。

2. 过去分词表常表示被动含义。例如:

分词方法 篇7

传统的分词方法一般不考虑词性对分词结果的影响,而传统的词法分析一般都是在已经存在的分词结果上进行词性标注,并不能改正分词结果中已经存在的错误。目前也有一些词法分析模型可以同时完成分词和词性标注,但是其真正的实现过程中,分词和词法分析仍然是独立的两个过程,只是在选择结果的时候以某正方式抽取出最可能同时满足分词和词法分析的结果或者是以某正方式将两个过程糅合成一个,这种系统的实现难度一般都比较大。虽然这类系统的准确率较高,但是都存在时间复杂度偏高或者模型训练难度大的问题。本文通过设计一套包含了词性信息的字位置信息标记,在训练时对训练语料进行改造,将训练语料的标注信息转化用新标记标注的语料,然后根据转化的结果进行训练,并用训练产生的模型对待分词字符串采用Viterbi算法进行标注,最后找出最大概率路径作为分词结果,该分词结果同时也包含了词法分析的结果。这样的处理方式,不仅训练数据改造程度较小,比较容易实现,而且只要采用了这套标记,只需要对现有的分词系统进行轻微的更改以适应这套标记,无需对分词系统的结构或者核心算法进行调整,通过这样一个简单的修改过程,即可将一个现有的功能单一的分词系统改造成一个可以同时实现分词和词法分析的系统。本文采用隐马尔科夫模型作为分词系统的数据模型来进行试验。

1 传统的字位置信息标记

汉语中的每个词语是由一个字或多个字组成的,例如:“天空”、“今天”是两个字组成的词语,“异想天开”是四字词,“天”是单字词。而构成词语的每个汉字在一个特定的词语中都占据着一个确定的构词位置,即词位。本文中的字位置信息标记一共有7种词位:B(词首)、S2(词的第二字并且不是词尾)、S3(词的第三字),S4(词的第四字)O(词的第五字以及词尾之间的字)、E(词尾)和S(单字成词)。。显然同一个汉字在不同的词语中的词位可以不同,例如,汉字“天”在上面的四个词语中的词位依次是:词首B、词尾E、第三字S3、单字词S基于字的词位标注汉语分词就是把分词过程看作每个字的词位标注问题。如果一个汉语字串中每个字的词位都确定了,那么该字串的词语切分也就完成了。例如,要对字串“中华人民共和国成立了”进行分词,只需标注出该字串的词位序列(1)的标注结果就很容易得到对应的分词结果(2)了。

(1)词位序列:当/S希/B望/S2工/S3程/E救/B助/E的/S百/B万/E儿/B童/E成/B长/E起/B来/E。/S

(2)分词结果:当希望工程救助的百万儿童成长起来。

需要注意的是,由于汉语真实文本中还包含少量的非汉字字符,所以基于字的词位标注汉语分词中所说的字不仅仅指汉字,而且还包括标点符号、西文字母、数字等其他非汉字字符。

2 新的字位置信息标记

传统的字位置信息标记中只包含字的位置信息,对于同一个字在所有不同词性的词中出现的情况下,都只保存其位置信息,而不保存词性,因此产生的结果就是分词的结果,而不能从分词结果中去判断一个词的词性。而且由于同一个字在训练语料的不同类型的词中所处的位置不同,训练时传统的字标注分词模型只能将同一个字在不同词性的词中的所处的位置保存到该字的同一个的字位置信息记录中,而同一个字在不同词类的词中所处的位置经常是完全不同的,这样就会对最终的训练结果产生影响。而在字位置信息标记中包含了词性信息之后,就可以对同一个字,根据其所在词的词性不同,分别保存该字的信息。这样不仅可以产生更准确的训练数据,而且采用这种标记进行字标注分词后,由于标记中包含了词性信息,可以从分词结果中还原出词性信息。

对同一个字在不同词性的词中出现的情况,假设有如下语料:

江/nr泽民/nr 黑龙江/ns

对于该语料中的“江”字,作为中文人名的姓出现时,一般是单独的一个字,但是作为一个地名出现时,一般是作为词的结尾出现的。当语料中“江”作为姓出现的次数和作为地名出现的次数一致时,经过该语料训练产生的模型中,“江”字的字位置信息如下:

采用传统的字位置信息标记训练产生的结果:

江/S 1 江/E 1

采用包含了词性信息的字位置信息标记训练产生的结果:

江/NR_S 1 江/NS_E 1

当采用该模型进行分词时,采用传统的字位置标记的字标注分词系统训练对所有碰到的“江”字都采用1:1的概率来标记该字的位置,而采用包含了词性信息的字位置信息标记的系统中,就可以根据“江”所在的上下文环境来进行判断是一个姓或者是一个地名的结尾,这样就可以较为准确的对“江”进行标记。

3 N-viterbi算法

隐马模型中的viterbi算法可以实现从分词图中查找出一条概率最大的分词路径。但是对于大多数采用隐马模型的分词系统,可能将分词的过程分成多个阶段,每个阶段都要求生成概率最大的前N个结果交给后续的处理过程进行处理。对于这样的情况,就无法采用viterbi算法。而不采用viterbi算法,则时间复杂度和空间复杂度都将大大提升,甚至由于分词图太大导致无法获取结果。

针对这样的情况,本文对viterbi算法进行了修改,并将修改后的算法命名为N-viterbi算法。其中的N表示希望从一个分词图中获取的前N个最大概率路径。由于每次获取的路径都是分词图中的当前最大可能概率路径,因此采用N-viterbi算法获取的路径按获取顺序排列,就可以保证这些路径就是当前分词图的前N个最大概率路径。

N-viterbi算法不仅仅能用于分词系统,也适用于所有采用HMM模型,并且需要获得多个可能的隐藏状态序列的环境,通过N-viterbi算法保存多个可能的隐藏状态序列以供后续的处理过程进行选择和处理。

3.1 N-viterbi算法实现

3.2 N-viterbi算法过程

1)采用viterbi算法对分词图进行标记,如果某个节点存在多个可到达的路径,把该节点标记为multip。

2)利用viterbi算法中的反向指针查找出分词图的当前最大概率路径,并将最大概率路径对应的节点记录下来。

3)从最大概率路径的开始节点开始向后查找,找到第一个被标记为multip的节点,删除这个节点的反向指针指向的前一个节点,并清空分词图中的所有标志位和概率值。

4)重复1)到3)的操作

3.3 结束条件(满足任意一条即可)

1)计数值i大于N,即已经查找到了前N条最大概率路径

2)在算法步骤3)中找不到可以删除的节点,说明当前路径是分词图中最后一条可以找到的路径

4 双向词性筛选

假设一个字符串包含字Ci(0<=0<=n,n为字符的个数)。每个字有词性Pj(0<=j<=m,m为该字的所有可能词性的个数,每个字的m取值都可能不同)。

4.1 单向词性判断

分词模型中,在计算词性节点(Ci Pj)(表示字符i的第j个词性)时,按照以下步骤执行:

1)获取字Ci的所有可能词性Pj

2)从分词图中获取Ci的前一个字符Ci-1的可达词性Pk(0<=k<=m)

3)从矩阵中获取从词性节点(Ci-1Pk)到词性Pj的概率

4)结合步骤1)2)3)的结果,计算词性节点(CiPj)可达的概率P(CiPj)

4.2 双向词性判断

在步骤3)中,只分析了词性节点(Ci-1Pk)在词性Pj之前的概率,即P(Pj|Ci-1Pk),把所有词性为Pj的字都统一对待。但是在汉字的实际应用中,有很多字都可能包含同一个词性,但是并不是所有取该词性的字跟在一个词性为Pk的字的后面的概率都是一致的,甚至其中的某些字根本不能跟在词性为Pk的字的后面,因此只从前向后判断词性的做法并不符合真实的汉语环境。本文对分词模型的第3)个步骤进行了修改,修改后的过程如下:

1)获取字Ci的所有可能词性Pj

2)从分词图中获取Ci的前一个字符Ci-1的可达词性Pk(0<=k<=m)

3)从矩阵中获取从词性节点(Ci-1Pk)到词性Pj的概率Pf,从反向矩阵中获取词性Pk在词性节点(CiPj)之前的概率Pb,如果Pb<=0,说明无法从词性节点(Ci-1Pk)转移到词性节点(CiPj),结束本次操作

4)结合步骤1)2)3)的结果,计算词性节点(CiPj)可达的概率P(CiPj)

加入了反向词性判断后,就可以避免分词结果中包含了某些本来不可能组合在一起的字组合在一起的情况。但是反向词性判断对训练数据的要求更大,由于对分词路径搜索时的要求更严格,也就更可能导致其中某些字无法找到符合要求的路径,从而被当做未登录字处理的情况出现。

5 分词系统技术实现

5.1 语料库预处理

包括5个处理步骤,分别为去除编号、合并组合词、日期处理。去除的部分都是对训练没有帮助反而可能会加重训练负担的部分。人民日报语料是纯文本文件,文本中每个开头的编号,“19980101-01-001-001”表示这一自然段是1998年1月1日01版001篇文章的001自然段,首先要去掉的就是这个编号;日期处理主要是把如“1999”这样的字段作为一个字符进行标记,而不是4个字符。

本文还将语料库中中文的姓名的姓和名部分拆开,分别采用不同的标记来表示。

5.2 语料库改造

本文对组合词采用的是合并操作,而不是将组合词拆分成几个词进行处理,而组合词一般都由多个字组成,因此本文中的字位置标记一共分为7类,这样可以较完整的保存由多个字组成的词的信息。对于语料库中的每个原始的词性标记,都需要生成对应的7个新的标记。

假设语料中有人名:帕瓦罗帝

带标记的原始语料中为:帕瓦罗帝/nr

替换成新的标记后,语料被改造成:

帕/NR_B瓦/NR_S2罗/NR_S3帝/NR_E

5.3 学习

在经过改造后的语料上进行训练。本文采用的分词系统是基于隐马尔科夫模型实现的。

5.4 分词

5.4.1 分字及标准化

由于是字标注分词,因此分词的第一步仍然是将字符串分割成由元素组成的序列,每个元素都是一个字符或者符号,也可以是采用简单的规则合并连续的阿拉伯数字以及英文字符。

5.4.2 分句

根据规定的断句规则,对字符串进行句子分割操作,将字符串分割成句子组成的集合。

5.4.3 创建分词图

对每个句子都生成一个对应的分词图。分词图中的每一个节点分别代表一个4.1中生成的元素查询初始状态概率字典后获取的每一个可能词性,并记录该节点取该词性的概率以初始化分词图中节点的状态。

5.4.4 遍历分词图

采用N-viterbi算法遍历分词图.N-viterbi可以从当前分词图中获取前N条最该概率的分词路径。

5.4.5 查找最大概率路径

由于这是本文分词系统的最后一个处理过程,只要求一个最终结果,而不需要提供多条可能的路径供后续处理过程使用,因此只需选择N-viterbi算法的第一个结果作为分词的结果即可。

5.4.6 替换标记,生成结果

由于系统采用的是新标记系统,因此在生成结果输出时,还需要对标记的结果进行还原,根据标记的结果完成分词的操作,将字符串分割成词语的序列,还需要根据新标记的结果进行词性标记替换,以保留词法分析的结果。

6 实验及结果分析

本次实验采用1998年人民日报语料:

实验一共分为2个部分:

6.1 实验一

第一个实验采用训练数据来测试分词的效果,此时不存在未登录字的问题,实验结果如下:

6.2 实验二

第二个实验采用测试数据来测试分词的效果,因为训练数据的局限,测试数据中的某些字并不包含在训练语料中,因此无法被系统识别,只要一个句子中出现了这样的一个未登录字,就会对整个句子的分词和词性标注效果产生影响,从而导致结果的错误。实验结果如下:

6.3 结果分析

从实验的结果可以看出,采用新的标记系统仍然可以较准确的完成分词的操作,但是词法分析的准确率比较低。实验二的分词和词法分析的准确率都比实验一要低很多,这主要是因为训练语料的数据量较小,对常用字符的覆盖率较低,因此在对实验二的数据进行分词操作时,就出现了很多无法识别的字符,因此降低了实验二的准确率。实验一和实验二的对比说明本系统在提供足够的训练语料的前提下,分词的准确率能达到97.1%,基本满足了实用系统的条件。而且本文的实验系统能够直接对由多个汉字组成的组合词进行识别,更符合实际的应用需求。

在实验一中,采用双向词性筛选后,分词和词性标记的准确率都有明显的提升,而在实验二中,采用双向词性筛选后,分词的准确率提升不明显,而词性标记的准确率反而下降了。这是由于双向词性筛选对训练数据的要求更大。由于双向词性筛选的准确定位要求,只要没有包含在训练数据中的字,都被直接当做未登录字处理。而采用单向词性筛选的系统,由于少了反向筛选限制,对字信息的要求较低,在碰到未登录字时,就有较大的概率识别出未登录字。因此在训练数据不足以包含测试数据的情况下,单向词性筛选反而可以获得更准确的结果。

7 结束语

结合了词性信息的字标注分词系统,不仅可以提升分词的准确率,而且在保证分词准确率的基础上,也能完成词法分析操作。

由于本文中只有一个时间复杂度为O(n)(其中n为一个待分词句子中包含的字符个数)的分词图标记操作,所以系统的总体时间复杂度也是O(n),分词的速度大于大部分的现有分词系统。并且和一般的字标注系统一样,数据字典和矩阵都是以字为单位,记录的数量等于常见的单个字符数量,远远小于以常用词为单位的分词系统,因此分词系统所占的内存也较少。

限于训练语料的大小,实验的系统无法覆盖所有的常见字,即使这样,实验结果的准确率仍然是很高的。至于词法分析结果,目前仍然不太理想,还无法直接作为词法分析的最终结果,仍然有进一步提升的空间。

从实验结果来看,本文的方法是可行的。本文的方法使原本功能单一的分词系统能兼顾到后续的词法分析过程,虽然目前词法分析的结果准确率不高,但是该结果仍然可以用于引导后续的词法分析过程。而且由于字标注分词的特性,并不存在所谓的未登录词,因此对于后续的词法分析中无法识别的词,在分词阶段就给出了比较准确的词性范围。

在以上研究的基础上,还有很多后续工作要做:由于语料库包含的字的层面的信息不够多使其存在无法识别的字,极大的影响了实验的结果。未来可以尝试扩大语料的数量以提升准确率,还可以尝试在其他的数据模型上使用本文提出的字信息标记系统,查找出最合适的数据模型。笔者希望通过不断改进,可以继续提高分词和词法分析的准确率,使其能够在实现分词和词法分析的一体化的同时,也能够达到较高的准确率。最终应用于实际,为中文信息处理服务。

参考文献

[1]姚敏.汉语自动分词和中文人名识别技术研究[D].杭州:浙江大学,2006.

分词方法 篇8

关键词:停用词,候选分词,置信度,抽取新词

1 引言(Introduction)

在专利信息技术中,专利文献信息检索、机器翻译、专利辅助自动文摘和CPC/IPC自动分类,都会用到一个基本的技术——分词技术。所谓分词,就是利用已有词库的词,来切分文章中的词的过程[1,4]。随着大量文献的不断引入,已有词库永远不能满足实际所需。更新分词库,是一项必要工作。如果完全由人工来处理新词,经过一系列抽取、标引、审校和入库流程,当实际需要处理的量远远超过人的能力时,那么准确性和效率就会成为一个问题。那么这就涉及另外一项自动化技术,抽取新词的技术。抽词技术目前已经非常成熟,方法也比较多。比较成熟的产品技术,通过语料库、训练集和复杂的数学模型及其昂贵的资源代价,来获得高质量的效果。其效果与语料库或知识库收集的量有很大的关系。量越大越容易精确。在专利信息领域中,完全依赖知识库的方法,对于那些改进性的发明,还能起作用。但是对于那些强调首创性的发明,彼此之间相似性就很少,算法再高明,也可能收效甚微。本文因受N-gram启发[2],借鉴置信度消除歧义词[3],一个几乎被淡忘的陈旧方法,经过简单优化,以最小代价来解决文献领域面向新词的抽取繁重工作带来的问题,效果非常显著。

2 抽词技术的现状( The e xtracting word stechnology)

目前抽词技术主要有四类,基于词库的、规则的、统计的和格式化文档的抽词法。

2.1 基于词库的关键词抽取法

这种方法主要利用已有词库来抽取关键词,和词典分词法大致类同。和最大分词不同,需要枚举所有长短可能的词,这些词都是词库已有的词。不能识别未登录词。通常检索短语用的就是这类方法。

2.2 基于规则的关键词抽取法

利用句法或语义分析,借助句法知识库、语义知识库等资源,抽取出文件中的名词词素,以名词素为中心,向前向后扩展新词。利用句法或语义分析,借助句法知识库、语义知识库等资源,抽取出文件中的名词词素,运用一些方法与准则,过滤掉不符合规则的词素。经过这样的处理之后,得到的结果几乎都是有意义的名词或名词短语。对于面向英文的处理,这种做法已经取得了非常好的效果。通常机器翻译用的就是这类方法。

2.3 基于统计的关键词抽取法

通过对文献中词频统计和对派生出来的新词的互信息来获取新词。统计方法细分还有几种方法:N-gram方法、词频、TFIDF、词的同现信息、PAT-Tree,或是上述某些统计方法的结合等。通常自动文摘、自动分类、自动标引等会用到这类中的一些方法。自动文摘、自动分类常用TFIDF方法来计算。抽取新词常用N-gram与词的同现信息计算。PAT-Tree和N-gram是抽词常用的两种方法。TFIDF、PAT-Tree需要语料信息和资源支持,计算概率和词频权重。N-gram不需要语料信息和资源,但计算量会较大。

2.4 基于格式化文档的关键词抽取法

利用一些排版规则、文档结构化和格式化规律,将重要的字符串抽取出来。例如:专利文献中的标题、文摘、权利要求书及其著录项目、关键词、同义词等结构文档;权利要求书中的语义树形态的陈述形式。可以按照文献结构格式化的规律,找到相应关键词,按照出现的位置重要性赋予不同的权重,以期达到抽取关键词的目的。即便是低频词,由于出现在非常重要位置上,因而也能将其从文献中轻易地得到。例如:出现在发明专利标题中的每一个词都非常重要,即便文摘中并未反复多次出现,但是其不同位置词频度与权重积之总和却很高,那么也能构成关键词要素。通常自动文摘、自动分类、自动标引等也会用到这类方法。

3 本文抽词技术的实现(The realization of the technology of the paper)

抽词技术方法很多,考虑到经济和实用因素,复杂的数学计算方法、需要大量历史信息、语料库、训练集的支持,与主旨相悖,避开此类方法,寻求更简单有效的方法。采用基于统计的方法,且仅限于对于一篇文献进行处理。以常见的N-gram方法来枚举候选词。通过寻找候选词间的包含关系,计算置信度的取值,来滤除掉不需要的候选词。从而留下频度较高的、可能性大的候选词。关键词就出自其中。借助已有分词库,再滤掉那些已有词,最终得到的候选词就是候选新词。抽词算法流程图,如图1所示。

3.1 停用词处理

停用词对于抽词结果的影响比较大。选择不同的停用词集合,产生的候选词也会不同。例如:“有”字被停用后,“有机...”等词也被抑制。“和”字被停用后,“饱和...”等词也被抑制。

通常建议提供停用词库客户端个性化可调整方案,根据情况适度变换停用词策略,会产生不同的新词条和关键词。变换停用词应以能够适应用户需求和方便操作为前提,优先考虑解决方案。

停用词库的使用顺序,也会对抽词产生很大影响。例如:“有”对“具有”或“所有”的影响,如果最先使用短词“有”,那么就会留下“具”或“所”与其他字词组成“…具”或“…所”的候选新词条,形成歧义词条。

通常建议构造停用字词库,应按照{词长[逆序],词条[正序]}有序存放。亦即停用词过滤按照长词优先原则。避免停用词因使用顺序不当而带来新的问题。

3.2 候选词条枚举

该方法借鉴N-gram算法[2],并受其启发。首先要确定一个分词可能的最大长度,即N取多少个汉字合适。考虑到化学、药物、微生物等领域的技术术语可能会有大量长词出现。因此,适当降低访问效率,满足分词长度要求,也是可容忍的。通常认为一个长词最长不超过15个汉字,就可以符合专利信息领域对关键词的需求。N取15,这是分词库的一项重要参数定义。分词至少由2个汉字组成,分词库不接收单字词。为了阐述方便,以分词最大长度取5为例。枚举候选分词,详见表1。

算法:

3.3 候选词条统计

处理一篇文献须对已生成候选词条进行排序和频度统计,形成候选词条有序集。

3.4 歧义词消除

定义:在候选词条集ψ中,如果汉字结合模式ω1添加前缀pref或后缀suff后,构成汉字结合模式ω2,即ω2=ω1+suff或ω2=pref+ω1或ω2=pref+ω1+suff,那么模式ω2在文档中的出现频度Γ(ω2,s)与模式ω1在文档中出现频度Γ(ω1,s)之比称为模式ω2相对于模式ω1的置信度Confidence(ω2|ω1)。Confidence(ω2|ω1)≈Γ(ω2,s)/Γ(ω1,s)。置信度反映模式ω1与前缀和或后缀结合的稳定性。即模式ω2构成词条的可能性。如果置信度低于下限,则说明模式ω2构成词条的可能性小,可以除去。如果置信度位于上限和下限之间,那么,模式ω1、ω2可以共存于候选分词集中。在后缀情况下,如果置信度高于上限,则说明模式ω1基本被包含于模式ω2之中。按照最大匹配原则,ω1可以除去。实际使用中,某些专家将置信度区间定义为[0.30,0.90]作为上下区间,称为置信度空间[3]。

抽取关键词和或新词条,消除其中歧义词条的算法主要来源于三条规则:

规则1:Confidence(ω2|ω1)≤30%,ω2为词条的可能性很小,ω2可以除去。

规则2:Confidence(ω2|ω1)∈(30%,90%),ω1和ω2都有可能。

规则3:Confidence(ω2|ω1)≥90%,ω1被ω2所包含,ω1则可以除去。

通常算法只考虑规则1和规则3的情况,作消歧处理。

规则1算法:

规则3算法:

3.5 普通词滤除

对于候选词条集,借助已有分词库,依次查看库中该词是否已存在?从候选词条集中除去存在的词条。留下来的可作为候选新词条。

4 实验效果(The experiment effect)

笔者经过实验发现,仅规则3情况,当取Confidence(ω2|ω1)≥90%,滤掉ω1,就已经可以获得非常不错的效果。相反,按照规则1+3,当取Confidence(ω2|ω1)≤30%,消除ω2,再取Confidence(ω2|ω1)≥90%,滤掉ω1,效果反而更糟。甚至调整下限为10%,改变也不大。试验样本六个发明公开专利的“标题+文摘”, 详见表2;不同规则下抽取的候选新词条,详见表3。

注: 上述试验, 对于停用词并未深究。 例如:“将”“上”等字没有纳入到停用词库中。

限于篇幅,本文没有列出候选关键词和被去除的普通词。通过比对两种算法结果,采用规则1+3的抽取新词结果,并不比仅采用规则3的效果好。从六组数据不难看出。采用规则3的算法来消除歧义词,是一个最简方法。与N-gram方法相结合,可以完成最简单的抽词工作。

5 结论(Conclusion)

抽词技术作为计算机辅助工具来使用,为人们提供一种具有参考价值的信息,供人们选择使用。本文所述抽词方法是一种不依赖于历史信息、语料库,不需要训练数据的方法。其优点是:能识别高频度未登录词;无需人工标引词典,不需要花费大量资源收集语料库。其缺点是计算量大;会抽取出意义不完整的字串,导致准确性差;不能识别低频度关键词。计算量受两方面因素影响:(1)随着N-gram的长度N增大,计算效率会下降。(2)连续汉字串长句式增多,计算效率也会下降。如果句子经过停用词处理已经足够细碎,或者N-gram的长度N不很大,计算效率还是可控的。

分词方法 篇9

Lucene是目前最流行开源检索工具包之一, 已经在许多搜索项目中得到了应用。盘古分词也是一个比较成熟的中文分词组件,而且采用多元分词技术,可以很好的实现对中文的分词。因而本文针对中小网上书城提出了一个基于lucene.net与盘古分词的站内搜索技术方案,提高网站的竞争力。

1站内搜索方案设计

网上书城站内搜索系统框图如图1所示。

本文提出的站内搜索方案将系统分为书籍编辑模块、索引模块、检索模块和展示模块4个部分。书籍编辑模块主要负责收集书籍的信息并且转换为纯文本信息,即lucene可识别的信息。索引模块主要针对数据库创建和维护索引库,即每当增加或修改书籍的信息到数据库时,就更新索引库。 检索模块主要针对用户输入的关键字进行分析,然后查询索引库找到相关联书籍,并且按相关性程度排序。展示模块主要负责接受用户输入的关键字,并展示搜索的结果中书籍的信息以及如何展示。根据搜索结果,可以定制个性化的展示。

2盘古分词器性能分析

盘古分词是一个中英文分词组件。它的作者通过分析比较中文分词的一元分词、二元分词,多元分词和精确分词的性能,得出多元分词适用性更强。但采用多元分词产生了一些问题,第一,多元分词和搜索引擎结合得到较多的匹配结果,同时也增加了索引文件的大小;第二,由于将一些单词进行了拆分, 搜索结果的排序会受到影响。为了克服这两个缺点,盘古分词提出了多元分词的冗余度(Redundancy)和多元分词结果的权重级别(Rank)的概念。盘古分词支持3级冗余。比如“湖北大学”,冗余度为0、1、2时,分词结果分别是“湖北大学”、“湖北, 湖北大学,大学”、“湖北,湖北大学,大,大学,学”。盘古分词将多元分词出来的单词根据其词长,词的间隔以及未登录词的取舍等条件给定了不同的权重。在搜索时对分解出来的关键字, 我们指定权重来影响搜索结果,以实现结果有效排序。比如搜 “湖北大学”时,可以将“湖北大学”设置较高的权重,而“大学” 和“湖北”设置较低权重,则包含“湖北大学”的记录就优先于包含“湖北”或“大学”的记录,这样就解决了排序问题。

为了说明盘古分词优于lucene内置分词器,做了如下表格的对比。从表中可以看出,Stop Analyzer针对非字母字符拆分文本,然后小写英文字母,再过滤掉停用词;Keyword Analyzer将整个文本当作一个词处理;Simple Analyzer和Stop Analyzer类似;Whitespace Analyzer根据空格拆分词汇单元;Standard Ana-lyzer按每个汉字拆分词,Pan Gu Analyzer按有意义的中文词语分词,显然效果最佳。因而本文选择盘古分词器,提高搜索的准确性。

分词比较的结果如下表1所示。

3站内搜索的实现

3.1书籍编辑模块

为了可以批量添加书籍信息,使用XML存储书籍信息。 网站管理员使用后台管理界面添加或修改书籍信息。本文从XML读文件信息的使用.NET内置操作XML文件的库函数。管理员输入的书籍信息是纯文本格式,无需解析。

本文从XML文件获得纯文本信息的核心代码如下:

3.2索引模块

索引库相当于关系数据库,非常关键和重要,直接决定搜索的响应速度与准确性。针对网上书城,书籍关键信息包括书名、出版社、作者、出版时间、书籍简介等,因此在建立索引库的时候一定要包含这些关键信息,方便用户快速查询,其它信息可根据需求添加。

为了实现网上书城实现实时的数据更新,本文采用“单例设计模式”和“生产者与消费者”多线程模型相结合的方式。主线程创建单例管理器,整个程序中是唯一的,保证了数据更新数据的一致性。同时主线程扮演生产者的角色,当添加或修改书籍的信息时,主线程(生产者)就会调用管理器,向任务列表新增任务,不用关心任务是否执行了。整个网站一旦运行,主线程(生产者)调用管理器创建消费者线程并启动该线程。消费者线程就会循环的检测任务列表,如果有任务,就执行索引任务,向索引库中添加或修改书籍信息,否则,可根据需要设置该线程休眠的时间,防止占用cpu,造成浪费。索引系统原理框图如图2所示。

具体索引功能使用lucene提供的核心类Index Writer、Dire-crtory、Analyzer、Document、Field实现索引。Index Writer这个类负责创建新索引或打开已有索引,以向索引中添加、删除或更新被索引文档的信息。Direcrtory类描述了lucene索引存放位置。它是一个抽象类,它的子类负责具体指定索引的存储路径。Analyzer这个类负责分词,它是一个抽象类,需要具体类实现它。Document类似于关系数据库的记录,是一些字段(field)的集合。Field类似于关系数据库的字段。索引建立过程:创建Index Writer类,指明索引库位置以及使用的分词器;创建一个文件记录类Document;把要记录的字段加入Document;把Doc-ument写入到索引库并且关闭索引。

核心代码如下:

3.3检索模块

lucene检索功能 使用lucene提供检索 的核心类Index-Searcher、Term、Query、Top Score Doc Collector实现。Index Search-er类用于搜索使用Index Writer类建立的索引库,它是连接索引的核心,以只读的方式打开索引库。Term对象是检索功能的最基本单元,包含域名和域文本值。Query是抽象父类,它有很多具体子类,最基本的子类Term Query,用来匹配指定域中包含特定项的文档。Top Score Doc Collector是一个简单指针容器,指向匹配查询条件的前N个搜索结果,N可以根据需要选择,方便分页展示。

检索过程:打开索引库FSDirectory;创建一个搜索器Index-Searcher指向索引库;创建一个查询类Query的子类并对输入的内容进行分词;组装查询类,lucene提供多种查询类,根据需要选择;通过调用搜索器的Search方法执行查询,将结果放到Top Score Doc Collector指针容器;根据需要获得查询结果的文档内容。

核心代码

3.4展示模块

展示模块主要用来展示查询到匹配的结果。lucene并没用提供展示内容的接口函数,需要我们自己设计如何展示内容,由于本文是针对网上书城开发的站内搜索,所以选择一网页的形式展现。

本文使用.NET平台设计展示网页。实现思路:首先在展示页面拖放一个Reapter控件,其次把搜所到数据转换成一个集合list Result,然后将list Result绑定到Reapter数据源便可显示了。

为了更好的客户体验,像百度、Google、360搜索一样,将结果中的关键字用特殊的颜色标出,醒目的提示用户。本文使用盘古分词的高亮插件Pan Gu.High Light.dll实现。

4实验结果与分析

基于上述设计与实现方法创建了一个虚拟的系统,进行实验验证。

使用vs2010平台搭建,lucene.net版本3.0.3,盘古分词版本2.3.1。

首先向索引库中添加1000本书的信息,其中两本书如表2所示。

输入“面向对象”,根据简介搜索,两本书都可搜出,且排在前两位,说明准确性高,及相关性设计合理。如图3所示为搜索结果截图。

其次输入“lucene”进行搜索,没有任何结果。说明索引库中没有这本书的信息。添加如表3的信息。

添加书籍信息后,立刻输入“lucene”,根据书名进行搜索, 搜到了这本书,如图4所示为搜索结果截图。说明了实时性高。

5结束语

本文针对网上书城对数据更新实时性高与书籍信息准确性高的要求,提出了使用lucene与盘古分词器相结合的站内搜索系统解决方案。分析了盘古分词器的性能优势,选择盘古分词器,提高了搜索的准确性;采用“生产者与消费者”多线程模式与“单例”设计模式相结合的方法,实现了数据的实时更新。 并通过实验验证了该方案的有效性。该方案主要针对中小型网上书城而设计的,对大型网上书城大数据不适应,这也是下一步继续研究探索的方向。

摘要:该文针对网上书城对信息实时性与准确性高的要求,提出了使用lucene与盘古分词器相结合的站内搜索系统解决方案。通过分析lucene内置分词器与盘古分词器的性能差异,选择了针对中文开发的盘古分词器,提高了搜索的准确性;通过采用“生产者与消费者”多线程模式与“单例”设计模式相结合的方法,实现了数据的实时更新。实验结果证明了设计方案的有效性。

现在分词与过去分词用法之比较 篇10

一、分词作定语

现在分词和过去分词都可以作定语、修饰名词或代词。单个分词作定语时一般放在被修饰词之前, 分词短语作定语时一般放在被修饰词之后。我们通常根据分词与其修饰的词的关系确定用现在分词还是过去分词。当分词与中心名词或代词存在主动关系时, 选用现在分词;存在被动关系时, 则选用过去分词。

例.1.The sleeping boy is Tom.

这个熟睡的男孩是汤姆。

分析:the boy与sleeping之间存在主动关系, 并且表示sleeping的动作正在进行。

2.There is nothing but a broken glass in the box.

箱子里只用一个破杯子。

分析:a glass与broken存在被动关系, 并且表示broken的动作已经完成。

3.fallen leaves落叶

分析:fall是不及物动词, 过去分词fallen在此只表完成, 不表被动。

4.the rising sun东升的旭日

分析:rising在此表主动和进行。

5.The young sitting between my sister and my brother is my cousin Jim.

坐在我哥哥和姐姐之间的年轻人是我的堂弟吉姆。

分析:the young与sitting之间存在主动关系, 并且表示sitting的动作正在进行。

6.The radio bought last week in this shop doesn’t work now.

上周在这个商店买的收音机没用了。

分析:the radio与bought存在被动关系, 并且表示bought的动作已经完成。

7.This is the question given.这就是所给的问题。

分析:the question与given之间存在被动关系, 并且表示given的动作已经完成;注意:部分过去分词如given、left常作后置定语。例如:Hurry up, there’s only ten minutes left.快点, 只剩十分钟了。

二、分词作表语

现在分词作表语多表示主语具有的特征, 过去分词作表语多表示主语所处的状态。作表语的分词常常是些形容词化了的分词, 如:interesting/interested, surprising/surprisd, tiring/tired, moving/moved, astonishing/astonished, puzzling/puzzled, exciting/excited, worrying/worried, frightening/frightened, disappointing/disappointed, pleasing/pleased, boring/bored等。一般来说, 如果主语是表示人的名词或代词, 那么用过去分词作表语;主语是表示物的名词或代词, 那么用现在分词作表语。

例:1.The book is exciting.

这本书让人兴奋。

分析:句子的主语the book是物, 所以用现在分词作表语;另外, “令人……兴奋”是书对人的影响, 表示书使人兴奋, 两者存在主动关系, 这也符合现在分词表主动的用法。

2.After an hour or so, we began to feel very frightened.

大概过了一个小时, 我们开始感到很恐惧。

分析:句子的主语we是人, 所以用过去分词作表语;另外, “感到恐惧”是主语we的状态, “我们”是“被惊吓”的, 两者存在被动关系, 这也符合过去分词表被动的用法。

特别说明: (1) 上述分词也可以作定语、状语和补语, 当它们要说明或修饰的对象是人时, 则选用过去分词;当它们要说明或修饰的对象是物时, 则选用现在分词。

例:1.This is an interesting book.这是一本有趣的书。 (定语)

2.Surprised, she could not say a word.她惊讶得说不出一句话。 (状语)

3.At first we liked the job, but then we found it tiring.开始我们很喜欢这个工作, 但后来我们发现它挺累人。 (补语)

(2) 当它们要说明的对象是expression (表情) 、eye (眼神) 、tear (眼泪) 、voice (声音) 等词时常选用过去分词。

例:Excited tears came down her face.她的脸上流下了激动的泪水。

三、分词作状语

分词 (短语) 作状语可以表示时间、原因、条件、伴随、让步、方式、结果等。分词作状语的前提条件是分词的逻辑主语必须与句子的主语一致, 即句子的主语必须是分词动作的执行者或承受者。如果不一致就常使用状语从句或独立主格作状语。一般来说, 我们根据分词与句子主语的关系确定用现在分词还是过去分词作状语。当分词与句子的主语存在主动关系时, 我们选用现在分词;存在被动关系时, 则选用过去分词。

例:1.Given more time and more money, we can do the work better.

多给些时间和资金, 我们可以把工作做得更好。

分析:given的逻辑主语是we, 并且两者存在被动关系, 在此作条件状语, 相当于If we are given more time and more money.

2.The boy often gives a satisfactory answer to the teacher’s question, having thought just a minute.这男孩思考一会儿, 总能为老师提出的问题给出一个满意的答案。

分析:having thought的逻辑主语是the boy, 并且两者存在主动关系, 表示think的动作在gives之前完成, 在此作时间状语。

3. Worried, she couldn’t go to sleep.因为焦虑, 她无法入睡。

分析:worried在此作原因状语, 因为句子的主语she是人, 所以用worried而不用worrying.

4. Working so hard, he failed again.尽管如此努力, 他还是失败了。

分析:working的逻辑主语是he, 并且两者存在主动关系, 在此作让步状语。

5.A cow lying in the middle of the road, the driver had to stop the car.

一头牛躺在路中央, 司机不得不停车。

分析:此处用的是独立主格作原因状语, 因为lying的逻辑主语是a cow, 而句子的主语是the driver, 两者不一致。

四、分词作补语

分词可以在句中充当主语补足语或宾语补足语, 说明主语、宾语的状态或者特点。我们必须根据分词与主语或者宾语的关系确定用哪一类分词。当两者存在主动关系时, 选用现在分词;存在被动关系时, 则选用过去分词。

例:1.I’ll have my watch repaired.我想把我的手表修一下。

分析:repaired在此作宾语补足语, 与宾语my watch存在被动关系。

2.I’m sorry to have kept you waiting so long.很抱歉, 让您就等了。

分析:waiting so long在此作宾语补足语, waiting与宾语you存在主动关系。

3.The boy was seen playing near the river three days ago.

三天前有人看见这个男孩在河边玩。

分析:playing near the river在此作主语补足语, 与主语the boy存在主动关系。

4.He was seen beaten by three young men in the street.

有人看见他在街上被几个年轻人打了。

分析:beaten by three young men在此作主语补足语, 与主语he存在被动关系。

五、特例

有一部分分词在使用过程中未必遵循现在分词表主动、表进行, 过去分词表被动、表完成的规律, 我们通常将其当作习惯用法来记。

例:1.Dressed in red, the girl looks more beautiful.这女孩穿红衣服更漂亮。

2. We saw some old people seated under the tree.我们看见一些老年人坐在树底下。

3.Lost in thought, he almost ran into the tree in front of him.他沉思着, 差点撞在前面的树上了。

4. When he came back, he found his car missing.当他返回的时候, 发现车子不见了。

5.Generally speaking, newspapers follow the American way.一般来说, 报纸采用的是美国拼写法。

6. Judging from his accent, he is from the South.从口音判断, 他来自南方。

上一篇:沥青混合料面层下一篇:新疆阿克苏