表示并列关系的句子

2024-08-19

表示并列关系的句子(共5篇)

篇1:表示并列关系的句子

表示并列关系的句子

1、这种文具既美观,又实用;既省钱,又环保,真是一个不错的创意。

2、他一边流着泪一边包扎伤口。

3、他一边跑步,一边听音乐。

4、它的和声显得既严峻又柔和,既忧伤又委婉。

5、王明一边干活一边吹着口哨。

6、王师傅一边说着,一边给我们拿来两盘蛋糕。

7、我的作业既干净又整洁,字既认真又漂亮。

8、我们班长既是班上学习最好的,又是最勤奋的;既是最口才最好的,又是最乐于助人的学生。

9、我们老师既温柔又严厉。

10、我一边吃饭一边看电视。

11、他一边检讨着自己的错误,一边观察大家的脸色。

12、他一边嚼着口香糖一边看报。

13、我一边看着远方淡淡的夕阳,一边回忆着往事。

14、我一边听音乐,一边写字。

15、西安既是一座历史悠久的古都,又是一座现代化的城市。

16、一边日出一边雨,晴雨无常四月天。

17、这个西瓜既新鲜又便宜,既大又甜

18、他像个疯子似地一边咒骂,一边四处跺脚。

19、他们一边喝咖啡一边聊天。

20、他即是少先队员,又是我们小组的组长,还是我们班的三好学生。

21、妈妈一边洗碗碟一边唠叨个没完。

22、妈妈一边做饭,一边讲电话。

23、每逢他没有击中目标,她总看到他一边甩帽子一边大声怒骂。

24、妹妹一边吃零食,一边看动画片。

25、她一边唱歌一边跳舞。

26、她一边流泪一边讲述事情发生的经过。

27、老师一边在黑板上写字,一边给我们讲解课文内容。

28、奶奶一边叮嘱我,一边给我穿衣服。

29、萨姆一边等着一边翻阅杂志。

30、爸爸一边用早餐,一边读晨报上的新闻报道。

篇2:表示并列关系的句子

1、我们班长既是班上学习最好的,又是最勤奋的;既是最口才最好的,又是最乐于助人的学生。

2、他一边检讨着自己的错误,一边观察大家的脸色。

3、她一边流泪一边讲述事情发生的经过。

4、王明一边干活一边吹着口哨。

5、每逢他没有击中目标,她总看到他一边甩帽子一边大声怒骂。

6、我们老师既温柔又严厉。

7、我的作业既干净又整洁,字既认真又漂亮 。

8、我一边看着远方淡淡的夕阳,一边回忆着往事。

9、我一边吃饭一边看电视。

10、西安既是一座历史悠久的古都,又是一座现代化的城市。

11、他一边跑步,一边听音乐。

12、他们一边喝咖啡一边聊天。

13、爸爸一边用早餐,一边读晨报上的新闻报道。

14、它的和声显得既严峻又柔和,既忧伤又委婉。

15、老师一边在黑板上写字,一边给我们讲解课文内容。

16、我一边听音乐,一边写字。

17、这种文具既美观,又实用;既省钱,又环保,()真是一个不错的创意。

18、萨姆一边等着一边翻阅杂志。

19、妈妈一边洗碗碟一边唠叨个没完。

20、一边日出一边雨,晴雨无常四月天。

21、她一边唱歌一边跳舞。

22、奶奶一边叮嘱我,一边给我穿衣服。

23、他即是少先队员,又是我们小组的组长,还是我们班的三好学生。

24、这个西瓜既新鲜又便宜,既大又甜。

25、他一边流着泪一边包扎伤口。

26、妹妹一边吃零食,一边看动画片。

27、妈妈一边做饭,一边讲电话。

28、他像个疯子似地一边咒骂,一边四处跺脚。

29、他一边嚼着口香糖一边看报。

30、王师傅一边说着,一边给我们拿来两盘蛋糕。

篇3:英语并列结构中的对等关系研究

关键词:并列结构,对等关系

夸克 (Quirk) 等人在A Comprehensive Grammar of the English Language一书中论述简单并列 (Simple Coordination) 时认为:一般地说, 并列结构的并列成分在语义、功能和形式上相互平行。他们的论述清楚地指出了简单并列结构中并列成分间的对等关系:并列成分在形式、语义和功能上相互平行。

1 并列结构中的三个方面平行的对等关系

1.1 形式上的相互平行

形式上的相互平行主要指并列的成分有相同或相似的结构模式 (structural pattern) 。许多语言学家对平行下过定义。帕特里克·哈特韦尔 (Patrick Hartwell) 简单而形象地论述了什么是平行, 句子中的平行是重复一个模式, 有时如爵士乐者改变歌的曲调那样, 改变模式 (Patrick, 1982:52) 。很清楚, 他所说的重复模式意谓有相似的结构。结构相同或相似的并列成分组成的并列我们通常得天独厚为排比。 (1) 和 (2) 说明并列成分之间形式上的相互平行关系:

(1) He went in the house, returned with the laundry hamper, filled with earth and carried it to the fronted yard. (Harper Lee:To Kill a Mocking Bird)

(1) 的四个并列成分结构基本相同, 形成排比。

(2) Now the trumpet summons us again-not as a call to bear arms, though arms we need;not as a call to battle, though embattled we are;but a call to bear the burden of a long twilight struggle, year in and year out“rejoicing in hope, patient in tribulation, ”a struggle against the common enemies of man;tyranny, poverty, disease and war itself… (John F Kennedy:Inaugural Address)

(2) 有四个并列结构, 每个都是排比。第一个并列结构中, 并列成分的模式是n+inf, 其他每个并列结构中, 并列成分的模式相同。

下面一个例子说明:两个语言单位结构不同, 形式上互不平行, 因此不能组成并列:

(3) (a) He hoped for an increase in salary and to get a longer holiday.或 (3) (b) He hoped to get an increase in salary and a longer holiday.

为保持平行, 本句应改为:

(3) (a) He hoped for an increase in salary and for an extension of holiday.或 (3) (b) He hoped to get an increase in salary and to enjoy a longer holiday.

上述例句中, 形式上相平行的并列成分都是同类型的语言单位。不同类型的语言单位不可能任意组成并列, 这是因为它们的并列不仅使句子失去平衡美, 而且还容易造成语义上的相互矛盾。 (4) 的两个语言单位结构有相近, 但不能成为并列的成分:

* (4) George likes going to the races and to bet on the horses. (Quirk:A Comprehensive Grammar of the English Language)

1.2 语义上的相互平行

并列的成分不仅在形式上要相互平行, 而且同时在语义上也要相互平等。语义上的相互平行要求并列的成分属于相同语义范畴。下面七个例子说明了相同的语义范畴的含义:

1.2.1 动作平行动作 (action)

(1) 的went to the house, returned with the laundry hamper, filled it with earth和carried it to the fronted yard是相继发生的动作, 语义上相互平行。

(5) 的两个语言单位形式上平行, 但第一个写动作, 第二个写状态。因此语义上互不平行:

(5) Opening the refrigerator and being extremely hungry, he grabbed the chicken leg.

(5) 应该改为动作和动词相平行;

(5) Extremely hungry he opened the refrigerator and grabbed the chicken leg.

能用于这一平行关系的并列成分除动词词组以外, 还有少数含动作意义的介词词组, 如at work。

1.2.2 品质平行品质 (quality)

(6) 的并列结构体现了这一平行关系:

(6) Being genial and good-natured, Tom welcomed his guests as soon as he entered the room (Arthur Waldson, English Mode simple)

描写品质的语言单位主要有形容词及其词组。

1.2.3 状态平行状态 (state)

(7) 中关联词neither和nor连接的是两个状态。

(7) The first impression forced on me was that permanence is neither achieved nor desired by mobile people. (John Steinbeck:On the Thruways)

描写状态的语言有形容词、分词及它们的词组、介词词组。

此平行关系只限于并列的名词及其词组, 因为其他语言单位并列时, 不存在抽象和物体的区别问题。

1.2.4 抽象平行抽象 (abstract)

(8) Their dimensions suggested a firmness of character and a master unless that was intensely reasoning. (W.Somerest Maugham:Mrs.Craddock)

1.2.5 物体平行物体 (abstract)

(9) Since I did not require and facilities, sewer, water, or electricity, the price to me for stopping the night was one dollar (John Steinbeck:On the Thruways)

1.2.6 一般平行一般 (generalization)

(10) I hope that we shall, all of us, recognize what great virtues the German race possesses;that we shall never forget their contributions to science, literature, philosophy and music… (Harold Nicolson:Then any Now)

(10) 的两个that分句说是德国民族的两个态度。

1.2.7 具体平行具体 (specification)

(11) He was resigned to everything, to his food being badly cooked, to the perversity of human nature, to the existence of dissenters (almost) , to his infinite small salary. (W.Somerset Maugham, Mrs.Graddock)

(11) 的四个to词组详细地写出了他顺从的方面, 把everything具体化了。

就并列的内容来说, 都有一般和具体之分, 所以 (6) 和 (7) 的平行关系应贯彻在一切并列结构中, 也就是说, 在同一语言环境下, 并列成分内容不是一般的, 就是具体的。

据此, 我们可以把上述语义上的平行关系分成两层:1) 至5) 为第一层的平行关系远不止1) 至5) , 它们存在于部分并列结构中;6) 和7) 为第二层, 它们存在于所有并列结构中。由此可以看出, 每个并列结构同时有着两层平行关系。如果并列成分之间少了第一层平行关系, 它们在语义上就不能说相互平行, 从而也就失去了语义上的严格的对等关系。如

(12) Timid and infuriated by his attacks on her intelligence, she fled from the room.

该句中, timid写一般的状态, 而infuriated写具体的状态, 两者具第一层平行关系, 不是第二层平行关系, 因此在语义上互不平行, 应改为没有并列结构:Infuriated by his attacks on her intelligence, the timid girl fled from the room.

1.3 功能上的相互平行

并列的成分具有相同的句法功能是组成并列结构必要条件之一, 所以在并列结构中, 并列的成分在功能上一定是相平行的。毋庸置疑, 句法功能不同的语言单位是无法并列的, 如主语不能和谓语并列, 宾语不能和定语并列, 等等。应该指出的是, 排比结构不一定是并列结构。其中一个原因是, 功能不同的语言单位可以构成排比。如 (14)

(14) If your praise is censure, your censure may be praise, for they are more undiscerning than you are prejudiced and unjust. (Jane Austen:Sense and Sensibility)

显然, if和than引导的是状语分句, 它们的结构和各自的主句相似, 因此它们和主句成排比。

2 简单平行结构中的三方面不全相平行的对等关系

如上所述, 简单并列结构中的并列成分一般在形状、语义和功能上是相互平行的。但事实上, 许多简单并列结构中, 并列成分不一定在三个方面都相互平行。并列成分之间的三个方面不全相平行的对等关系有以下三种:

2.1 形式和功能上相互平行, 语义上只是具第二层平行关系

有这种等关系的并列结构很少, 主要见于修辞方式异叙 (syllepsis) 用来产生幽默的修辞效果, 如在 (1) She went home in a flood of tears and a sedan-chair (余玄三:《英汉修辞比较与翻译》) 中的in a flood of tears写状态; (in) a sedan-chair写方式, 两者在语义没有第一层平行关系, 但在形式和功能上是相同的。

2.2 语义和功能上相互平行, 形式上互不平行

有这种对等关系的并列结构比较频繁。如在以下的例句中, 并列的成分语义有严格的对等关系, 而形式上完全不相同。

(2) The car is almost new and in excellent condition (C.E.Eckersley:A Comprehensive English Grammar)

(3) They can call this week or whenever you wish. (Quirk:A Comprehensive Grammar of the English Language)

(4) Foker in turn finds by accident the secret of Amory’s survival, and what is more, that Blanche knew and jet concealed it from him (Willian Makepeace Thackey:The History of Pendennis)

(5) They returned to the drawing-room and Dr.Ramsay began telling Bertha about the property;who this tenant was and the condition of that farm… (W.Somerset Maugham:Mrs. Craddock)

2.3 功能上相互平行, 形式互不平行, 语义不平行

有这种对等关系的并列结构也不乏其例:

(6) At once Scaramapa was on his feet and moving forward like a swift cat. (章振邦《新编英语语法》)

(6) 的两个并列成分形式完全不同, 所以形式是互不平行。On his feet和was连用动作的含义, 因此在语义上和描写动作的moving forward相平行。

(7) The woodcutter was very much surprised and stopped to look about him. (同上) (7) 的两个并列成分在形式上不成排比, 在语义上, 第一层写状态, 第二层写动作, 因此两者没有第一层平行关系。

(8) He had bred animals for years, and was quite used to the process that supplied him with veal, mutton and beef for the local butchers. (W.Somerest Maugham:Mrs.Crod-dock)

(8) 的两个并列成分结构不同, 不能组成排比。在语义上第一个写动作, 第二个写状态, 两者没有第一层平行关系。

上述例句说明, 不同类型的语言单位是可以组成并列结构的。但是, 这并不意味着不同类型的语言单位的并列有下列两个类型:

一是有相同的句法功能, 在语义上完全相互平行。如例句 (2) 至 (5) 。

二是有相同的句法功能, 在语义上虽然只有第二层平行关系, 但有紧密的因果等关系。如例句 (7) 和 (8) 的并列成分写了因果关系, (6) 写了具有连贯关系的动作。

不同类型的非限定分句, 非限定分句和限定分句, 非限定分句 (除形容词性质以的以外) 和其他语言单位, 之所以不宜相互并列, 除它们的结构不同之外, 主要的原因是它们的语义差别较大, 互释性很弱, 因此相互很难建立起合乎逻辑的语义关系, 如“1”的例句 (4) 中, like going to races写的是爱好, 而 (like) to bet on the horses则表达将要进行的具体活动, 两者在语义上连不成任何逻辑关系, 所以相互不能并列。

3 并列句中的对等关系

并列句是一种主要的并列结构。并列句的两个分句都是语法完备的、独立的句子, 因此它们的功能上无疑是对等的。从形式和语义的角度来看, 并列句的两个分句间的对等关系有以下两种:

3.1 形式和语义上相互平行

这种对等关系和简单并列结构中的三方面平行的对等关系相同。并列句的两个分句给成排比结构。例如:

(1) Dryden often surpasses expectation and Pope never falls below it.Dryden is read with frequent astonishment and Pope (is read) with frequent delight. (Samuel Johnson:The Life of Pope)

(2) Their sun-burned faces were dark, and their sunwhipped eyes were light. (John Steinbeck:The Grape of Wrath)

(3) Let us never negotiate out of fear, but let us never fear to negotiate. (John F.Kennedy:Inaugural Address)

3.2 形式上互不平行, 语义上下一定相平行

具有这种对等关系的并列句是大量存在的。

(4) She was very excited and there was a gloat in her eyes. (James Thumber:the Unicon in the Garden) 能形成排比。从语义上讲, 两者都写神态。后者增补了前者的内容, 从而突出了眼的神色。两者写的都具体内容 (excited不是如常有的神志) , 可见两个并列的分句具有两层平行关系。

(5) This sentence may be correct grammatically but a native speaker never says it that way. (章振邦:《新编英语语法》)

(5) 的两个分句结构不同, 没有排比关系。第一个分句写性质, 第二个写行为。但是两个都写同一件事 (this sentence) , 因此只有第二层平行关系。

4 结论

通过以上实例分析不难看出, 独立的句子能否组成并列句, 主要不是看它们有否相同或相似的结构形式, 而是看它们之间有否诸如增补、转折、因果、让步、选择、评述等紧密的语义关系;正是这些语义关系常常使并列的成分失去第一层平行关系。

对并列结构中的对等关系的探讨可以使我们得出以下结论:并列成分间的形式上的对等关系不如语义上严格。两者相比, 前者是次要的, 后者是主要的。当并列的语义需要时, 形式上的对等关系可以放弃。

并列结构是重要的语法范畴, 它在英文写作中用得十分广泛。正确地运用并列结构能使语言显得简炼、紧凑。运用具有平行关系的并列结构, 能使文章流畅, 语句匀称, 音韵优美, 从而可以大大增加语言的感染力。

参考文献

[1]C.E.Ecdersley&J.M Eckersley.A Comprehensive English Grammar[J].London:Longman, 1960.

[2]Hartwell, Partick&H.Bentley, Robert.“Parallelism”, Open to Language-A New College Rhetoric[J].Oxford University Press Inc, 1982.

[3]Uirk, Randolph et al.A comprehensive Grammar of the English Language[J].London and New York:Longman, 1985.

[4]Waldhom, Arthur&Zeiger, Arthur.“Style”, “Parallelism”, English Made Simple[M].London:W.H.Allen&Cpompany, 1967.

篇4:并列关系的关联词有哪些

1、作为连接分句、标明关系的词语,关联词语总是标明抽象的关系,可以作为某类复句的特定的形式标志。

2、说话时很容易发现必须带有的一到二个词语,虽然意思不同,但连在一起无论是说还是听都觉得很舒服。将分句连起来,使它变为通顺、完整的`一个句子。

关联句有多种关系。并列关系的关联句指两个或两个以上的分句分别陈述几种事物或几件事情,或一件事情的几个方面,分句之间是平行相对的关系。并列关系的关联句所用的关联词即为并列关联词。

二、并列关联词的使用注意事项

并列关联词是指在并列关系的关联句中起“连贯”作用的词语。连接着词、短语或句子。

它的使用要求非常严格,首先关联词必须适合句子的要求,成套的关联词不能拆换,另外关联词的位置在大多数情况下也是不能改变的。对并列关联词使用的正确与否,要注意以下几点:

1、错用关联词语。

如“我们在学习中,首先要会读书,然后要会思考。”读书和思考不是先后关系,而是并列关系,所以应将“首先……然后……”改为“既……又……”。

2、成套关联词多数不能拆用或换用。

有些关联词语是成套使用的,多数情况下不能拆换也不能单用。例如:“他不是立即带我去看这部电影,先给我讲了讲电影的故事梗概。”这个句子的第二个分句前明显漏掉了“而是”,因为“不是”和“而是”连用,才能使句子形成并列关系。

3、关联词的位置应注意。

篇5:基于关系权重的文本表示法

随着计算机技术和网络技术的飞速发展, 人们可以获得越来越多的数字化信息, 但同时也需要投入更多的时间对信息进行组织和整理。为了减轻这种负担, 人们开始研究使用计算机对文本进行自动分类。

文本表示是指用简单而准确的方法将文档表示成计算机能够处理的形式, 是自动文本分类的基础。最常用的文本表示模型是由 G.Salton 等人提出的向量空间模型VSM (Vector Space Modal) [1]。VSM基于这样一个关键假设, 即文章中词条出现的顺序是无关紧要的, 他们对于文档的类别所起的作用是相互独立的, 因此可以把文档看作一系列无序词条的集合。在该模型中, 文档空间被视为一组正交词条向量组成的向量空间, 每个文本d 都可以映射为此空间中的一个特征向量 V (d) = ( (t1, w1) , (t2, w2) , …, (tn, wn) ) , 其中ti 为特征项, wi 为特征项权重, 它表示特征项ti 对文本d 分类的贡献程度。文本d 简化为以特征项权重为分量的向量 (w1, w2, …, wn) 表示。因此, 选择一个合适的特征项权重计算公式, 使得向量尽可能准确地表达文本和类别的关系, 成为VSM文本表示的关键, 也是提高自动文本分类精度的关键。目前的特征项权重表示法主要有[2]:

( 1) 二值表示, 即如果特征项 ti 出现在文章d 中, 则 wi 为 1, 否则为 0;

( 2) 词频表示, wi表示为特征项 ti 在文章d 中出现的频率;

( 3) TF-IDF (Term Frequency-Inverse Document Frequency) 表示, 公式为:

Wi=ΤF (ti, d) ×ΙDF (ti) tid[ΤF (ti, d) ×ΙDF (ti) ]2=ΤF (ti, d) ×log2 (Ν/ni+0.01) tid[ΤF (ti, d) ×log2 (Ν/ni+0.01) ]2

其中TF (ti, d) 是特征项ti 在文本d 中出现的词频数, N 表示全部训练文档的总数, ni 表示包含特征项 ti 的文档频数。

TF-IDF 权重算法中主要考虑了3个因素:词频TF、反比文档频率IDF和用于对各分量进行标准化的归一化因子。一个特征项在某类文档中经常出现, 说明这个特征项对该类文档具有代表性, 那么它对分类的作用就比较大。TF较大的特征项在该类文档中具有较高的权重, 这考虑的是词频因素。比如在一篇谈论姚明的文章中, 可以预期到“姚明”、“篮球”、“NBA”等特征项出现的次数肯定会比较高, 相应的TF值会比较高;而IDF用来衡量单词区分文档的能力。IDF越高, 区分文档能力越强, 反之, 越弱。比如“的”、“地”等项, 他们普遍存在于各类文档中, IDF的值很低, 但是他们不具有区别性, 把这类词称为“非焦点词”。由于各类别文本的长度很难一致, 各类文本包含的字数、词数差别可能会很大, 对词频造成直接影响, 因此必须对词频作归一化处理。

上述的第一种二值表示方法最为简单, 但是丢掉了很多有用的信息;第二种词频表示方法保留了特征项的频率, 相对更为合理。最经典的加权方法是用 TF-IDF 公式。TF-IDF 是局部权重和全局权重的综合, 既考虑了特征项在文本中的词频, 又反映了特征项在所有训练文本中存在的普遍性。然而它还是存在较大的局限性:它仅仅表达了一个单词对一个文本的区分能力, 而没有体现这个单词区分一个类别的能力[3,4]。在一个类别中, 不同的特征项区分类别的能力是不相同的。显然, 研究文本分类中的文本表示, 更为重要的是研究特征项的类别区分能力。为此, 本文提出了一种基于关系权重的文本表示方法, 它通过优化关系权重, 在文本向量中体现了不同特征项在不同类别中的重要程度, 即体现了不同特征项在类别区分能力上的差别。

1基于关系权重的文本表示法

为了表述特征项的类别区分能力, 我们提出了一个基于关系权重的文本表示方法。在这个方法中, 特征项权重的计算公式如式 (1) 所示:

W (t, d) =ΤF (t, d) ×W (t|c) td[ΤF (t, d) ×W (t|c) ]2 (1)

在式 (1) 中, TF (t, d) 是特征项 t 在文本 d 中出现的词频数。W (t|c) 称之为关系权重, 它表示了特征项 t 对于类别 c的类别区分能力。W (t|c) 值越大, 则认为特征项对于类别 c 的区分能力越强。反之, W (t|c) 的值越小, 则认为特征项对于区分类别 c 的作用越小。

如果对于任意类别c的任意特征项t, 我们取他们之间的关系权重 W (t|c) =1, 即认为所有的特征项相对于所有的类别, 区分能力都是相同的。那么式 (1) 就等价于式 (2) :

W (t, d) =ΤF (t, d) tdΤF (t, d) 2 (2)

也就是词频的归一化表示法。如果取式 (1) 中的关系权重W (t|c) =log (N/nt+0.01) , 其中N 为训练文本的总数, nt 为训练文本集中出现 t 的文本数。这里我们从全局的角度, 衡量了每个特征项对于所有类别的区分能力。如果系统给定了 k 个类别 c1 , c2 , …, ck。其中特征项 t 同属于cicj两个类别的特征集, 那么就有W (t|ci) =W (t|cj) 。这时, 式 (1) 就可以转化为式 (3) 来表示:

W (t, d) =ΤF (t, d) ×log2 (Ν/nt+0.01) td[ΤF (t, d) ×log2 (Ν/nt+0.01) ]2 (3)

也就是TF-IDF 表示法。

然而, 在自动分类的文本表示中, 不同的特征项对于不同类别的代表性也是不同的。我们要选取一个合适的关系权重, 来标识特征项对所属类别的代表作用。首先, 同一类别的不同特征项被赋予不同的关系权重。例如, 对“数码相机”类别而言, “感光度”和“论坛”同样都属于它的特征项, 然而“感光度”比“论坛”更加能标志“数码相机”这个类别, 因而在“数码相机”这个类别中, “感光度”的关系权重应该高于“论坛”。第二, 同一特征项在不同类别中的关系权重也是不同的。例如, “证券”同属于“汽车”类和“股票”类的特征集, 但是, 在“股票”类中, “证券”更具有代表性。所以它在“股票”类中的关系权重要大于它在“汽车”类中的关系权重。

因此, 仅仅使用 TF-IDF 来表示特征项权重并不充分, 它不能区别特征项在不同类别中不同的代表作用, 而只是从全局的角度衡量了每个特征项对于所有类别的区分能力。因此, 我们要选取一个合适的关系权重计算公式, 它能标识不同的特征项在不同类别中的重要程度。

2关系权重的计算

考虑到在文本预处理中, 为了提高程序的运行速度和分类精度, 对于每一类, 要剔除那些表现力不强的词汇, 筛选出针对该类的特征项集合, 也就是特征提取。目前, 存在多种提取特征项的方法, 主要有:文本频数DF ( Document Frequency) 、信息增益IG (Information Gain) 、互信息MI (Mutual Information) 、开方校验 ( Chi-Square ) 、期望交叉熵 ( Expected Cross Entropy ) 、优势率 ( Odds Ratio ) 和文本权证 ( the Weight of Evidence for Text ) 等[5]。这些方法所考查的都是词和类别之间的相关性, 也就是词在类别中的代表性。这和本文提出的关系权重的概念比较吻合。同时, 在诸多的特征筛选方法中, 互信息和信息增益这两种评估方法效果比较好[5]。因此, 本文基于其中的互信息方法来计算特征项的关系权重。

互信息计算公式如式 (4) 所示[6]:

Ι (t|c) =log2 (Ρ (t|c) Ρ (t) ) (4)

其中

Ρ (t|c) =1+i=1|D|tf (t, di) |V|+s=1|v|i=1|D|tf (ts, di) (5)

式 (4) 中的P (t|c) 代表了特征项 t 在类别 c 中出现的比重。它的计算公式如式 (5) 所示, 其中, |D| 为类别c的训练文本数, tf (t , di) 为特征词 t 在类别 c 的某篇文章 di 中的词频, |V|为类别c中出现的总词数, ∑s=1|V|i=1|D|tf (ts, di) 为类别 c 中所有词的词频和。

式 (4) 中P (t) 的计算公式和式 (5) 类似, 只是它表示的是特征词 t在所有训练文本中的比重, |D| 在这里表示的是全体训练文本数。

我们取关系权重如式 (6) 所示:

W (t|c) =2Ι (t|c) =Ρ (t|c) Ρ (t) (6)

在式 (6) 中, 把互信息映射到 (0, +∞) 区间, 作为特征项 t 在类别 c 中的关系权重。特征项和类别之间的互信息量越大, 也就是 I (t|c) 值越大, 说明它们之间的关联越紧密, 因此特征项在该类别中的关系权重也越大, 即 W (t|c) 值越大。这样在式 (1) 里, 特征项权重 W (t , d) 的计算, 不仅考虑了特征项在文章中的词频TF (t, d) , 来标识它在文本中的重要程度, 同时加入了关系权重 W (t|c) 来表示特征项和类别之间的关联性, 区分了不同的特征项在不同类别中的代表性, 从而突出了重要特征, 抑制了次要特征, 更加合理地表示文本和类别的关系, 提高了分类效果。

3实验及结果

为了考察本文提出的基于关系权重的文本表示方法在实际分类中的优越性, 我们通过SVM自动文本分类实验, 把它和传统的TF-IDF表示法进行测试和比较。实验的语料主要是股票、PC机、数码相机和汽车这四个类别的若干文档。选择《人民日报》1998年1月份所有的时事新闻作为通用反例集。针对每个类别, 我们取其70%作为训练语料, 通过SVM学习得到分类模板, 其余30%作为正例集测试语料, 其它类别的测试语料作为它的反例集测试语料。比如PC机类别, 一共有100篇语料, 我们取其70篇作为训练语料, 通过学习得到SVM分类模板, 其余的30篇作为正例集测试语料, 同时, 股票、汽车和数码相机的测试语料作为它的反例集测试语料。

我们把准确率和召回率[6]作为评估参数。准确率是所有测试的文本中与人工分类结果吻合的文本所占的比率, 其数学公式表示如下:

准确率 (precision) =

召回率是人工分类结果应有的文本中分类系统吻合的文本所占的比率, 其数学公式表示如下:

召回率 (recall) =

准确率和召回率反映了分类质量的两个不同方面, 两者必须综合考虑, 不可偏废。因此存在一种新的评估指标—F1 测试值, 其数学公式如下:

F1测试值=××2+

我们分别采用TF-IDF文本表示法和关系权重表示法来进行基于SVM的自动文本分类实验, 得到的结果如表1和表2所示。对比表1和表2的结果, 我们可以看到, 采用关系权重的文本表示法, 较之TF-IDF文本表示法, 不论是准确率还是召回率, 都有明显的提高。这表明我们提出的基于关系权重的文本表示法, 能够更准确地表示和区分分类文本。由于通用反例集的语料数目大大高于正例集的语料数目, 本分类系统有较好的准确率, 当然相比之下, 召回率要差一些。由于准确率和召回率本身就是一对矛盾的参数, 综合考虑最终的F1测试值, 实验结果还是令人满意的。

4结论与展望

现有的文本分类方法中, 文本通常是基于向量空间模型并使用 TF-IDF 来表示, 忽略了不同特征项在不同类别中的类别区分能力的差异, 因而影响到分类的性能。本文提出的基于关系权重的文本表示方法, 通过优化关系权重, 在文本向量中体现了不同特征项在不同类别中的重要程度的差异, 使得在此权重下不同类别的文本得到更准确的区分。运用SVM分类实验表明, 基于关系权重的文本表示方法, 较之传统的TF-IDF文本表示法, 有更高的准确率和召回率。

同时, 本文在关系权重的计算中, 考虑到关系权重的概念和特征选择理论的基础基本一致, 都是考察词在类别中的代表性, 因此选取了特征选择中效率较高的评估方法——互信息方法, 作为关系权重的计算基础。在今后的研究中, 我们还将尝试基于其它的特征选择算法来计算关系权重, 以期获得更好的分类效果。

摘要:提出一种基于关系权重的文本表示方法。通过优化关系权重, 在文本向量中体现了不同特征项在不同类别中重要程度的差异, 使得在此权重下不同类别的文本得到更准确的区分。运用SVM分类实验表明, 基于关系权重的文本表示方法, 较之传统的TF-IDF文本表示法, 有更高的准确率和召回率。

关键词:自动文本分类,文本表示,关系权重

参考文献

[1]台德艺, 谢飞, 胡学钢.文本分类技术研究[J].合肥学院学报:自然科学版, 2007, 17 (3) :61-64.

[2]郝春风, 王忠民.一种用于大规模文本分类的特征表示方法[J].计算机工程与应用, 2007, 43 (15) :170-172.

[3]初建崇, 刘培玉, 王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用, 2007, 43 (19) :192-198.

[4]朱琳, 周水庚.基于聚类的文本分类属性加权[C].第二届全国信息检索与内容安全学术会议 (NCIRCS-2005) 论文集, 2005.

[5]程泽凯, 陆小艺.文本分类中的特征选择方法[J].安徽工业大学学报, 2004, 21 (3) :220-224.

本文来自 360文秘网(www.360wenmi.com),转载请保留网址和出处

【表示并列关系的句子】相关文章:

表示因果关系的句子08-03

句子写作并列句07-26

表示悲伤的句子05-23

表示谦虚的句子05-14

表示无奈的句子05-28

表示晴天的句子06-26

表示谢意的句子07-06

表示无聊的句子08-22

表示高考加油的句子05-27

表示伤感的句子范文06-07

上一篇:骆驼祥子读后感感悟心得下一篇:浅谈语文阅读教学中的四步曲