知识学习的迁移分类

2024-06-23

知识学习的迁移分类(共8篇)

篇1:知识学习的迁移分类

第7章学习的迁移

一、什么是学习迁移?迁移的种类有哪些? 学习迁移是在某一种学科或情境中获得的技能、知识、理解或态度对在另一学科或情境中技能、知识、理解或态度的获得的影响。简单地说,学习迁移就是指一种学习活动对另一种学习活动的影响。

在学习过程中,经常可以看到迁移现象。例如,掌握英语的人学起法语来就比较容易;会骑自行车的人比不会骑的人学开摩托车要容易一些;会拉二胡的人,再学习弹三弦、拉小提琴,也比较容易。此外,也可以看到一些与此相反的现象,如学汉语拼音对有些英语字母语音的学习常常发生干扰;习惯于右脚起跳的跳高技能对掌握用左脚起跳的撑杆跳高也有干扰作用。这些都是学习迁移现象。

1.从迁移的性质来分,可以分成正迁移和负迁移。

正迁移也叫“助长性迁移”,是指一种学习对另一种学习的促进作用。如学习数学有利于学习物理,学习珠算有利于心算,掌握平面几何有助于掌握立体几何等,懂得英语的人很容易掌握法语。

负迁移也叫“抑制性迁移”,是指一种学习对另一种学习产生阻碍作用。如掌握了汉语语法,在初学英语语法时,总是出现用汉语语法去套英语语法,从而影响了英语语法的掌握,在立体几何中搬用平面几何的“垂直于同一条直线的两条直线相互平行”的定理,则会对立体几何有关内容的学习产生干扰等。

2.从迁移的方向来分,迁移可以分为顺向迁移和逆向迁移。

顺向迁移是指先前学习对后继学习发生的影响。在物理中学习了“平衡”概念,就会对以后学习化学平衡、生态平衡、经济平衡产生影响。通常所说的“举一反三”就是顺向迁移的例子。

逆向迁移是指后继学习对先前学习发生的影响。如学习了微生物后对先前学习的动物、植物的概念会产生影响等。

3.根据迁移发生的方式来分,可以分为特殊迁移和非特殊迁移。

特殊迁移是指学习迁移发生时,学习者原有的经验组成要素及其结构没有变化,只是将一种学习中习得的经验要素重新组合并移用到另一种学习之中。如跳水的一些项目,弹跳、空翻、入水等基本动作是一样的,运动员在某些项目中将这些基本动作熟练掌握,那么在学习新的跳水项目时,就可以把这些基本动作加以不同的组合,很快形成新的动作技能。

非特殊迁移是指一种学习中所习得的一般原理、原则和态度对另一种具体内容学习的影响,即将原理、原则和态度具体化,运用到具体的事例中去。如学生学习中获得的一些基本的运算技能、阅读技能可以运用到各种具体的数学或语文学习中。

4.根据迁移的层次,把迁移分为横向迁移和纵向迁移。

横向迁移也叫做水平迁移,指先行学习内容与后继学习内容在难度、复杂程度和概括层次上属于同一水平的学习活动之间产生的影响。如通过加、减、乘法学习后获得的一些运算技能会促进除法运算学习等。

纵向迁移也叫垂直迁移,指先行学习内容与后续学习内容是不同水平的学习活动之间产生的影响。例如,小学生学习掌握了水果这一上位概念,要学习芒果这一下位概念,如果告诉学生芒果是一种水果,学生就很容易掌握芒果这一概念。这种迁移就是纵向迁移。

5.根据迁移的范围不同来分,可以分为自迁移、近迁移与远迁移。

如果个体所学习的经验影响着相同情境中的任务操作,则属于自迁移。近迁移即把所学的经验迁移到与原初的学习情境比较相近的情境中。个体能将所学的经验迁移到与原初学习情境极不相似的其他情境中时,即产生了远迁移。

二、形式训练说关于学习迁移的基本观点。

形式训练说是最早的学习迁移理论。形式训练说主张迁移要经历一个形式训练过程才能产生。形式训练说的心理学基础是官能心理学,形式训练说把迁移看作是通过对组成“心智”的各种官能分别进行训练来实现的,迁移的发生是自动的。它把训练和改进“心智”的各种官能作为教学的重要目标,认为一个学科的直接效用并不重要,心理官能的锻炼才是最重要的,即学习的内容并不重要,重要的是所学材料对官能训练的价值。该学说还认为,学习要收到最大的迁移效果,就要经历一个“痛苦的”过程。形式训练说重视能力的培养和学习的迁移,强调对于有效的记忆方法、工作和学习的习惯以及一般的有效工作技术加以特殊训练,这些都是有积极意义的。但是,“心智”的各种官能是否可以分别训练使之提高,从而自动地迁移到一切活动中去?教学的主要目标是不是训练“心智”的各种官能?该学说缺乏充分的科学依据,早期的以及近现代的心理实验研究都对这一学说提出了挑战。

三、共同要素说关于学习迁移的基本观点。

19世纪末和20世纪初,心理学家开始借助实验来检验形式说的迁移理论。美国著名心理学家詹姆士在1890年首先通过记忆实验来研究学习迁移问题。继詹姆士之后,桑代克和伍德沃斯以刺激—反应的联结理论为基础,提出了学习迁移的共同要素说,认为只有当两个机能的因素中有相同的要素时,一个机能的变化才会改变另一个机能的习得。也就是说,只有当学习情境和迁移情境存在共同成分时,一种学习才能影响到另一种学习,即产生学习迁移。

桑代克在1901年所做的“形状知觉”实验是共同要素说的经典实验。桑代克认为,学习迁移是非常具体的、有限的,只存在于含有共同要素的一些领域,同时,学习活动中存在的共同要素越多,迁移的可能性就越大。这对形式训练说影响下的只重形式训练而忽视实际生活的教育教学产生了很大的冲击,对避免学校教育与实际生活脱离具有重要意义。但桑代克的共同要素说只能机械解释具体的特殊迁移,难以揭示复杂的学习迁移的实质。

四、概括化理论关于学习迁移的基本观点。

贾德以实验研究了原则和概括性的迁移后认为:两个学习活动之间存在的共同成分,只是产生迁移的必要前提,而产生迁移的关键是学习者在两种活动中概括出它们之间的共同原理,即在于主体所获得经验的类化。所以贾德的迁移理论又称概括化理论。

贾德在1908年所做“水下击靶”的实验,是概括化理论的经典实验。根据迁移的概括化理论,对原理理解概括的越好,在新情境中的学习迁移越好。贾德的概括化理论突破了桑代克相同要素的局限,第一个将相同要素的范围上升到更抽象的原理原则,同时把学习者对学习情境的共同原理原则的概括作为迁移的基本条件,从而扩大了迁移研究的范围,促进了学习迁移研究的发展。这一理论对教学实际产生了广泛而深刻地影响。对教学而言,重要的是在要鼓励学生对核心的基本的概念进行抽象和概括。

五、关系转换说关于学习迁移的基本观点。

关系转换说是格式塔心理学家提出的迁移观点。他们主张学习迁移的重点不在于掌握原理,而在于觉察到手段与目的之间的关系。他们认为学生“顿悟”两种学习情境中原理原则之间的关系,特别是手段—目的之间的关系,是实现迁移的根本条件。也就是说,迁移不是由两个学习情境具有共同成分、原理而自动产生的某种东西,而是学习者突然发现两个学习经验之间存在的关系的结果。

苛勒(K.Kholer)所做的“小鸡觅食”的实验是支持关系转换说的经典实验。关系转换说认为对关系的顿悟是学习迁移发生的关键,认为学习的主体越能认清、了解和发现事物之间的关系,则越容易产生迁移,迁移的作用也越普遍。

六、奥斯古德的迁移三维曲面模型。

奥斯古德在总结了大量迁移实验资料的基础上,提出了迁移的三维模型,又称“迁移的逆向曲面”,以表明刺激或学习材料的相似程度和反应的相似程度与迁移之间的关系。奥斯古德提出的迁移三维曲面模型,系统地考察了学习材料的相似性和反应的相似性两个维度的组合与迁移效应之间的关系,并将这种关系用三维曲面图描述出来。由于他的实验数据来自机械的对偶学习,其理论对于了解机械的联想学习的实质是有益的,但不能说明高级学习特别是有意义学习的实质。

七、认知结构迁移理论的基本观点。

布鲁纳和奥苏贝尔把迁移放在学习者的整个认知结构的背景下进行研究,他们在认知结构的基础上提出了关于迁移的理论和见解。布鲁纳认为,学习是类别及其编码系统的形成。迁移就是把习得的编码系统用于新的事例。正迁移就是把适当的编码系统应用于新的事例;负迁移则是把习得的编码系统错误地用于新事例。

奥苏贝尔在有意义言语学习理论的基础上提出了认知结构迁移理论。这一理论认为,一切有意义的学习都是在原有认知结构的基础上产生的,不受原有认知结构影响的有意义学习是不存在的。一切有意义的学习必然包括迁移,迁移是以认知结构为中介进行的,先前学习所获得的新经验,通过影响原有认知结构的有关特征影响新学习。

奥苏贝尔认为,认知结构的可利用性、可辨别性和稳定性是影响学习迁移的三个关键因素。

认知结构变量的可利用性是指学习新知识时,在学生原有的认知结构中是否有适当的起固定作用的观念可以利用,即学生原有的认知结构中是否具有用来同化新知识的适当观念。根据有意义学习理论,如果学生原有认知结构中具有可利用的知识经验,则有助于新知识的同化,有助于学习迁移。例如,学生掌握了水果这一概念,如果要学习芒果这一概念,原有认知结构中的上位概念(水果)与新学习的下位概念(芒果)相互作用,最终被上位概念所同化。再如学生掌握了大量的金银铜铁锌等下位概念,然后去学习金属这个上位概念,认知结构中已有的下位概念会促进对这个上位概念的掌握等。

认知结构变量的可辨别性是指学习新知识时,学生原有的观念与新的学习知识的区别程度,新旧知识之间是否能够清晰辨别。如果学生原有的知识是按照一定的结构分层次严密地组织好的,在学习新知识时,不仅能够迅速地找到起固定作用的知识,而且也容易辨别新旧知识之间的异同,有助于新知识的同化,有助于学习迁移。

认知结构变量的稳定性是指学习新知识时,学生原有认知结构起固定作用的观念的巩固程度。原有认知结构中的观念越巩固,越有助于促进学习迁移。

认知结构迁移理论指出,学生学习新知识时,认知结构可利用性高、可辨别性大、稳定性强,就能促进对新知识学习的迁移。“为迁移而教”实际上是塑造学生良好认知结构的问题。在教学中,可以通过改革教材内容和教材呈现方式改进学生的原有认知结构变量以达到迁移的目的。

八、产生式迁移理论的基本观点。

产生式迁移理论则是针对认知技能的迁移提出的,其基本思想是:前后两项学习任务产生迁移的原因是两项任务之间产生式的重叠,重叠越多,迁移量越大。两项任务之间的迁移,是随其共有的产生式的多少而变化的。

所谓产生式就是有关条件和行动的规则,简称C-A规则。

产生式迁移理论是根据安德森的思维适应性控制理论(简称ACT)发展而来。根据ACT理论,技能的学习分两个阶段:首先,规则以陈述性知识的形式进入学习者的命题网络,然后经过变式练习转化为以产生式表征的程序性知识。当两项任务之间有共同的产生式或产生式的重叠时,迁移就会发生。也就是说,产生式的相似是迁移产生的条件。

安德森等设计了大量实验来验证他的迁移理论,但目前该理论的研究仍停留于计算机模拟阶段。尽管如此,它在实际教学中的含义还是十分明显。因两项任务共有的产生式数量决定迁移水平,因此要注重基本概念原理和规则的教学,以便为后继的学习做准备。此外,先前学习的内容必须有充分的练习,才易于迁移。

九、论述影响学习迁移的因素

学习迁移是一种复杂的心理现象,既受学习材料、学习环境等客观条件的影响,也受学习者智力、年龄、认知结构、认知技能与策略、学习态度与心向、情绪与精神状态等主观条件的制约。归结起来学习迁移主要受以下几方面因素的影响:

1.学习材料之间的共同要素或相似性

凡是在先前的学习同后来的学习之间所包含的共同要素越多,迁移也就越容易产生。在学生的实际学习活动中也是这样,学习内容方面的共同要素越多,需要运用的相同原理、产生式越多,则正迁移现象就较明显。

2.知识经验的概括水平

原有的知识经验概括水平越高,迁移的可能性也越大,效果也就越好。反之,知识经验的概括水平越低,迁移的范围就越小效果也就越差。

3.认知结构

任何将学习内容的最佳知识结构以最佳的方式呈现给学生,使其形成良好的认知结构并最终优化为各种能力,是促进学习积极迁移的重要条件。一个具有良好认知结构的学生总能敏锐地把握各种学习材料之间的结合点,并能由此及彼地进行分类与组合,使习得的知识经验系统化,在学习中容易产生积极迁移。相反,具有不良认知结构的学生,习得的知识经验往往杂乱无章,缺乏系统性,新旧知识容易混淆,容易导致消极迁移的发生。

4.认知技能与策略

迁移过程是通过复杂的认知活动实现的,因此认知技能和策略的掌握及其水平,就必然影响迁移的实现。有时学习对象有共同因素,或已有知识经验的概括程度也比较高,可是学习者对新的学习内容却仍然不能实现迁移,原因是学习者虽然掌握了有关的知识,但没有掌握解决迁移中问题的认知技能和策略。在教学中,有时新旧知识的性质完全不同,也没有一般与特殊之间的原理关系,但分析问题的认知方法有相同之处,这种情况也能实现有效的迁移,这里迁移的是认知技能和策略。

5.心理定势

心理定势是一种特殊的心理准备状态,是由先前学习引起的对后继学习活动能产生影响的一种心理准备状态。心理定势对学习迁移的影响有积极的一面,它反映出心理活动的稳定性和前后一致性。

定势对学习迁移的影响也有消极的一面,它妨碍学生思维的灵活性,不利于智力的形成和发展,使心理活动表现出惰性,显得呆板,而不利于适应环境,有碍于解题的速度和灵活性。

6.学习态度与方法

一个学生对某项学习活动的态度,对学习迁移的引发也非常重要。当对学习活动具有积极的态度时,便会形成有利于学习迁移的心境,这样他便有可能将已知的知识与技能积极主动地运用到新的学习中去,找出其间的联系,学习迁移可能在不知不觉中发生。反之,学习态度消极,则不会积极主动地从已有的知识经验中寻找新知识的连接点,学习迁移就难以发生。

学习方法也会影响学习迁移,掌握了灵活的学习方法就会有助于学习迁移。

7.智力与年龄

智力对学习迁移的质与量都有重要的作用,因为智力体现出学生的概括能力、分析能力和推理能力等,智力较高的学生能比较容易地发现两种学习情境之间的共同要素或关系,易于总结学习内容的原理原则,能够形成比较完善的认知结构,能够比较顺利地将以前习得的学习策略和方法灵活的运用到后继的学习中。

年龄也是影响学习迁移的一个因素,因为不同年龄阶段的学生的思维发展水平不同,学习迁移产生的条件与机制不同。

8.教师的指导方法

教师有意识的指导也有助于学习迁移的积极发生。教师在教学时有意地引导学生比较学习材料的异同,启发学生总结概括学习内容,注意提高他们的学习策略与学习方法,进行启发式、引导式教学,都会促进学生积极学习迁移的发生。

十、论述促进学习迁移的教学原则。

1.科学精选教材

要促进学习迁移的发生,对教学的内容需要进行科学地选择。根据学习迁移规律的要求,应把各门学科中具有广泛迁移价值的成果作为教材的主要内容。

精选教材要突出每门学科的基本结构、;要随着科学的发展而不断变化更新;必须把最基本教学的内容和具有广泛迁移价值的科学成果放在首位;要突出学习材料的共同要素,突出学习材料的内在联系、学习材料的组织结构和应用价值。

2.合理编排教材内容

教材内容如果编排得好,迁移的作用就能得到充分地发挥,教学中就省时省力;如果编排不好,迁移的效果就小。依据学习迁移规律和影响学习迁移的因素,编排教材要做到使教材结构化、一体化、网络化。

3.确立明确而具体的教学目标

教学目标是教学活动的导向,是学习评价的依据。有了科学合理的教材,在实际教学过程中,在每个新的单元教学之前确立具体的教学目标,使学生明确学习目的,是促进学习迁移的重要前提。

4.有效设计教学程序

在教学过程中发挥迁移的作用,还要求合理处理教学程序。教学程序主要包括两个方面:一是宏观方面,即整体安排,先学什么,后学什么,学习的先后程序要确定。二是微观方面,即每个单元、每一节课的教学程序的安排。教师要根据教材的难点、重点,结合本班学生的智力特点、知识程序,来把那些具有最大迁移价值的基本知识、基本技能的学习放在首位。把那些概括性高、派生性强的主干内容突出出来,以使学生在学习中能顺利地进行迁移。

5.扎实基础知识和基本技能

知识之间、技能之间的共同要素是产生学习迁移的重要客观条件,学生掌握了扎实的基础知识和基本技能,就为新知识和新技能的顺利学习提供了有利的条件。为了能更好地促进学习的迁移,在基础知识和基本技能的教学中,应尽量在回忆旧知识的基础上引出新知识,要尽量突出事物间的内在联系,强调新旧知识之间的共同要素。这样不但可以复习旧知识,也可以使学生更好地理解掌握新知识,也就是说前面的学习是后面学习的准备,后面的学习是先前学习的发展。

6.注意启发学生对学习内容进行概括

在教材的选择和组织上,应把每门学科的基本概念、原理放在教材的中心地位并作为教学的重点,突出教材重点内容之间的逻辑。基本概念的掌握与学生的概括能力是密不可分的。如果学生具有独立地分析、概括问题的能力,能觉察到事物之间的内在联系,善于掌握新旧知识、新旧课题的共同特点,这就有利于知识和技能的迁移。学生的概括能力越强,越能反映同类事物间的共同特点和规律性联系,就越有利于迁移的产生。

7.教学中多应用比较的方法 在教学上应用比较的方法,可以帮助学生全面、精确、深刻地分析不同学习材料的异同。对学习材料进行系统的比较,可以帮助学生全面、精细而深入地理解和掌握学习内容。促进学生的积极迁移,防止消极迁移。

8.灵活地运用变式进行教学

变式是通过变更对象的非本质特征而形成的表现形式。变更人们观察事物的角度或方法,以突出对象的本质特征,突出那些隐蔽的本质要素,让学生在变式中思维,从而掌握事物的本质和规律。通过变式,使学生学会掌握事物的本质特征的方法,才能使他们懂得怎样从事物的千变万化的复杂现象中,去抓住本质,举一反三,使思维既深刻又灵活。

9.重视学习策略与学习方法教学

学习不仅是掌握知识与技能,还要掌握一定的学习策略和方法。为了促进学习迁移,教师必须重视对学习方法的指导,把学习策略作为一项重要的教学内容突出出来。

篇2:知识学习的迁移分类

学习迁移的分析

学习迁移是学习中的一种普遍现象,因此,学习迁移是学习心理学的一个主要问题.本文简要概括了迁移的种类和迁移理论的.发展,分析了影响学习迁移的多种因素,最后提出促进学习迁移的策略.

作 者:张艳芬 作者单位:保定师范专科学校,河北,保定,071051刊 名:河北工程技术职业学院学报英文刊名:JOURNAL OF HEBEI ENGINEERING & TECHNOLOGY VOCATIONAL COLLEGE年,卷(期):4(3)分类号:B84关键词:学习迁移 影响 共同成分

篇3:知识学习的迁移分类

关键词:文本分类,半监督学习,迁移学习,算法

文本分类是挖掘文本信息的处理技术, 在传统文本分类方法中, 大部分都是有监督的, 即用带标签的数据来训练分类模型, 并且只局限于目标数据域。然而, 收集标注数据是非常困难且耗费巨大的, 未标注数据却相当巨大, 很容易获取。如果只有少量标注数据和大量未标注数据可用, 那么半监督学习的方式在一定程度上便能弥补因训练数据不足而导致过拟化的分类误区。

很多机器学习的方法, 无论是传统的机器学习还是半监督学习问题, 都建立在一个共同假设上:测试数据与训练数据属于统一数据, 分布于同一特征空间。一旦数据分布有差异, 很多学习方法便无法表现得很好。于是又要重新标记大量数据去训练模型来适应新的数据分布, 这样的代价是昂贵的。基于这个局限, 便引入了迁移学习, 目的是从其他相关辅助数据域中迁移知识去帮助目标域中解决学习任务。例如, 在网页分类中, 能利用迁移学习从大学网页迁移知识来帮助Facebook.com分类任务训练一个分类器。虽然大学网页与社交网络的数据分布十分不同, 但是始终存在一些共同的分类知识来构建知识迁移的桥梁帮助提高分类器性能。

近年来, 随着研究的深入, 基于SVM的半监督、迁移学习等方法也逐渐应用于数据分类、社交网络分析和图像处理等方面。如Qiang Yang等人迁移学习对于文本挖掘的应用。目前, 在解决实际的文本分类问题中, 人们提出了不同的基于SVM的分类方法。随后在这些基本方法的基础上引入了当今热点研究的迁移学习, 形成了如跨域SVM方法。迁移学习在各领域的应用也是层出不穷, 如在社交网络的推荐系统中便提出了跨域推荐 (CDR) 和社交网络中的异构迁移对于图像聚类的方法, 在图像处理和信号处理方面也有应用。

在这篇文章中, 笔者提出了一种基于半监督的SVM迁移学习方法, 此法的贡献有: (1) 本文合理地利用了目标域中未标注的文本数据与少量标注的文本数据, 采用局部化SVM (LSVM) 进行局部和全局一致学习 (LLGC) , 并通过半监督的学习方式来加强分类器精度。并给出了这种方法的目标方程。 (2) 为了给分类器得到更好的泛化误差, 本文引入了迁移学习的方法对目标方程进行迭代, 给出了迭代终止目标函数, 产生更为精确的分类器, 并得到数据标签。

1 相关工作

由于本文关注的是基于半监督的SVM迁移学习文本分类方法, 所以着重研究算法, 而在文本数据上进行实验。接下来先回顾半监督文本分类学习与迁移学习等方法。

1.1 半监督文本分类学习

近年来, 半监督学习在文本分类上受到了广泛的关注。所谓半监督学习就是利用目标域中未带标签的数据与带标签的训练数据集一同训练分类器。这在某种程度上克服了传统机器学习中因为带标签训练数据集不足而导致的分类器不准确的问题。各式各样的半监督文本分类方法也被陆续地提出。Wajeed提出基于KNN的半监督文本分类方法, 这种半监督方法使用了不同的相似度测量与不同向量产生技术来提高分类的准确度。V.Vapnik提出的自训练半监督SVM算法, 很好地利用了大量未标记数据结合少量带标签数据共同训练分类器。接着Yong Ma在V.Vapnik的自训练半监督SVM算法上提出了一种改进的方法, 这个方法将类别之间的差异性用一个散度矩阵表示出来, 然后优化了目标方程。

1.2 迁移学习

随着互联网信息的高速发展, 迁移学习越来越受到数据挖掘、机器学习等相关领域的关注, 已经成为当今的一个研究热点。迁移学习就是利用一个新环境中学习的相关知识去指导当前环境目标任务的学习, 而在数据挖掘中, 本文定义新环境为辅助域, 当前环境为目标域。现阶段的迁移学习工作方式分为3个主要部分:同构空间下基于实例的迁移学习、同构空间下基于特征的迁移学习和异构空间下的迁移学习。

现在各个研究方面陆续有不同的迁移学习方法被提出。Feng Yu提出了文本分类的迁移学习, 这个方法利用了迁移知识采样源数据域数据构建了迁移知识库, 进而帮助目标数据进行分类。C.Do针对文本分类问题提出了一种通过Softmax Regression学习一个参数函数来分类新的任务, 而Qiang Yang在社交网络分析中提出了一种异构迁移学习的图像聚类方法, 旨在通过社交网络中不相关的带注释的图片迁移知识来提高目标图片搜寻的精度。

尽管对迁移学习在文本分类、社交网络等不同领域的研究已经比较深入, 但是在迁移知识的过程中, 不同的迁移方法往往效果差别很大, 不能很好地体现出分类器的效果。现阶段的迁移方式用得比较好的还是基于同构空间下迁移 (分为基于实例的迁移和基于特征的迁移) , 而基于异构的迁移学习方法比较复杂多变, 且实现起来比较困难, 容易造成负迁移而导致分类器性能下降。

本文引入了一种基于邻域的SVM方法对源数据知识进行迁移, 以便使与目标域带标签数据分布相近的数据更大程度地帮助训练目标分类器而提高分类器性能。本文利用基于SVM的半监督学习方法和局部和全局一致性方法 (LLGC) 进行模型构建, 并给出了目标方程。这种半监督的学习方法所获得的方程能很好地结合邻域SVM方法, 从而解决迁移学习方法运用于数据分类的问题。

2 半监督的SVM迁移学习方法

在这一节中, 本文结合以前提出的半监督SVM分类算法与现在的迁移学习算法, 提出了一种比较新颖的半监督迁移学习的方法。其原理如图1所示。

2.1 半监督迁移算法的模型

Semi-supervised-based TL_SVM算法是利用相关辅助域数据迁移合适的知识来帮助目标域任务的学习, 并利用了半监督迭代的思想来训练分类模型。

定义一个基本的跨域迁移SVM分类器对于2类问题:

方程 (2) 的对偶问题如下:

约束条件:

2.2 半监督迁移算法的描述

本文提出的基于半监督的SVM迁移算法详细描述如下:

算法:Semi-supervised TL_SVM

3 实验

本文选取Enron公司提供的内部员工通信邮件数据集Enron数据集作为本文的实验数据, 它包含1702封邮件, 53个类别。

3.1 数据集说明

Enron数据集的描述如表1所示。

3.2 数据预处理

文本采用此空间向量表示文本数据, 即:

3.3 实验分析

首先, 本文选取152封作为目标数据集 (其中训练数据100封, 测试数据52封) , 剩余1650封用来作为辅助数据集。也就是目标数据约占辅助数据集的10%。对比本文提出的算法与半监督SVM算法在数据集Enron上的分类性能评估如表2所示, 单位 (%) 。

由图3可知, 随着目标域数据增多, 迁移效果也在提升。当目标数据集占30%时, 迁移学习的效果与传统的算法效果接近。

实验结果表明, 当目标数据集较小时, 本文提出的基于SVM的半监督迁移学习算法效果明显, 而当目标数据集变大到一定数量时, 本文所提出的算法与半监督SVM算法效果接近, 可以使用传统的半监督SVM算法。

4 结语

在本文中, 笔者提出了基于SVM的半监督迁移学习的方法, 其主要是在减少目标域带标签训练数据的同时, 增加了相关域带标签数据。本文在以前方法SVM的基础上提出了一种新的文本分类方法。将本文所提出的方法与半监督SVM方法相比较, 证明本文的方法比半监督SVM方法好。

篇4:定语从句的知识迁移

1. 在长难句中能通过分析句子成分来识别定语从句,并且能根据句子成分来确定关系词在从句中的句法功能和指代成分;

2. 能够根据关系词在从句中的句法功能,准确选用适当的关系代词或关系副词;

3. 在“介词+which/whom/where”型定语从句中,能够准确选用正确的介词和关系词;

4. 能够辨认句子成分复杂的定语从句(如加入了插入语等)及明了定语从句与其他句型(如强调句)的区别。

我们分别看看定语从句考点在各大题型中的体现:

[阅读理解]

高考阅读理解文章经常会出现长难句,这些长难句往往包含各种从句、错综的介词短语以及非谓语动词等结构,有了定语从句的相关知识之后,我们就能理清错综复杂的各种句子层次,正确理解句意。

例1 (2015新课标Ⅰ卷·阅读理解B) Swimming pools, wine tasting, and pink sunsets (at normal evening hours, not 4 in the afternoon) filled the weekend, but the best part—particularly to my taste, dulled by months of cold-weather root vegetables—was a 7 a.m. adventure to the Sarasota farmers’ market that proved to be more than worth the early wake-up call.

25. What made the author’s getting up early worthwhile?

A. Having a swim.

B. Breathing in fresh air.

C. Walking in the morning sun.

D. Visiting a local farmer’s market.

解析 D。本题考查前面面列举的那个长难句的理解。文章可以设置理解障碍(the early wake-up call),而试题则直接询问,“是什么使作者早上起早床这件事变得值得?”A项的“游泳”在这个句子中提到了,C项的“在晨光中行走”与这个句子中的sunsets表达的时间正好相反,这个长句中的the best part才是本题的答案所在。根据the best part was a 7 a.m. adventure to the Sarasota farmers’ market判断,本题选D。如果不能正确理解这个句子,我们就可能选A或者C。

这个长句中包含各种复杂的句子成分,but连接并列分句,前面的分句使用了and连接的并列成分作主语,后一并列分句的主语部分有介词短语和形容词作定语,有介词短语作状语,而介词宾语被that引导的定语从句修饰。理解定语从句的含义是解题的关键之一。

译文 游泳池,品葡萄酒,还有通常在傍晚时分而不是在下午四点钟享受粉红色的日落,这些活动把周末安排得满满的,但是最好的经历还是早上7点到萨拉索塔的农贸市场去采买。对于连着吃了几个月冬天的根菜类之后味觉变得迟钝的我来说,这特别对我的胃口,即使要起早床也值了。

[完形填空]

高考完形填空试题中时常会出现一些含有定语从句的长难句。

例2 (2015福建卷) Several years ago I 37 a letter from seventeen-year-old Kerry, who described herself as a world-class fault-finder, almost always 38 by things.

37. A. received B. answered

C. expected D. rejected

38. A. threatened B. interrupted

C. bothered D. spoiled

解析 37. A。下文叙述书信的内容,因此这里表示“收到一封信”,用receive表示“收到”,而不是“回信、期待来信、拒绝这封信”。

38. C。理解了前面部分定语从句中的world-class fault-finder之后我们知道,这里说的是写信的人Kerry总是觉得各种事情不如意,那么遇到不如意的事,人就会觉得“恼火”。四个动词选项的含义:threaten“威胁”,interrupt“打断”,bother“使心烦”,spoil“宠坏”。结合长句的含义选择C。本句含有who引导的非限制性定语从句,以及过去分词短语作状语。who引导的定语从句使用了describe ... as ...表示“把……描述为……”。

译文 几年前,我收到一个17岁的叫凯莉的人的来信,信中她说自己可谓是世界级的挑刺人,说她几乎总是因为一些事情而烦恼。

[语法填空]

语法填空试题中,定语从句的考点较多,有的试题直接考查关系词的运用,有的考查“介词+which/whom”结构中介词的使用。随着这个新题型的逐步稳定和完善,语法填空试题对定语从句各考点的重点考查会更常见。

例3 (2015新课标Ⅰ卷) I’d skipped nearby Guilin, a dream place for tourists seeking the limestone mountain tops and dark waters of the Li River are pictured by artists in so many Chinese paintings.

nlc202309021516

解析 that/which。分析这个长难句之后可知,本空需要关系词引导定语从句修饰前面的专有名词the Li River,关系词在从句中作主语表示地点,此时不能用关系副词where引导这个定语从句。因此本空填that或which引导定语从句,这个长句使用了a dream place作宾语的同位语,后面接了现在分词短语作定语,这个定语也可以扩展为定语从句;这个分词结构中的动词后面接了and连接的并列宾语,后一宾语带有定语从句,这是本句的考点。只有掌握了定语从句的基础知识,我们才能正确解答试题。

译文 我没有去附近的桂林,这是很多游客梦寐以求的景点,游客能在这里寻找石灰石的山顶和漓江深不见底的水域,这些被很多中国画描绘过。

[短文改错]

为了控制试题的难度,高考短文改错试题很少涉及定语从句的考点,近年的高考短文改错文章中很少出现定语从句,但是掌握定语从句的相关知识能够帮助我们触类旁通,更好地理解文章和判断正误。

例4 (2013新课标Ⅱ卷) Having tea in the late afternoon provides a bridge between lunch and dinner, that might not be served until 8 o’clock at night.

解析 that→which。本句使用动名词作主语,后面接了一个非限制性定语从句,而我们知道,that不能引导非限制性定语从句,因此that引导定语从句是本句的错误所在。关系词指代主句的dinner,指物,并且在非限制性定语从句中作主语,因此应该用which。

译文 在傍晚喝茶好比在午饭和晚餐之间加了一座桥梁,晚餐可能要到晚上8点钟才开始。

[书面表达]

同学们在书面表达中准确运用定语从句,这会有效提高文章的得分档次。我们来看看近年高考英语书面表达范文中的定语从句:

例5 (2015新课标Ⅱ卷) We’ll also spend some fun time together singing, dancing and playing games, which we hope will make them happy.

分析 这个句子使用了which引导非限制性定语从句,从句中还使用了插入语,这些语法结构的运用增强了文章的表达效果。

例6 (2015安徽卷) Finally, I would like to ask a few questions about his personal life, which must be very interesting.

分析 本句在写作素材之外发挥了合理的想象和拓展,使用了非限制性定语从句。

例7 (2014安徽卷) The truth is that everyone will have one of those periods when things seem to be going wrong, so you don’t have to worry much.

分析 这个句子使用了that引导的表语从句,when引导定语从句修饰名词periods,以及so连接的并列分句。

篇5:学习的迁移规律研究

学习的迁移规律研究

学习是一种心智活动,在各种信息相互联系和相互作用的`过程中,必须经过整合重组,因此掌握有效的学习方法就显得尤为重要.这篇文章谈到了学习的迁移规律,包括迁移的实质、过程与机制、影响迁移的条件,为授者提高教学成效,习者提高学习效率起到了推动作用.

作 者:刘萍 作者单位:中南财经政法大学,商贸英语系,湖北,武汉,430060刊 名:哈尔滨学院学报英文刊名:JOURNAL OF HARBIN UNIVERSITY年,卷(期):24(4)分类号:B842.3关键词:迁移 整合 定势

篇6:重视知识与能力的迁移—

语文单元教学是把一个单元几篇体裁相同,内容相关的课文作为相对独立的教学阶段,通过讲读—一自读 —一单元总结三个配套的课型实施教学。单元教学符合大纲要求,体现了教材的编排意图,有利于发挥教师的 主导作用和学生的主体作用,从而把传授知识和培养能力有机地结合起来。语文单元教学的课型设计符合教学规律和认识规律,有其严密的科学性。修订后的高中语文教材,每个单 元由3~4篇课文组成,附有单元知识和训练。课本目录明确标出讲读、自读和课外自读三类课文。所谓讲读,是以传授本质的,带规律性的知识为主要特征。教师在吃透教材,了解学生的基础上,依据教学原则,采用 灵活的教法传授知识,教给方法,培养能力。自读即自学,学生在教师的引导下,把讲读课学到的知识和初步 培养起来的能力加以运用和实践,并从中获取新的知识。从理论上讲,语文单元教学的讲读课和自读课是有机的整体。由讲读到自读,体现了举一反

三、触类旁通 的知识迁移规律。讲是为了不讲自会,教是为了不教自懂。讲读课与自读课各具特点,其内函非常丰富,既不 能混为一谈,也不能截然分开。讲读课进行的如何,直接关系到自读课的效果。自读课的教学任务能否顺利完 成又是对讲读课的检验。二者相辅相成,构成语文单元教学的基础环节。在实施语文单元教学过程中,由于一些教师对修订高中语文教材的编排意图理解不透彻,加之习惯于传统 的单篇教法,这就导致了两种倾向的出现:其一,不分讲读课或自读课,只要时间允许就采用陈旧的教学模式,题解、正音解词、分段讲解、归纳中心及写作特点,处理练习,面面俱到,周而复始。讲读课满堂灌,自读 课亦满堂灌。其二,既然是自读课,干脆撒手放开,不组织,不引导,不检查效果。有自学能力的学生或许可 以提出疑难问题,而绝大多数学生则漫无目的,浮光掠影,根本达不到教学要求,自学能力的培养更无从谈起。中学语文教学最终目的是要培养学生的阅读能力和写作能力。单元教学作为科学的教学体系,对完成这两 项任务有其明显的优势。我国古代思想家、教育家孔子最早提出了“举一反三”的教学原则。现代著名教育家 叶圣陶先生说:“语文教材无非是例子,凭这个例子要使学生能够举一反三,练成阅读和作文的熟练技能。因 此,教师就要朝着促使学生‘反三’这个目标精要地讲,务必启发学生的能动性,引导他们尽可能自己去探索。”语文单元教学的讲读与自读,完整地体现了我国传统的教学理论和原则。讲读就是举一,使学生掌握基础 知识和获取知识的方法。自读就是反三,即运用教师教给的方法和规律,在学习中实践运用。自读课更能体现 学生的主体地位。忽视自读课教学,或者用讲读课代自读课,不但违反教学基本规律,而且也不利于主体作用 的发挥。自读课的教法在遵循认识规律的前提下,可以作多种尝试,但对一些基本原则和要求应该形成共识。1.自读课的常规要求必须常抓不懈,使学生逐步形成良好的学习习惯。常规要求包括:①预习课文,熟 练地使用工具书,排除字词障碍。借助注释了解作者生平简况及课文背景。②标出课文节次,划分段落层次,简要概括段落大意。③分析各段之间的联系,在阅读自读提示的基础上,初步归纳中心思想。④画出能表达中 心思想和写作特点的词、句、段,反复诵读自认为写得出色的语段,并学会点评和眉批。⑤列出不理解的疑难 问题。常规要求每节课都要强调,并注意按照层次序列加以落实。自学习惯的培养有一个渐进的过程,教师应 加强指导检查,刚开始不宜粗放,宁慢勿快,以后逐步加快节奏。2.精心设计自学提纲。提纲要根据同类体裁课文的规律性知识,体现单元教学的目的和要求。既要突出 单篇课文的重点,又要兼顾知识的覆盖面及纵横联系,便于学生思考,鼓励学生自我质疑。比如高中语文第四 册第七单元文言文教学,《伶官传序》是一篇课内自读课文,它与前两篇《过秦论》《六国论》同属“史论”。学生按照常规要求完成《伶官传序》的初读之后,在教师的指导下,应该能够设计出自读提纲。①《伶官传 序》的写作意图是什么?②本文引用了哪些史实阐述“忧劳可以兴国,逸豫可以亡身”这一中心论点的?③本 文在安排论证结构上与《过秦论》《六国论》有何异同?④常用的文言虚词、文言实词、文言句式的归类整理。自读提纲力求有梯度,兼顾知识和能力两方面因素。答案尽可能具体单一,便于消化理解。考虑到学生的知 识水平和自学能力存在一定差异,初学列自读提纲或处理较难的自读课文,教师应做好示范。示范要定准基点,面向多数中等学生,程度较好的学生可以拓宽加深内容,基础差的学生要进行个别辅导。3.轻拨重敲,及时解决学生在自读中的疑难问题。自读课是让学生运用讲读课学来的知识和初步培养起 来的能力进行自学实践。起步阶段教师的辅导尤为重要。辅导的形式与方法是灵活多样的。①启发式,比如对 《伶官传序》写作意图的理解,可以启发学生联系文章的写作背景以及“史论”通常采用“借古喻今”的写法。这样一提示,问题便解决了。②诱导式,如一个词语的解释,一段文句的理解,不要仅仅告诉学生一个答案,最好诱导他们联系上下文在具体的语言环境中去领悟。③点拨式,比如学生在自读时,对借喻和借代两种修 辞方法不容易分辨,教师应简要阐明两种修辞法的特点,着重点明“喻”和“代”的本质区别,然后举例说明,加深印象。教师的辅导要把主要精力放在带有普遍性的疑难问题上,对程度好的学生轻拨,对基础差的学生 重敲。4.作好自读课的总结工作,对检查自学效果,培养良好的学习习惯大有益处。总结可以从两方面进行: 第一,检查效果,要防止走过场,流于形式。检查的方式有提问质疑;书面练习,收阅笔记。第二,交流自学 体会,可分组座谈,也可以选择不同类型的几位学生全班交流。通过谈体会,互相启发,取长补短,特别是那 些在自学中尝到甜头,收益较大的同学的切身感受,对其他同学将产生激励作用。教师应在学生交流的基础上 作评价性的小结肯定成绩,点出不足,多加鼓励。讲读和自读是语文单元教学的基本课型,讲读并不等于教师唱独角戏,自读也不是学生信马游缰。无论讲 读课,还是自读课,都必须遵循教学的基本原则和要求。应该指出:既然是自读课,就要体现自读的特点,要 敢于放手,让学生充分“动”起来。自读课强调发挥学生的主观能动作用,是不是就可以减轻教师的负担,或者说忽视教师的主导作用呢?上 好自读课,对教师提出了更高更严格的要求。首先,教师要深入钻研教材,根据单元教学的目的和要求,精心 备好每一节课,尤其是注意讲读课和自读课的知识迁移与能力训练的衔接,完成“教”向“学”的过渡转化。其次,教师对自读课教材要吃透,明确教学目的和要求,课文有多少个知识点?进行哪些方面的能力训练?必 须心中有数。只有这样才能放得开,收得拢,在充分调动学生敢想、敢说、敢写的自学积极性的同时,要加以 恰当的引导和适度的调控,进而达到预期的目的。当然,我们说“教无定式,学无定法”,并非认为无章可循。自读课更是如此,在遵照教学规律和原则的 前提下,应该允许进行大胆探索和试验,在实践中不断总结完善,使自读课教学更科学,更有利于培养学生的 阅读和写作能力,促进单元教学水平的提高。--语文单元自读课教学初探

篇7:中国学生学习英语的文化迁移

中国学生学习英语的文化迁移

本文阐述了文化迁移种种表现及根源,还将讨论在英语学习和使用中文化迁移带来的负面影响及如何在教学中进行解决.

作 者:贾晓娟 钟蓓 作者单位:河北交通职业技术学院刊 名:中国校外教育(理论)英文刊名:CHINA AFTER SCHOOL EDUCATION年,卷(期):“”(z1)分类号:H3关键词:先入为主 文化迁移 根源 负面影响 解决

篇8:知识学习的迁移分类

随着Web2.0的迅速发展,网络上出现了大量的主观信息,对这些主观性文本进行分析和挖掘,并识别出它们的情感倾向具有十分重要的意义。情感分类,就是对这些主观信息进行分类,判断其是正面还是负面。

作为文本分类的一个分支,典型的监督分类方法在情感分类中也取得了不错的效果[1]。但在实际生活中,大量的新信息不断出现,这些新的信息集和已经标注的训练语料可能属于不同领域,它们的数据分布也可能很不相似,直接使用传统的监督分类方法,效果就会很差,这就引出了领域适应性问题[2,3]。

对这种领域适应性问题的一个直观解决办法就是手工标注一部分训练数据,但是对于不断出现的新的领域,标注大量的训练数据,将是一件非常耗时的工作,在实际生活中是不可取的。因此尽量利用已经存在的标注文本对新出现的领域进行情感分类,就具有特别重要的意义。

针对监督分类方法的缺点,本文提出了基于质心迁移的领域间适应性情感分类方法。该方法不需要任何目标领域的标注文本,利用源领域的标注文本,训练出两个不同的分类器,对目标领域的大量未标注文本进行协同训练,挑选部分可信度高且距离测试集质心近的文本加入到训练集,同时去除部分源领域中距离测试集质心远的文本,更新训练集,使两个领域的质心逐渐靠近,减小领域间的差异。

1相关研究

情感分类根据实现的粒度的不同,可分为三个级别:单词/短语粒度、句子粒度、篇章粒度。对于篇章级别的情感分类,根据作用的领域不同,可以分为领域内情感分析、跨领域情感分析。

1.1领域内情感分析

对于领域内的情感分类,文献[1]中最先将监督机器学习技术应用到情感分类中。在此之后很多研究都试图通过应用各种技术来提高分类的精度,文献[4]中基于图最小割选出文本中的主观句进行情感分类;文献[5]中通过信息增益和遗传算法选择对于情感分析有益的特征;文献[6]中提出结合情感词的先验情感倾向性的方法等。

1.2领域适应情感分类

跨领域情感分类在情感分析中是比较难的一种分类问题,作为情感分类的一个重要研究方向,跨领域的情感分类也越来越引起了人们的重视,很多学者对此进行了有益的探索。文献[7]中利用多个领域信息和多分类器融合等策略进行领域间情感分类的研究;文献[8]中基于互信息进行枢轴选择对SCL(Structural Correspondence Learning)进行了改进,并探讨了不同领域的相似度来选择合适的训练语料;文献[9]中从理论上阐述了跨领域情感分类效果不好的原因,并提出了挑选部分未标注数据来更新训练集的质心,在中文语料上取得了不错的效果;文献[10]将文本的情感倾向性分析与图排序结合起来提高分类精度。

2基于质心迁移的领域适应

过分拟合是监督学习的一个内在缺陷,对同一个领域的监督分类,如果有足够多的训练数据,这个问题可以有效的缓解。但在跨领域分类中,由于训练集和测试集的数据分布差异较大,随着训练数据的增加,并不能减小过分拟合的影响。因此,进行领域适应的一个关键就是要减小数据的过分拟合。本文在解决该问题上采用领域质心逐渐靠近的方法,通过两种不同的分类算法,对目标领域大量的未标注数据协同训练扩充训练集,同时根据标注的原始训练数据和测试集质心的距离,动态地去除部分标注的原始训练集来减小两个领域质心的距离,有效地去除了源领域的噪声数据,减少领域适应的影响。

2.1总体框架

获取目标领域大量标注数据相对困难,但是随着数据收集和存储技术的发展,收集大量的目标领域的未标注数据是一件相对容易的事,因此,可以利用目标领域大量未标注的数据来更新训练集,使两个领域的质心逐渐靠近。该方法主要分为二个步骤:(1)去除分类器中距离测试集质心比较远的源训练文本。(2)向分类器加入可信度高且靠近测试集质心的目标领域未标注文本。

整个框架是一个迭代的过程,在开始阶段,分类器中只包含源领域的所有标记数据。在每次迭代过程中,(1)计算源领域中所有文本和测试集的质心距离,将源领域中距离测试集质心最远的K个文档去除;(2)利用标注文档训练两个分类器C1、C2对目标领域中未标记文档进行分类,为每一个文本标记一个伪标签;(3)从目标领域中分别选择部分标记可信度高且距离测试集质心最近的正例和负例文本加入到源领域。随着迭代的进行,源领域的噪声数据被逐渐去除,目标领域的标注数据被逐渐加入,减小了跨领域的影响。

2.2算法的具体实现

实验中采用的是向量空间模型,选择能表达情感的名词、动词、形容词、副词作为特征项,没有进行特征选择[7]。特征项的权重本文采用的是TF*IDF,其中TF是某个词语项在该文本中出现的频率,IDF是逆向文档频率,由总文档数目除以包含该词语的文档数目。

具体算法如下:

输入:已经标注的训练集Sl,测试领域中大量的未标注的数据集Tu,测试集Tt

输出:Tt中每个文件所属情感类别。

过程:

(1) 去除训练集Sl中的原始标注文本距离Tt质心最远的K个文本;

(2) 根据Sl训练出两个分类器和C2;

(3) 使用C1、C2分类器,对Tu进行分类;

(4) 从上述两个分类结果中分别挑选出p个positive和n个negative文本Tc加入到训练集中,更新训练集Sl,从Tu中去除Tc转到(1);

(5) 对测试集Tt进行多分类器投票表决分类。

2.3源领域中文本的去除

对源领域中噪声数据的去除,本文基于如下假设,如果源领域中的文本和测试领域的质心越远,则它们的相似度越小,分类时引入的噪音越多,因此在每次迭代过程中本文都去除在源领域中距离测试领域统质心最远的K个文本。距离的度量算式如下:

distance(x,y)=i=1n(xi-yi)2 (1)

其中x为训练集中的标注文本,y为测试集的质心,xi、yi为特征项的权重。

2.4目标领域中文本的加入

对未标注文本的加入,本文使用两个不同分类器KNN和SVM进行协同学习,充分利用了KNN的局部信息,SVM的全局信息,提高协同学习的性能。在迭代过程中,我们都选择两个分类器分类结果相同并且靠近测试集质心的文本加入到训练集,通过这种方式既保证了选择文本的可信度又保证了选择的文本都是距离目标领域中心比较近的文本。

3实验及分析

3.1实验数据

在实验中,本文采用的是文献[8]中从亚马逊网站上抽取的产品评论文章,包括四个领域(book,dvd,elec,kitchen),每个领域包括1000篇正向评论,1000篇负向评论(http://www.seas.upenn.edu/~mdredze/datasets/sentiment/ )。

3.2基准系统

在实验中,为了和本文的实验结果进行比较,我们选择在文本分类中经常使用的SVM、KNN、NB分类方法。

3.3评价指标

对于实验的性能,本文采用的是精确率作为评价指标,计算公式如下:

Ρ=ΝiΝt (2)

其中Ni为分类正确的文本数,Nt为待分类的总文本数。

3.4实验设计与结果

在每次测试中,我们把测试领域数据集分为两个部分,从测试领域中随机抽取200篇作为测试集,剩余的1800篇作为未标注的数据集。对未标注数据集进行挑选时本文使用的是SVM和KNN两种分类器。SVM本文使用的是SVM_light工具包(http://svmlight.joachims.org/),采用的线性核,所有参数均采用默认值。最后对测试集进行多分类器投票表决,本文采用的是KNN、SVM、NaiveBayes三个分类器。实验结果见表1,其中pn为每次加入的正向情感和负向情感的文本数,K为每次从原始训练集中删除的文本数目,I为迭代的次数,在实验中的取值分别为5、5、10、20。

从表1中可以看出,充分利用测试领域的未标注数据集来更新训练集,与朴素贝叶斯、KNN、SVM这些常用的分类算法相比,能显著地提高分类精度。特别是和朴素贝叶斯分类相比,本文的方法提高了13.9%,这说明本文所提出的方法是可行的。在从dvd到book,book到dvd,kitch到elec的转移过程中,结果比领域内测试还好,可能是因为book和dvd,elec和kitch相似度高,在转移的过程中,加入了一些对分类起作用的特征项。总体上说,领域间的情感分类和领域内相比,准确度上还是有一定差距。

由表2可以看出,当K取10的时候,分类结果最好。这是因为当K取0的时候,在每次迭代过程中,没有对源领域中的文本进行去除,引入了过多的噪声数据,当K取30的时候,当迭代20次的时候,对源领域的标注文本去除了600篇,造成了训练语料过少,影响了分类精度。

表3显示了迭代次数对质心转移结果的影响。从表中可以看出,当迭代次数很大的时候,质心转移的精确率将急剧下降,这是因为,当迭代次数较大的时候,引入了过多的分类错误文本,同时去除了大量的原始训练数据,造成训练语料不足。

文献[8]中在这四个领域中做的平均结果是0.78,本文和他的结果相比还有一定的差距,这可能是因为本文对于语料的预处理阶段和特征选择没有他做得好,而文献[8]中直接使用线性分类器不进行领域适应算法的分类精度是0.745,本文使用SVM的结果是0.717,相差了0.028,另一方面,文献[8]在进行领域适应的时候,需要部分目标领域的标注数据作为训练集,本文在实验过程中,没有使用任何目标领域的标注数据。

同时,从表1、表2中还可以发现,对于一个测试集,选择不同的训练语料做训练集,实验的结果会相差很大,如对dvd的测试,我们选择book,elec,kitch做训练语料,结果分别为0.829,0.709,0.719,因此在实验的时候,需要一个机制对两个领域的相似度进行计算,选择合适的领域作为训练集。

3.5领域相似度的度量

对一个新的没有任何标注数据的领域进行分类的时候,选择哪一种合适的标注语料来进行训练分类就成为了一个首要问题,如果两个领域的差别太大,就可能造成分类的精度很低,这就需要度量不同领域之间的相似度,为测试集选择合适的训练集,目前这方面的研究做得很少,本文提出了一个基于两个领域共现单词的相对熵(relative entropy或 Kullback-Leibler divergence,KL距离)来计算两个领域之间的相似度。两个领域之间的KL距离越小,它们的分布越相似,KL距离越大,它们的分布差异越大,则进行迁移的时候效果越差。

为了计算两个领域的KL距离,本文把两个领域的特征向量空间用它们的和质心表示。和质心公式为:

h(j)=i=0nxij (3)

Ci=(h(0),h(1),…,h(m)) (4)

其中xij是第j个特征项在第i篇文章中出现的次数,h(j)是第j个特征在一个领域中出现的次数。Ci是领域的质心。对于训练集P和测试集Q的KL距离为:

ΚL(ΡQ)=i=1n(pi(x)×log(pi(x)/qi(x))) (5)

其中pi(x)和qi(x)分别为训练集和测试集质心中共现特征项的概率分布, KL(PQ)≠KL(QP)。在本次实验语料中,我们计算任意两个领域之间的KL距离值如表4所示。

从表4中可以看出,book和dvd,elec和kitchen数据分布最相似,其余的领域则相差较大。在进行领域适应的时候,应该选择最相似的领域作为训练集,如对book的测试,应该选择dvd作为训练集,对elec的测试,应该选择kitch作为训练集。这和表1中的实验结果相吻合,因此使用KL距离来度量两个领域的相似程度是可行的。

4总结与展望

在本文中,针对跨领域情感分析的问题,提出了基于质心迁移的领域适应性情感分类方法。通过对原始训练集中噪声数据的去除和目标领域未标注数据的加入,提高了分类的精度。在实验过程中,对未标注数据进行挑选的时候,选择的是两个分类器投票相同,且可信度最高距离测试集质心最近的,但是在迭代20次的时候,准确度才达到90.4%,引入了分类错误的文本,对结果造成了影响,下一步我们可以试试别的分类器结合的方法。

参考文献

[1]Pang B,Lee L,Vaithyanathan S.Thumbs up?Sentiment classificationusing machine learning techniques[C]//Proceedings of EMNLP-02,2002:79-86.

[2]Hal Daum,Daniel Marcu.Domain Adaptation for Statistical Classifiers[J].Journal of Artificial Intelligence Research 2006,26:101-126.

[3]Yee Seng Chan,Hwee Tou Ng.Estimating Class Priors in Domain Ad-aptation For Word Sense Disambiguation[C]//Proceedings of the 21stInternational Conference on Computational Linguistics and 44th AnnualMeeting of the ACL,2006:89-96.

[4]Pang B,Lee L.A Sentimental Education:Sentiment Analysis usingSubjectivity Summarization based on Minimum Cuts[C]//Proceedingsof ACL-04,2004.

[5]Ahmed Abbasi,Hsinchun Chen,Arab Salem.Sentiment Analysis inMultiple Languages Feature Selection for Opinion Classification in WebForums[J].ACM,2007.

[6]Prem Melville,Wojciech Gryc,Richard D Larence.Sentiment analysisof blogs by Combining Lexical Knowledge with Text Classification[C]//Proceedings of KDD-09:1275-1283.

[7]Aue A,Gamon M.Customizing Sentiment Classifiers to New Domains:a Case Study[C]//RANLP,2005.

[8]John Blitzer,Mark Dredze,Fernando Pereira.Domain adaptation for senti-ment classification[C]//Proceedings of the 45th Annual Meeting of theAssociation of Computational Linguistics,2007:440-447.

[9]Songbo Tan,Gaowei Wu,Huifeng Tang,et al.A Novel Scheme for Do-main-transfer Problem in the context of Sentiment Analysis[C]//Proceed-ings of the sixteenth ACM conference on Conference on information andknowledge management.Lisbon,Portugal,2007:979-982.

上一篇:为自然之书命名作文下一篇:学校运动会校长发言稿