小词典分词

2024-06-08

小词典分词(精选三篇)

小词典分词 篇1

对于中文来说,中文字符串可逐步细化为段、句、词、字。字、句和段能通过明显的标点符号分界符来简单划界,也易于让机器“看”,只有词需要用分词算法来划分,即中文分词。现有的分词算法可分为3大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法[1]。基于字符串匹配的分词方法是按照一定策略将待分析汉字串与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。该方法需要确定三个要素: 词典、扫描方向、匹配原则[2]。基于字符串匹配的分词方法原理简单,实现相对容易,并能达到较高的准确度,是最常用的分词策略,缺陷是容易产生歧义切分。词典是字符串匹配的分词方法中很重要的基础部分,因此该方法又称为基于词典的分词方法。

2 双词典设计

目前有三种典型的中文自动分词词典机制,分别是基于整词二分的词典机制、基于TRIE索引树的分词词典机制和基于逐字二分的分词词典机制[3]。整词二分法是一种广为使用的分词词典机制[4]。本设计采用一种双词典机制,它由改进的整词二分法标准词典、辅助的临时词典和临时高频词表三部分组合而成。

2.1 标准词典

2.1.1 首字散列表

词条首字用散列表来存储。国家标准规定,汉字编码中汉字的区位码值从16区开始到87区,每区94位,标识6 763个汉字。即每个汉字都有唯一的区位码。汉字的机内码通过编程很易获取,又有机内码与区位码换算公式如下:

机内码高位=区码+0xA0 ,

机内码低位=位码+0xA0 。

若区位码表示为十六进制数,其中区码为区位码的前两位,位码为区位码的后两位。据此特点,可用散列表方式来存储词条首字,实现首字的迅速定位。根据机内码与区位码及数组特点,设散列函数为(ch1-0xB0)*94+ ch2-0xA1 ,其中ch1为机内码高位,ch2为机内码低位。首字结点设计见表1。

2.1.2 词索引表

根据统计,汉语词语中二字词占大多数,有3万多,其次是三字词和四字词,都是3千多,五字词及以后则很少。所以二、三、四字词的查询效率直接影响分词速度。为提高查询效率,本词索引表结点具体设计见表2。

若要匹配的词为二字词,从“二字词起始位置”到“三字词起始位置”间进行查询。以此类推。

2.1.3 标准词典正文

标准词典正文为线性表结构,存储每个词条中除首字外的字串,以及通过语料库学习后统计出的该词条的总词频。字串与总词频间用“/”间隔,字串间用空格作为间隔。

对同一首字的词条,首先按词条的字数顺序排列,同长度词条则按次字的区位码排序,以此类推。首字已在首字散列表中确认,故不需要再存储。例如:首字为“中”的标准词典词索引表及部分正文如图1所示。其中,各字的区位码见表3。

2.2 临时词典

在人们用语言进行交际活动时,语言成分的使用呈现一定的规律性,因此可以采用统计方法对其进行研究统计,这就是互信息原理。从形式上看,词是稳定的字的组合。因此在上下文中,相邻字出现的次数越多,就越可能构成一个词。因此字与字相邻共现的频率能够较好地反映成词的可信度[5]。基于此论断,本设计中增加一个临时词典,用于存储待分析文本中出现的二字词、三字词、四字词及其在本文的词频,以便处理分词歧义。我们所用的绝大部分词都是四字以下词,所以不考虑四字以上出现的新词。

临时词典结构类似标准词典,仍使用首字散列方式设计,但不再需要词索引表,直接是词典正文,首字结点结构见表4。该首字散列表格式类似标准词典格式,区别在于最后一个数据项,此处为指向以该字为首的词典正文第一位。临时词典的词典正文结构见表5。

比如以“诺”为首的字,其词典正文为“2 基 102/3 基亚 102/4 基亚手 27/”。说明待分析文本中以“诺”为首的词有“诺基”、“诺基亚”、“诺基亚手”三个词。“诺基”词长为2,词频为102;其他以此类推。

2.3 标准词典更新

扫描临时词典,若某词的出现频率极高,词密度极大,且未被标准词典收录,则将该词增入标准词典及用于构造标准词典的原始数据中,总词频为该词在本文本中词频。词密度公式为:

wrddt=wordlen*f*100% /txtlen 。

其中:wrddt为词密度;wordlen为词长度;f为词频;txtlen为待划分文本长度。

通过统计,本设计将词密度临界值设置为0.5%。若某词的词密度≥0.5%。则将其加入标准词典中。

2.4 临时高频词表

为提高分词正确率,加入一个临时高频词表。将临时词典中词密度≥0.1%的词存入一个高频词表中,以便分词时使用。高频词表为线性表。

3 扫描方式、匹配原则及歧义处理

3.1 扫描方式和匹配原则

本设计使用基于词典机制的分词算法,它的核心思想是切分出单字串,然后和词库进行比对,如果是一个词就记录下来, 否则通过增加或者减少一个单字,继续比较,直到还剩下一个单字则终止,如果该单字串无法切分,则作为未登录处理。按照扫描方向不同,该方法分为正向匹配和逆向匹配。本设计同时使用正向最大匹配算法和逆向最大匹配算法即双向最大匹配算法进行分词。

3.2 歧义处理

3.2.1 匹配法无关歧义处理

汉语句子中,连续的三个单字概率非常小。因此,对于一个字串,若分词结果中存在连续的三个或三个以上单字,意味着可能出现分词错误。这时,对这些连续单字组成的词,查询临时高频词表。若存在,将其划分为词。

3.2.2 匹配法相关歧义处理

对于一个字串,若正向最大匹配法与逆向最大匹配法分析的结果不同,说明出现歧义,在此使用临时词典机制与标准词典协同对其处理。首先,获取两种匹配法分词结果不同处的词语(为说明方便,用A、B两字符模糊代表两种匹配法); 然后根据分词结果不同处的词语的特点按下述方式处理:①分别查询“分词结果不同处的词语”是否存在于临时高频词表中,若存在,则将含有高频词的分词结果作为最终分词结果,歧义处理结束,若不存在,转下一步处理;②对“分词结果不同处的词语”查询临时词典,若A匹配法中分词结果不同处的某词的词频较B匹配法中所有分词结果不同处的词频都呈量级差别,则取A匹配法的分词方式为最终结果,歧义处理结束,否则,转下一步处理;③对“分词结果不同处的词语”查询标准词典,若A匹配法中所有不同词的词频和大于B匹配法中所有不同词的词频和,则取A匹配法的分词方式为最终结果,歧义处理结束。

4 实验结果及分析

以上述理论为基础,在VC++6.0开发环境下,实现了一个中文分词系统。这里应用3个txt文档作为测试数据,分别采用本双词典机制中文分词系统和普通词典机制的中文分词系统对3个txt文档进行分词,分词结果统计见表6。

由分词结果统计可见,本双词典机制中文分词系统准确率较高,但花费时间要多一些。准确率较高说明双词典机制在处理歧义上起到了一定的作用,是合理有效的一种方法,这是我们可继续深入研究的一个切入点。时间花费多与分词过程中双向最大匹配算法的使用有很大关系,因此,在不影响准确率的前提下,如何通过改双向最大匹配算法为逆向最大匹配算法从而提高本分词算法的时间性能将是后续要探讨的课题。

摘要:中文分词是中文信息处理的基础技术之一,被广泛应用于搜索引擎、机器翻译、自动分类、自动校对、语音合成等方面。阐述了一种基于双词典机制的中文分词系统的设计。该设计中,构造了标准词典、临时词典和临时高频词表组成的双词典机制作为分词基础,应用了正向最大匹配法和逆向最大匹配法进行分词,提出了基于双词典机制的歧义处理方法。实验表明了此设计的可行性和优越性。

关键词:中文分词,双词典机制,歧义处理

参考文献

[1]付年钧,彭昌水,王慰.中文分词技术及其实现[J].软件导刊,2011,10(1):18-21.

[2]奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):43-47.

[3]柴宝杰.中文自动分词若干技术的研究[D].秦皇岛:燕山大学,2007:56-57.

[4]费洪晓,胡海苗,巩燕玲.基于Hash结构的机械统计分词系统研究[J].计算机工程与应用,2006,42(5):163-165.

留学小词典 篇2

Academicadvisor:由学校中之教授或职员担任,帮助学生学业问题之顾问。

Accreditation:资格认可。申请学校时应特别注意所申请的学校是否被有关机关认可。

Admission:入学许可。

Advancedplacement:申请美国大学时,可经由考试或转学分(transfercredit)而直接进入大一、大二、大三或大四。

Advancedstanding:同Advancedplacement。

Associatedegree:副学士学位。为高中毕业后所上的两年制社区大学(CommunityCollege)或两年制学院(Two-yearCollege)所发给的学位。

Audit:旁听。没有学分、考试,但要求费用与正式生相同。

Bachelor’sdegree:学士学位。由四年制大学毕业索取得的学位。

Baccalaureatedegree:学士学位。由四年制大学毕业索取得的学位。

Bursar:学校之财务及会计部门。

Bulletin:布告、公告。通常学校课程介绍目录也叫bulletin.

Campus:校园,校区

Candidatenotificationdate:学校公布其对于学生申请结果的决定的日期。

Candidatereplydate:回函期限。大部份学校会指定的一个日期,此日之前学生必须通知学校是否要入学。

Collegecatalog:学校介绍目录。

Communitycollege:两年制的社区大学。

Competitiveness:学校的竞争性;越有竞争性的学校代表申请的困难度越高。

ConditionalAdmission:即条件式入学;有些学校会给条件不合(通常是英文能力未达标准)的学生条件式许可,待其修完所需之课程始可正式开始修学位。

CooperativeEducationPlan:建教合作计划;学生可一边上学一边从事相关工作,或是课程、工作轮流,或是课程、工作同时进行。一般这类计划要花五年取得学士学位。然因移民局之规订,所以外国学生较少有这类机会。

CoreCourse:是取得大学学位之必修通识科目,只有少数学校无此要求。通常必修科目分三大类:自然、社会、和人文科学,在毕业前每大类需修满一定的学分数,一般多半在大一或大二修这类的课程。

Credit或CreditHour或unit:学分。

Curriculumvitae或vitae或CV:将自己的学历、研究经验、专业经验等总合起来以有结构的方式呈现出来,和履历表类似。此表等于学术界使用的履历表。

Dean:学院院长。

Degree:学位。

DeferredAdmission:延迟入学:准许学生在被接受后延迟一定时间入学,例如延后一年。

Dissertation:论文,一般指博士论文。

DistributionRequirement:同CoreCourse。

Doctorate或DoctoralDegree:博士学位。

Dormitories或Dorm:宿舍。

DoubleMajor:双主修;学生完成两个科目的主修的必修课。

Drop:退选一门课。参考Withdrawal。

Dropout:退学。指一个学生离开学校两年以上而没有拿到学位或没有转学到其他学校。

Electives:选修;可选本系或旁系、主修或非主修的课。

Enrollmentdeposit:订金;有些学校会要求被接受的学生付保证金(不退还)以保留位置。

Faculty:全体教授。

Fellowship:奖学金;提供学费,学校生活费给Full-time学生。

Finan

成功分娩小词典 篇3

侧切

侧切是指在宝宝出生前,在产妇的阴道和肛门之间(医学上称会阴部位)的肌肉部分做的一个切口。其目的是为了增大阴道的开口,以方便胎儿的娩出,同时避免会阴撕裂。宝宝出生后,医生会进行伤口缝合。手术及缝合的过程通常都会在局部麻醉的状态下完成。有些医院在缝合时会使用可吸收的缝线。缝线会在产后数周内分解吸收,不需要拆线。

因为缝合的部位属于身体比较娇嫩的区域,所以需要一段时间才能完全愈合。有些新妈妈在产后一两周内,还会感觉有些疼痛。不过,侧切一般不会留下任何后遗症,对今后的性生活也不会有太多妨碍。

产科医生曾经常规性地为分娩的女性做侧切,希望能加快分娩过程。很多专家还认为,整齐的侧切切口应该比自然裂伤更好愈合。但是过去的20年中,大量的研究结果对以上的理论持否定态度,大多数专家现在同意,侧切不应该常规使用。

产钳助产

是指医生使用两个金属制的、大勺状的产钳夹住胎儿的太阳穴,配合产妇的分娩用力,将胎儿拉出的助产方法。是胎儿在产道中下降缓慢或无法前进,或者胎儿宫内缺氧需要尽快取出胎儿时可以采取的方法。

有些准妈妈担心产钳助产可能会使胎儿的头部变形,或者出现其他问题。实际上,产钳助产目前已经是一项较为成熟的技术,一般产科医生都可熟练掌握。而且,产钳助产就是为了避免生产时间太长,胎儿的头长时间受到压迫或因缺氧而引起脑部障碍才采取的措施。

但是,产钳也许会造成宝宝面部皮肤擦伤,所以宝宝出生后的几天里太阳穴上会有几块红斑,不过大多数很快就会消失。

导乐

“导乐”是希腊语“Doula”的音译,原意为有经验的女性帮助其他女性,后来引申为一个有爱心、有生育经历的女性,在整个产程中给产妇以持续的心理、生理及情感上的支持,帮助产妇渡过生产难关。

一般,从产妇住进医院待产开始,“导乐”就可以陪伴在旁边,向产妇介绍分娩的生理过程,消除产妇的恐惧心理并细心观察产妇出现的各种情况,以便及时通知医生进行处理,同时鼓励产妇进食,解释产妇及家属提出的问题;进入分娩期,“导乐”先向助产医生介绍产妇的基本情况,协助医生做好各项准备工作,指导产妇如何正确用力,替产妇擦汗,给产妇以心理上的支持,在宫缩间隙时要喂产妇喝水、进食,以帮助产妇保持体力;在产后观察期,导乐会陪同产妇一起回到病房,进行2个小时的母婴健康观察,指导产妇和婴儿及时进行肌肤接触。

目前在我国,“导乐”绝大多数都是有经验的助产士和产科医生。从这个角度讲,和家人陪伴比起来,导乐的陪伴更专业,也能更大程度地保障母婴安全。

宫缩

子宫收缩简称为“宫缩”。在刚开始出现宫缩时离分娩还有一段时间,所以不必太着急。当宫缩变得比较规律时,应记录每次宫缩持续的时间以及两次宫缩相隔的时间,当宫缩变得极为频繁,差不多每5~10分钟1次时,或者每次宫缩都很疼时,就需要立刻去医院。当分娩刚刚开始时,有规律的子宫收缩会使孕妇感觉小腹痛,刚开始时疼痛比较轻微,两次疼痛之间相隔的时间也比较长。之后腹痛会慢慢加重,持续时间加长,而且疼痛也越来越频繁。

有时,在怀孕末期,孕妇会感觉小腹处有轻微的不舒服,这种现象有时会持续几天,如果出现疼痛又不能肯定是不是宫缩引起的,为了安全起见,最好及时去医院检查。

见红

是指产妇在生产前阴道出现少量粉红色或咖啡色的分泌物。这是因为包住胎儿的羊膜与子宫壁出现少许剥离,血管破裂所造成的出血症状。许多出现生产征兆的准妈妈同时会出现阵痛,但是也有些初产妇在见红两三天后才会开始阵痛。

拉梅兹法

拉梅兹法是由法国的妇产科医生拉梅兹博士发明出来的新型精神预防性缓解疼痛的分娩方法。这种分娩呼吸方法,从怀孕早期开始一直到分娩,通过对神经肌肉控制、产前体操及呼吸技巧训练的学习过程,有效地让产妇在分娩时将注意力集中在对自己呼吸的控制上,从而转移疼痛,适度放松肌肉,能够充满信心地在分娩过程中出现产痛时保持镇定,以达到降低产痛、加快产程并让婴儿顺利出生的目的。

拉梅兹分娩呼吸法最大的优点就是丈夫可以积极地参与到分娩过程中,在生产时,协助妻子随着不同的阶段来配合不同的呼吸法。同时因丈夫参与分娩过程,产妇会在心理上得到安慰。

破水

破水是指羊膜破裂羊水流出的现象。正常的生产是在子宫口开大的过程中或子宫口开全、胎儿进入产道时才会开始破水。

如果感觉在出现阵痛前有水从阴道流出,就可能是早期破水,应到医院检查,及时治疗,否则可能会引起细菌感染,或是发生脐带掉入阴道内(脐带脱垂)的情况导致胎儿死亡。

剖宫产

剖宫产是经腹部切开子宫,将胎儿取出的分娩方式。当母亲或胎儿、胎盘等出现异常情况,不宜阴道分娩时,剖宫产是处理难产的重要手段,但剖宫产不是最理想的分娩方式。

阴道分娩过程中,母亲和胎儿都有适应能力,产后恢复快。而剖宫产是一种手术,所以存在麻醉意外、手术切口出血、感染、脏器损伤如膀胱损伤的可能,手术后恢复慢,而且远期可能有月经失调、慢性盆腔粘连、盆腔疼痛等并发症。所以,从医学角度说,剖宫产是一项手术,必须要有严格的适应症,而且要让孕妇对阴道分娩和剖宫产分娩的安全性有所了解,然后才能进行正确的知情选择。

水中分娩

“水中分娩”是为了减轻产妇的阵痛,尤其是时间较长的第一产程阵痛的一种分娩方法。其过程就是产妇在清洗后,躺在特制的分娩池中。池子里的水是经过严格消毒的无菌水,水温保持在36℃~37℃之间。在医生和助产士的帮助下,利用水的浮力与地球引力相抵消的原理,使产妇感到镇静并帮助其放松,从而减少宫缩带来的疼痛、促进宫颈口的扩张、加速产程。

水中分娩的好处让越来越多的产妇想在水中生宝宝,但并不是所有的产妇都能享受到这样的生产方式。按照我国产妇的一般情况,胎儿最好在3000克左右,而且待产产妇身体各方面情况正常,有经阴道分娩的条件时方可选择水中分娩。

另外,尽管“水中分娩”很诱人,但并不是所有医院都能开展的。因为水中分娩对设备、技术的要求都比较高,所以必须是经过专业培训的医生和具有专业设备的妇产医院才能开展此项技术。

胎头吸引分娩

是医生使用金属制或塑胶制的带柄的小吸杯吸住胎儿的头顶,配合着产妇的用力,将胎儿取出的助产方法。虽然胎儿的头已经到达阴道外口,但因为母亲用力的力量较弱,分娩一直无法结束;或是因为时间拖得太久,胎儿已经面临危险时,就必须借助一些助产方法来帮助分娩。在宝宝出生后,头部被杯子吸住的部分可能会有一些肿胀(产瘤),一般两三天内就会自然消失。

无痛分娩

“无痛分娩”在医学上称为分娩镇痛。目前应用最广泛的方式是由麻醉医师从脊椎外层的硬膜注射麻醉药,使产妇在骨盆腔肌肉放松、产痛减轻八九成的情况下,头脑清醒,活动正常,较为轻松地完成分娩过程。

国内医院一般是从产妇的宫口张开3cm时开始实施镇痛麻醉(因为过早实施麻醉还有可能造成产程延长),一般数分钟内见效。麻醉一直持续到宫口开全,此后调整剂量或停止麻醉(因为如果此时再继续高剂量麻醉有可能影响产妇向下用力从而干扰产程的进展)。

至于无痛分娩的效果,则受多种因素的影响,比如产妇对麻醉药物的敏感程度、既往手术史、麻醉医生的熟练程度、实施麻醉的时间、麻醉的方法等等。

此外,无痛分娩也不是适用于所有的产妇。有凝血障碍、需要服用止血药或注射止血针、高烧、脊柱畸形或表面有感染以及有某些神经问题的产妇都不能选择无痛分娩。

需要提醒的是,无痛分娩作为一种麻醉技术,产妇也需要承担一定的风险。不过,无痛分娩麻醉药物的剂量只有剖宫产手术的1/10或者更少,因此它的风险比剖宫产要小很多。

硬膜外麻醉

硬膜外麻醉是无痛分娩中很常见的一种方法。麻醉时,产妇需要侧卧在产床上,弯腰,麻醉医师会给她消毒背部,找出腰椎第三节及第四节间隙,以细针刺入硬膜外腔,再插入一条细小导管,通过导管注入止痛药。在分娩过程中,每2~3个小时便要再次注射止痛药,以保持麻醉效果。现在设有专门的电子仪器,可以连续定时定量地注入药物。

阵痛

阵痛是子宫收缩引起的疼痛。疼痛的情形因人而异,有人感觉像拉肚子,有人则感觉骨盆快要被撕裂一样。一般,阵痛开始时,大约每隔20~30分钟疼一次,如果时间间隔缩短为每5~10分钟一次时,就应住院待产了。

自然分娩

是指胎儿经阴道自然娩出的分娩方式。自然阴道分娩是最理想、对母婴最安全的分娩方式。与剖宫产相比,有尤其明显的优越性:在自然分娩过程中,有规律的子宫收缩,能使胎儿肺脏得到锻炼,为出生后自主呼吸创造了有利条件;经阴道分娩时,胎头的娩出就像游泳时抬头换气一样,可将胎内积贮在肺、鼻和口腔中的羊水和黏液挤出,这样胎儿落地后,呼吸道通畅,新鲜空气进入肺部,可以立即进行氧交换,所以胎儿易成活,也不容易患新生儿肺炎;阴道自然分娩时,最低处的胎头因受子宫收缩的挤压,头部血液充沛,可为脑部的呼吸中枢提供较多的物质供给。

编辑/兰淑会(lansh@bphg.com.cn)

上一篇:中音乐表现下一篇:形象管理