面向方言信息处理的资源建设问题与对策——以江苏方言资源为例

2022-09-10

一、语保调查模板计量统计

首先对语保调查模板中的单字、词汇和语法例句进行了字、词、句层面的计量分析。

从表1统计数据来看, 所涉及字形并不多, 且重复率较高。三项调查共使用汉字1390个 (字形) , 即除去单字993个外, 词汇和例句共使用了397个字形, 整体汉字使用的覆盖率较低, 将其与普通话声韵配合表比对, 发现共有363种声韵组合, 覆盖了普通话约89%的声韵组合情况, 未能覆盖的如表2所示, 共42种:

其中, den (扥) 、kei (尅) 、nou (耨) 、chua (歘) 在日常生活中使用较少, 而四呼的分布情况大致与普通话声韵配合分布情况相当。

语言的语音和意义难以分割, 如果某个音节未能调查到, 很有可能这一音节所涵盖的语义也就丧失了。因此, 如果想尽可能覆盖到更多的语义, 则需要将声韵组合补充完整。

其次, 在“语保”调查模板这1390字中, 有28个字超出了普通话3500常用字的范围, 分别是:嚏、娌、摁、粽、殡、甭、饨、殓、崽、闩、沏、痣、禅、噜、肏、擤、剁、犟、碓、噎、篾、镯、摞、仨、馊、黏、擀、阉。另有88个字超出了最常用 (2500) 字的范畴:襟、媳、秸、卒、契、碟、掐、脐、翘、撬、瓢、桩、妒、臼、墩、妆、屁、钝、灸、婿、孵、癣、靴、缚、蕾、熏、萨、檩、杉、闰、熬、褥、僧、蟆、掰、蟹、鳞、甥、蚓、箫、咙、窿、吕、郭、丐、簿、氓、祠、赎、憋、媒、芋、梗、糙、箕、菇、箍、掺、涮、屎、搀、佑、荠、虱、舔、鹤、霍、屉、涕、捅、蚤、捻、捶、脓、拧、埂、藕、孽、藤、胎、潭、斟、蝠、蔗、戳、帚、娩、瘩。其余1274个字为最常用字, 占调查模板总字数的91.65%。

二、江苏语言与文化资源库评述

2013年上线的“中国语言资源有声资源数据库·江苏库” (以下简称江苏库) , 这是作为语保工程试点的电子数据库, 包含江淮方言41个点, 吴方言19个点, 中原官话10个点。数据库包含上述70个点的1000个单字、1200个词汇50个例句的录音和国际音标记音, 以及话语 (民间故事、自选话题、地方普通话) 的录音。

虽然属于全国优先通过验收的试点工程, 但仍存在一些目前方言文本语料库的普遍问题:首先, 语料规模依旧较小, 虽然50句例句都有相应的语法结构上的考量, 但总体看语料覆盖面仍显不足;其次, 第一手的方言材料无疑是语音 (口语) 材料 (粤方言等拥有属于自己方言区文字的方言除外) , 人工转写需要花费大量人力物力, 与其他类型方言文本 (如方言小说、戏曲等) 在转写规范上存在较大差异;同时, 江苏库还不是一个平行语料库, 而只能称为比较语料库。如苏州例句0001:小张昨日钓着一条大鱼, 我倒朆钓着。与普通话0001:小张昨天钓了一条大鱼, 我没有钓到鱼。两句相比较, 首先苏州例句中省略了分句中的宾语 (鱼) , 其次普通话中表示动作体标记的副词 (到) 和动作时标记的副词 (了) 相分开, 而方言例句中用了相同的体标记副词 (着) 。

再如苏州例句0002:a.倷日常势里阿吃香烟葛?b.我弗吃葛。与普通话0002:a.你平时抽烟吗?b.不, 我不抽烟。普通话中疑问句类型为含有疑问语气词是非问, 答语首先回答是或否, 而方言中疑问句类型为正反问 (也可以看作是一种特殊的选择问) , “阿吃香烟”意为“抽烟不抽烟”, 答语应意为“我抽烟”或“我不抽烟”, 普通话答语中多了否定词“不”, 虽然只多了一个字, 但这在小规模语料统计中的影响是很明显的。

究其原因, 一是每个人的语言习惯不同, 表示同样的意思, 可以用十分相似但又不完全一样的多种表达形式, 而每一种都不能算错, 日常交流和研究中, 也不妨碍人的正常理解, 但面向计算机的数据统计却会受到很大的影响;在某些词甚至在句子层面难以进行普通话-方言文本的对齐, 无法进行相关比较。

其次, 将江苏库扬州调查点的各字记音情况与《汉语方音字汇》 (以下简称《字汇》) 中的扬州记音作比较, 在调查用字方面, 二者不同共824处, 由声调引起的不一致性占69.9%, 主要因为《字汇》中音调划分更细, 分为八个调, 而江苏库调查的音调仅有阴平、阳平、上声、去声、入声, 五个, 去声导致的不一致最多, 共228例;除声调外, 前后鼻音记音不一致的占到了7.8%, 在江苏库中记录为后鼻音的字在字汇中有很大一部分为前鼻音 (见表3) 。

在用词方面, 通过对扬州点语法例句分词并统计词频, 得到词型259个, 词例494个, 型例比为52.4%。将其与HSK考试词表比对, 一级词汇6个, 二级词汇5个, 三级词汇27个, 四级词汇23个, 五级词汇1个, 六级词汇2个, 共64个词。而将1200个调查词汇与HSK考试词表比对, 一级词汇17个, 二级词汇15个, 三级词汇96个, 四级词汇86个, 五级词汇10个, 六级词汇71个, 共295个。结果表明, 无论是使用语法例句进行分词或是直接使用模板中的词汇, 都是三、四级词汇居多, 而初级词汇较少。初级词汇更常用、更易习得, 而这类词汇却在模板中占比不多, 这对于调查内容以及调查所反映的区域语言生态面貌会有一定影响。调查模板中的词汇大多是三、四级水平, 这反映了模板中的词汇倾向于使用频率并不高, 且书面化程度高的词汇。不过, 模板中的词汇以名词居多, 尤其是与人们日常生活相关的农具、动物、时令等, 这在语义类别上具有一定的优势。

三、方言信息处理资源建设对策

从语保调查模板以及“江苏库”这两个语言资源出发, 分析出在计算语言学领域方言文本资源及研究存在的上述问题, 究其原因主要有五点:第一, 方言学、语言学和计算机科学通晓的复合型人才凤毛麟角。第二, 与少数民族语言和粤语等不同, 大部分方言还多停留于口语层面, 书面性方言材料较少 (多以方言写成的小说、戏曲剧本为主, 利用此类语料需要解决历时性变化问题) 。在从语音到文本的转写过程中质量难以控制, 统一而严格的方言转写规范尤其是用字规范尚未出台, 面向方言信息处理的统一规范急需制定, 精加工的大规模方言文本语料库还没有实现。第三, 方言之间差异较为显著, 因此独特的语言现象在方言文本中层出不穷, 较为复杂, 难以穷尽, 想要找到普适性的方法处理所有方言, 并非易事, 普通话的信息处理尚存许多问题, 学者难以有精力关注到更加特殊、复杂的方言计算领域。第四, 方言和普通话不完全一一对应, 很多语料库只能算作比较语料库而不能算是严格的平行语料库, 在统计上很难得到较好的结果。第五, 方言语料库的开放性不够, 资源得不到充分的共享。

因此, 接下来面向方言信息处理的资源建设, 将主要可以着力于以下几个方面:第一, 建设带有方言语音信息的知识库, 利用方言的文本和语音信息共同进行研究, 在一定程度上可以减少转写带来的各种不便。

第二, 将众包策略应用于方言语料转写、标注上, 鼓励大众实际参与大规模语言资源的建设中来。

第三, 挖掘多种形式的方言语料, 如戏剧戏曲、电影电视、普通话等级测试语料、输入法等资源, 集合大数据时代, 利用互联网的强大资源。第四, 加强对语料数据的预处理, 提高数据的统计效力。

摘要:全国“语保”工程全面展开, 本文对江苏语言与文化资源库和语保调查模板进行计量研究, 并以此为例旨在从方言信息处理角度剖析目前方言资源建设存在的瓶颈问题与难点, 并针对性提出解决策略和未来研究方向。

关键词:江苏方言资源,语言资源,方言研究,计算语言学

参考文献

[1] 北大中文系语言学教研室:汉语方音字汇 (第2版重排本) [M].北京:语文出版社, 2003.6.

[2] 陈鹏飞.计量方法在汉语方言关系研究中的运用[J].天津师范大学学报 (社会科学版) , 2006, (2) :8.

[3] 陆致极.汉语方言间亲疏关系的计量描写[J].中国社会科学, 1987, (1) :4.

[4] 汪平.苏州方言的特殊词汇[J].方言, 1987, (1) :46.

[5] 王士元, 沈钟伟.方言关系的计量考察[J].中国语文, 1992, (2) :32.

[6] 谢自立, 刘丹青, 石汝杰, 汪平, 张家茂.苏州方言里的语缀[J].方言, 1989, (2) :6.

[7] 杨蓓.吴语五地词汇相关度的计量研究[J].语言文字应用, 2003, (2) :23.

[8] 郑锦全.汉语方言亲疏关系的计量研究[J].中国语文, 1988, (2) :21.

上一篇:高层星级酒店冷热水系统的设计要点+工程实例下一篇:高职高专英语教学中跨文化教育的几点思考