技术文本

2024-07-28

技术文本（精选十篇）

技术文本篇1

1 文本挖掘重点技术发展概况

网络的快速发展使数据信息资源不断涌现, 海量的信息资源导致人们搜寻有效信息出现困难。相关调查表明, 单位组织的信息中, 有81%是以文本的形式存放的, 目前数据集合中文本化数据量在很大程度上超过了结构化数据, 从海量的文本信息中有效地搜集出目标数据和选择感兴趣的有用信息, 是人们生活和经济发展的迫切需要[1]。

在需求的驱动下, 研究文本挖掘重点技术成为挖掘领域中的焦点, 尤其是文本挖掘中的中文文本和相关的技术与系统研究。其次要加强文本自动摘要关键技术设计, 基于中文数据的特点, 通过自动化摘要:文本核心内容, 并采用“词元”的分词计算方法实现筛选目的。

当前的文本挖掘重点技术主要是利用分词的结果, 再通过统计学的方法提取关键词, 实现自动式文摘方法。自动式文摘方法通过构建文本向量空间, 并利用最高权重关键词解决信息分散的问题, 随着文本结构的变化进行自动化调整, 合理地划分主题。其中关键词相对于全局而言具有至高重要性, 关乎局部权重和主题权重。针对以上文本挖掘重点技术的发展特点, 可在此基础上进行创新和提高。

2 阻碍文本挖掘重点技术发展的难题

互联网的普及从侧面提高了文本的普及力度, 人们的生活和经济的发展都离不开文本来存储信息和搜集信息。由于网络数据信息更新和存储数量庞大, 人们在筛选重要信息时具有相当的难度。为此针对目前文本挖掘重点技术发展的特点, 分析其存在的制约性问题, 为文本挖掘重点技术的进一步发展改进提供依据, 以提升人们搜寻重要信息的效率。

2.1 信息检索系统构造性能单一

互联网用户通过简洁快速的网络系统可接触到各类信息资源, 但由于信息资源的种类和数量庞大, 用户很难在有限的时间内搜寻出能为自身所用的有效信息。面对庞大的数据信息, 人们在浏览和筛选的过程中难免表现出不耐烦, 在一定程度上阻碍了生活和工作效率。然而人们的生活和经济的发展时刻需要互联网提供信息, 因此文本挖掘信息检索的需求日益显现, 它是畅通信息搜寻和激活互联网发展的关键活力。

然而目前的文本挖掘重点技术受到社会经济科技发展水平的制约, 检索系统设置较为简单, 愈发不适应数据信息翻倍增长现状的需要。

首先, 文本挖掘重点技术的系统构造距离多元化和立体化发展还存在较大的距离, 目前使用的技术主要是半结构化和非结构化两种文本资源解决方案, 在处理信息检索和挖据筛选重要数据方面力度不足[2]。文本挖掘重点结构的单一使得信息搜索重点不显著, 所检索的信息仍然表现出杂乱无序的状态。

其次, 由于文本挖掘工具结构构造不科学, 未能检索出部分隐含的知识, 存在较为明显的检索漏洞。系统结构不完善, 导致不能满足用户的不同需求, 急需在系统上进行二次扩展, 推动知识二次挖掘的创新设计, 否则容易导致市场竞争力严重下滑, 不利于文本信息挖掘的长远发展。

2.2 计算方法不完善

文本挖据重点技术主要原理是通过检索关键词:, 在众多的数据信息中筛选出相关的资源, 并逐一进行审理, 最终使用有效的数据资源。关键词搜索是目前文本挖掘重点技术最为常用的方法, 为提升企业竞争力, 企业需要不断完善关键词:搜索工作性能, 逐步将文本挖掘技术“人性化”处理。

然而目前文本检索系统中信息智能处理技术和海量信息分析技术、聚类技术普遍不成熟, 多数是利用数据挖据计算法来对数据资料进行分类和聚类。信息数据之间的关联程度不高不利于检索, 各类信息之间存在相同的关键词, 但由于信息关联程度不高, 用户在输入关键词:进行检索时容易疏漏隐含的重要信息, 同时涌现无用的垃圾信息和网页, 扰乱用户检索信息的分辨力[3]。客户在面对大量冗杂的信息时难以分辨出真正所需的、有价值的信息, 其原因为关键词:替换和合并技术的不成熟。

因此, 检索“人性化”发展极为关键, 系统应根据客户的使用惯性, 及时筛选有效的信息和合并客户关键词检索的漏洞, 并运用文本关键词提取计算方法, 提高关键词计算的准确率和召回率, 进行关联规则实现交叉挖掘, 才可真正达到快速高效挖掘重点文本信息的目的, 为用户提供更为周全的服务。

3 文本挖掘重点技术进一步发展的有效策略

信息技术的发展和国家政策的扶持为文本挖掘重点技术的研究带来了巨大的契机。根据社会信息化发展的需要, 不断优化文本挖掘重点技术, 提高文本信息服务社会经济发展的力度, 符合社会发展的趋势。笔者针对目前文本挖掘重点技术存在的不足之处提出以下完善性建议, 以供借鉴。

3.1 完善文本挖掘分词算法

信息技术的发展为文本挖掘重点技术提供了较大的支持。

文本的表示形式千变万化, 为高效地从浩瀚的文本数据信息中搜寻有价值的信息, 需要设计更为完善的分词计算方法。设计分词计算方法需要对中文文本挖掘重点技术的文本类别进行系统地研究, 运用静态词典中的停用词和非停用词作为词的一个特性, 加入到关键词词典中, 将词索加入内存, 从而减少特征减缩过程[4]。这种算法极大降低了文本挖掘冗长的过程。

建立词素引表二级引索可进行最大匹配分词, 有助于减少对用户无使用价值的特征维数。这种算法采用互信模式, 调整串并行相结合的向量支持参数, 通过缓存技术提高计算效率, 并建立在向量支持使用文本分类的基础之上, 其实用性较强, 效果显著。

3.2 扩展文本表示和文本术语识别技术

随着文本使用范围的扩大, 数据信息变化发展的速度较快, 但互联网的文本数据质量不高, 使得信息整合难度加大, 因此在海量信息中迅速搜寻出有价值的数据十分困难。

目前文本的表现形式呈现出复杂化的局面, 不同专业和类别的文本形式使人眼花缭乱。同时, 文本挖掘的理论框架不断得到完善, 但在文本表示和文本术语识别方面还比较欠缺。常用的术语识别方法缺乏语义表示, 缺乏精确的关键技术, 不便于用户快速收集有效信息。

要改善这样的局面, 需要建立正规的文本模型, 构建完整的算法理论和术语识别框架, 对结合词共现因子的语义进行分类, 建立向量空间模型, 并引入交叉验证方法, 进行术语识别实验, 以探究出可靠的术语识别方法[5]。

4 结语

文本包含着丰富的信息资料, 挖掘一个具有丰富语义的文本需要精湛的挖掘技术。从文本的摘要、聚类、关联和处理等方面归纳分析, 筛选出最为关键的信息, 才能使文本挖掘重点技术更方便快捷地为社会生活所利用。

深入研究和推广文本挖掘重点技术具有划时代的意义, 高效地挖掘出有价值的信息, 需要关键技术的支持, 因此文本挖掘重点技术发展任重道远。

摘要：在专利数量巨大和信息技术日益复杂化的时代背景下, 对文本挖掘的特征、文本的分类与聚类以及文本挖掘重点技术的系统原理和体系框架进行分析, 对目前文本挖掘技术中的主题词词频、共词分析、引文聚类和文本聚类等技术进行梳理, 并深入发掘文本挖掘任务和功能, 为其未来发展提供建议。

关键词：文本挖据,文本数据,专利技术

参考文献

[1]唐守忠.文本挖掘关键技术研究[D].北京林业大学, 2013.

[2]张翔.文本挖掘技术研究及其在综合风险信息网络中的应用[D].西北大学, 2011.

[3]寸待杰.缅文Web文本挖掘技术研究及实现[D].华侨大学, 2013.

技术交流协议书文本篇2

甲方：

乙方：

甲方为生产加工企业。因生产过程中对技术的需要，甲方有意购买乙方(中方)编号为**********的发明专利(本编号为中国专利局批准的专利登记号)。但因甲方目前暂时还不能按要求筹集到足够的资金，而且尚不清楚政府管理部门是否会批准本产品的生产，因此双方不能签订正式的合同，而只能签订本“技术转让

三、乙方在签订本

十、本协议书自签订之日生效，有效时间为自签订之日起六十天。甲方签字：

技术文本篇3

一、立意“交互”概念认识偏差成因

信息技术学科是一门重要的综合性学科，它以各学科文本为基础，发展学生能力素养为重点。因而在学科教学中，应以其对应的学科知识为资源，拓展学生的应用能力，同时也为其他学科文本应用提供必要的巩固条件，达到共同提高进步的目标。但学生对待课程往往进入盲区，对信息技术课程的理解与能力的培养产生偏差，主要表现为以下两点。

1.对信息技能与其他学科文本之间认知脱节。

信息技术课程是一门综合的技能学科，它包含了其他学科文本的很多方面，并在此基础上训练各种应用能力，以提高学生计算机应用的综合素养。例如：电脑绘图、小动画制作、电脑小报、powerpiont等应用练习需要有美学知识的支持；语文学科是文字操作能力中必不可少的知识要素；认识操作计算机网络更离不开英语学科基础知识的帮助。可以说信息技术学科中其他学科的影子无处不在。但学生在认知其他学科文本时往往将其脱节甚至忽略了，使信息技术课程成为一门孤立的学科，没有与其他学科知识相联系。其实信息技术所需的文本知识就在身边的其他学科中。因此应让学生重视信息技术学科与其他学科文本交互的密切联系。

2.对信息技能的练习比较单一，忽视对其他学科的促进作用，使自身技能不能得到进一步提升

信息技能练习需要其他学科知识的支持，单独认识理解自身的文本是比较难的，它是对很多内容的综合，所以这门学科培养的也是学生的综合能力，并不是单一的能力。而很多学生总是在某一个技能上学习，能操作了觉得自己学成了。没有将信息技术课上学的技能应用到其他学科的练习上，没有充分发挥这门技能的作用，只是就技能而技能；或者总是凭着兴趣练习某一方面的技能内容，并且认为这就是技能的全部。造成这一问题的原因，是他们忽视了其他学科的促进作用。一方面，信息技术课程很多内容中都需要以其他学科的知识为基础，只有不断地积累丰富，才能更好地完成信息技术的能力培养；另一方面，进行信息技术综合性能力训练也能更好地巩固发展其他学科的知识体系，促进其能力生成与发展，充分发挥信息技术学科与各学科之间文本与能力交互提高的作用。

二、谋划“交互”模式实践多元能力

根据信息技术的学科特点和教师在教学过程中、学生在能力训练过程中表现出来的不足与问题，结合学校课程资源的实际，对学生进行信息与其他学科文本交互训练的操作能力培养，从而达到提升学生信息操作素养的最终目标。

1.课堂教学的学科交互

信息技术教师往往会有一个认知上的偏差，那就是信息技术课程是一门专业性很强的特殊课程，不需要其他课程的互补。这一观念的偏失，使得学生刚在课堂上接受了计算机某一个领域的单一知识，而第二次应用操作时便忘了，或者根本就无从下手，不知用什么方式、什么文本材料去操作。因而首先要改变教师的教学偏差，在教学中有意识地引入其他学科知识，并让学生有意识地在其他学科学习中联系信息技术课所学内容。小学中段学生主要以认识计算机的构造、原理以及各种简单硬软件的认识操作为主。那么教师可以有意识地与其他学科联系；如打字过程，首先得认识键盘，而这就要求学生在英语课中去熟记英文字母，在熟记字母的基础上来认识键盘上的字母排列。然后用语文课中的拼音音节简单操作容易的拼音打字，让学生懂得打字中用到的单音节、双音节等等内容是语文学科中必须掌握的，这样才能操作好打字这一工具。根据这一思路，开展信息技术学科整合资源的探讨课活动，在信息技术课程教学中教师创新学科教学的模式，将其他学科中的细节情趣化、生活化、简单化、活动化引入到日常的信息技术课堂中，既可以改变学生的认识，又为课堂教学增添内容，也可以使信息技术课减少理论味，加强课程之间的系统性和实用性，实现文本上的交互相融。

2.课后作业的学科交互

要让信息技术渗透到学生的全方位学习领域，充分利用学到的信息技术技能与完成各学科相应作业的联系，既提高信息技术操作能力，又有效地实现与其他学科知识巩固提高的互补。应引导授予学生获取和加工信息的能力，给学生提供广阔的信息天地。科学学科中特殊性或知识性较强的内容，都可运用计算机网络来查找实现，为学生知识的增长扩容提供最快捷、最翔实的学习资源；低段语文中的识字，熟记拼音是非常重要的一环，学生经常性地抄写，枯燥乏味，那么可以用电脑来扩充其抄写分量及形式；中高段美术课中的设计及简笔画，可以用计算机来操作完成，进而让学生熟练运用软件工具，培养学生独立操作的能力；英语课中单词及词组的抄写，也可让学生用电脑来互补操作，这样既可以熟记英文单词，又让学生熟练使用指法及键盘，一举两得。在这样交互训练的过程中，无形之中培养提高了学生的能力，也加强了学科的互补性。还可以根据这一操作思路，举行各学科与信息技术整合的作业设计比赛，让学生用计算机来完成其他学科的作业，既提高熟练操作计算机的能力，又整合各学科的课程资源，加强信息技术与各学科之间的紧密联系。

3、活动展示的学科交互

通过经常性的操作练习，使学生熟练地掌握一些基本操作能力，各学科之间也加强了联系与互补，从而使学生的综合素养在日常教学中有所提高。但信息技术学科更注重以计算机为核心的综合能力的培养，这离不开信息技术教师的指导与训练，因而要经常性开展注重能力训练的活动课，从某种意义上说是兴趣培养、专长展示课。这类活动课以培养学生操作能力为主，结合相关学科的文本知识体系，但并不以文本认知教授为重点，更多的是把能力训练提高作为首要目标。例如：以绘画工具制作为主题，电脑绘画制作、powerpoint制作……这一系列的主题式汇报展示课的专题能力训练，低年级可以进行打字游戏比赛、拼图小绘画等简单常规操作比赛；中高段可以进行电子相册、电脑小报，电子贺卡等主题比赛。让学生在比赛中充分展示自己的操作能力，同时增强他们对信息技术的兴趣。活动的安排需要教师的认真策划，以循序渐进的方式不断提升练习的高度与难度，从而激发学生追求更高目标的热情。

三、延伸“交互”效应促进教学相长

小学信息技术学科中，作业练习往往比较固定，结果学生的作业也是千篇一律，毫无个性可言，不利于培养学生的创新思维。因此，在练习中，需要鼓励学生不拘形式，大胆创作。如：在学习了Word后，鼓励学生运用所学技能给父母或自己设计名片，很多学生设计出了构思新颖、独特的名片；在学习了小画笔后，让学生制作贺卡、请柬，画想象画、科幻画等。学生在创作中，充分展示了自己的个性和创造力，有的作品其想象力之丰富、设计之精巧让成人都叹服。因此，学生的作业主题内容不要局限于课本教材，而应放开学生的操作束缚，尽可能地为学生创设宽松的作业环境，使得每节课的作业都能落到实处，真正培养学生的操作能力。虽然通过上述方法教材不再是束缚学生提高能力的枷锁，但是练习的时间仍然是学生必须逾越的障碍。因为小学课程安排中信息技术的课时相对较少，学习的氛围又相对独立，故而要想在课中训练学生的操作能力比较困难，教学的落实与能力的培养两者不能兼顾。所以可以将信息技术的练习融入到其他学科的练习中，使其辅助其他学科的练习，无形之中又训练了信息技术操作能力。例如：笔者在教学《认识计算器》这一课之后，教材中却未有练习内容，但三年级的学生对这一工具的认识很容易遗忘；因此，通过数学老师让学生在完成数学口算之后，用计算器进行检查是否正确。这样，学生既弥补了数学口算检查标准的缺失，培养了学生检查的习惯，又同时对信息技术课堂教学内容进行了巩固，训练了学生的操作能力，一举两得。在教学《E-mail》这一课时，笔者结合学生在语文课上学习的写信作业，让学生将所写的信输入到网上邮箱中，并且发送给自己的父母、同学、朋友，这样学生不但练习了运用网上邮箱的功能，又让语文课中所写的信件得到了立竿见影的反馈，收效甚大。信息技术学科作业练习应该主题化，而不要拘泥于细节中的一个内容；要将其课堂的训练内容融合到其他学科练习中，为练习争取到更多的时间，也为其他学科的学习起到促进作用。只有将信息技术学科作业练习融入到各学科的大家庭中，利用信息与文本交互训练，才能更好地培养学生的操作能力。

基于遗传算法的文本分类技术篇4

关键词：文本分类,遗传算法,适应度函数

人们需要从海量信息中快速、准确地获取有用信息。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有广泛的应用。现在主流的文本分类方法是基于机器学习的方法,此方法首先使用训练样本进行特征选择和分类器训练,然后把特征形式化,待分类样本输人到分类器进行类别判定,最终得到输人样本的类别。文本分类的方法有很多种,如Rocchio方法[1]早就提出了、K-近邻(K-Nearest Neighbours)方法[2]早就提出了、贝叶斯(Naive Bayes)方法[3]早就提出了、而且支持向量机(Support Vector Machine,SVM)算法[4]、还有决策树(Decision Tree)方法[5]和以及神经网络(Neural Networks)方法[6]等都已经有了。

文本分类中的许多问题,如果进行适当的转换,可以看作优化问题。本文将遗传算法引入文本分类的过程中,在种群的初始化、适应度函数和遗传算法的停止标准等方面进行优化,得到更好的文本分类结果。

本文第二部分详细描述了基于遗传算法的文本分类技术,第三部分是本文的实验与结果分析部分,第四部分是结论与将来的工作。

1 基于遗传算法的文本分类算法

文本特征表示时经常是采用向量空间模型方法来表示文本,对文本的特征进行刻画。文本特征权重计算的前提是进行文本特征抽取。

相似性的计算公式有相关系数法,还有距离函数法等。本文相似度仍然采用向量夹角余弦公式来计算。具体计算公式如下:

用遗传算法进行分类时,要考虑遗传因子、适应度函数和遗传算法的停止标准等关键因素。

在种群初始化的时候,我们并不采用随机数生成算法,而是通过随机选择样本点,避免了随机数生成法必须人为确定随机数上下限的缺点。

如果类中心已经确定,那类的划分算法可以采用最邻近算法进行计算。

我们将遗传算法的适应度函数定义如下:

选择策略对遗传算法的效果有比较重的影响。第i文本Indi可以按照概率Ps(Indi)选择出来,这样可以提高种群的适应度。第i文本Ps(Indi)可以用下面的公式进行计算。

在遗传算法中,当文本类别划分不再发生变化,或者是迭代次数达到最大值时停止。

2 实验结果与分析

为了使本文提出的文本分类技术得到的结果具有可比性,本文将Naive Bayes分类方法和支持向量机算法引入,进行对比实验。

Naive Bayes算法可以说是一种有效的分类方法。假设在某种语境环境里,文档之间是相互独立的。令di为文档标志,该文档di包含于文档类别集合C={c1,c2,…,ck}中间的某一个类别cj里面。根据Naive Bayes算法有下面公式:

在这种情况下,需要计算在di已经知道的情况下的条件概率,取最后概率值最大的类别作为di所在的类别,也就是:

采用多项式模型进行计算,则在文档类别情况已经知道的情况下文档di的概率计算公式为:

但是,上面的概率可能会出现0,所以使用+1平滑技术对其进行处理。

几种常用的文本分类评价指标包括准确率、召回率、F-measure,用这三个参数对系统进行客观评测,这三个参数具体含义如下:

准确率的定义。对于一个文档集i和一个分类j,假设N为在文档集i中属于类别j的数目,M为文档集i中所有文档的数目,则准确率P定义为:

召回率的定义。对于一个文档集i和一个分类j,假设N为在文档集i中属于分类j的数目,K为分类j中所有文档的数目,则召回率R定义为:

准确率P衡量的是所有被分到类别j的文档中,正确文档的比率;召回率R衡量的是所有实际属于类别j的文档被分到该类别中的比率。只用其中之一进行评价可能有失偏颇,F-measure指标是上述召回率和准确率的综合,能正确反映文本分类在召回率和准确率平衡方面的效果,其具体计算公式可以表达成:

对于中文语料的实验,我们从新浪、腾讯等网站上下载了2000个网页,从中提取出2000篇文档,根据语料主题分为10类:军事(200篇)、体育(200篇)、政治(200篇)、环境(200篇)、交通(200篇)、艺术(200篇)、医药(200篇)、经济(200篇)、教育(200篇)、健康(200篇)。实验结果如表1所示。

3 结论与将来的工作

文本分类是文本挖掘中的一个重要工具,应用非常广泛,针对常用的文本分类算法参数难以确定的问题,本文引入遗传算法,在编码方案、种群的初始化、适应度函数和停止标准等方面进行优化,得到更好的文本分类结果。通过三种文本分类算法的对比实验,本文提出的算法效果最好。

在下一步的工作中,我们将继续研究不同环境下适应度函数的合适表达方式,同时,进一步研究和分析选择策略,让遗传算法的收敛速度更快,效果更好。

参考文献

[1]Joachims T.A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization.Proc of ICML'97,1997.

[2]Yang Y.Expert network:Effective and efficient learning from human decisions in text categorization and retrieval.Proc of SI-GIR'94,1994:13-22.

[3]Baker L D,Mccallum A K.Distributional clustering of words for text categorization.Proc of SIGIR'98,1998:96-103.

[4]Cortes C,Vapnik V.Sup of event models for naive port vector networks.Machine Learning,1995(20):1-25.

[5]Lewis D D,Ringuette M.Comparison of two learning algorithms for text categorization.Proc of SDAIR,1994:81-93.

技术文本篇5

【教材分析】

文本信息的加工是根据信息需求对文本信息加工处理，使之有效的组

织文本信息的内容，准确、高效地表达自己的意图；使之目标让人更好地理解自己思想，吸引他们的注意力，利用各种字体、字号、颜色以及排版方式来提高文本信息的表过效果。【学情分析】

高一学生，有一定的计算机操作能力，也有一定文字处理能力，由于

学生之间水平有很大差异。对于网络的信息，文本信息，图片信息，如何处理成自己的信息，设计成美观的版式，漂亮的版面，大部分学生还是无法实现。【教学目标】知识与技能：

1.理解信息加工的含义与重要性。

2.了解人工加工与计算机加工的各自的特点。能够根据任务和需求、信息阅读对象，确定加工方法。

3.掌握利用word对文字信息进行处理以及用word进行图文编排的能

力，如：页面设置、段落、字体、颜色、图片的版式等。过程与方法：

1.能从日常生活中发现和归纳信息加工的一般过程与目的。2.能选择适当的信息加工方法及工具解决学习生活中遇到的问题。

情感态度与价值观：

1.体会到利用计算机对文本信息加工的优势与价值

2.在应用和体验文字处理软件加工文本信息的过程中，形成对信息技术求知探索的强烈欲望 3.培养审美观和创造力【教学重点】

能够根据任务和需求、信息阅读对象，确定加工方法。【教学难点】

1.学会选择恰当的效果形式充分地表达主题内容 2.培养审美观和创造力

【教学方法】演示法、任务驱动法、讲解法、案例分析【教学过程设计】

一、导入

学校要向全校同学宣传吸烟有害健康的知识，你作为一名中学生，你觉得应该怎么做呢？（宣传单）

二、新授

（一）文本信息的加工 1.文本信息加工的目的

提问：我们在第2章从网络收集到的信息就能准确地表达我们的意图了吗？

小结：我们需要根据信息需求对文本信息进行加工。首先：有效组织文本内容，准确，高效地表达自己的意图。其次：为了目标受众、吸引注意力，使用字体、字号、颜色及排版方式提高文本信息的表达效果。文本信息加工的目的：迅速、全面、准确地描述事物。2.计算机加工文本的特点

提问：计算机加工信息与人工加工有什么不同？

小结：计算机加工文本的特点：修改方面快捷，排版美观清晰，便于存储共享。3.文本加工的工具

常见的由WORD 和WPS。4.文本信息加工的基本要点：

①组织文本结构，突出主题信息（版面、字体、段落等）②利用流程图，描述事件进程 ③利用表格工具，表达文本分类 ④借用结构图，呈现事物关系

（边讲解，边展示相应的文本信息效果图）

（二）组织文本结构，突出主题信息

为了更好地表达自己的思想，更方便地与人交流，越来越多的人使用计算机对收集到的文本信息进行组织和加工。选择恰当的加工方法，可以突出主题信息，给读者留下深刻印象。

技术分析：（综合考虑需要表达的内容及目标受众的不同）1.页面设置（纸张的大小，页边距）2.标题的设计（艺术字、自选图形）

3.文档的编辑（文件之间的复制和粘贴，文字的修饰，文本框格式的设置）

图文并茂（插入图片）4.字体设置 5.段落设置

三、课堂练习学生根据教师提供 “劝告青少年吸烟有害健康” 的资源，按任务要求加工文本，表达信息，告诫全校学生传播吸烟有害健康，杜绝吸烟！

四、作品点评

展示学生作品，引导学生体会其中的优点与不足，寻求下一步的改进措施。

五、课堂小结

技术文本篇6

关键词：超文本网络技术高职韩语翻译课程教学运用

一、引言

伴随信息技术的发展，人类文明进入第三个时期，即超文本化时期（ong 1982）。超文本能够跨越时空，创建和建立两者所没有的表达传递储蓄翻译信息的方法。超文本化时代的到来，为高职高专教育发展带来了新的机遇。目前，高职韩语翻译课程作为高职高专应用韩语专业大三上学期的专业核心课程，着重学生翻译能力、翻译思维的培养。超文本网络技术具有资源共享性、时空广延性、多向互动性、学习协作性、自主选择性等特点。笔者认为，在这种情形下，将超文本网络技术运用到高职韩语课程教学，可以改革现有教学模式，辅助教学，整合资源，全方位培养学生的翻译能力，拓宽翻译思维能力，对现今的高职高专翻译教学具有重要的意义。

二、超文本网络技术的概念

随着科技文化的发展，人类正步入超文本化时期，这一时期是以20世纪90年代后的多媒体网络技术等“超媒体”的发展为物质基础的（胡壮麟，2004a）。超文本（hypertext）一词于1965年由美国人泰得·纳尔逊（TedNelson）首先提出，他将一种利用计算机技术把相关文本组织在一起的方法命名为“超文本（hypertext）”，超文本是一种将信息以非线性的网状结构进行存储、组织、管理和浏览的计算机技术。它包含结点（Node）、链（Link）和网络（Network）三个基本要素，并以结点为单位组织信息，在结点与结点之间通过表示它们之间关系的链加以连接，构成表达特定内容的信息网络。我们所说的超文本技术将自然语言文本和计算机交互式转移和动态显示线性文本的能力用超链接结合，在文档内部和文档间建立非线性的网状结构，使读者在阅读时可以根据所需，超链接到指定位置，同时它可以帮助我们在学生外语时利用联想式查询能力，快速找到自己所需的内容和背景知识。

三、高职韩语翻译教学的超文本网络技术运用

高职高专韩语翻译作为一门综合性的课程，不仅要求学生能够熟练掌握中韩双语技巧，还要求学生熟悉双语文化背景，熟知翻译职业素养，拥有一定的韩语思维能力和熟练掌握、自如转化传输两种语言的翻译实践能力。

高职韩语翻译教学存在困难，高职韩语翻译教学属于非通用语教学，存在韩语翻译教学教学时间短，缺乏实际场景缺乏教学资源等问题。超文本网络技术的发展在一定程度上弥补了这一不足，将超文本网络技术引入翻译教学，将大大拓展翻译教学的发展空间。其特有的网状链接方式和强大的搜索引擎功能，有以下优势：（1）教师和学生提供超出课堂和书本的广阔资源;（2）有效地培养学生利用网络工具辅助翻译的能力;（3）有利于提高学生学习兴趣和学习能力。超文本网络技术深入韩语翻译教学中，可以照顾到差异化学习，在超文本环境下，人的感官可以得到最大限度的开发，找到自己的结合点，从而帮助学习者认识世界、获取知识;（4）有利于翻译教学的拓展。

超文本网络技术对高职韩语翻译教学的辅助运用，主要集中在以下几方面：

（一）优化外部教学环境

传统韩语翻译教学以教师为主依照教材进行讲解，教学环境单一，学生无从体会翻译现场真实情景，教学效果不尽如人意，在一定程度上挫伤学生学习的积极性，不符合高职高专培养高技能人才的培养目标。超文本技术应用于高职韩语翻译教学，多媒体网络技术的多重感官刺激功能，超文本资料及三维图像和声音的感触（如电子报纸、韩剧视频、重大活动翻译现场音频资料，等等），为学习者提供逼真大量的真实韩语资源，优化教学环境，对教学效果的推动是之前的教学手段无法实现的。

在硬件环境方面，高职院校利用网络设施，全面开通（实训中心﹑教师办公室﹑学生宿舍）校园网，教师利用超文本网络手段等丰富课堂，开发特色立体教材，创建翻译教学数据化平台，实现教师和学生、学校和企业线下线上互动协作的翻译教学模式，转变传统课堂中心模式，将课堂教学和课外辅导结合，将学习与实训实习挂钩，使教师的指导作用通过网络延伸，学生的自主学习活动纵观整个学习阶段。

（二）辅助教学模式方面

在以往的教学模式中，单纯是翻译理论和翻译技巧的简单讲解。而今，仅仅依靠某一本教材或介绍某一种理论和技巧，已经无法满足新时期学生理论学习的要求，而超文本网络技术的引人则迅速有效地解决这一难题。目前，超文本网络手段应用教学过程，对教学模式的改革起到促进作用，其指导作用贯穿整个教学过程中。超文本网络技术将网络教学模式介入韩语翻译课堂教学，意义重大。具体体现为：

1.课前准备方面

翻译课或课程实训之前，教师根据本节主题，网上下载搜集各种韩语资源，整理资料，将先期电子资料（包括超文本文档及各种音频、视频、动画资料等）先行通过网络手段和工具（网络翻译平台、QQ、MSN及微信翻译群）与学生共享，让学生提前了解本课的学习任务，熟悉相关翻译背景和翻译素养知识，以便迅速导入课堂教学。作为课前准备，教师可以根据本堂课主题，搜集整理相关翻译资源（如朝鲜日报、各种韩语网站、韩语翻译音像资料，等等），结合教材制作个性化的教学课件，使得学生克服时空和疆域的限制，将语言学习置于色彩声音影像等综合环境中，创造逼真的韩语习得环境，增强学生的求知欲。比如在讲解“致辞”这一主题时，我及时搜集到李明博和朴槿惠“ ”的中韩文语料，对其加以修改并配以朴槿惠总统就职宣誓时的演讲视频，以及结合朴槿惠总统在清华大学的演讲词精华部分编辑制作了多媒体课件，应用到翻译课堂教学中，指导学生翻译，取得很好的教学效果。这些演讲词的翻译训练，使学生接触到鲜活的翻译资料，体验到真实的翻译场景，可见超文本网络技术的引入，不仅有效地训练了学生的翻译能力，激发了学生的学习兴趣，还使翻译教学真正做到资源更新与时俱进，授课内容与社会发展同步。

2.课堂教学过程

超文本网络技术的发展，很大程度上丰富了课堂教学。目前国内网络技术跟翻译教学的结合运用越来越多，利用网络手段对高职韩语翻译课实践教学模式的探讨，有利于提升学生的翻译层次，拓展其翻译和自我学习的能力，为学生的未来职业发展奠定良好的基础。高职韩语翻译教学要求学生不仅要掌握翻译理论知识，还要将其灵活运用于社会交际，准确实现语意传达，关键要有较强的实践翻译能力和社交能力。在实际教学中，采用项目教学法，将授课内容划分成具体的工作任务，组织学生分组翻译模拟。同时利用网络技术和电子工具辅助教学，实现翻译课堂多元化延伸，使学生的自主学习活动纵观整个学习阶段。

超文本网络技术对于韩语翻译课堂的优化，主要体现在运用网络手段、工具对课堂教学的辅助，具体如下：（1）网络电子邮件（E-mail）。用于较复杂译文情况，学生通过电子邮件下载练习文章，给教师发送和上传自己的译文，与实习学生联系交流。（2）翻译群（QQ和MSN和微信）。多采用QQ和MSN微信创建共同翻译群，用于课堂教学翻译过程，方便教师指导及师生讨论，方便发起群聊，探讨翻译问题和技巧，指导实习学生的实习。例如对“”这个词的释疑，鉴于时间有限，教师可以在完成课堂段落的翻译后，在翻译群上传这个词的其他意义，以供同学参考及课下思考。（3）词典、电子辞典，用于翻译过程查找疑难。由于高职学生自身的时间短、学习水平较低，决定学生单凭课堂的学习和教师指导无法自如地完成所有的翻译任务，为拓展学生的翻译能力，高职韩语翻译授课和学习过程中可以采取由教师提供或学生自己购买韩汉辞典和电子辞典“nurian”使用，以查找词汇和听取口译内容。（4）网络检索技术（搜索引擎、在线电子词典、在线翻译软件、博客、论坛）。搜索引擎是一种检索、报道和存储网络信息资源的检索工具。强大的搜索引擎为翻译学习者提供海量的信息，使学生迅速高效地检索和获取网上的专业信息，使得专业术语的翻译对学生来说不再是难事。在韩语翻译课程上，培养学生基本的信息搜索技巧和方法，利用搜索引擎帮助翻译及校改译文。教师还提供常用在线电子词典网址www.Naver.com、韩国百度http：//www.daum.net的辞典网页搜索词语的解释。输入韩文搜索，会有详细的韩文词源说明，帮助理解真实含义。韩语思维能力不强，韩语背景知识匮乏是高职韩语翻译教学的关键。网络搜索引擎有助于了解背景信息，帮助学生拓展课堂学习，提高翻译能力。

例如：

本段译文几乎没有什么疑难表达，但学生在翻译时仍往往望文生义，将“ ”直译为”绿色生长”，让讲述经济的整个文章的语义有点不知所谓。经我指导，学生学习利用超文本网络技术，使用搜索引擎辅助翻译。通过检索、查询，学生很快了解上述单词的正确译法“绿色增长”，很快地完成翻译任务，顺利给出译文：

世界华商论坛于2006年9月首次在中国举行，目的是通过世界华商促进经济交流，此后每年举行1次。今年在韩国举行的活动主题为“绿色增长”。周生贤将以“低碳绿色增长”为主题，于15日进行主旨演讲。而尹锡金和LG电子副总裁南镛将在讨论“绿色增长环境、能源”问题的第1次会议上，进行主题发言。韩亚金融集团总裁金胜猷将就“绿色金融”进行主题发言。

由此，超文本网络技术对于课堂教学的辅助性作用可见一斑。（5）翻译数据化平台。高职韩语翻译课程的定位面向了市场，注重技能，其独特性决定了开发职业语料库建立网络数据化平台的必要性，这部分是今后超文本网络技术应用于韩语翻译教学的重点。日常教学考核依托平台展开，还可依托翻译数据平台对学生完成翻译的隐性素养知识如职业道德、职业作风﹑职业态度等的输送（如翻译礼仪、翻译餐桌就餐礼仪和技巧）等。

3.评价机制方面

大多数高职院校韩语翻译教学，采用传统总结性评价方式，无法调动学生的学习积极性。超文本网络技术引入高职韩语翻译课程的评价机制，建立起多层次多维度科学体系的评价机制，有助于肯定学生个性化差异化学习，调动学习积极性。超文本网络技术对课程评价机制的改革主要体现在两点：（1）评价机制多样化，有目标评价机制，即教师根据教学大纲和人才培养目标制定标准;教学过程评价机制，即教学过程与评价紧密结合，成为教学环节中不可缺少的一部分。在整个教学过程中，教师跟踪、监督、检查、指导督促目标实现，将过程评价纳入结果评价中，如摒弃传统纸面试卷的形式，在翻译平台，从翻译题库抽取考试试卷，即时考试，线上交卷，公开评卷。师生共同评价机制，即翻译过程中，师生共同参与、讨论评定，有利于提高学生的参与积极性。（2）校企合作单位及时对实习学生反馈评价，有助于实现师生及校企合作单位的立体互动，评价及时，发现问题，弥补缺陷，确保教学效果。超文本网络技术的辅助，有助于采用多元化考核制度，重视学生的学习能力差异，将教学和实践紧密地结合起来。

现代信息技术发展迅速，网络多媒体手段介入高职韩语翻译教学，改革现行的培养教学模式，转换教师和学生角色，全方位地培养学生的翻译能力，有助于新形势下企校对接机制下高职韩语翻译人才的培养目标的实现。

四、结语

对于高职韩语翻译教学，超文本网络技术只是辅助，是工具，培养高素质高技能的高职韩语翻译人才的关键是教师师资队伍翻译教学水平的提高。因此，对于超文本网络技术的运用，我们需要注意以下几个方面的问题，即杜绝对超文本网络技术的过于依赖，教师加强课堂监管提高职业素养，教师提高信息技术素养和教育技术水平，学校加强对网络技术教学的指导建设，培养具备网络技能的高素质高水平的教师队伍才是高职韩语翻译课程提升的关键。

参考文献：

[1]郭蕾.高专韩语翻译教学[J].天津市经理学院学报，2014（2）.

[2]王慧君.讨论式教学法在韩语翻译课中的实践[J].开封教育学院学报，2014（10）.

[3]王雪梅，徐璐.国际化复语型人才的内涵与培养模式探索[J].外语与外语教学，2011（1）.

[4]王静.网络环境下任务型口译教学模式的设计与实践[J].外语电化教学，2010（5）.

[5]文钟哲，金顺姐.韩语专业人才社会需求分析及培养目标设计[J].国际问题研究，2006（1）.

[6]杨柳.信息化翻译教学的图景[J].外语与外语教学，2005（11）.

视频文本化及其技术功能初探篇7

我们可以清楚地看到, 网络视频的信息组织和呈现方式已然不同于电视, 这是人类传播史上“第一次体验到没有雄厚资本的个人就能直接接触到广大的视听群体, 互联网络把所有人都变成了出版发行人, 这是革命性的转变”[3]。值得进一步追问的是:相对于文字书写而言, 视听制作需要专业技术, 历来为专业机构所掌控, 那么网络视频的影像表达与电视的影像表达到底有何不同?究竟是何种因素作用其中, 使得网络视频得以实现如此影响力?

法国学者伯纳德·斯泰格乐在《新屏幕的狂欢:从霸权到平等》一文中指出, 新屏幕正在“走向视频文本化” (Toward Textualization of Images) (1) 。“文本”是一个含义宽泛的词汇, 在文学、阐释学、传播学、符号学、认知学、网络科学等领域被广泛使用。虽然这个词具有多义性, 但其语义指向还是有基本共识的, 即文本是被受众阐释和作用的独立的对象物 (2) 。视频文本化是将视频剥离为最小化的独立形态。从实践层面看, 网络视频文本是可以被每个个体自由读写的开放的独立形态, 相当于视频词汇, 人们可以“随用随取”, 自由表达。可以说, 正是由于视频文本化这一机制, 决定了网络视频在内容生产与传播上的独特性。

一、视频文本化的内涵解析

斯泰格乐对这个概念本身并没有进行明确定义, 只是分析了视频文本化的形成和运用。他认为, 数字图像处理将连续视频信号“剥离”成可辨识、可定位的独立存在的片段, 并且将这些片段从特定设备中提取出来。而互联网的导航和搜索技术的发展, 进一步为用户掌握和运用这些可编辑的片段创造了条件。这一过程也是自下而上的元数据生产过程, 它带来了新的内容生产方式, 包括添加标注、创建超链接路径、跟帖注释、音视频文件处理。视频文本化实现了内容生产的个性化, 也折射出信息技术所塑造的新的生产关系。

从上述描述中可以看出, 视频文本化有三个关键词:“剥离”“提取”和“运用”。从网络技术角度来说, “文本化是一定程度的去结构化”[4], 去结构化可以使用户获得对程序结构更强的控制力。网络视频的去结构化表现为:传播内容被“剥离”成具有独立形态的音视频片段;这些片段作为元数据, 可以被用户“提取”和“运用”, 即上传、下载、存储、搜索、裁剪、修改、注释、续写、扩展和发送, 总之, 这些元数据组合可以还原事件, 也可以重构事件, 并且可以在不断续写中扩展事件, 具有开放的结构, 能被嵌入任何传播形式之中。

(一) 视频文本化的词汇属性

视频文本化的意义还不仅在剥离、提取和运用。当它演化为独立元素后, 便取得了话语词汇的属性, 和网络文字一样, 呈现为一种话语方式。以网络交流中表情符的运用为例, 它们先被运用于各种即时性聊天工具, 后来越来越多地出现在各种论坛、微博和手机微信中。表情符的内容从最初简单的画笔勾勒逐步过渡到动态表情符, 引入Flash动画后, 随之而来出现了大量影像片段的截屏, 和其他表情符一起, 直接表达使用者的喜怒哀乐情绪。被截取的影像片段实际已脱离其原有的故事情节, 具有比原初文本更丰富的意义。

一般来说, 视觉符号比文字更直观更具有吸引力。虽然好的文字表达除去文字本身的意义外, 还带有一定的语感和气场, 或如匕首投枪, 或似妙语连珠, 但是人们依然时常会感到词语的局限, 词不达意。这与表达者个性、言说环境甚至文化生活背景或所受教育相关, 对话双方因这些差异或障碍而难以会心通融。相形之下, 表情符和视频形象则直观生动, 可以直接突破语言障碍, 甚至能跨越心理屏障, 传递微妙情绪, 达到心领神会。在网络中被分享的表情符和视频图像, 实际上取代了文字或口头语言, 构成了新的影像话语环境。谁发明或谁创作已经不重要, 重要的是交流和运用。以文本化为技术前提, 网络视频成了交流语言。

网络视频的最小独立形态是一帧画面, 即在网络上时常可见的截屏图像。电视影像的最小单位虽然也是一帧画面, 但它不具有独立形态的意义, 因为电视文本“在其客观形式上, 被理解为能够以整合的、有意义的方式来表达社会世界”, 是以“有意义的整合等在那里”[5], 人们无法主动提取重构, 只能被动地“等”待观看已被“整合”的意义。而视频文本化恰恰消解了这种整合性, 人们得以主动参与意义的建构, 将视频文本截图为最小独立形态, 表达意义和态度。正如斯泰格乐所认为, “在数字网络中, 观众活跃在主动的层次上, 必须学会如何使用各种功能, 而不再只是一个消费者”[6]。

数字化、碎片化和可搜索化导致了传播内容在生产上具有重要意义的逆转, 即自下而上的音视频元数据生产蓬勃发展, 自上而下的电视内容生产成了过去[7]。视频搜索引擎直观地说明并且最大限度地发挥了视频文本化的特性。由此而论, 数字视频技术和互联网技术推动视频必然走向文本化。

(二) 视频文本化的生成前提

可以说视频文本化满足了人类对视觉表达自主性的内在追求, 而这种内在追求又推动着技术不断向实现个体自主的方向深化。概括来说, 视频文本化的实现建立在两个方向的技术进步上。

一是视频获取的自主性。便携式摄像机的普及使公众可以用镜头自主记录所感兴趣的一切。当摄像头被安装到作为文字处理器的电脑上时, 视频轻松完成了直观且即时的远程对话任务;手机等移动终端上的微型摄像功能对于个体自主创作来说, 更是具有解放意义, 人们可以随时随地用视频影像表达自我。施拉姆在研究传播工具使用问题时, 曾经提出过一个选择或然率公式:可能的报偿/费力的程度=选择的或然率。其核心观点是:人们选择传播路径时, 总是在可能的前提下, 尽量选择最方便、最能迅速满足需要的路径[8]。影像言说具有超越文字的直观性和感染力, 微型化摄录技术为实现人们自主的影像言说提供了条件。

二是视频处理的自主性。1954年美国无线电公司 (Radio Corporation of America) 首次使用录像机, 但是直到20世纪70年代末, 它才从机构走入家庭。录像机所具有的暂停、回放、加速等功能, 隐含了个体再创作的可行性。不过, 在模拟信号时代, 人们只能按时间先后顺序来观看或者截取视频, 而数字技术的发展使得人们可以随时选择任何位置上的视频图像, 自由截取, 随时跳转, 人们获得了生产视频的自主性, 进而视频检索技术极大地提升了人们在海量信息中获取片段化视频的指向性, 为生产自主提供了“材料”前提。

在音视频压缩技术、对等网络系统、视频制作软件、超文本链接等各种新技术不断发展的过程中, 观众耳濡目染地掌握了日趋“傻瓜”型的创作手段, 只要几个简单的步骤就可以自由处理信息。联系麦克卢汉的观点来看, 媒介最本质的不是表述, 其技术表现的可能性和工具性形态甚至可能比媒介“内容”产生的影响要大得多[9], 所以说互联网技术催生了视频文本化, 从而完成了视频生产的革命性转变。

(三) 视频文本化的多方观点

就目前所及的国内外相关研究, 明确提出视频文本化的学者并不多, 但是有不少人已经注意到了这种新的话语机制。

凯瑟琳·海勒斯 (N.Katherine Hayles) 在关于信息时代“超注意力”研究的文章中指出, 当今年轻人习惯于使用视频搜索引擎, 但是只是通过某段视频的截图来浏览内容, 仿佛文字已不再存在。[10]

在海勒斯看来, 在年轻人的阅读经验中, 视频图像部分地取代了文字功能, 成为影像“文字”。

美国西北大学教授连恩·斯皮吉尔 (Lynn Spigel) 也认为, 电视在转向互联网, 也在转向新媒体语言格式。尽管斯皮吉尔仍然站在传统电视的角度来谈论在线视频 (即网络视频) , 但是他已经意识到, 视频不再是被动观看的电视节目, 而是人们可以主动掌控的随时表达的语言方式。[11]

曼纽尔·卡斯特同样将视频文本化定位于根本性变革的高度。他将音视频、文字视为网络社会新的沟通系统的“元语言”, 认为“元语言”和“超文本”使人类首次将书写 (文字) 、口语和视听符码整合到一个互动系统之中, 而这个新的沟通系统正在改变我们的生活[12], 其变革意义堪比公元前700年希腊字母的发明, 后者奠定了西方哲学和科学的发展基础。

传播学者罗兰德·沃尔克没有直接谈及相关问题, 但是他在讨论网络新闻特征时, 隐含了文本化的意义, 即“由于那些观看、阅读、利用新闻信息的人参与了传播, 新闻报道表面上是一个已经完成的作品, 而实际上永远没有完成”[13]。

二、视频文本化的技术功能

马克思·韦伯说:“人是悬挂在由他自己编织的意义之网中的动物。”[14]意在说明人的文化属性, 借语言、词汇和概念的表达与诠释, 对一切事物都赋以意义。视频文本化使可视信息在上传下载、分享互动、反复提取以及运用演绎中, 通过多样化组合, 形成了与电视不同的视频语言系统和关于世界的形象感觉, 进而构成关于世界的意义系统。具体说来, 视频文本化的技术功能体现在以下三个方面:

(一) 内容上可海量存储

2011年初的数据显示, You Tube每天的视频点击量超过20亿次, 平均每分钟网民上传的视频达到48个小时, 该数据在2007年为8个小时, 2008年为13个小时, 2009年为24个小时, 2010年为35个小时[15], 仅这样一家视频网站的内容增量已超过了全球电视资源总和。网络视频的海量内容来自以下三个方面:

首先, 传播主体化使得视频内容无所不包。在电视传播中, 国家和大型商业机构起着主导作用, 电视生产者只是具有专业制作能力的少数人, 而在网络视频中, 除了机构生产者外, 每个用户都是生产者, “每个人都是生活的导演” (3) , 每个使用者都是奉献者, 而每个人生产的微内容, 从家中宠物到个人情感, 从现实境遇到虚拟想象, 无所不含, 包罗万象。澳大利亚学者曾经对澳大利亚You Tube和NFSA (国家音像资料馆) 作为视频的资料库作用进行研究。研究发现, 在关于“人类生活兴趣”方面, 诸如生日、婚姻、死亡等, You Tube提供了更为丰富的资料, 也很好地记录了澳大利亚电视发展的通俗史。在You Tube和NFSA所收藏的类型相同的资料中, You Tube更偏重于“瞬间一刻”的片段记录, 其数据库分类体系更便捷, 更便于用户找到资料, 而NFSA则以比较简单的参考类信息为主, 诸如节目播出时间等[16]。总之, 网络视频的微内容呈现了更为广泛和开阔的人类生活, 尤其是“瞬间一刻”极大地丰富了人类的视频档案。

其次, 海量网络空间使视频内容得以永存。一般而言, 电视节目一经播出, 节目带或被束之高阁, 或销声匿迹。即使电视台节目存储实现了数字化, 资源也无法自由流通, 更不会反复增加。然而, 网络视频不仅可以存储所有机构和个体生产的内容, 更重要的是, 这些视频数据从四面八方而来, 汇成“影音的海洋”, 不停息地流动在联通全球的网络中。在流动的过程中, 视频数据被网友不断地修改、重构。在这样一个储存、搜索、编辑、再储存的过程中, 只要服务器条件许可, 理论上讲, 视频存储量会无限增长, 可以“在空间中完美传输, 在时间中无限保存, 在任何地方永远保存”[17]。

以2008年奥运会报道为例, 网络视频资源总量大大超过了传统电视媒体报道量。当时的央视网 (现为中国网络电视台) 提供了1.6万小时的赛事报道, 也是全球唯一对3800小时赛事进行全程转播的媒体, 而中央电视台作为全球最大的2008年奥运会转播平台, 各个频道全部播放总量史无前例地达到了2300小时, 而这一数量仅是央视网播放量的1/5。 (4)

再次, 后过滤机制决定网络视频创作自由。电视内容生产与播出受到诸多规范限定, 实行的“过滤后出版”, 大多专业内容都是过滤体系下的产物[18], 诸如新闻报道要考虑信息的真实性、来源的可靠性、报道的生动性、视觉表达的贴切性等, 不符合规范的均会被删除。网络视频则不然, 它是“出版后过滤”, 尽管也有必要的过滤把关, 但是总体上拥有远胜于电视的创作自由, 没有刻意的专业要求, 没有大众传播的内容约束, 同时, 无数网民无时无刻不在上传新的视频, 网友也会不断跟帖评论、补充新的信息。因此, 相对于少数专业精英主导的内容生产来说, 个体智慧聚沙成塔, 反而可以汇聚起更丰富、更多元的资讯。

(二) 运用上可动态扩展

互联网应用包括网络视频被认为是具有“强大信息扩展价值”的事物[19], 因为网络用户可以接触到海量信息, 并且自由选择所感兴趣的信源, 不断补充、添加新的诠释。但是电视的单向性传播方式决定了其所播出内容是无法被观众二次创作的, 观众最多只能谈论节目, 却不能左右节目, 更遑论衍生扩展, 电视节目一经播出, 就完成了使命, 即使有重播, 那也只是重复播出。

网络视频观众可以主动选择和点看视频, 可以随时中断, 又随时开始, 不受电视播出时间局限, 正所谓“黄金时间就是我的时间”。而电视尽管能呈现万千气象, 但是所有的节目内容都是被限定的, 观众的观看行为也是被限定的, 选择一个节目则必须放弃同一时段的其他节目。

如果说电视节目是完成时态, 那么文本化的视频永远都是“正在进行时”。它们游走在互联网空间里, 在不同的站点、人群和工具中移动, 与各种网址、文字、即时反馈等相结合, 由此不断积聚意义, 由“点”及“面”, 动态扩展, 具体表现为“点”状散播和界“面”集成。

“点”状散播:关系链“合作注解”。人们可以随意搜索并且截取任何一段视频, 进行拼贴组接, 对视频文本进行重新诠释, 参与二度甚至三度再创作;或者用加标签、超链接等方式赋予视频文本新内容。志同道合的人群在网络社群中汇聚相互点评, 交流意见, 通过网址链接, 把感兴趣的视频分享给朋友。因为互联网架构具有开放性, 在接受和传播以及再传播过程中, 每个人都有权对文本进行补充、修改、点评、衍生和转发, 由此, 最大限度地集聚群体智慧, 实现线上线下互动, 网络视频也因此成为可动态扩展的“合作注解”系统。

以香港“巴士阿叔”视频系列为例。2006年4月, 香港公交车上, 一位中年男子“我有压力, 你有压力”的咆哮场景被旁观者用手机记录了全程, 随即这条6分钟的短片被发布到You Tube后, 掀起了网络热潮, 短时间内被观看390万次。一年之中, 在没有任何合谋的情形下, 大量“巴士阿叔”原片恶搞版或混搭版涌现。香港学者朱顺慈通过对You Tube网站上132个相关视频的研究发现:网民大量从流行文化文本中挪用素材, 将流行音乐、电影片段、海报、电视新闻片段与原有视频交织, 组成新篇。从艺术创作层面看, 这些二度创作的视频质量大多乏善可陈, 无法与电视节目相比, 但是网民更在意的是通过参与制作表达态度, 与其他网民进行持续交流[20], 不断推出的新视频变成在线讨论的一部分。可以说, 线上线下的流通打破了网络与现实的分界, 不仅使网络与现实趋于同构, 而且在文本的动态丰富和合作注解中, 交流者的意义空间也趋于同构。

界“面”集成:共时性“多源并置”。电视编辑的任务是在大堆素材中进行选择、取舍, 从而结构出有意义的完整节目, 而网络编辑的任务则是对素材进行编排上的整合处理, 在原有内容的基础上生产新内容。因此在英文表述中, 人们有时会用“redaction” (集成) 一词来代替“Edit” (编辑) , 后者有删减、取舍之意, 而“集成”则可以比较准确地反映视频界面上内容集纳的特点, [21]即点击任何一个视频频道, 都可以看到屏幕界面上犹如超市货架般的内容分布, 在每一类型中, 又有众多的视频专题。其中, 除了来源多元、风格各异的视频集成外, 还有视频推荐列表、搜索链接、快讯推送、一键转发等多项服务应用。每打开一个主题页, 人们都可以一目十行地了解内容, 然后点击链接, 层层深入。在版面编排中, 视频还可以被附加诸多信息, 诸如最新发布、最多播放、最多评论、最多收藏、播放时间、视频来源、内容简介、发布时间、播放频次等。传统电视专题时序性结构在互联网上演化为非线性大容量的文本系统, 多点传播、多源信息共同作用。

视频文本化使网络视频以同时性“源”整合, 取代了电视的历时性“流”传播。“流”原本是电视传播的一个重要概念, 早在1974年, 雷蒙德·威廉姆斯 (Raymond Williams) 就在《电视:科技和文化形式》一文中提出了这个概念, 之后由其他媒介理论家反复引用。[22]

电视的“流”式传播使之只能依据时间流程结构信息, 而网络视频的界面化分布可以同时整合多“源”内容, 如果说电视是蒙太奇, 是按照线性顺序结构镜头, 那么网络视频更像是拼贴画, 把不同来源的内容拼接在同一平面上。因此, 网络视频在意义生产方面更重视编辑效能, 诸如如何吸引点击并提供友好性服务以黏住用户、如何在快速滚动的信息阵中推送重点、如何对碎片化视频内容进行编辑深加工等。

(三) 传播上可随机嵌入

电视只有一种传播通道, 而网络视频则可以以多样面貌与多种渠道组合, 从而释放出更大的传播效能, 这源于视频文本的两个突出特性:第一, 可截取性。网络视频可长可短, 任何长度的视频内容都可以以数据方式存在于网络空间中, 供用户点播观看, 换言之, 视频长度可根据需要被任意截取, 短则单帧图像, 长可至无限。早期视频播放受限于技术条件, 长视频容易引起缓冲溢出, 因而以短视频为主导, 但是随着技术改进和宽带速度提升, 视频长短已不是问题核心。而短视频之所以受到网民欢迎, 是因为它可满足人们利用碎片时间快速点看的需求, 宛如“视频点心”[23]。第二, 可嵌入性。网络视频可以被嵌入到文字报道、电子邮件、即时通信、微博以及论坛等各种传播载体或渠道中, 这种可嵌入性使得视频分享呈现出无缝整合、无处不在、移动获得等特点, 从而加速了视频传播, 由此, 病毒视频有了用武之地。

在此, 对“病毒视频”略作说明, 因为它是网络视频的特殊形式。“病毒视频”这一概念源于“病毒式营销”一词, 指那些具有某种吸引力特质、能够像病毒传染式迅疾扩散的视频。这些视频借助互联网的人际链传播, 用户往往在无意识接受, 而后又积极参与传播。电子商务先行者拉尔夫·威尔逊 (Ralph F.Wilson) 曾经对病毒式营销策略有比较清晰的描述:1.提供有价值的产品或服务;2.提供无须努力的向他人传递信息的方式;3.信息传递范围很容易从小向大的规模扩散;4.利用公众的积极性和参与行为;5.利用现有的通信网络;6.借用他人的资源 (5) 。上述6个策略也大致适用病毒视频。病毒视频以极低的成本聚拢群体, 快速传播, 且容易得到认同, 其中的传导策略值得关注。

在嵌入式传播中, 微博视频的力量尤其引人注目。视频文本与微博的共构, 使二者相得益彰。一方面, 视频令微博传播影像化, 使之获得了活动空间的属性。“Twittercooler”这个新名词就生动表达了这种属性, 它的意思是人们通过推特 (微博) 交流视频观感, 边看边交流。当重要事件直播时, 人们不仅能与事件同步, 而且还能同时处于同一对话场, 快速集中各种意见, 仿佛置身在同一个面对面的活动场域中。另一方面, 微博的快速传播机制, 又使视频的各项功能得到最大限度的发挥。美国著名新媒体研究者杰金斯认为“未来掌控美国电视的可能是脸谱 (Facebook) 或者推特, 而不是美国广播公司或者福克斯新闻”[24]。

总之, 基于互联网的分享与共享模式及其提取、合成、储存之技术功能, 网络视频不再仅仅是他人制造的影像世界, 而是“走向文本化”, 成为人际互动语言。视频文本化既是网络影像语言独特性的技术基础, 又是个体自由运用影像的前提, 其间隐含着传播主体化带来的权力转移。当视频文本化演化为独立元素, 便取得了词汇属性, 借由网络表达的非正式性和自发性而呈现“口语性”, 人们用视频图像和表情符代替文字, 借助人际关系链传播。这一过程亦是情感连通的社会过程, 散发着平等、互动、个体自主的气息, 由此我们可以获得理解新的社会需求和实现有效传播的新途径。

摘要：随着数字技术的发展, 网络视频日益成为独立的传播形态。本文以国外学者针对“走向视频文本化”这一现象的技术成因之研究为基础, 首次明确界定了“视频文本化”的定义, 阐释了网络时代“视频文本化”的概念, 并对这一话语表达的新机制进行了技术功能探究。“视频文本化”这一概念的形成揭示了网络视频区别于电视表达逻辑和传播范式的根本缘由, 其背后隐含着传播权力和生产权力的变化。在技术层面, 视频文本化具有内容上可海量存储、运用上可动态扩展、传播上可随机嵌入的特征, 与实现人际互动的传播需求相契合。

技术文本篇8

一、立意“交互”概念认识偏差成因

信息技术学科是一门重要的综合性学科, 它以各学科文本为基础, 发展学生能力素养为重点。因而在学科教学中, 应以其对应的学科知识为资源, 拓展学生的应用能力, 同时也为其他学科文本应用提供必要的巩固条件, 达到共同提高进步的目标。但学生对待课程往往进入盲区, 对信息技术课程的理解与能力的培养产生偏差, 主要表现为以下两点。

1. 对信息技能与其他学科文本之间认知脱节。

信息技术课程是一门综合的技能学科, 它包含了其他学科文本的很多方面, 并在此基础上训练各种应用能力, 以提高学生计算机应用的综合素养。例如:电脑绘图、小动画制作、电脑小报、powerpiont等应用练习需要有美学知识的支持;语文学科是文字操作能力中必不可少的知识要素;认识操作计算机网络更离不开英语学科基础知识的帮助。可以说信息技术学科中其他学科的影子无处不在。但学生在认知其他学科文本时往往将其脱节甚至忽略了, 使信息技术课程成为一门孤立的学科, 没有与其他学科知识相联系。其实信息技术所需的文本知识就在身边的其他学科中。因此应让学生重视信息技术学科与其他学科文本交互的密切联系。

2. 对信息技能的练习比较单一, 忽视对其他学科的促进作用, 使自身技能不能得到进一步提升

信息技能练习需要其他学科知识的支持, 单独认识理解自身的文本是比较难的, 它是对很多内容的综合, 所以这门学科培养的也是学生的综合能力, 并不是单一的能力。而很多学生总是在某一个技能上学习, 能操作了觉得自己学成了。没有将信息技术课上学的技能应用到其他学科的练习上, 没有充分发挥这门技能的作用, 只是就技能而技能;或者总是凭着兴趣练习某一方面的技能内容, 并且认为这就是技能的全部。造成这一问题的原因, 是他们忽视了其他学科的促进作用。一方面, 信息技术课程很多内容中都需要以其他学科的知识为基础, 只有不断地积累丰富, 才能更好地完成信息技术的能力培养;另一方面, 进行信息技术综合性能力训练也能更好地巩固发展其他学科的知识体系, 促进其能力生成与发展, 充分发挥信息技术学科与各学科之间文本与能力交互提高的作用。

二、谋划“交互”模式实践多元能力

根据信息技术的学科特点和教师在教学过程中、学生在能力训练过程中表现出来的不足与问题, 结合学校课程资源的实际, 对学生进行信息与其他学科文本交互训练的操作能力培养, 从而达到提升学生信息操作素养的最终目标。

1. 课堂教学的学科交互

信息技术教师往往会有一个认知上的偏差, 那就是信息技术课程是一门专业性很强的特殊课程, 不需要其他课程的互补。这一观念的偏失, 使得学生刚在课堂上接受了计算机某一个领域的单一知识, 而第二次应用操作时便忘了, 或者根本就无从下手, 不知用什么方式、什么文本材料去操作。因而首先要改变教师的教学偏差, 在教学中有意识地引入其他学科知识, 并让学生有意识地在其他学科学习中联系信息技术课所学内容。小学中段学生主要以认识计算机的构造、原理以及各种简单硬软件的认识操作为主。那么教师可以有意识地与其他学科联系;如打字过程, 首先得认识键盘, 而这就要求学生在英语课中去熟记英文字母, 在熟记字母的基础上来认识键盘上的字母排列。然后用语文课中的拼音音节简单操作容易的拼音打字, 让学生懂得打字中用到的单音节、双音节等等内容是语文学科中必须掌握的, 这样才能操作好打字这一工具。根据这一思路, 开展信息技术学科整合资源的探讨课活动, 在信息技术课程教学中教师创新学科教学的模式, 将其他学科中的细节情趣化、生活化、简单化、活动化引入到日常的信息技术课堂中, 既可以改变学生的认识, 又为课堂教学增添内容, 也可以使信息技术课减少理论味, 加强课程之间的系统性和实用性, 实现文本上的交互相融。

2. 课后作业的学科交互

要让信息技术渗透到学生的全方位学习领域, 充分利用学到的信息技术技能与完成各学科相应作业的联系, 既提高信息技术操作能力, 又有效地实现与其他学科知识巩固提高的互补。应引导授予学生获取和加工信息的能力, 给学生提供广阔的信息天地。科学学科中特殊性或知识性较强的内容, 都可运用计算机网络来查找实现, 为学生知识的增长扩容提供最快捷、最翔实的学习资源;低段语文中的识字, 熟记拼音是非常重要的一环, 学生经常性地抄写, 枯燥乏味, 那么可以用电脑来扩充其抄写分量及形式;中高段美术课中的设计及简笔画, 可以用计算机来操作完成, 进而让学生熟练运用软件工具, 培养学生独立操作的能力;英语课中单词及词组的抄写, 也可让学生用电脑来互补操作, 这样既可以熟记英文单词, 又让学生熟练使用指法及键盘, 一举两得。在这样交互训练的过程中, 无形之中培养提高了学生的能力, 也加强了学科的互补性。还可以根据这一操作思路, 举行各学科与信息技术整合的作业设计比赛, 让学生用计算机来完成其他学科的作业, 既提高熟练操作计算机的能力, 又整合各学科的课程资源, 加强信息技术与各学科之间的紧密联系。

3、活动展示的学科交互

通过经常性的操作练习, 使学生熟练地掌握一些基本操作能力, 各学科之间也加强了联系与互补, 从而使学生的综合素养在日常教学中有所提高。但信息技术学科更注重以计算机为核心的综合能力的培养, 这离不开信息技术教师的指导与训练, 因而要经常性开展注重能力训练的活动课, 从某种意义上说是兴趣培养、专长展示课。这类活动课以培养学生操作能力为主, 结合相关学科的文本知识体系, 但并不以文本认知教授为重点, 更多的是把能力训练提高作为首要目标。例如:以绘画工具制作为主题, 电脑绘画制作、powerpoint制作……这一系列的主题式汇报展示课的专题能力训练, 低年级可以进行打字游戏比赛、拼图小绘画等简单常规操作比赛;中高段可以进行电子相册、电脑小报, 电子贺卡等主题比赛。让学生在比赛中充分展示自己的操作能力, 同时增强他们对信息技术的兴趣。活动的安排需要教师的认真策划, 以循序渐进的方式不断提升练习的高度与难度, 从而激发学生追求更高目标的热情。

三、延伸“交互”效应促进教学相长

文本分类技术在信息检索中的应用篇9

1 文本分类定义

文本分类, 是将自然文本文件根据内容自动分为预先定义的一个或者几个类别的过程。它是一种具有指导性的学习, 是根据一个已经被标注的训练文档集合, 找到其文档特征和文档类别之间的关系模型, 然后利用这种学习到的关系模型对未被标注的文档进行类别判断。文本分类作为信息过滤、信息检索、文本数据库、数字化图书馆和邮件分类等领域的技术基础, 有着广泛的应用前景。

2 信息检索的概念

信息检索广义上是指将信息按一定的方式组织和存储起来, 并根据用户的需要找出相关信息的过程和技术, 又叫信息存储与检索。狭义的信息检索则仅仅是指从某一信息集合中找出所需信息的过程, 相当于人们通常所说的信息查询。信息检索涉及数据库技术、图书和情报科学、人工智能、自然语言处理、机器学习等众多知识和学科领域。信息检索的主要目的是对信息表示、存储与组织, 使用户更容易得到所需要或者感兴趣的信息。

信息检索对文本信息组织的需求, 主要表现在以下几个方面。

文本集主题结构挖掘。文本信息组织中对文档集类别划分有两种方法:分类法与主题法。分类法是根据信息的学科体系特征来序列信息的一种方法, 依据是《中国图书馆分类法》等国家标准的体系与类目关系, 适用于静态的或者变化不是很大的信息组织管理, 比如图书馆书籍、研究报告、论文的分类等。主题法则是根据信息的主题特征来组织排列信息的一种方法。对信息检索系统来说, 需要管理的数据量很大, 内容繁多, 并且随着互联网的发展, 热门话题不断出现, 数据集的结构每时每刻都可能发生变化, 使用静态分类无法覆盖所有文档, 必须使用动态变化的主题划分方法作为分类的标准。但是如此庞大的文本数据集, 已经远远超出了人的理解能力, 纯粹依靠人工手段无法准确地获取类别结构体系, 因此需要有效的智能辅助手段, 快速准确地挖掘出文档集的主题结构, 不断改善已有的分类体系, 使文本信息的类别划分更加合理。

文本的自动归类。在确定文本集类别划分的标准之后, 将文档快速地按照类别分类存放是文本信息组织中的一项重要工作。目前文本归类工作主要由人工完成, 比如新浪、搜狐、雅虎等大型网站为了提高信息检索的质量, 都选择具有各种知识背景的人员来完成相应主题类别的文档归类, 这势必会耗费极大的人力物力, 同时难免会由于人的主观误判出现错误划分的情况。更重要的是在文本信息快速增长、文本集结构不断变化的现实条件下, 纯粹依靠人工进行文本归类无论从效率或准确率方面均无法满足高效信息检索的需求, 因此寻找一种机器自动化的方法对海量文本资源进行快速有效归类是信息检索对文本信息组织提出的一项重要需求。

3 文本分类对信息检索的意义

文本分类技术属于有监督 (supervised) 机器学习方法, 一般来说, 文本分类的过程如下。

获取训练文本集:训练文本集由一组经过预处理的文本特征向量组成, 每个训练文本 (或称训练样本) 有一个类别标号。

利用训练文本集对初始分类模型进行训练并得出分类判别模型。

利用训练得到的分类判别模型对其它待分类文本进行分类。

由于文本分类的主要任务就是在预先给定的类别体系下, 通过对有标记文本集的学习, 将文本集中其他未标记的文本对象映射到预设的类别中, 因此文本分类技术能很好满足信息检索对文本信息组织提出的第二个需求。

自动文本分类与信息检索技术是相辅相成, 密不可分的。自动文本分类技术的实现和提高使得信息检索的精确度和速度得以相应提高, 信息检索也为自动文本分类技术提出了更高的要求。如网上信息量的增大, 内容的增多为自动文本分类的研究提出了新课题。

自动文本分类的目的就是对文本集进行有序的组织, 把相关或者相近的文本组织到一起。作为一种知识的组织工具, 它为信息检索提供了更高效的搜索策略和更有效的搜索结果。高效性在于用户可事先确定查询的可能类别, 以减少进一步查询的文本数量。有效性在于相似的文本可能与相同的查询有关, 于是查询的查全率和查准率得到了提高。如今, 网络信息量的日益猛增对高效、快速地信息处理提出了更高的要求。这为自动文本分类的研究施展其信息处理的作用提供了更大的舞台。

文本信息组织是在当前文本信息快速增长的现实条件下解决海量数据高效管理与利用问题的重要环节, 是实现高效信息检索系统的基础。文本分类技术是文本信息组织中的几项关键技术之一, 对文本集主题结构的挖掘、文档自动归类、建立高效中文文本索引起着十分重要的作用。

参考文献

DVD字幕文本编码与应用技术研究篇10

所有DVD视频光盘中, 不同的视频节目存储在不同VOB的文件中, VOB文件的命名格式如下:

VTS_XX_Y.VOB (1)

其中“XX”为节目编号, 范围从01到99, “Y”为从0到9文件编号。由于DVD采用Micro UDF文件系统, 一个文件大小就不能超过1GB, 因此大多数影片保存在多个VOB文件中。每个VOB文件实际就是MPEG-2系统流, 包含所有MPEG-2或MPEG-1格式的音视频数据, 这些数据不仅包含影片本身, 而且还包含多种字幕流。

DVD光盘中, 每个扇区也叫包 (Pack) 包含2048字节数据, 包主要用于封包数据元素 (如音频、视频元素) , 这些元素将同步演播。

二、字幕流访问接口

由于字幕流是位于私有流1中, 因此字幕流访问接口要通过私有流1和字幕流共同确定。下面讨论私有流1和字幕流的数据结构和访问接口。

1、私有流1的数据结构

在DVD数据结构中, 每一个包Pack是一个Pack头和Pack内容构成, 而每个Pack的内容 (也叫封包主要流PES, Packetized Elementary Stream) 又是由Packet头和Packet数据组成的。对于每一个Pack都有一个4字节的启动识别码Pack ID, 定义为:0x00 00 01 BA, 私有流1的启动识别码定义为:0x00 00 01 BD;字幂流的子流ID定义为:0x20～3F, 其中0x20代表英文字幕, 当前字幕结束标志ID定义为:0x00 00 01 BE。

2、字幕流数据结构

在私有流封包中, 紧接着子流ID就是字幕流数据, 其长度为Size, 共包括四个部分: (1) 字幕流数据大小Size, 占2 Bytes, (2) 控制命令包的偏移地址Control Command Offset, 占2字节, (3) 字幕流数据封包Data Packet, (4) 控制命令Control。

2.2.1字幕流数据编码技术

在字幕流数据结构中, 字幕流数据采用Run-Length Encoding (RLE) 行程长度编码技术对图片数据进行压缩编码, 图片以隔行 (Interlaced) 位图方式存储。因此在解码字幕图片时, 需要将偶场信号和奇场信号进行内插合并, 从而得到一幅完整的字幕图片, 也就是一帧数据。如果对图片的分辨率要求不高, 可以只取偶场或者奇场。

2.2.2字幕流数据控制技术

在字幕流数据包中, 在RLE编码的字幕数据后, 紧接着是字幕显示控制命令表 (Sub-Picture Display Control Sequence Table, SPDCSQT) 。

在这个命令表中包含一系列当前字幕的控制命令串, 每个控制命令串依次包含以下3部分:

(1) 执行当前命令串的等待时间, 2字节, 单位是90KHz/1024。

(2) 下一个控制命令串的偏移地址, 2字节, 以当前字幕单元计算偏移, 如果偏移是当前控制命令串, 表明这是最后一个控制命令串。

(3) 控制命令串, 由一系列的控制命令组成, 每个控制命令包含2部分:

控制命令:1字节, 对字幕而言共有8个命令。

命令参数:长度不固定, 不同命令具有不同参数。

三、字幕流的提取与解码

为了从DVD数据流中分离和提取字幕, 需要在视频对象VOB文件中, 找到相应字幕流所在私有流封包Pack, 就可以对字幕流数据进行处理了。

3.1字幕流分离与提取

从DVD视频对象 (VOB) 文件中分离字幕流, 根据表1中字幕流和私有流1结构描述, 需要经过以下几个步骤:

(1) 私有流1的分离:依次读取VOB文件中的各个包Pack进行判别, 如果在包中偏移地址为15字节的内容为特征码0x00 00 01 BD, 则该包为私有流1, 否则是其它类型包。

(2) 字幕流分离:在私有流1包中, 从偏移23字节处读取一个字节, 该数据为PES扩展数据的长度Lenpes, 则相应的子流ID的偏移地址Addrsubid为:

从子流ID的偏移地址读取子流ID, 如果子流ID在0x20到0x3F范围, 则该包为字幕流, 其中0x20为英文字幕。

(3) 计算当前字幕流数据长度:在当前子流ID后读取2个字节数据, 该数据为当前字幕流数据长度, 如果长度大于2042 (其中私有流1特征码和子流ID占6个字节) , 表明该字幕流需要两个以上包, 当前包为字幕流数据的前半部分, 紧接着一个包中包含字幕流的后半部分。此时需要读取下一个包, 将两个包中的部分字幕流数据合并成一个完整的字幕流数据。

3.2字幕流解码算法

在解码字幕流数据前, 需要确定字幕图片的几个参数:字幕图片的尺寸Size, 上、下场数据的偏移地址, 这几个参数都可通过字幕流控制命令得到, 也就需要首先解码字幕流控制命令, 确定参数, 然后根据前述的字幕流编码技术对字幕流数据进行解码。

(1) 解码字幕流控制命令:从当前子流ID偏移3个字节, 读取2个字节数据, 该数据是字幕流控制命令在字幕流数据中的偏移地址, 依据前述的字幕流控制技术, 就可以实现控制命令的解码。在字幕的分离与提取过程中, 需要通过控制命令得到字幕图片的尺寸及上下场像素数据的偏移地址。

(2) 字幕流数据的解码算法:创建一位图对象, 设置相应的高度和宽度为当前字幕的尺寸, 设置4色调色板分别为字幕文本、背景以及强调1和强调2的颜色, 为后续识别便利, 除字幕文本为白色 (White) 外, 其余三种均为黑色 (Black) 。依次从字幕流的上下场偏移地址中读取像素数据进行RLE解码, 将解码的结果写入位图对象的相应数据区。解码时设置一计数器Count, 统计半字节0的数目, 每次读取半个字节, 如果是0, Count加1, 接着读入半个字节, 如果还是0, Count加1, 继续读入, 直到读入的数据不为0, 根据Count的个数以及RLE编码规则, 选择接着读入数据的长度, 并根据编码规则分离出当前像素的颜色及数目, 将这些数据填充到位图对象相应的位置。

四、字幕图片切割与识别

1、字幕图片切割

通过对字幕图片四周的空白进行有效切割, 可进一步提高字幕图片中字符有效区域的精确定位。在字幕图片中, 分别从左到右和从上到下对图片进行扫描, 定位字符的有效区域。由于单个英文字符在水平方向是一个连续的区域, 因此字符分割可通过对字幕图片进行从左到右的水平扫描, 根据字符的水平间隙可有效地将字符分割成单个字符。

2、字幕文本识别

在英文字幕流中, 字符的个数最多为可打印ASCII个数, 非常有限的, 因此可针对每一个字符设定一组特征向量。在具体识别过程中, 可将分割的特定字符与样本库中的特定字符进行模式匹配, 也就是特征向量相似度的比对, 选取最接近的字符作为识别的结果, 如果匹配的结果超出了容许的范围, 则给出不可识别提示, 允许用户将其特征加入样本库作为下次识别的样本。这样减少了算法应用的复杂性, 用户的识别过程同时也就是识别算法的训练过程。

五、结论

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处

【技术文本】相关文章：

长文本技术07-20

基于“唐诗宋词”文本为载体的信息隐藏技术09-11