OCR系统

2024-07-16

OCR系统(精选八篇)

OCR系统 篇1

国内的研究工作起源于20世纪70年代中期。20多年来,科技人员不断跟踪国际分拣技术的发展状况,推陈出新。截止1998年底,全国共有106套邮件自动分拣设备投入运行。供货厂家有国家邮政局上海研究所、德国SIEMENS公司、日本NEC公司。其中,理分合一邮件处理系统是国家邮政局上海研究所1998年完成的重大科研成果,它不是简单地将理信机和OVCS分拣机拼成一台设备,而是一次读取图像,完成理信和分拣,且具有语音提示、格口显示、分层停机、标签制作等功能,处理效率为32 000件/h。该机的研制成功标志着我国邮件分拣设备的制造技术已达到国际先进水平[1]。

1 邮件分拣系统简介

图1为某邮件分拣系统的工作原理框图。它主要通过对在传送带上通过的邮件进行拍摄获得邮件的图像信息,识别出邮政编码后由邮政编码的数字信息来控制邮件流向。该系统分为邮件软件识别系

2 邮件软件识别系统

邮件软件识别系统涉及到OCR技术几乎所有方面,包括图像预处理、版面分析、文本提取、手写数字识别、字符分割、后处理等,是一个非常复杂的系统工程。信封图像经预处理之后,进行版面分析并从版面分析得到的邮政编码块中提取邮政编码。然后借助地址库,建立后处理规则,将邮政编码进行校验。最后得到邮政编码的数字信号用于分拣[3]。

2.1 信封图像预处理

邮件封面经摄像头拍照就可以得到信封图像。原始的信封图像通常可能含有噪声点,或图像较淡,很多图像还是倾斜的。为提高系统的性能,必须经过预处理,才能解决这些问题。对于单张信封的黑白扫描图像来说,预处理的主要内容包括对图像平滑、除去噪声和倾斜矫正。如果是灰度图像,必须经过二值化处理。

2.2 版面分析与理解

版面分析主要是对信封图像进行版面分割和版面理解,根据图像的一些特征把其分割成版面的一些基元,并根据版面的信息和先验知识来初步判断整个版面基元的信息。对于大多数信封图像来说,一般分为邮政编码块、收信人姓名地址块、寄信人姓名地址邮政编码块。

2.3 邮政编码的提取及识别

从邮政编码图像块中提取单个数字图像分为两个过程:邮政编码框的定位和数字图像的提取,具体算法如下。

1)找出邮政编码方框。一是对地址块内的基本块按左右顺序排序,用属性表示序号;二是求字宽,字距。

2)剔除邮政编码方框,得到数字。剔除方框时分为几种情况,一是对于数字写得比较规范的、在方框里的情况;二是数字与方框有粘连的情况;三是数字写出方框外的情况。这些都要分别处理。

2.4 后处理

经过前面过程识别出的邮政编码,必须对识别结果进行后处理,即结合信封的信息和邮政地址库进行识别结果校正,并对校正过的信息进行数字编码,以提高分拣正确率,方便机器分拣。由于印刷体信封的数字识别率很高,不需要进行多路径的分割,所以后处理时只需对邮政编码的识别结果跟地址库进行对照和校正,并进行数字编码即可。对于手写信封,特别是对于非常潦草的书写,分割正确率和单字识别率都很低,后处理更加关键和复杂[4]。

3 PLC控制硬件部分

硬件部分的分拣机是将软件识别出的邮政编码的编码信息随传送带分拣入各个代表唯一地址的邮箱中,如编码信息代表上海的就拣入上海的邮箱[4]。其工作过程如下:当传送带开始工作,绿灯L2亮,红灯L1灭,电机M5驱动带有推头的主链运行,摄像头对传送带上的邮件进行拍摄,将拍摄结果送入计算机进行邮件的识别分析,得到邮件邮政编码的数字编码信息[5]。检测发生器S2检测到有邮件,控制电路从计算机中读取邮件的编码信息,若编码信息正确,L1亮,L2灭,由电机光码器S1折合成脉冲数,PLC从S1中采集脉冲数,当邮件到达分拣箱时,推进器(M1~M4)将邮件推进相应的邮箱。随后L1灭,L2亮,继续分拣。若编码信息出错,则L1闪烁,电机M5停止动作,待重新启动后,再运行。具体结构见图2。

图3为分拣机与PLC的硬件连接图。其中检测发生器S2和电机光码器S1为控制开关,M1~M4为推进器,M5为驱动电机,L1为红指示灯,L2为绿指示灯。通过PLC的RS232串口连接上位机,对系统进行监控和控制[3]。

控制系统选用SIEMENS S7-200 CPU226CN型PLC,它是一种可编程序逻辑控制器(Micro PLCs),能够控制各种设备以满足自动化控制需求。S7-200的用户程序中包括了位逻辑、计数器、定时器、复杂数学运算以及其他智能模块通信等指令内容,从而使它能够监视输入状态,改变输出状态以达到控制目的。紧凑的结构、灵活的配置和强大的指令集使S7-200成为各种控制应用的理想解决方案[1]。

邮件入箱控制软件设计流程:一是邮件检测;二是编码信息检测;三是编码信息转化为脉冲信号;四是邮件入箱;五是出错控制。PLC控制部分程序流程见图4。

4 结束语

邮件分拣系统改变了人工分拣的工作方式,实现了自动分拣,极大地提高了工作效率。未来几年,随着全国邮政综合计算机网的建成和中心局体制的加速实施,我国邮政在机械化和自动化技术领域将取得更大的进步。

参考文献

[1]李学平.中国邮件处理的机械化和自动化[J].中国邮政专..

[2]付振翔.PLC在邮件分拣系统中的应用[J].机电工程,2000(17):34-36.

[3]黄磊,刘昌平.信函自动分拣软件系统[J].计算机工程与应用,2003(19):45-47.

[4]李道霖.电器控制与PLC原理及应用(西门子系列)[M].北京:电子工业出版社,2006.

实践体验“OCR软件的使用” 篇2

(1)体验ocr软件的基本工作过程。

(2)了解ocr软件的实际应用价值。

活动步骤:

(1)要求学生事先准备包含印刷体汉字的报纸、杂志或书籍。

(2)指导学生使用扫描仪获取图像文件。教师应该事先通过实验,掌握对扫描软件中的扫描模式、分别率等具体参数的设置。如果没有扫描条件的,也可以直接使用配套光盘中的图像文件。

(3)使用ocr软件识别图像中的文字。

(4)把识别结果存入文本文件,并对识别的差错进行修正并保存结果。

活动评价:

活动结束后,及时组织学生对自己在活动中的表现按照教材中的评价量表进行自我评价,同时教师也要根据学生在活动过程中的表现进行随堂评价,并记录在学生评价表中。

于本次活动主要的目的是体验ocr软件的基本工作过程,所以除了有关实践体验活动的常规评价指标外,我们建议着重对“体验感受”进行评价。

项目

评价指标

评价

体验感受

善于使用6分

正确感受5分

能够理解3分

还需帮助2分

体验感受评价标准中的“善于使用”是指会熟练操作ocr软件,同时在适当的信息处理场合会想到应该使用ocr软件,也就是“即具有能力,也具备意识”;“正确感受”是指掌握操作步骤,获得较佳的实验结果,同时正确了解ocr软件的作用;“能够理解”是指完成实验操作,对ocr软件的作用,有一点了解;。“还需帮助”是指尚未完成本实验

攻克所有的截屏OCR难题 篇3

1 针对各种软件的各种截图方法

2 批量截图法

3 英文的OCR识别法

本文涉及的软件

Ashampoo Magical Snap v2.30

软件大小:6840KB软件性质:共享软件

运行环境:Windows NT/2000/XP/2003/Vista

下载地址:http://work.newhua.com/cfan/200721/ashampoo.rar

ABBYY FineReader OCR Professional 8.0.0.706

软件大小:37497KB软件性质:共享软件

运行环境:Windows 9x/Me/NT/2000/XP/2003

下载地址:http://www.onlinedown.net/soft/24081.htm

SnagIt8.2.3

软件大小:14237KB软件性质:共享软件

运行环境:Windows 9x/Me/NT/2000/XP/2003

下载地址:http://www.newhua.com/soft/5306.htm

MacroMachine 3.1.8.0

软件大小:5090KB软件性质:共享软件

运行环境:Windows 9x/Me/NT/2000/XP/2003

下载地址:http://www.onlinedown.net/soft/61794.htm

Techsmith Camtasia Studio 5.0.0 Build 384

软件大小:36541KB软件授权:共享软件

运行环境:Windows 9x/Me/NT/2000/XP/2003

下载地址:http://www.onlinedown.net/soft/15179.htm

Ulead GIF Animator 5.05

软件大小:10756KB软件授权:共享软件

运行环境:Windows 9x/Me/NT/2000/XP/2003

下载地址:http://www.onlinedown.net/soft/579.htm

只有通过这些优秀工具的配合才能完成我们今天的任务。了解了今天这些截屏的问题,就可以以专家自居了,但是截屏还有很多特殊的情况,参考CFan以往的文章,你可以提高更多。

2005年第17期78页《“抓”出的精彩》涵盖了许多抓图技巧,记得参考。

目前网上有很多全英文版的学习词典软件可以下载,对于学习英语的人帮助很大,但是它们的词典库多数是压缩包或镜像文件,很难直接得到它们的文本,制作自己的单词语料库。如果想将这些词典转换为文本,会遇到相当多的困难,但今天我们就用极致的截屏方法将它们一一攻破。

从头到尾爽快转换

如果面对的词典是完全展开界面(见图1),我们会发现词典的右侧有一个翻滚条,拖动它整部词典内容一览无遗。对于这类词典,只需用截图软件把界面上的内容往下滚屏,从头滚到尾,把它保存为图片,然后再用OCR软件对图片进行识别。

(1)

1.最强滚屏截图工具截图

Ashampoo Magical Snap是个非常好的截图工具,完全能应用于这本词典,滚屏截图速度和效果都优于SnagIt。

打开软件,在桌面上方的软件的浮动工具栏上点击“捕获滚动窗口(或网站)”,把鼠标移动到词典程序窗口上单击鼠标左键进行截图,此时可见词典文字自动向下滚动。一定时间之后再按下ESC键让截图软件停止截图,随后出现保存截图界面,在截图软件的右侧浮动工具栏中点击“保存捕获”按钮保存截图。反复重复上述步骤,直到整部词典都被完整截图。

2.最强英文OCR工具换成文字

ABBYY Reader8.0专业版对于图片上的英文的识别具有很好的效果。安装软件后依次点击“File(文件)→Open PDF/image(打开PDF或图片)”打开刚才扫描的图片目录,选中所有的图片,然后点击工具栏上的“Read all pages(读取所有图片)”进行文字识别(见图2)。待所有的图片识别完成之后,程序窗口中右边的就是识别好了的文字。点击工具栏上的“Save(保存)”就可以把扫描的文字保存成各种格式,最好保存为DOC文件。

不能滚屏就一个一个消灭

下面介绍不能自动滚屏的词典的截图方法。这类词典与第一类词典界面类似,都是单词的释义排在词典的主界面的中央,右侧是一个翻滚条,用鼠标拖动它可以察看词典的全部内容。仔细研究它的界面就会发现按键盘上的“PageDown”键时词汇释义窗口就向下移动一屏,按“Pageup”时刚好相反。如果将截图软件与键盘结合起来就能把这类的词典整部截图完毕。SnagIt可以对固定区域进行截图,正好适用这种词典。

(2)

1.定制SnagIt截图方案搞定区域截图

第一步:点击窗口中的“新建方案向导”按钮,设置截图方案。选择“图像捕捉”,然后点“下一步”。

第二步:在步骤2“输入”下拉菜单中双击选择“固定范围”。点击旁边的“属性”,对截图的范围设定属性。在“输入属性”窗口中勾选“使用固定的起始点”,这个很重要(见图3)。

(3)

第三步:单击“选择区域”,出现捕捉窗口,拖动“+”标记选词典程序中间的释义窗口,然后释放鼠标,这样就确定了要捕捉窗口的实际位置。

第四步:点击“应用→确定”回到步骤2,再点“下一步”,在步骤3的“输出”的下拉菜单中选择“文件”,再次打开下拉菜单,然后去掉“预览窗口”前面的小钩。

第五步:打开旁边的“属性”按钮,出现输出属性窗口,在“文件格式”中选择“总是使用此文件格式”,然后勾选“PNG”(建议选择这种格式)。

第六步:在右侧的“文件名”中选择“自动命名文件”,点旁边的“选项”,出现的窗口中将数字编号设为“5”。

第七步:单击“确定”回到原窗口,依次单击“应用→确定”回到步骤3。不作改动,多次单击“下一步”,最后单击“完成”,这样就新建了一种捕捉方案。

在词典释义窗口单击激活词典程序,按下快捷键“PrintScreen”一次就可以对上述设定的截图区域进行截图,并自动地把图片保存在预设的文件夹中。一次截图完成后就按下“PageDown”让词典向下滚动一屏,再次按下快捷键“PrintScreen”进行截图。

2.MacroMachine出手让你不用插手

上述工作量非常大,不妨采用宏录制软件MacroMachine来替你完成这重复的截图工作。

第一步:安装完MacroMachine后打开软件主窗口,单击“New”新录一个宏,在新出现的窗口中“Macro Name”输入一个宏名。

第二步:点击“Wizard”,出现宏录制向导。在宏的类型中选择“Macro”,再点“下一步”。

第三步:在新窗口中勾选“No mouse recording”,当屏幕右下角出现闪动的提示信息时就可录制宏了。

第四步:按照上文的截图方法进行一次截图,然后按下“Pause”停止录制宏,接下来就可用刚录制的宏。

在刚才的程序的主窗口中点击“repeat”对刚录制的宏运行次数进行简单的设定。预计可能需要进行一万多次的截图,所以我们可以把它设定让它重复一万次,完成后点击“Play”让宏运行。这样电脑就可以自动地进行截图了。

本文相关小提示

进行这一步时建议词典窗口处于最大化,这样就保证SnagIt每次截取的图片都是所要采集的内容,不至于发生偏差。

变成动画也一样能截图

不过上面的两种方法对第三类词典是完全没有用的。这类词典的界面明显不同(如图4)。拖动软件左边的单词列表的翻滚条,可见右边的释义不断的闪现。每次闪出的是一个单词的释义。对于这种释义间断分布的词典,虽然传统的截屏的方法无能为力,但它一样逃脱不了被我们截取的命运。

1.用录屏软件Camtasia Studio录制成GIF动画文件

安装好Camtasia Studio之后,打开软件运行。

第一步:在运行后出现的使用向导对话框,点“OK”。出现的下个窗口中已预选了“Region of the screen”,正是我们所要的录制局部屏幕的选项,直接点“下一步”。

(4)

第二步:在接下来的窗口中点击“Select region”来选择录屏区域。

我们需要选择的是释义框,因此就用“+”字把释义框选中,选中后松开鼠标左键,余下按提示操作即可。

第三步:出现开始准备录制的界面后点中“Record”开始录制。

首先把鼠标移到单词列的下拉块上按住鼠标左键不放,这时可以看到右边的释义框的四个角被绿色标志框住,表示此区域正在录制。停止录制时按下“Stop”按钮即可。在预览框中点击“Save”保存文件。

第四步:保存完成后会出现“Post-save Option(保存选项)”对话框,选择中间的选项,即“Produce my video in a shareable format(把视频处理为可分享格式)”,直接点“OK”。在“Production wizard(生成向导)”窗口中选择“Custom production settings(自定义设置)”,然后点“下一步”。

在随后的对话框中选中“GIF animation file”,在最后的两个窗口中点“完成”。这样GIF文件就录制转换成功了。

2.用Ulead GIF Animator从GIF动画中抽取PNG图片

第一步:启动Ulead GIF Animator后,从“文件”菜单选择“打开图像”,选择刚才录制的动画文件打开。

第二步:在打开“文件”菜单选择“另存为”,选择“图像帧”,选中“导出所有帧”复选框,“保存类型”选择“PNG”,点击“保存”按钮,GIF文件立即全部保存为PNG文件。

印刷体英文OCR系统的研究与实现 篇4

OCR, 即Optical Character Recognition的缩写, 意指光学字符识别就是通过图像处理和模式识别技术对光学的字符进行识别, 是自动识别技术研究和应用领域中的一个重要方面。本系统旨在识别文档类的英文图像, 要求识别速度快, 准确率较高。整个系统主要是由一个调度模块和若干功能模块构成, 如图1所示。

图1中, 图像预处理模块包括图像灰度化、二值化、倾斜角检测、倾斜校正四个功能, 字符分割采用投影法, 字符识别则采用模型匹配法。下面将展开相关研究论述。

1 图像预处理

预处理模块的主要功能是将图像处理成便于分割和识别的二值化图像。

1.1 图像灰度化

首先要进行灰度化。每个像素点 (i, j) 的R, G, B分量通过灰度转化公式, 得到一个介于0~255的灰度值f (i, j) , 如公式 (1) 所示。

1.2 图像二值化

此处使用大津法进行二值化, 该方法是一种全局化的动态二值化方法, 又叫最大类间方差法。对于图像, 记t为目标与背景的分割阈值, 属于目标的像素点占整幅图像的比例记为w0, 其平均灰度为u0;背景像素点占整幅图像的比例为w1, 其平均灰度为u1。图像的总平均灰度记为:u=w0*u0+w1*u1。从最小灰度遍历到最大灰度记为t, 当t使得值g=w0* (u0-u) ^2+w1* (u1-u) ^2最大时, t则为最佳阈值[1]。灰度大于等于阈值的像素的灰度值设为255, 其余点的灰度值则设为0。

1.3 倾斜角检测

本文使用光线投影法进行倾斜角的检测。在文档图像中, 文字行与行之间通常存在一定的间距。可以设想, 当用一束平行的光线从不同方向照射到图像时, 光线会被图像上的文字挡住, 这其中也只有那些与文字的行相平行的光线才可以透过行间的缝隙穿过文档图像, 照射光线的方向就是文档的倾斜角度[2]。

根据上述原理, 把图像的像素记作是边长为δ的正方形, 光线记为由一束宽为τ的光束组成, 通常取τ=δ。为了方便计算, 令文字、表格等所覆盖部分的像素值为1, 未被覆盖部分的像素值为0。

给出如下规则:如果一个像素处于光束内, 那么光束就会经过该像素;否则, 不经过该像素。如此, 当一束光线投影到文档图像时, 若经过像素值为1的像素, 这束光线则会被遮挡, 投影值记为1;如果一系列光线所经过的像素值均为0, 那么光线将完全穿过文档图像, 投影值记为0。把相同角度的投影值进行求和, 由上述约定, 如果光线越接近文档图像的倾斜角, 所求的和即越小, 反之则越大[3]。对文档图像不同角度的投影, 并对投影值求和累加, 根据和的大小最终确定文档图像的倾角。

1.4 倾斜校正

当检测到扫描图像变化倾斜时, 要想获得正确的源图像, 则将初始图像绕图像中心按一定角度旋转, 再适当平移旋转结果, 以便旋转后的结果图像处于可显示范围内[4]。

设源图像 (宽为W, 高为H) 像素点为p (x0, y0) 坐标, 如图2所示, 绕图像中心 (a, b) 旋转θ角 (不会很大;设正方向为逆时针) 后变换为p (x 1, y1) 。

该过程将分为三步来实现, 具体表述为:

(1) 沿水平和垂直方向平移坐标系, 使O (0, 0) 变成 (a, b) 。

(2) 将源图像绕旋转θ角;

(3) 对旋转结果图像进行平移变换, 则绕图像中心旋转的平移变换如公式 (2) 所示。

1.5 预处理效果

原图经过二值化、倾斜校正后效果如图3所示。

2 字符分割

目前, 字符分割算法很多, 主要分为4类:基于颜色特征的方法, 基于连通成分分析的方法, 基于边缘检测的方法以及基于纹理的方法。本系统选择的是简单易行的投影算法。

对于一幅高为H, 宽为W的文档图像, 字符行与行之间是有一定间隙的, 由这个特性则可以先对图像实施行投影, 将同一字符行的像素点个数存储到一个数组变量proj[H]中, 再遍历这个数组变量, 检视数组里元素值的变化。如果数组中的值大于一个阈值, 记录下该行字符开头位置begin。直到数组中的值又开始小于这个阈值, 并记录下此时的位置, 记为end。这样就可以确定该行字符的上下界。用同样的方法, 遍历整个数组proj[H], 记录下若干组begin和end, 这便是行切分的结果。然后根据一组begin和end, 就可以重建一幅图片, 像素值则利用原图中对应的像素值来填充。阈值的作用是剔除一些不为文字的小的干扰。

对于每一幅行切分得到的图片, 再进行列切分, 方法和行切分类似。同样, 在对列进行切分的时候, 也可以设定一个阈值来剔除一些干扰[5]。

最后, 再将切分后得到的图片去除上下白边, 方法和投影法类似。只要记录刚出现文字的行, 记为begin, 文字域结束的行end, 利用begin和end重新建立字符图像, 这样就可以完成对每个字符的分割。

3 字符识别

字符识别方法大致可分为两类:基于结构特征的方法和基于统计特征的方法。这里采用基于特征量的模型匹配算法。

通过对英文字母的分析, 可将字符均匀地分成九格, 每一格所包含的黑像素点数占总像素点数的比例为一个特征量, 一共可以获得九个特征量, 称为网格特征。不同的字符, 这九个特征量是不同的[6]。而有些字符的特征量比较相似, 所以要想区分开就仍然需要提取其他的特征加以区别。在字符行上沿水平和垂直方向做三等分, 在三等分处画水平线或垂直线穿过字符行, 求出水平线和垂直线分别与字符边缘相交的次数, 这样获得的变量为交叉特征量, 共有4个。至此, 对每个字符所提取的特征量总共增加到了13个。图像特征匹配通常使用最小距离判别函数或最近邻域判别函数, 由于交叉特征变量彼此之间具有的较大的区别性, 这里采用了加权方法进行识别[7], 如公式 (3) 所示。

式中, 设fi为输入图像的特征量, Fi为模板的特征量。匹配时, 将待匹配对象的特征量与所有模板的特征量进行逐一对比, 核算出图像的特征量与模板的特征量之间的加权值D, 如果D值小于给定的阈值, 那么则将D值最小的模板记为匹配结果, 如果所有模板的特征量与待匹配的特征量的加权值都大于阈值[8,9], 那么输入的可能不是模板中的对象, 结果即为无法识别。

4 结束语

本文系统地介绍了印刷体英文OCR的实现过程, 按照上述模块设计编程实现该系统, 实验证明, 该系统所采用的算法是有效的, 而且具有简单, 易于理解, 识别速度快, 以及识别率高的特点。

参考文献

[1]张康.舌图像自动分割算法的研究[D].南昌:南昌大学, 2009:9-20.

[2]张顺利, 李卫斌, 吉军.基于投影的文档图像倾斜校正方法[J].计算机工程与应用, 2010 (3) :166-168.

[3]黄炯生, 黄敏琪.基于模型匹配法的字符识别[J].中国科技信息, 2008, 14 (8) :93-94.

[4]何希平, 李云峰, 朱庆生.彩色文档图像的倾斜自动校正算法[J].中国图象图形学报, 2006, 11 (3) :367-370.

[5]ABU TABLEB A S.Automatic thresholding of graylevel pictures using two dimensional entropy[J].Computer Vision, Graphics, and Image Proeessing, 1989, 47:22-32.

[6]古辉, 王益义.一种基于模板匹配的船铭牌字符分割方法[J].浙江工业大学学报, 2010, 38 (1) :33-35.

[7]程广涛, 陈雪, 张文治.基于垂直投影和模板匹配的车牌字符分割方法[J].北华航天工业学院学报, 2013, 23 (1) :19-21.

[8]罗辉武, 唐远炎.基于结构特征和灰度特征的车牌字符识别方法[J].计算机科学, 2011, 38 (11) :267-270.

OCR系统 篇5

关键词:光学字符识别,协方差矩阵,特征提取,黎曼流形

0 引言

光学字符识别(OCR)技术应用十分广泛,在金融、电子商(政)务、安全等领域的身份验证中的作用日益增大,是计算机视觉的重要研究方向之一。典型的处理步骤包括:提取图像亮度信息、分割、二值化、归一化、调整字符重心、提取文字网络化特征或方向链码特征、分类[1]。为解决图像文字模糊对字符分割不准确的现象,Muralikrishna[2]等提出基于路由选择的截止算法以抑制模糊干扰。为提高识别的准确率,Kokawa等[3]结合语言特点提出一种降低日文识别错误率的特征提取方法。Bazzi[4]等提出了一个基于隐马尔可夫模型(HMM)的全字体、开放的英文和阿拉伯文字符识别方法。该方法包括两个方面:使用同一模型识别全字体字符,使用基于单词的HMM系统识别所有字符,第二方面里还包括三元语言模型技术。

上述方法大都是基于经过预处理的二值图像,而目前多数应用领域所采集的字符图像均为彩色图像,包含的信息远远大于二值图像。传统特征提取方法没有很好地利用这些特征,一旦图像受到噪声污染而发生不同程度的退化,不准确的特征信息对分类器的识别能力将造成严重影响。与其相反,本文没有对图像进行二值处理,而是充分利用图像本身所包含的丰富信息,并考虑各种信息的贡献大小及其之间的相关性,提出一种鲁棒的加权协方差矩阵特征描述方法。本文提取了图像的所有通道的亮度值、像素的位置信息及反映亮度信息变化率的一、二阶导数形成特征向量,再计算区域特征向量的协方差矩阵形成矩阵空间。由于矩阵空间不是向量空间,所以在黎曼流形上将其映射到流形的切向量空间,最后在切空间中采用自相关的结构化分类算法对美元纸币序号进行识别,以检测协方差矩阵特征描述子的鲁棒性,处理流程如图1所示。

1 计算协方差矩阵

1.1 提取加权特征矢量

设I为w×h个像素、d个通道的原始字符扫描图像。对于I的每个像素来说,像素的坐标值(x,y)、各通道的亮度值v1,...,vd及图像在两个坐标轴上亮度变化等,在不同侧面描述了图像包括结构化特征在内的各种信息。本文在每个像素点提取特征向量V=[x,y,v1,...,vd,Ix,Iy,Ixy,Ixx,Iyy],其中,求各导数时的图像亮度值为d个通道的平均值。提取全部像素的w×h个特征向量形成一个新的图像F,称之为特征图像,后续的所有操作都是基于特征图像F而非原始图像I。对特征图像F来说,由于特征向量V没有包含位置梯度,因而F是旋转和尺度不变的。另外,本文以d=3的RGB图像为例进行描述,特征向量V包含10个元素,此时特征图像F有d'=10个通道,特征图像包含的信息量远大于二值图像。

考虑到特征向量V中各元素对特征图像的贡献不尽相同,或者说在不同的应用场合人们对特征图像F的各通道的关注度有所侧重,有必要针对不同特征向量元素赋予不同的权重。设权重向量W=[w1,...,wd']T,Σwi=1,可得加权特征向量:

利用式(1)可灵活调整W中各元素的值以提取不同的特征向量,甚至在同一图像的不同区域都可以设置不同的W构成各种特征图像。尽管如此,直接利用V'进行字符识别仍然忽视了一个重要信息,即特征图像各通道间的相关性。对于结构化图像来说,图像各通道的亮度与像素位置之间、亮度的各阶导数与像素位置之间、亮度在水平方向的变化率与在垂直方向的变化率之间必然存在一定程度的相关性,这种相关性也是表达字符图像的一种重要信息,是一种字符识别的可靠依据。因此,本文计算特征图像F的区域协方差矩阵作为字符识别的基础特征,并在流形的切空间中完成字符的分类工作。

1.2 计算像素的协方差矩阵

为减少噪声干扰,在当前像素的8领域内计算区域协方差矩阵作为当前像素的特征描述子[5]:

其中,为当前像素领域内特征向量的均值。显然,C为一正定对称三角阵,包含个有效元素。

计算特征图像的w×h个协方差矩阵描述子后,由微分几何知识可知这些协方差矩阵构成黎曼流形[6],传统的基于欧氏空间(向量空间)的分类或聚类方法无法直接使用,需要将黎曼流形上的特征点映射到流形的切向量空间中才可进行字符识别。

2 黎曼流形上的OCR识别

2.1 建立不变黎曼度量

字符分类需要计算特征间的距离,前提是在特征空间建立有效距离度量。记x,y为切向量,对应切空间中的点;记X,Y为协方差矩阵,对应黎曼流形上的点。首要的工作是将点X、Y之间的距离如何在切空间用点x,y表示。由于黎曼流形上的点在其领域内具有欧氏空间的性质,并且该点与其领域内的其它点距离由测地线决定。所有测地线在该点的切向量构成一个切向量空间,实现了由流形空间到欧氏空间的转换。反之,切空间也可转换到流形空间,二者是一对逆变换,可通过矩阵的对数映射和指数映射实现[7]。

将流形上的点X到其领域内另一点Y的距离通过对数运算映射为切空间中d″维切向量:

与上式相反的逆过程是矩阵的指数运算,将切空间的切向量映射为流形上点X到其领域内另一点Y的距离:

上两式中的对数和指数运算为一般的矩阵运算,在此基础上通过向量的内积运算可定义切空间中两向量的距离度量:

上式表明距离度量为一矩阵的迹。左侧内积运算的含义是:在流形上,点X的领域内两点Y,Z间的距离可用切空间中对应的两切向量y,z间的内积运算计算得到。所以,将式(3)、(4)带入式(5),得到黎曼流形上两点间的不变黎曼度量为:

2.2 基于不变黎曼度量的结构化字符分类算法

式(6)提供了流形上的度量,可以在流形空间应用各种分类算法进行字符识别工作。本文以欧氏空间中典型的结构化分类算法—相关系数法进行描述。给定n维向量x1=[x11,...,xn1]T、x2=[x12,...,xn2]T,相关系数为:

与上式类似,切空间中两切向量y,z间的相关系数间接反映了黎曼流形上点X领域内两点Y,Z间的相关性。由式(3)~(7)可得y,z间的相关系数计算公式:

下面讨论如何使用式(8)完成字符识别任务。进行识别前,首先采集字符的一个正样本,按照前文所述方法建立特征图像、计算w×h个协方差矩阵作为该字符的流形模板Mk,所有字符的流形模板Mk组成一个模板库L。识别时,计算待分类目标字符图像的w×h个协方差矩阵组成目标流形O,然后用式(8)依次计算Mk与O中相同位置的切向量的相关系数,相加得到所有相关系数的累加和后归一化处理。取模板库中与O相关性最大的Mk作为分类结果。算法如下:

建立字符模板库L=邀M1,....,Mm妖

计算目标流形O

end for

最终,ω指向具有最大相关系数的类别标识k,分类结果ω为目标字符所属类型。

3 实验结果及分析

为验证方法的有效性,在同样使用式(7)、(8)给出的结构化匹配算法情况下,分别提取亮度信息和协方差矩阵特征进行对比实验。为增加识别的挑战性,采用RGB三通道(d=3)光学传感器扫描美元纸币号码区域,扫描图像的分辨率为2.5像素/毫米,每个字符图像I的大小为w×h=12×16个像素。美元号码由阿拉伯数字和英文字母组成,需要建立36个流形模板,即m=36。

仅使用亮度特征的方法是用转换公式G=r×0.299+g×0.587+b×0.114将三通道图像转换为灰度图像,然后采用双线性插值方法将字符图像归一化为w'×h'=32×32像素的方形图像,使用灰度阈值法二值化,使用图像膨胀算法连接断开部分,结果如图2(b)所示。而本文特征提取方法不对字符图像I做任何预处理,直接计算特征图像F并提取F的区域协方差矩阵特征,如图2(c)所示。

采集了面额为1美元至100美元的纸币号码,分割出字符共计10 649个。由于每个字符出现的概率不同,采集的字符数量也不相同,本文实验样本不包括G、O、Q、R、U、V、W、X、Y、Z等英文字母,数量分布见图3(a)所示。识别结果见图3(b)所示。

从识别结果看,本文方法在不使用加权特征的情况下,识别结果的正确率也要高于仅使用亮度信息。错误识别的情况集中在一些容易混淆的数字和英文字母上,如I与L及J、F与E、8与3及5等。另外,市面流通的纸币难免存在一定程度的磨损和污染,使字符变得模糊不清,也是造成识别错误的重要原因,图4显示了使用亮度特征时二值化字符发生错误的例子。在这种情况下,本文方法也会受到影响,但由于包含的信息量更为丰富及旋转和尺度的不变性,比亮度特征表现出更强的鲁棒性。受到污损的图像中,表现图像结构及其变化的特征最为稳定,因此,权重应向微分特征倾斜。本实验中采用的权重向量为W=[0.05,0.05,0.05,0.05,0.05,0.15,0.15,0.15,0.15]T,从图3中可以看出,对提高识别准确率有一定作用。

4 结束语

为解决OCR识别时所提取特征信息量不足问题,提出了一种加权协方差矩阵的特征描述方法。该方法充分利用了字符图像的多种信息,包括位置、多通道亮度值、在水平和垂直方向的一、二阶微分及其之间的相关性,提高了特征的表现能力。对特征向量中各元素的加权处理增加了特征提取的灵活性,区域协方差矩阵的计算方法有效地抑制了噪声,所提取特征具有很强的抗干扰能力。通过双射运算在黎曼流形切空间与向量空间之间建立联系,在建立黎曼不变度量后采用结构化匹配算法实现字符识别。对美元纸币号码进行识别的对比实验表明,该方法在纸币受到磨损、污染的情况下,识别准确率高于仅使用亮度特征的特征提取方法。

参考文献

[1]吴佑寿,丁晓青.汉字识别—原理、方法与实现[M].北京:高等教育出版社,1993

[2]MURALIKRISHNA M,REAMESH Ch,MARUTI A M V N.A-n OCR-Character segmentation using routing based reach algo-rithm[C]//Proceedings of the 2010 IEEE International Confere-nce on Advances in Communication,Network and Computing,2-010:163-167.

[3]KOKAWA A,BUSAGALA L S P,OHYAMA W,et al.An imp-act of OCR errors on automated classification of OCR Japanesetexts with parts-of-speech analysis[C]//Proceedings of the 2011IEEE international conference of document analysis and recog-nition,2011:543-547.

[4]BAZZI I,SCHWARTZ R,MAKHOUL J.An omnifont open-v-ocabulary OCR system for English and Arabic[J].IEEE Transa-ctions on Pattern Analysis and Machine Intelligence.1999,21(6):495-504.

[5]O.TUZEL,PORIKLI F,MEER P.Region covariance:a fastdescriptor for detection and classification[C]//ECCV'06,2006(2):589-600.

[6]BOOTHBY W M.An introduction to differential manifolds andRiemannian geometry[M].Academic Press,2002.

OCR系统 篇6

21世纪是信息技术的时代, 信息技术迅猛发展和普及, 不断改变着人们的生产、生活方式。

为了适应信息化技术的发展, 跟上信息化进程的步伐, 高校也陆续开始了信息化的进程, 许多高校都加快了档案资源的数字化、网络化的发展进程, 与之产生了大量的电子文档、音频、视频等数字资源, 从形式到内容上都极大丰富了高校档案馆的馆藏资源, 面对这些形式多样的数字化档案资源, 如何充分开发和利用, 一直是高校档案工作的重点和难点, 因此, 本文探讨了一种利用OCR技术来进行档案资源的开发、利用的方式。[1]

2. 高校数字化档案资源的现状及利用

高校的实体档案资源的内容相当丰富, 大致分类有行政管理类、教学类、科研类、基本建设类、财会类和出版物类, 几乎覆盖着学校各个方面的事物, 这些档案资源通常以纸质、电子、照 (胶) 片、录像 (录音) 带等载体形式进行归档, 通常这些档案资源的主要利用方式包括阅览、外借、复制、制发档案证明、档案咨询等方式。

为了迎接数字化时代的挑战, 加快高校信息化建设的进程, 许多高校也陆续开始了加强档案资源数字化的建设工作, 尤其是进行数字档案馆的建设工作。但是, 由于数字档案馆的概念是近几年才陆续演变发展的, 很多高校的档案部门对其概念的认识还参差不齐, 有的认为信息网络技术是档案资源数字化工作的重点, 强调数字档案资源的信息化与网络化特征, 形成了“偏技术论”, 有的认为档案数字化工作是为了建立起科学的档案管理流程, 形成了“偏管理论”, 还有的认为档案数字化工作重点是加强档案资源跨越空间、无缝共享的发展方向, 从而体现档案资源的多样性和空间分布特性, 形成了“偏资源论”。这三种理论基本上体现了数字档案馆这一概念的发展历程。总结概括起来, 就是一个完整的数字档案馆及档案数字化的定义, 即高校的数字档案馆或档案数字化是指基于传统的高校档案管理的原理和流程, 借助高校的校园网络设备和网络环境, 以数字化档案资源长久、安全的保存, 档案资源的共享利用与远程服务为目的, 通过档案信息管理系统和学校档案部门的档案网站, 对由高校实体档案资源经过数字化采集、转换以各种数字格式的数据归档形成的数字档案资源的新型档案管理方式[2]。

高校的数字档案信息资源通常来源于两类, 一类由电子文件归档而来, 即高校在行政、教学、科研等各方面的日常运转所形成的各种电子文档, 格式如word, pdf, excel等。另一类是由传统载体的实体档案资源转化而来, 这是目前高校档案信息资源的主要来源, 档案工作人员将纸质、微缩、声像、实物及其他载体的档案及资料通过专门的技术设备转变为数字档案资源。

高校的数字档案资源利用通常包括以下三种方式:

(1) 借阅, 提供阅览服务是数字档案资源最基本的利用方式, 借助学校的成熟的校园网络和相应的档案管理信息系统, 可以向全校的师生提供多种的检索和获取方式。

(2) 参考咨询, 即依赖校园网络和交互软件尤其是相应的网络通信软件, 向学校师生提供数字档案资源的参考咨询服务。

(3) 编研, 编研工作是将学校档案馆内静态的档案资源转化为动态的、可供利用的信息资源的加工, 对于高校的档案工作者, 通过档案编研可以化被动为主动, 更好的挖掘数字档案资源的价值, 并深度加以利用, 从而提高档案的工作水平。

3. 纸质文档数字化与OCR技术的应用

由于高校的纸质档案在所有载体形式的档案中所占的比重最大, 内容广泛, 几乎贯彻着从学校成立到发展的各个历史阶段, 所以高校的档案数字化工作的重点通常是纸质档案的数字化工作, 由纸质档案而转换形成的各种格式的电子文档也成为数量最多、内容最广泛的、最为重要的数字档案资源。

一般高校纸质档案的数字化工作分为以下几个步骤

(1) 档案整理:即将纸质档案资料从档案室进行提卷, 文档

(2) 档案扫描:扫描是纸质档案的数字化方式, 扫描的质量直接关系到数字化档案资源的质量, 根据纸质档案的状况选择合适的扫描方式和扫描参数, 从而产生清晰的扫描图片。

(3) 图像处理:扫描工作后对扫描图片进行处理, 着重对图像偏斜度、清晰度、失真度进行检查, 确保档案数据的质量。

(4) 图像存储:完成图像处理后, 选择合适的图像格式进行存储, 存储时在保证其图像质量的前提下采取合适的图像压缩编码技术减小图片的存储容量。

(5) 目录建库:目录建库即将各种图片格式的数字档案资源按照《档案著录规则》进行著录, 建立档案目录数据库

(6) 数据挂接:目录数据库建立之后, 将每一份图像文件的文件名和档案目录数据库中的文件档号目录数据库中该文件的档案编号建立起意义对应的关联关系, 从而实现上一节的内容所介绍的目录检索功能。

许多高校的档案管理部门通过以上六个步骤基本上实现了纸质档案的数字化, 建立起了数字档案目录数据库, 由于与数字档案目录数据库相关联的数据格式为图片格式, 所以有的高校除了提供数字档案目录查询的功能外又提供了缩略图查询功能。

高校数字化档案资源建设的重点是建立起档案全文数据库, 该数据库是档案资源数据库的主体, 是将档案文件的全文存储在计算机数据库中, 用户可以使用档案全文中的任何一个有实际意义的字、词作为检索入口, 得到原档案数字文件而不是文件线索。要想建立全文数据库, 必须数据格式是可编辑的文本格式, 如word、PDF、excel等, 而通过以上步骤所建立的档案格式则是图像格式, 无法构建全文数据库并实现关键词检索功能。

若要建立文档格式的档案数据库, 必须对已经扫描获取的图像数据进行文字录入, 通常文字录入的方式有两种, 一种是人工录入, 另一种则利用OCR技术是对图像进行文字识别自动录入[3]。

OCR (Opitical Character Recognition) 即光学字符识别, 简称光学识别, 它的原理是通过扫描仪、扫描笔或数码相机等光学输入设备获取纸张上的文字图片信息通过专门的OCR软件, 将含有文字的图像按字切割成可独立识别的单元, 然后运用各种算法分析每个图像单元中文字的形态特征, 通过比对标准特征库中的数据, 判断出该文字在计算机中的标准编码, 并按通用格式输出保存在文本文件中。

高校的档案工作利用OCR识别系统, 可以把扫描纸质档案后的图像档案作一个转换, 使图像档案内的图片继续保存、有表格则表格内资料及图像内的文字, 一律变成计算机文字, 识别出的文字可再使用及分析形成可编辑的电子文档格式, 可节省因键盘输入的人力与时间。通常OCR工作从数字图像到文本结果输出, 须经过以下六个流程:

(1) 图像输入:即许多高校纸质档案数字化工作中的档案扫描环节, 纸质文档通过扫描仪进行扫描, 必须确保扫描仪扫描出的图像的清晰。

(2) 影像前处理:OCR工作流程的影像前处理与传统纸质档案数字化中的图像处理是有所不同的, OCR工作中的影像前处理是从得到一个不是黑就是白的二值化影像, 或灰阶、彩色的影像, 到独立出一个个的文字影像的过程, 它包含了影像正规化、去除噪声、影像矫正等的影像处理, 及图文分析、文字行与字分离的文件前处理。

(3) 文字特征抽取:特征抽取是OCR识别的核心, 特征和抽取方式的选择, 直接影响识别的好坏, 特征通常分可分为两类:一为统计的特征, 如文字区域内的黑/白点数比, 当文字区分成好几个区域时, 这一个个区域黑/白点数比之联合, 就成了空间的一个数值向量, 在比对时, 基本的数学理论就足以应付了。而另一类特征为结构的特征, 如文字影像细线化后, 取得字的笔划端点、交叉点之数量及位置, 或以笔划段为特征, 配合特殊的比对方法, 进行比对。

(4) 比对识别:根据不同的特征特性, 选用不同的数学距离函数, 较有名的比对方法有, 欧式空间的比对方法、松弛比对法 (Relaxation) 、动态程序比对法 (Dynamic Programming, DP) , 以及类神经网络的数据库建立及比对、HMM (Hidden Markov Model) …等著名的方法, 为了使识别的结果更稳定, 也有所谓的专家系统 (Experts System) 被提出, 利用各种特征比对方法的相异互补性, 使识别出的结果准确无误。

(5) 人工校正:这是OCR工作中最关键和最重要的环节, 因为再好的OCR识别系统, 也会有识别误差, 为了确保识别出的电子档案数据的完整性和权威性, 档案工作人员必须将识别出的文字和原始图像进行仔细对照纠正, 只有这样, 才能确保识别出的电子文档正确无误。

(6) 结果输出:对于识别出的文字, 档案工作者可以根据需要输出成相应的格式, 如PDF、word, excel等格式, 如果为了确保档案电子文档和原始档案的一致性, 还可以在识别后进行人工排版。

应用OCR技术可以在档案数字化工作尤其是档案资源利用上起到如下作用:

(1) 有利于方便快捷的创建档案目录数据库:高校的档案数字化工作重点就是要对数字档案进行著录和编目, 创建档案目录数据库, 在未采用OCR技术的情况下, 纸质档案采集扫描后的档案数据都是图像格式, 所以这些图像格式的数字档案的条目和编录都需要档案人员手工录入完成, 这些大量的人工录入过程既费时又费力, 极大的影响了高校数字化档案工作的进程, 而采取OCR技术则让计算机替代人工进行档案目录的录入, 从而节省了人力和时间, 提高了档案数字化工作的效率。

(2) 实现了具有真正意义上全文检索功能的全文本数据库的建设:将纸质档案扫描成图像, 并通过OCR进行识别后, 可以创建文本格式的档案数据库, 从而可以根据具体某一个档案文本的关键字和词甚至是整段文字进行检索, 从而使得档案用户在面对大量的档案资源时可以迅速检索出自己需要的档案资源, 从而使得档案资源的利用率得到提高。

(3) 有利于档案编研工作的开展:传统实物档案时代, 档案的编研工作需要查阅大量的纸质档案资源, 工作量巨大, 在采用OCR技术后, 尤其是建立了档案全文本数据库后, 档案工作者可以根据档案文本的关键词和题目进行全文检索, 从而方便快捷的查找到需要的档案编研材料, 从而有利于档案资源的开发和利用, 提升了提高了档案工作的层次。

4. 结语

随着高校的档案数字化工作的不断深入开展, 数字档案资源日益丰富, 为了有效的利用这些档案资源, 高校的档案工作者应当与时俱进, 开拓进取, 积极的学习现代化的信息技术, 本文介绍的将OCR技术应用到档案信息资源的利用中, 就是一个明显的案例。

摘要:本文在分析了高校档案资源的建设现状的基础上, 阐述了OCR技术的原理和特点, 并论述了利用OCR技术在对高校档案资源利用和开发中所起的作用。

关键词:数字档案馆,档案资源,OCR

参考文献

[1]赵子孺.档案管理信息化研究[J].河南科技, 2011.

[2]王立新.实现档案管理信息化的途径与方法[J].管理科学, 2011.

OCR系统 篇7

在我国,票据一般指汇票、支票及本票的统称。本文所指的票据是更广义的票据。包括各种有价证券和凭证,如支票、保险单、发票、提货单等金融行业中需要电子化的各种凭证。

在票据电子化的过程中,由纸质票据或影像票据转化为电子文本信息是关键的一步。这一过程的未来发展方向无疑是OCR技术。OCR (Optical Character Recognition光学字符识别)技术,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。即对文本资料进行扫描,然后对图像文件进行分析,获取文字及版面信息的过程。

票据OCR系统属于专业型OCR系统,是一种票据格式的表格自动录入系统,适用于银行、税务等行业大量票据表格的自动扫描、识别及电子存储,也可应用于证券、保险、海关等众多领域。

二、现阶段OCR系统的局限性

随着OCR技术的不断成熟,以及计算机人工智能的发展,相信OCR技术将得到更为广泛的应用。但就目前OCR技术的识别水平,尤其是对手写体自动识别的正确率远远不能满足金融业对票据信息正确率的要求。就国内莫一领先OCR技术服务商宣称,对各种票据数据(账号、金额等)OCR自动识别的成功率达到90%以上。在实际应用中,根据笔者多年的数据处理经验,就全球领先的OCR识别技术服务商来说,也很难达到90%的正确率。但就算是真正达到90%的正确率,对金融业的一些重要数据来说也是远远不够的。

三、替代OCR技术的两种可行性解决方案

由于OCR技术在现阶段正确率的低下,人工录入在票据信息化处理中发挥着重要的作用。

(一)图像分割技术的应用。

以支票为例,包含较少的录入项,如账号、金额、签名等。首先对纸质支票扫描,转换成影像数据。2007年6月25日, 中国人民银行完成了影像交换系统在全国的推广建设,已经完成了支票的影像化处理。其次对图像进行纠偏和图像分割,分割成多张图像,并进行分类处理,包含账号类、金额类、签名类等。最后通过Intranet和VPN等技术外包给专业的服务外包提供商,返回正确、安全的关键电子信息。

(二)图层录入技术的应用。

以保险单为例,其包含了大量的录入项,如果对其图像进行分割,显然过于复杂,并且可能会有很大的误差率,所以图像分割技术对具有大量录入项的票据并没有很好的可行性。

为实现将其非核心业务进行外包,可以采用图层录入技术。首先对其票据进行扫描,转换成影像数据。然后将其图像直接发送给专业的服务外包提供商进行处理。专业的服务外包提供商可以采用图层录入技术,如XML等,对其图像信息进行直接录入嵌入图像。最终导出数据返回。

四、两种可行性解决方案可以促进服务外包产业的发展

OCR系统 篇8

伤害性感受使动物感知环境中有毒、有害物质,并产生躲避行为,有利于动物的生存。对于秀丽线虫( Caenorhabdities elegans) 来说,伤害性感受是根据线虫特殊的行为反应来定义的[1]。当前进中的线虫受到伤害性刺激时,立即停止前进并向后退一小段距离,然后避开刺激方向继续向前运动。能够使线虫产生后退躲避行为的伤害性刺激包括机械刺激、特定气味、特定波长的光、极端冷或热、高渗透压、酸性或碱性p H、重金属及其他有毒化学物质[2,3,4,5]。

雌雄同体秀丽线虫的神经系统中仅包含302个神经元[6]。ASH神经元能够探测多种伤害性刺激,比如鼻尖轻触、高渗透压、2 - 辛酮、辛醇、苯甲醛、酸性或碱性p H、奎宁、SDS、重金属等[2,7,8,9,10,11]。由于ASH神经元兼具感受机械刺激与伤害性化学物质刺激的能力,被归为多类型( polymodel) 神经元,是线虫非常重要的伤害性感受器[12]。ASH神经元位于线虫主要化学感受器官———头感器中,具有暴露于外界环境的纤毛结构,能探测外界伤害性刺激,使线虫迅速产生后退躲避行为[13]。

感觉传导发生在感觉神经元的纤毛处并依赖于离子通道[14]。秀丽线虫中,TRPV阳离子通道定位于感觉神经元纤毛,在ASH神经元介导的多种感觉行为中起作用[9,15,16,17]。其中,TRPV通道家族成员OSM - 9对于线虫铜离子感受具有重要作用[18,19]然而,铜离子感受是否还依赖其他分子目前并不清楚。ocr - 2编码辣椒素受体相关基因( osm - 9 and Capsaicin receptor - Related ) ,属于线虫TRPV通道家族,表达在4对头感器神经元( AWA、ADL、ASH、ADF) 和2对尾感器神经元 ( PHA、PHB ) 中[14]。为了研究OCR - 2是否参与铜离子感受,我们运用行为学、钙成像实验对ocr - 2突变虫系进行研究,发现OCR - 2在ASH神经元介导的硫酸铜躲避行为中起重要作用。

1材料与方法

1.1材料

1.1.1线虫虫系

所有虫系均按照标准操作,以线虫生长培养基NGM培养于20℃ 环境[19]。线虫虫系均获取自线虫遗传中心 ( Caenorhabditis Genetic Center http: / /www. cbs. umn. edu / CGC / ) 。野生型线虫为分离自Bristol的N2虫系。转基因虫系通过显微注射技术获得,目的质粒与标记质粒分别以浓度50 ng /μl、5ng / μl共同注射至线虫中。

1.1.2试剂

基因组DNA提取试剂盒为Qiagen公司产品;质粒抽提试剂盒、胶回收试剂盒均为Tiangen公司产品; Pfu酶、T4 DNA连接酶均为Fermentas公司产品; 限制性内切酶XbaⅠ、SmaⅠ、KpnⅠ均为NEB公司产品; 引物由英骏生物公司上海合成部合成; 所用的化学试剂均为分析纯。

1.1.3仪器设备

自动加药装置: MPS - 2,In Bio Life Science Instrument Co. LTD,Wuhan,China; LED光源: Osram,Marcel - Breuer - Strae 6,Munich,Germany; 发射光滤片: Semrock 520 /35,Semrock,Inc. ,Rochester,NY,USA; 成像显微镜为奥林巴斯倒置显微镜IX – 70( Olympus,Tokyo,Japan) ; 40倍目镜: numerical aperture ( NA ) = 1. 3,Carl Zeiss Micro Imaging Gmb H,Gttingen,Germany; 荧光图像采集用相机: DU885 K EMCCD,Andor Technology plc. ,Springvale Business Park,Belfast,United Kingdom。

1.2方法

1.2.1质粒构建

以野生型线虫基因组DNA为模板,扩增sra - 6启动子( sra - 6基因序列ATG上游3. 8 kb部分) ,通过酶切位点XbaⅠ和SmaⅠ接入载体p PD95. 75( 获赠于Andrew Fire实验室) ; Case12基因通过酶切位点SmaⅠ和KpnⅠ接入同一载体,得到sra - 6p: :Case12质粒,用于ASH神经元钙信号监测。

质粒sra - 6p: : ocr - 2,采用Multi Site Gateway TM系统( Invitrogen) 构建。sra - 6启动子、ocr - 2基因、unc - 54 3 ’UTR分别通过p DONR载体构建为入门载体,再与目的载体p DEST R4 - R3载体重组得到表达克隆sra - 6p: : ocr - 2。ocr - 2基因( 6. 2 kb) 、unc - 54 3 ’UTR ( 0. 8 kb ) 均扩增自 线虫基因组DNA。

1.2.2行为分析

群体实验模型修改自早前研究[8]。用直径为3. 5 cm的小培养皿倒扣在直径为9 cm培养皿中心区域,将22 ml琼脂溶液趁热倒入9 cm培养皿外环,琼脂溶液冷却凝固后,去掉倒扣在中心的小培养皿,在此区域倒入含100 μmol/L Cu SO4的琼脂溶液。彻底冷却凝固后,将整个琼脂凝胶挖出,反面朝上进行后续实验,以保证琼脂表面的平整性。室温干燥40min后,储存备用( 仅限实验当天使用) 。100 ~ 200条线虫用PBS洗3次,滴加在行为板起始区域。线虫自由爬行45 min后计数。趋避指数定义为( C –T) / ( C + T) ,其中,C和T分别为处于对照区域和实验区域的线虫数目。根据数据是否服从正态分布,使用Student's t - test或者Mann - Whitney Rank Sum - test评估显著性差异。n数代表独立重读实验次数。***代表P < 0. 001。

干滴实验使用 早前报道 的实验方 法[20]。用PBS将线虫从有食物的培养板上洗下来,转移到没有食物的培养板上,适应约10 min。在线虫前进方向上距离线虫头部约0. 5 ~ 1 mm处,滴1滴( 约5μl) 浓度为10 mmol /L的Cu SO4溶液,溶液迅速渗透至培养基中,线虫运动到滴加溶液的区域后,身体并不直接与溶液接触,但是能感受到渗透到培养基中的刺激物。n数代表独立重读实验次数。

1.2.3钙成像

用遗传编码的钙指示蛋白Case12标记神经元,记录神经元胞体的荧光强度变化以监测神经元钙浓度的变化。钙成像实验中使用自制微流控芯片装置[19],线虫被固定在线虫通道中,头部暴露在缓冲液与硫酸铜刺激溶液相切换的通道中。缓冲液、硫酸铜溶液、荧光染料溶液通道由自动加药装置编程控制。Case12激发光光源为波长为460 ~ 470 nm的LED光源,发射光滤片为Semrock 520 /35。神经元胞体平均荧光强度用Image - Pro Plus 6. 0 ( Media Cybernetics Inc. ,Rockville,MD,USA) 软件分析。起始5 s内神经元胞体平均荧光强度的均值用作信号基准值F0,荧光强度变化函数定义为 ΔF = ( F - F0)/ F0,荧光强度随时间变化曲线用IGOR Pro 6. 10( Wavemetrics,Portland,OR,USA) 软件作图。n数代表独立重读实验次数。

2结果与分析

2.1 cr-2基因突变虫系在硫酸铜行为学模型中表现出趋避行为缺陷

ocr - 2基因表达在伤害性感觉神经元ASH中,对于ASH神经元介导的多种伤害性感觉功能起关键作用。有研究表明,ocr - 2突变线虫丧失对低渗刺激和鼻尖轻触刺激的躲避反应,对挥发性排斥剂2 - 辛酮也不产生趋避行为[14]。我们使用硫酸铜同心圆行为板,考察ocr - 2突变线虫对硫酸铜是否表现出行为缺陷( 图1A) 。OCR - 2属于TRPV通道家族成员,包含3个角蛋白重复序列和6个跨膜结构域。实验中,我们选用缺失5个跨膜区DNA序列的ocr - 2( ak47 ) 突变虫系,该虫系丧失全部离子通道功能。

在含Cu SO4的同心圆行为板上,野生型线虫能够区分含Cu SO4的区域和不含Cu SO4的区域,绝大多数野生型线虫选择避开含Cu SO4的区域,表现出趋避行为。而ocr - 2( ak47) 突变线虫对两种区域没有明显的偏好,对Cu SO4不表现出趋避行为。用ASH神经元特异性启动子驱动ocr - 2基因组DNA在ASH神经元中表达,可以回复ocr - 2( ak47) 突变线虫对Cu SO4的趋避行为( 图1B) 。实验结果表明,ocr - 2基因在ASH神经元中表达,对线虫产生CuSO4趋避行为是必需的。

图1 ocr - 2 突变线虫及 ASH 神经元特异性转基因回复虫系对硫酸铜的趋化行为结果 ( A) 含铜同心圆实验模式图。同心圆环( 起始区和 C 区) 为普通琼脂,中心圆形区域为含 100 μmol/L Cu SO4的琼。线虫用 PBS 洗净后转移至起始区,45 min 后计数,计算躲避指数。躲避指数计算方法如图所示。( B) ocr - 2 突变线虫及 ASH 神经元特异性转基因回复虫系的躲避指数[wild - type n = 19,ocr - 2( ak47) n = 8,ASH: : ocr - 2; ocr - 2( ak47) n = 5]。***代表与野生型对照相比或与突变线虫相比 P≤0. 001。误差线代表标准误。WT 代表。 Figure 1 Cu SO4chemotaxis of ocr - 2 mutants and ASH specific rescue strains ( A) Schema of donut paradigm. The donut area ( origin and C) was filled with buffered agar and the central area ( T) was filled with buffered agar containing 100 μmol / L Cu SO4. Washed worms using PBS were transferred into the origin area,45 min later the avoidance index was calculated as shown. ( B) Avoidance index of ocr - 2 mutants and ASH specific rescue strains[wild - type n = 19,ocr - 2( ak47) n = 8,ASH: : ocr - 2; ocr - 2( ak47) n = 5]. Statistics: ***P≤0. 001 compared with wild - type control or as indicated ( Student's t - test or Mann - Whitney Rank Sum - test depending on the normality of the data distribution) . Error bar indicates s. e. m. WT,wild - type.

2.2ocr-2突变线虫对硫酸铜干滴刺激有行为缺陷

为了进一步探索ocr - 2在硫酸铜感受中的作用,我们对单只线虫进行了干滴实验。在线虫前进的方向上滴一滴浓度为10 mmol/L的Cu SO4溶液,线虫爬至该区域时,Cu SO4溶液已完全被琼脂吸收,观察线虫头部接触到含铜琼脂的反应。

野生型线虫爬行至含Cu SO4琼脂区域时立即表现出强烈的反应: 停止前进,持续摆动头部后退远离刺激区域,并最终改变运动方向。ocr - 2( ak47) 突变线虫接触到含铜区域时,也能够停止前进并产生后退行为,最终改变运动方向( 图2A) ,但是反应的强度没有野生型线虫剧烈。说明ocr - 2( ak47) 突变线虫仍然能感受到Cu SO4刺激。统计结果表明,ocr- 2( ak47) 突变线虫相对野生型线虫头部产生的后退位移显著减小( 图2B) ,说明ocr - 2基因突变虽然不影响线虫对硫酸铜的感受,但是使线虫躲避行为的强烈程度显著降低。

图2 ocr - 2 突变线虫在硫酸铜干滴实验中表现出缺陷行为 ( A) 野生型线虫和 ocr - 2 突变线虫在硫酸铜干滴实验中的时序截图。箭头指示线虫头部的运动方向。比例尺: 500 μm。 ( B) 干滴实验中,野生型线虫和 ocr - 2 突变线虫归一化的后退位移。***代表与野生型对照相比 P≤0. 001( Student's t - test) 。wild - type,n = 17; ocr - 2( ak47) ,n = 16. 误差线代表标准误。WT 代表野生型。 Figure 2 ocr - 2 mutants defect in Cu SO4dry drop test ( A) Snapshot images of wild - type and ocr - 2 mutants encountering a dry drop of 10 mmol/L Cu SO4on an unseeded agar plate. Dotted lines denote the drop of Cu SO4- containing buffer. Arrows denote the moving direction of the worm. Scale bar,500 μm. ( B) Normalized reversal replacement of wild - type animals and ocr - 2 mutants in dry drop test. ***P≤0. 001 compared with wild - type control ( Student's t - test) . wild - type,n = 17; ocr - 2( ak47) ,n = 16. Error bar indicates s. e. m. WT,wild - type.

2.3 cr-2基因突变使ASH神经元对硫酸铜刺激产生异常钙信号

ASH是线虫主要伤害性感觉神经元,为了考察ocr - 2基因是否对其产生影响,我们用ASH神经元特异性启动子驱动表达钙指示蛋白Case12,在微流控芯片中进行钙成像实验,记录施加硫酸铜刺激时ASH神经元产生的钙信号。实验线虫被限制在狭窄的线虫通道,不能自由活动,线虫头部暴露在缓冲液与硫酸铜溶液相切换的通道中。实验过程中线虫头部依次接触M13缓冲液、硫酸铜溶液、M13缓冲液液流。Cu SO4溶液由M13缓冲液配制,Cu2 +终浓度为10 mmol/L,刺激时间为30 s。

在野生型线虫中,ASH神经元钙信号出现两个峰,分别对应施加刺激( ON峰) 和撤除刺激( OFF峰) 的时间,说明ASH神经元对于Cu SO4溶液的加入和撤离均有明显感知。而在ocr - 2( ak47) 突变型线虫中,没有出现对应刺激施加时间和撤离时间的信号峰,而仅在刺激施加数秒( 平均延时10 s) 后出现一个狭窄的峰( 图3) 。说明,ocr - 2基因突变后ASH神经元对Cu SO4的感受作用遭到了破坏。

图3 野生型线虫和 ocr - 2 突变线虫 ASH 神经元中的钙信号。 刺激前 5 s 的平均荧光强度作为信号基准值 F0。深灰色阴影指。数据以均值 ± 标准误的形式展示,标记曲,浅灰色阴影代表标准误。野生型线虫 n = 18; ocr 2 突变线虫 n = 14。WT 代表野生型。 Figure 3 Calcium transients of ASH neurons in wild - type animals and ocr - 2( ak47) mutants The average fluorescent intensity within the initial 5 s before stimulation was taken as basal signal F0. Dark grey shading indicates presence of Cu SO4solution. Data are shown as mean ± SEM indicated by marker traces and light grey shadings respectively. WT worms,n = 18; ocr - 2 worms,n = 14. WT,wild - type.

3讨论

线虫TRPV通道影响化学、机械、温度等多种感觉模式[14,15,21,22]。所有编码TRPV通道的基因都具有类似的结构特征,包括2 ~ 3个胞内N端角蛋白重复序列、6个跨膜结构域、1个胞内的非保守长尾巴[14]。因此,TRPV通道在线虫伤害性感受中的作用可以推广到其它动物中,对高等动物伤害性感受的研究具有指导意义。

ASH神经元表达osm - 9和ocr - 2两种TRPV基因[15]。有报道称,TRPV通道蛋白通过相互组合来实现不同功能,ocr - 2能够促进osm - 9在纤毛中的定位。在ASH介导的高p H感受作用中,OSM - 9与OCR - 2共同组成一个TRPV通道,并具有重要作用[9]。然而在硫酸铜感受中,osm - 9基因突变的ASH神经元钙信号曲线与ocr - 2突变的钙信号曲线并不相同[19],暗示这两种TRPV通道蛋白在均在ASH神经元感受硫酸铜中起作用,但可能具有不同的机制。尽管ocr - 2( ak47) 突变线虫并没有完全丧失对Cu SO4刺激的感受,但是显著影响了线虫对CuSO4刺激产生的躲避行为。ocr - 2突变后,线虫对Cu SO4刺激仍然有感受,可能是由于其它能感受硫酸铜的神经元并不表达OCR - 2。在表达ocr - 2的神经元中,ASH是线虫主要伤害性感觉神经元。在osm - 9基因突变线虫中,ASH神经元钙信号ON峰减弱,OFF峰完全消失,osm - 9对于OFF峰的产生具有重要作用。而在ocr - 2( ak47) 突变线虫,在受到刺激约10 s后,ASH钙信号出现一个狭窄的峰,这个峰可能是来自其它感受硫酸铜神经元的传入,说明ASH神经元可能受到其他感受硫酸铜神经元的调控。另一方面,这个峰在缺失ocr - 2时出现,说明在野生型线虫中,ASH神经元对调控自己的神经元可能有抑制作用,这个抑制作用或许依赖于ocr -2基因。

上一篇:Flex技术设计下一篇:变革和创新