计算机视觉技术

2024-08-29

计算机视觉技术(精选十篇)

计算机视觉技术 篇1

1 OPENCV概述

OPENCV(Open Source Computer Vision Library),1999 年,由Intel创建。当前,技术支持由Willow Garage提供,具备非常高的通用性和移植性,适用于多种操作系统中,且能够跨平台应用。编程语言中,主要的是C函数以及C++ 语言。此外,Python、Ruby等语言还可以通过编程语言接口来实现编程,这也提升了OPENCV的通用性能,将其应用到计算机智能视觉领域中,较好地实现了通用算法以及图像的高性能分析[1]。

在未来的发展中,计算机视觉所具备的市场空间是非常广阔的,且会保持持续增长,但在其发展的过程中,缺乏标准的API,这将会在很大程度上阻碍计算机视觉技术的发展。当前,在对计算机视觉技术进行研究时,分类软件主要包含3 种:第一,对于图像分析研究的代码,在对图像信息运行和分析时,速度比较慢,稳定性比较差,与其他相关的函数程序库之间兼容性比较差;第二,商业化工具,目的是将计算机视觉技术市场化,然而在实现的过程中,需要花费较多的成本;第三,对于一些较为特别的解决视觉问题的方案,要依赖硬件来进行解决。针对计算机视觉技术发展中所面临的问题,OPENCV经过研究之后开发出了标准API,有效地解决了当前存在的问题。OPENCV具备比较多的技术优势,如源代码开放、开源、代码规范、延展性强和包含高级数学算法等。通过在真实世界的实时应用,计算机视觉技术在进行图像分析时,速度得到了大幅提升,实现了图像的高性能分析。

2 基于OPENCV的计算机视觉技术

2.1 运动物体检测

在利用OPENCV检测运动物体时,主要是依据下面的原理来进行:以物体的颜色、形状等某项特定信息为依据,将物体从特定的背景中分离出来[2]。在进行分离时,视频流的捕捉是第一步,捕捉完成之后转换视频的格式,接着预处理图像,将前景物体提取出来,保证在进行图像处理时,环境因素的干扰降至最低,最大限度地减小处理误差。然后,以物体的特征为依据,将物体提取出来,并完成跟踪运动物体。从本质上来看,将目标物体在图像中提取出来就是以物体的轮廓为依据,通过检测和分割完成提取。

2.2 图像预处理

在复杂的环境中,受到光照变化的影响,视频采集设备的性能会在很大程度上受到影响,影响视觉技术的应用。在环境因素的影响下,所获取的图像信息质量会比较差;同时,在提取出来的图像中,噪点是一定存在的,由此一来,在进行运动物体的检测以及图像采集时,效果会受到比较严重的影响。视频帧图像完成获取之后,需要对数据进行预处理,通常来说,主要包含3 种:第一,平滑度滤波处理,由于噪点的存在,在进行图像处理之前,需要对噪点进行处理,目的是将噪声减小,滤波平滑度滤波处理时,包含2 种方式,一种为线性方式,一种为非线性方式,利用线性方式进行处理时,运算比较简单,而且速度也比较快,不过完成处理之后,图像的情绪度比较差,而在利用非线性方式处理时,噪点可以实现减小,信号的局部特点也能够,但是在进行运算时,速度比较慢[3];第二,图像填充,在处理桢图像时,比较常用的方法有两种,一种是检测边缘填充法,目标物体检测出来之后,通过此种方法来辨别物体,辨别完成之后,填充通过漫水填充法来完成,另一种是腐蚀膨胀法,这与摄像机的性能相关联;第三,实时背景更新,在进行图像差分之前,首先要确定出背景图样,确定之后进行初始化,这两步的处理完成之后才能进行图像差分,以保证取景效果。

2.3 提取前景运动物体图像

在运动物体的检测流程中,精度必须要满足相应的要求,使前景跟踪效果保持在最佳的状态。图像经过二值化处理之后,需要对其进行分割,接着充分的填充,最后进行图像分析,这样做的目的是保证前景图的完整。在对前景图进行提取时,首先要差分前景图和背景图,差分完成之后,进行二值化处理,处理完成之后,检测出前景图像的边缘,轮廓确定之后再进行填充。在不同的场景和环境中,摄像头所采集到的图像也有所不同。因此,在进行前景图提取时,还需要实时更新背景,保证提取出来的效果处于最佳的状态[4]。前景图和背景图在进行差分时,常用的分割方法为阀值二值化分割法,图像分割完成之后,还需要对比像素点与灰度范围值,像素点灰度与阀值间的大小确定之后,就可以进行图像分割。

3 结论

计算机视觉读书报告 篇2

摘要:计算机视觉是一门研究如何让计算机达到人类那样“看”的学科。更加准确地说,它是利用摄像机和电脑代替人眼使得计算机拥有类似于人类的那种对目标进行分割、分类、识别、跟踪、判决决策的功能。智能视频分析是将场景中背景和目标分离,识别出真正的目标,去除背景干扰,进而分析并追踪在摄像机场景内出现的目标行为。本报告通过文献查阅与学习,主要介绍了当前计算机视觉的发展状况,智能视频分析的研究现状及难点,最后是介绍常用的目标跟踪算法在智能视频分析领域中的应用。关键词:计算机视觉、视频分析、目标跟踪,mean shift 算法 1. 计算机视觉概述及其发展现状 视觉是人类最重要的感觉,人类认识外界信息80%来自视觉。人类的视觉系统在给人类带来好处的同时,也会给人类造成失误。

常言道:“眼见为实”果真如此吗?有很多情况下“眼见”的并不一定都是“实”的。原因在于,通过我们的眼睛(以及其他感觉器官)而感觉到的外界事物的形象和特性,需要经过大脑的加工处理才能形成相应的知觉和判断。在一定的条件下,大脑会对所看到的形象形成不正确的知觉和判断,即产生视错觉。较为大家熟知的几种视错觉现象包括长短错觉、大小错觉、平行错觉、弯曲错觉。

计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,用电脑处理成为更适合人眼观察或传送给仪器检测的图像。

一般来说,在人类的五种基本感觉中,视觉提供了人类对周围世界了解的大部分信息。通过视觉,人和动物感知外界物体的大小、明暗、颜色、动静,获得对机体生存具有重要意义的各种信息,至少有80%以上的外界信息经视觉获得,视觉是人和动物最重要的感觉。

如今计算机视觉涉及到很多领域,计算机视觉的应用领域主要包括对照片、视频资料如航空照片、卫星照片、视频片段等的解释、精确制导、移动机器人视觉导航、医学辅助诊断、工业机器人的手眼系统、地图绘制、物体三维形状分析与识别及智能人机接口等。2. 智能视频分析 2.1 智能视频分析概述

智能视频分析目前在国际上有多种叫法,如iva(intelligent video analytics)、vca(video content analysis)、va(video analysis)、iv(intelligent video)、ivs(intelligent video system)。它是计算机图像视觉技术在安防领域应用的一个分支,是一种基于目标行为的智能监控技术。区别于传统的移动侦测(vmd-video motion detection)技术,智能视频分析首先将场景中背景和目标分离,识别出真正的目标,去除背景干扰(如树叶抖动、水面波浪、灯光变化),进而分析并追踪在摄像机场景内出现的目标行为。2.2 智能视频分析核心技术

智能视频分析技术也属于模式识别技术的一种,它是通过设计一定的计算机

算法,从视频中分析、提取和识别个体运动行为的特征,令计算机判断出这些个体进行了一些什么行为,进而可以判断这些行为是否符合某些规则,是否属于“某一类型”的行为。而这些类型的行为是应该提醒监控人员注意的“可疑行为”,这样当计算机发现了这些“可疑行为”时就可以进行即时的报警,摆脱了人工的干预和判断,实现令计算机“代替”人进行监控,也即实现了“自动监控”或是“智能监控”。从更形象一点的角度来解释,监控系统中摄像头和视频传输技术解决了“眼睛”的问题,使监控人员能够在不身处现场的情况下通过摄像头看到现场的情景,而这一现场还由于传输技术的进步摆脱了地域的限制,甚至于可以在千里之外(通过数字网络传输视频);而智能视频分析监控技术则给监控系统加上了“大脑”,使机器能够代替人来实现监控,无须再由人工随时去监控这些视频。2.3 智能视频分析当前存在的问题 实际环境下光照变化、目标运动复杂性、遮挡、目标与背景颜色相似、杂乱背景等都会增加目标检测与跟踪算法设计的难度,从而给智能视频分析带来更多的困难,其主要体现在以下几个方面:

光照变化引起目标颜色与背景颜色的变化,可能造成虚假检测与错误跟踪。采用不同的色彩空间可以减轻光照变化对算法的影响,但无法完全消除其影响;目标阴影与背景颜色存在差别通常被检测为前景,这给运动目标的分割与特征提取带来困难。

目标特征的取舍,序列图像中包含大量可用于目标跟踪的特征信息,如目标的运动、颜色、边缘以及纹理等。但目标的特征信息一般是时变的,选取合适的特征信息保证跟踪的有效性比较困难。

遮挡是目标跟踪中必须解决的难点问题。运动目标被部分或完全遮挡,又或是多个目标相互遮挡时,目标部分不可见会造成目标信息缺失,影响跟踪的稳定性。大多数系统一般是通过统计方法预测目标的位置、尺度等,都不能很好地处理较严重的遮挡问题。

序列图像包含大量信息,要保证目标跟踪的实时性要求,必须选择计算量小的算法。鲁棒性是目标跟踪的另一个重要性能,提高算法的鲁棒性就是要使算法对复杂背景、光照变化和遮挡等情况有较强的适应性,而这又要以复杂的运算为代价。3. 目标跟踪算法

目标跟踪是智能视频分析过程必不可少的一部分,国内外对目标跟踪算法的研究仍在继续,本次读书报告较详细的学习并了解常用的目标跟踪算法,在这里介绍以下几种。

3.1 基于对比度分析的目标跟踪算法

基于对比度分析的目标跟踪算法利用目标与背景在对比度上的差异来提取、识别和跟踪目标。该类算法按照跟踪参考点的不同可以分为边缘跟踪、形心跟踪和质心跟踪等。本算法不适合复杂背景中的目标跟踪,但在空中背景下的目标跟踪中非常有效。边缘跟踪的优点是脱靶量计算简单、响应快,在某些场合(如要求跟踪目标的左上角或右下角等)有其独到之处。缺点是跟踪点易受干扰,跟踪随机误差大。重心跟踪算法计算简便,精度较高,但容易受到目标的剧烈运动或目标被遮挡的影响。重心的计算不需要清楚的轮廓.在均匀背景下可以对整个跟踪窗口进行计算,不影响测量精度。重心跟踪特别适合背景均匀、对比度小的弱小目标跟踪等一些特殊场合。通过图像二值化后,按重心公式计算出的是目标图像的形心。一般来说形心与重心略有差别。

3.2 基于匹配的目标跟踪算法

基于匹配的目标跟踪算法主要有特征匹配、贝叶斯跟踪以及核方法等,这里主要介绍核方法的使用。核方法的基本思想是对相似度概率密度函数或者后验概率密度函数采用直接的连续估计。一方面可以简化采样,另一方面可以采用估计的函数梯度有效定位采样粒子。采用连续概率密度函数可以减少高维状态空间引起的计算量问题,还可以保证例子接近分布模式,避免粒子退化问题。核方法一般都采用彩色直方图作为匹配特征。mean shift是核方法中最具代表性的算法,其含义正如其名,是“偏移的均值向量”。其算法的实现如下所述:

在给定d维空间rd中的n个样本点xi,i=1,„,n,在x点的mean shift向量的基本形式定义为:

mh?x??1??xi?x? kxi?sh(1)其中,sh是一个半径为h的高维球区域,满足以下关系的y点的集合,sh?x??y:?y?x??t?y?x??h2?(2)k表示在这n个样本点xi中,有k个点落入sh区域中。我们可以看到?xi?x?是样本点xi相对于点x的偏移向量,(1)式定义的mean shift向量mh(x)就是对落入区域sh中的k个样本点相对于点x的偏移向量求和篇二:计算机图形学读书报告

读书报告

(计算机图形学的发展前景)

专 业: 数字媒体技术

班 级: 1306班

姓 名: 燕旱雨

学 号:(2013100661)

一、计算机图形学的基本知识

计算机图形学是研究怎样用计算机表示、生成、处理、和显示图形的一门学科,在计算机辅助设计、地理信息系统、计算机游戏、计算机动画、虚拟现实等方面有着广泛的应用。

计算机图形 用计算机表示、生成、处理和显示对象。从范围上说,计算机图形包括了山、水、虫、水、人等客观世界存在的所有物体甚至意识形态;从内容上说,计算机图形学也已不仅仅是物体的形状,还包含了物体的材质、运动等各种属性。因此,计算机图形是储存在计算机内部的物体的坐标、纹理等各种属性。

数字图形 由规则排列的像素上的颜色值组成的二维数组。数字图像可能由数码相机、摄像机或者其成像设备如ct机从外界获取,也可能在计算机上通过计算机图形装化而成。除了计算机图形和数字图像外,物体在计算机内部的表达还可以是符号或抽象模型、图像中的的一个区域等,研究物体的这些在计算机内部的表达及表达间的装换形成了和计算机图形学密切相关的几个重要学科。

图像处理 将客观世界中原来存在的物体的影像处理成新的数字化图像的相关技术,如ct扫描,人脸识别,x射线探伤等。

模式识别 对所输入的图像进行分析和识别,找出其中蕴含的内在联系或抽象模型,如邮政分拣,人脸识别,地貌地形识别等。

计算几何 也称为计算机辅助几何设计,是研究几何模型和数据处理的学科,探究几何形体的计算机表示、分析和综合,研究如何灵活、有效地建立几何形体的数学模型以及在计算机中更好的储存和管理这些模型数据。

计算机视觉 模拟人的视觉机理使计算机获得与人类相似的获取和处理视觉信息能力的学科

二、计算机图形学的发展方向

1、智能cad cad 的发展也显现出智能化的趋势,就大多数流行的cad软件来看,主要功能是支持产品的后续阶段一一工程图的绘制和输出,产品设计功能相对薄弱,利用autocad最常用的功能还是交互式绘图,如果要想进行产品设计,最基本的是要其中的autolisp语言编写程序,有时还要用其他高级语言协助编写,很不方便。而新一代的智能cad 系统可以实现从概念设计到结构设计的全过程。智能cad的另一个领域是工程图纸的自动输入与智能识别,随着cad技术的迅速推广应用,各个工厂、设计院都需将成千上万张长期积累下来的设计图纸快速而准确输入计算机,作为新产品开发的技术资料。多年来,cad 中普遍采用的图形输入方法是图形数字化仪交互输入和鼠标加键盘的交互输入方法.很难适应工程界大量图纸输入的迫切需要。因此,基于光电扫描仪的图纸自动输入方法已成为国内外cad工作者的努力探索的新课题。但由于工程图的智能识别涉及到计算机的硬件、计算机图形学、模式识别及人工智能等高新技术内容,使得研究工作的难点较大。工程图的自动输入与智能识别是两个密不可分的过程,用扫描仪将手绘图纸输入到计算机后,形成的是点阵图象。cad 中只能对矢量图形进行编辑,这就要求将点阵图象转化成矢量图形.而这些工作都让计算机自动完成.这就带来了许多的问题.如① 图象的智能识别;② 字符的提取与识别;③ 图形拓扑结构的建立与图形的理解;④实用 化的后处理方法等等。国家自然科学基金会和863计划基金都在支持这方面的研究,国内外已有一些这方面的软件付诸实用,如美国的rvmaster,德国的vpmax,以及清华大学,东北大学的产品等。但效果都不很理想.还未能达到人们企盼的效果。

2、美术与设计

计算机美术的发展 1952年.美国的ben .laposke用模拟计算机做的波型图《电子抽象画》预示着电脑美术的开始(比计算机图形学的正式确立还要早)。计算机美术的发展可分为三个阶段: 代表作品:1960年wiuiam ferrter为波音公司制作的人体工程学实验动态模拟.模拟飞行员在飞机中各种情况;1963年kenneth know iton的打印机作品《裸体》。1967年日本gtg小组的《回到方块》。? 伦敦第一次世界计算机美术大展一“控制论珍宝(cybernehic serendipity1为标志,进入世界性研究与应用阶段;计算机与计算机图形技术逐步成熟,一些大学开始设置相关课题,出现了一些cad应用系统和成果,三维造型系统产生并逐渐完善。代表作品:1983年美国ibm 研究所richerd voss设计出分形山(可到网站“分形频道hrtp:ttfracta1.126.tom 中查找有关“分形”的知识)包括三个方面:环境设计(建筑、汽车)、视觉传达设计(包装)、产品设计。

3、计算机动画艺术

计算机动画的简介

计算机动画技术的发展是和许多其它学科的发展密切相关的。计算机图形学、计算机绘画、计算机音乐、计算机辅助设计、电影技术、电视技术、计算机软件和硬件技术等众多学科的最新成果都对计算机动画技术的研究和发展起着十分重要的推动作用50年代到60年代之间,大部分的计算机绘画艺术作品都是在打印机和绘图仪上产生的。一直到60年代后期,才出现利用计算机显示点阵的特性,通过精心地设计图案来进行计算机艺术创造的活动。

电影特技

计算机动画的一个重要应用就是制作电影特技 可以说电影特技的发展和计算机动画的发展是相互促进的。1987年由著名的计算机动画专家塔尔曼夫妇领导的mira 实验室制作了一部七分钟的计算机动画片《相会在蒙特利尔》 再现了国际影星玛丽莲?梦露的风采。1988年,美国电影《谁陷害了兔子罗杰》(who framed roger rabbit?)中二维动画人物和真实演员的完美结合,令人瞠目结舌、叹为观止 其中用了不少计算机动画处理。1991年美国电影《终结者ii:世界末日》展现了奇妙的计算机技术。此外,还有《侏罗纪公园》(jurassic park)、《狮子王》、《玩具总动员》(toy story)等。

计算机动画的应用领域十分宽广 除了用来制作影视作品外,在科学研究、视觉模拟、电子游戏、工业设计、教学训练、写真仿真、过程控制、平面绘画、建筑设计等许多方面都有重要应用,如军事战术模拟

4、科学计算可视

科学计算的可视化是发达国家八十年代后期提出并发展起来的一门新兴技术,它将科学计算过程中及计算结果的数据转换为几何图形及图象信息在屏幕上显示出来并进行交互处理,成为发现和理解科学计算过程中各种现象的有力工具。篇三:数字图像处理读书报告1 《数字图像处理》

读书报告

————钱增磊 提要:本人现进入江南大学物联网工程学院研究生,开始进行研究计划,所研究方向为图像处理以及智能视频分析,先要对其基础学科进行深入学习,着重掌握图像处理的基础、概念等有关知识,由导师梁教授的建议,选择冈萨雷斯的《数字图像处理》进行基础性学习,现制定读书计划,每一周进行读书总结,消化本周所学习内容。

本书是数字图像处理的经典著作,全书共分为12章,内容包括绪论,数字图像基础、灰度变换与空间滤波、频域滤波、图像复原与重建、彩色图像处理、小波及多分辨率处理、图像压缩、形态学图像处理、图像分割、表现与描述、目标识别。本书是第三版,是综合前两个版本的内容,以及近10年来图像处理的发展而做的更新,使全书讲的更为透彻、清晰,跟上时代的潮流。

1、数字图像处理没有非常精确的范围,它常与数字图像分析,计算机视觉等方面具有可重叠性质,故我们把数字图像处理的范围进行三方面的概括,在这个连续的统一体中可以用3种典型的计算处理来区分其中各个学科,分为三个等级:

1、初级的操作,包括降噪、增强对比度、锐化,特点是输入输出的数据都是图像,其中间过程便是图像处理;

2、中级处理,涉及分割及缩减对目标物的描述使其适合计算机处理,其输入是图像,输出是提取图像的属性;

3、高级处理,涉及被识别物体的总体理解,执行与视觉相关的识别函数,针对单个对象的识别。

2、是图像处理的历史与发展。

(1)图像处理早在20世纪20年代初就已经开始有了应用,最早的应用是出现在报纸行业,最早的图像时通过海底电缆从伦敦传往纽约的图像。该方法是早期没有计算机的情况下进行的图像处理方法之一,就是首先通过编码,在接收端利用电报打印机通过字符来模拟中间色调还原图像。后来发展为在电报接收端用穿孔纸带打出图片,这就是早期的bartlane系统,编码时用5个等级的灰度值来表示,后发展为用15个等级的灰度值。(2)而在计算机的出现,首先简要概括了计算机的历史,冯诺依曼提出了两个概念,一个是保存程序和数据的存储器,另一个是条件分支。这两个概念就作为现在cpu的基础,也就是计算机的最初起源。利用计算机技术改善空间胎侧器发回的图像的工作,开始于1964年美国加利福尼亚喷气推进实验室,也是作为数字图像处理的起始。

(3)接下来开始涉及医学图像、地球遥感监测、天文学等领域。1960s末到1970s初,计算机轴向断层扫描技术(ccat)出现,在医学上,数字图像处理得到了空前发展。

(4)开始用计算机程序增强对比度、将亮度编码为彩色,应用于工业、医学、生物科学、地理学等领域,而在考古学中,图像的增强与复原技术得到了充分应用。

(5)发展到现在,数字图像处理应用的领域开始朝向解决感知问题。

3、图像处理的图像源的研究

图像源有许多,最主要的是基于电磁能谱,由于每一个应用领域所要观测的捕获的物体不同,得到侧重点不同的影响,所以就产生光源的不同,电磁能谱的排布根据波长的不同而具有不同的能量的光源。

(1)伽马射线,作为能量最高的光源,主要应用于核医学和天文学的观测,书中举例利用放射性同位素标记法,当该物质衰变时发出伽马射线(放出正电荷,与电子相遇,两者共同湮灭,同时放出两束伽马射线),构成影像。而在天文观测中则是用成像物体自然辐射得到。

(2)x射线,主要的应用在医学上,血管造影技术以及x射线的轴向断层扫描技术。主要产生该射线的是用x射线管,阴极加热释放自由电子,向阳极流动,撞击产生x射线,落在胶片上使其感光。而对于数字图像,则有两种方式:其一是用数字化的x射线胶片;其二则是用x射线通过病人身体直接落在某装置上,使x射线转换为光,然后用光敏数字系统来捕获。

(3)紫外线,主要应用于光刻技术,工业检测、显微镜、生物成像、以及天文观测等。最显著的应用是荧光显微镜,最基本的任务就是用激发光照射需成像的物体,然后从强光中分离出较弱的荧光。

(4)可见光与红外线波段,由于两者的成像总是相结合,故研究中常放在一起。红外线波段成像主要距离应用是发现地球表面接近可见光的红外线发射源,用来估计各地区的电能使用百分比。可见光应用于生产产品的自动视觉检测。

(5)微波波段,主要应用于雷达。

(6)无线电波,主要应用于医学上,比如核磁共振成像(mri)。

(7)其他方式成像也很多,比如用声成像,可以用来地质勘测,更主要的在商业中进行勘

测石油与矿产。还有用超声波成像,可以用声速来计算距离等。还有电子显微镜成像,分形成像等。

4、数字图像处理的基本步骤

一共包括十个步骤,分别是图像获取、图像增强、图像复原、彩色图像处理、小波分析、压缩、形态学处理、图像分割、表述与描述、图像识别。我们通过对特定的设备将获取图像,转换为数字形式,对图像进行一些预处理,使其计算机能够更好地识别和处理,然后进行图像的修复,使图像更加接近真实,然后通过小波分析进行减噪处理,进一步进行细化处理,对于高精度的图像,根据图像的特性选用适当的算法进行压缩编码,然后分割提取特征,最后与数据库中的内容进行匹配,从而识别。

5、图像处理系统的组件

(1)一个图像处理系统需要有其感知的设备,有两种方式进行图像获取,一个是用物理设备,对物体发射的能量很敏感;另一个是用数字化器,把模拟信号转换成数字信号。

(2)特定的图像处理硬件

(3)计算机,一般选用通用计算机适合各类图像处理系统。

(4)软件,有通用与专用的图像处理软件。

(5)大规模存储能力,对其分为三类,第一类是用于处理期间的短期存储,一般选用计算机内存或者缓冲存储器,速度快;第二类是快速调用的在线存储,一般选用光介质或磁盘,是尤其频繁的访问来决定的;第三类是档案存储,不需要频繁的访问,是海量存储;

(6)图像显示器

(7)硬拷贝装置

(8)网络,图像传输中最重要的便是带宽。

总结

通过对第一章绪论的学习,基本上对数字图像处理的概念、应用、起源及其发展有了一个大体的了解,在后续章节中将会继续深入学习,目前还存在一些遗留的问题,图像获取是怎么实现的,如何编码,如何保证在解码的过程中不会出现错误,如何识别图像的物体等等,都会在后续的学习中一一深入了解。篇四:计算机视觉实验报告experiment3 experiment 3:edge detection class: student id: name: ⅰ.aim the aim of this laboratory session is to learn to deal with image data by matlab.by the end of this session, you should be able to perform image preprocessing of edge detection in spatial domain and frequency domain.ⅱ.knowledge required in the experiment ⅰ.you are supposed to have learned the basic skills of using matlab;ⅱ.you need to review matlab programming language and m-file format.ⅲ.you should have studied edge detection methods.ⅲ.experiment contents demand: please show the figure on the left and list the codes on the right respectively bellow each question.(请将运行结果(图片)和程序代码贴在每题下方)ⅰ.read “car.jpg” file(to do this by imread function), convert the color image into grayscale image, and then perform edge detection using roterts, prewitt, sobel operator separately in spatial domain and display the results in a matlab window.程序: clear;im=imread(car.jpg);i=rgb2gray(im);subplot(3,2,1);imshow(i);title(gray image);[y,x]=size(i);im_edge=zeros(y,x);t=30;for k=2:y-1 for kk=2:x-1 im_edge(k,kk)=abs(i(k+1,kk+1)-i(k,kk))+abs(i(k,kk+1)-i(k+1,kk));if(im_edge(k,kk)>t)im_edge(k,kk)=1;else im_edge(k,kk)=0;end end end subplot(3,2,2);imshow(im_edge,[]);% []è?êy?y×??ˉ??·?μ?0~255μ?·?? ?ú?£

title(robert image);[y x]=size(i);imedge=zeros(y,x);for k=2:y-1 for kk=2:x-1 imedge(k,kk)=abs(i(k-1,kk+1)-i(k-1,kk-1))+abs(i(k,kk+1)-im(k,kk-1))+ abs(i(k+1,kk+1)-i(k+1,kk-1))+...abs(i(k+1,kk-1)-i(k-1,kk-1))+abs(i(k+1, kk)-i(k-1, kk))+abs(i(k+1,kk+1)-i(k-1,kk+1));end end subplot(3,2,3);imshow(imedge,[]);title(prewit image);[y x]=size(i);im_edge=zeros(y,x);for k=2:y-1 for kk=2:x-1 im_edge(k,kk)=abs(i(k-1,kk+1)-i(k-1,kk-1))+2*abs(i(k,kk+1)-i(k,kk-1))+ abs(i(k+1,kk+1)-i(k+1,kk-1))+...abs(i(k+1,kk-1)-i(k-1,kk-1))+2*abs(i(k+1, kk)-i(k-1, kk))+abs(i(k+1,kk+1)-i(k-1,kk+1));end end subplot(3,2,4);imshow(im_edge,[]);title(sobel image);图像如下: ⅱ.read “car.jpg” file(to do this by imread function), convert the color image into grayscale image, then perform edge detection in frequency domain using gaussian highpass filter and display the result in a matlab window.第二题程序:

%频域边缘检测,利用gassian高通滤波器进行滤波,进行边缘检测 %频域边缘检测,利用gassian高通滤波器进行滤波,进行边缘检测 clear;im=imread(car.jpg);i=rgb2gray(im);subplot(1,2,1);imshow(i);title(gray image);%shifting image(multiply the image by(-1)x+y)[row,col]=size(i);[y,x]=meshgrid(1:col,1:row);ii=double(i).*(-1).^(x+y);f=fft2(ii);%subplot(2,2,2);%title(fourier spectrum);%creat highpass filter d=zeros(row,col);u0=floor(row/2);v0=floor(col/2);d0=40;%截止频率 n=2;for i=1:row for j=1:col d=((i-u0)^2+(j-v0)^2)^0.5;

% d(i,j)=1/(1+(d0/d)^(2*n));d(i,j)=1-exp((-d^2)/(2*(d0)^2));end end %filtering g=f.*d;%invert the result and shifting g=real(ifft2(g));im=g.*(-1).^(x+y);im=im>40;%阈值确定edge subplot(1,2,2);imshow(im);%傅立叶变换中心 title(the image after gassian highpass filter);图像如下: 篇五:计算机视觉论文(2012)

一、机器人视觉的概念

机器人视觉系统是指用计算机来实现人的视觉功能,也就是用计算机来实现对客观的三维世界的识别。2.机器人视觉主要研究用计算机来模拟人的视觉功能从客观事物的图像中提取信息,进行处理并加以理解,最终用于实际检测、测量和控制。

计算机视觉系统一般有光源、摄像机、采集卡及pc软件系统等组成,可以完成图像的采集与处理、目标的识别功能,视觉系统的结构一般是从系统的模型的角度理解的。

计算机视觉既是工程领域,也是科学领域中的一个富有挑战性重要研究领域。计算机视觉是一门综合性的学科,它已经吸引了来自各个学科的研究者参加到对它的研究之中。其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学,神经生理学和认知科学等。

计算机视觉学所研究的对象,简单地说就是研究如何让计算机通过图象传感器或其它光传感器来感知、分析和理解周围环境。

人类感知外界环境主要通过视觉,听觉和触觉等四大感觉系统。其中视觉系统是最复杂的。人类从外界获得的信息中视觉信号量最大。

模仿人类的视觉系统,计算机视觉系统中信息的处理和分析大致可以分成两个阶段:图象处理阶段又称视觉处理中的低水平和中水平阶段;图象分析、理解阶段又称视觉处理中的高水平处理阶段。

二、计算机视觉研究的对象与方法(一)以模型世界为主要对象的视觉基本方法研究 这个阶段以roberts的开创性工作为标志。在roberts的工作中引入了三维物体与二维成像的关系,采用了一些简单的边缘特征提取方法并引入了组合线段的方法。这些早期的工作对视觉的发展起了促进作用,但对于稍微复杂的景物便难于奏效。

为他对三维关系的分析仅仅是靠简单的边缘线段的约束关系,并没有充分考虑人类或其他动物视觉系统感知三维空间关系的方式。(二)以计算理论为核心的视觉模型研究 20世纪70年代开始,对计算机视觉的研究进入更为理性化的阶段,主要集中于各种本征特性的恢复,包括三维形状、运动、光源等的恢复。主要出发点是从生理学、光学和射影几何的方法出发,研究成像及其逆问题。在这一阶段中,以marr为代表的一些研究者提出了以表示为核心、以算法为中间转换过程的一般性视觉处理模型。在其理论中强调表示的重要性以及从不同层次上去研究信息处理问题,在计算理论和算法实现上又特别强调计算理论的重要性。在三维信息的感知方面,根据人类感知深度的不同提出了一系列shapefromx的方法。

三、计算机视觉的应用领域

计算机视觉的应用领域主要包括对照片、视频资料如航空照片、卫星照片、视频片段等的解释、精确制导、移动机器人视觉导航、医学辅助诊断、工业机器人的手眼系统、地图绘制、物体三维形状分析与识别及智能人机接口等。

早期进行数字图像处理的目的之一就是要通过采用数字技术提高照片的质量,辅助进行航空照片和卫星照片的读取判别与分类。由于需要判读的照片数量很多,于是希望有自动的视觉系统进行判读解释,在这样的背景下,产生了许多航空照片和卫星照片判读系统与方法。自动判读的进一步应用就是直接确定目标的性质,进行实时的自动分类,并与制导系统相结合。目前常用的制导方式包括激光制导、电视制导和图像制导,在导弹系统中常常将惯性制导与图像制导结合,利用图像进行精确的末制导。

工业机器人的手眼系统是计算机视觉应用最为成功的领域之一,由于工业现场的诸多因素,如光照条件、成像方向均是可控的,因此使得问题大为简化,有利于构成实际的系统。与工业机器人不同,对于移动机器人而言,由于它具有行为能力,于是就必须解决行为规划问题,即是对环境的了解。随着移动式机器人的发展,越来越多地要求提供视觉能力,包括道路跟踪、回避障碍、特定目标识别等。目前移动机器人视觉系统研究仍处于实验阶段,大多采用遥控和远视方法。

在医学上采用的图像处理技术大致包括压缩、存储、传输和自动/辅助分类判读,此外还可用于医生的辅助训练手段。与计算机视觉相关的工作包括分类、判读和快速三维结构的重建等方面。长期以来,地图绘制是一件耗费人力、物力

和时间的工作。以往的做法是人工测量,现在更多的是利用航测加上立体视觉中恢复三维形状的方法绘制地图,大大提高了地图绘制的效率。同时,通用物体三维形状分析与识别一直是计算机视觉的重要研究目标,并在景物的特征提取、表示、知识的存储、检索以及匹配识别等方面都取得了一定的进展,构成了一些用于三维景物分析的系统。

近年来,基于生物特征(biometrics)的鉴别技术得到了广泛重视,主要集中在对人脸、虹膜、指纹、声音等特征上,这其中大多都与视觉信息有关。与生物特征识别密切相关的另一个重要应用是用于构成智能人机接口。现在计算机与人的交流还是机械式的,计算机无法识别用户的真实身份,除键盘、鼠标外,其他输入手段还不成熟。利用计算机视觉技术可以使计算机检测到用户是否存在、鉴别用户身份、识别用户的体势(如点头、摇头)。此外,这种人机交互方式还可推广到一切需要人机交互的场合,如入口安全控制、过境人员的验放等。

四、机器人视觉的发展

机器人视觉系统按其发展可分为三代。第一代机器人视觉的功能一般是按规定流程对图像进行处理并输出结果。这种系统一般由普通数字电路搭成,主要用于平板材料的缺陷检测。第二代机器人视觉系统一般由一台计算机,一个图像输入设备和结果输出硬件构成。视觉信息在机内以串行方式流动,有一定学习能力以适应各种新情况。第三代机器人视觉系统是目前国际上正在开发使用的系统。采用高速图像处理芯片,并行算法,具有高度的智能和普通的适应性,能模拟人的高度视觉功能。

在roberts之前都是基于二维的,而且多数是采用模式识别的方法完成分类工作的。roberts首先用程序成功地对三维积木世界进行解释,在之后类似的研究中,huffman。clowes以及waltz等人对积木世界进行了研究并分别解决了由线段解释景物和处理阴影等问题。积木世界的研究反映了视觉早期研究中的一些特点,即从简化的世界出发进行研究。这些工作对视觉研究的发展起了促进作用,但对于稍微复杂的景物便难以奏效。20世纪70年代中期,以marr, barrow和tenebaum等人为代表的一些研究者提出了一整套视觉计算的理论来描述视觉过程,其核心是从图像恢复物体的三维形状。在视觉研究的理论上,以marr的理论影响最为深远。其理论强调表示的重要性,提出要从不同层次去研究信息处理的问题。对于计算理论和算法实现,他又特别强调计算理论的重要性。这一框架虽然在细节上甚至在主导思想上还存在不完备的方面,许多方面还有很多争议,但至今仍是目前计算机视觉研究的基本框架。

进入80年代中后期,随着移动式机器人等的研究,视觉研究与之密切结合,大量引入了空间几何的方法以及物理知识,其主要目标是实现对道路和障碍的识别处理。这一时期引入主动视觉的研究方法,使用了距离传感器,并采用了多传感器融合等技术。

计算机视觉技术 篇3

关键词:计算机;视觉技术;交通工程

中图分类号:TP391 文献标识码:A 文章编号:1674-7712 (2014) 04-0000-01

一、引言

随着科技的发展,计算机替代人的视觉与思维已经成为现实,这也是计算机视觉的突出显现。那么在物体图像中识别物体并作进一步处理,是客观世界的主观反应。在数字化图像中,我们可以探寻出较为固定的数字联系,在物体特征搜集并处理时做到二次实现。这既是对物体特征的外在显现与描绘,更是对其定量信息的标定。从交通工程领域的角度来看,该种技术一般应用在交管及安全方面。监控交通流、识别车况及高速收费都是属于交通管理的范畴;而对交通重大事件的勘察及甄别则是交通安全所属。在这个基础上,笔者对计算机视觉系统的组成及原理进行了分析,并形成视觉处理相关技术研究。

二、设计计算机视觉系统构成

计算机视觉处理技术的应用是建立在视觉系统的建立基础上的。其内部主要的构成是计算机光源、光电转换相关器件及图像采集卡等元件。

(一)照明条件的设计。在测量物体的表征时,环境的创设是图像分析处理的前提,其主要通过光线反射将影像投射到光电传感器上。故而要想获得清晰图像离不开照明条件的选择。在设计照明条件时,我们通常会视具体而不同处理,不过总的目标是一定的,那就是要利于处理图像及对其进行提取分析。在照明条件的设定中,主动视觉系统结构光是较为典型的范例。

(二)数据采集的处理。如今电耦合器件(CCD)中,摄像机及光电传感器较为常见。它们输出形成的影像均为模拟化的电子信号。在此基础上,A模式与D模式的相互对接更能够让信号进入计算机并达到数字处理标准,最后再量化入计算机系统处理范围。客观物体色彩的不同,也就造就了色彩带给人信息的差异。一般地黑白图像是单色摄像机输入的结果;彩色图像则需要彩色相机来实现。其过程为:彩色模拟信号解码为RGB单独信号,并单独A/D转换,输出后借助色彩查找表来显示相应色彩。每幅图像一旦经过数字处理就会形成点阵,并将n个信息浓缩于每点中。彩色获得的图像在16比特,而黑白所获黑白灰图像则仅有8比特。故而从信息采集量上来看,彩色的图像采集分析更为繁复些。不过黑白跟灰度图像也基本适应于基础信息的特征分析。相机数量及研究技法的角度,则有三个分类:“单目视觉”、“双目”及“三目”立体视觉。

三、研究与应用计算机视觉处理技术

从对图像进行编辑的过程可以看出,计算机视觉处理技术在物体成像及计算后会在灰度阵列中参杂无效信息群,使得信息存在遗失风险。成像的噪声在一定程度上也对获取有效信息造成了干扰。故而,处理图像必须要有前提地预设分析,还原图像本相,从而消去噪音。边缘增强在特定的图像变化程度中,其起到的是对特征方法的削减。基于二值化,分割图像才能够进一步开展。对于物体的检测多借助某个范围来达到目的。识别和测算物体一般总是靠对特征的甄别来完成的。

四、分析处理三维物体技术

物体外轮扩线及表面对应位置的限定下,物体性质的外在表现则是其形状。三维物体从内含性质上来看也有体现,如通过其内含性质所变现出来的表层构造及边界划定等等。故而在确定图像特征方面,物体的三维形态是最常用的处理技术。检测三维物体形状及分析距离从计算机视觉技术角度来看,渠道很多,其原理主要是借助光源特性在图像输入时的显现来实现的。其类别有主动与被动两类。借助自然光照来对图像获取并挖掘深入信息的技术叫做被动测距;主动测距的光源条件则是利用人为设置的,其信息也是图像在经过测算分析时得到的。被动测距的主要用途体现在军工业保密及限制环境中,而普通建筑行业则主要利用主动测距。特别是较小尺寸物体的测算,以及拥有抗干扰及其他非接触测距环境。

(一)主动测距技术。主动测距,主要是指光源条件是在人为创设环境中满足的,且从景物外像得到相关点化信息,可以适当显示图像大概并进行初步分析处理,以对计算适应功率及信息测算程度形成水平提高。从技术种类上说,主动测距技术可分为雷达取像、几何光学聚焦、图像干扰及衍射等。除了结构光法外的测量方法均为基于物理成像,并搜集所成图像,并得到特殊物理特征图像。从不同的研究环境到条件所涉,以结构光法测量作为主要技术的工程需求较为普遍,其原理为:首先在光源的设计上由人为来进行环境考虑测算,再从其中获取较为全面的离散点化信息。在离散处理后,此类图像已经形成了较多的物体真是特征表象。在此基础上,信息需要不断简化与甄别、压缩。如果分析整个物体特征信息链,则后期主要体现在对于数据的简化分析。如今人们已经把研究的目光转向了结构光测量方法的应用,体现在物体形状检测等方面。

(二)被动测距技术。被动测距,对光照条件的选择具有局限性,其主要通过对于自然光的覆盖得以实现。它在图像原始信息处理及分析匹配方面技术指向较为突出。也通过此三维物体之形状及周围环境深度均被显露。在图像原始信息基础上的应用计算,其与结构光等相比繁杂程度较高。分析物体三维特性,着重从立体视觉内涵入手,适应物体自身特点而存在。不过相对来说获得图像特征才是其适应匹配的条件保障。点、线、区域及结构纹理等是物象特征的主体形式。其中物特较为基础与原始的特征是前两个特征,同时它们也是其他相关表征的前提。计算机系统技术测量基本原理为对摄像机进行构建分析,并对其图像表征进行特征匹配,以得到图像不同区间的视觉差异。

五、结束语

通过对计算机视觉技术的研究,悉知其主要的应用领域及技术组成。在系统使用的基础上深入设计,对系统主要构成环节进行分析。从而将三维复杂形态原理、算法及测量理论上升到实际应用。随着社会对于计算机的倚赖程度增加,相信该技术在建筑或者其他领域会有更加深入的研究及应用。

参考文献:

[1]段里仁.智能交通系境在我国道路空通管理中的应用[J].北方工业时报,2012(06).

[2]王丰元.计算机视觉在建筑区间的应用实例分析[J].河北电力学报,2011(04).

[3]李钊称.主动测距技术在计算机数据分析中的作用探析[J].计算机应用,2010(08).

基于计算机视觉的手势检测识别技术 篇4

近年来,随着计算机硬件和软件的迅速发展,一方面,大力推动了计算机视觉的研究;另一方面,促使计算机视觉研究的成果迅速得到广泛推广和应用。手势检测识别技术作为一种基于计算机视觉的新型人机交互方式,是其中备受瞩目的研究和应用技术之一。

手势检测识别技术是由计算机通过视频输入硬件(摄像头等)对使用者有一定语义的手势进行摄像后进行特定的检测与识别分析进而输出预先设定结果的一种计算机技术。这种利用手势与计算机交互的新型交互模式与传统的文本人机交互或图形人机交互等接触式交互方式相比有诸多优势,如更优越更自然的用户体验以及摒弃对鼠标、键盘或触摸板等硬件输入设备的依赖等。由于具备这些独特优势,手势交互渐渐在手语识别、机器臂控制以及视频游戏等众多领域得到初步应用。同时,手势的多义性、不同使用者手势习惯的差别以及背景、光照变化等不确定或干扰因素也对高精度的检测和识别提出了较高要求。目前,手势检测识别技术的研究受到世界各国科研机构和科技企业的重视与青睐,如IEEE自1995年起召开人脸与姿势自动检测年会FG(IEEE Conference on Automatic Face and Gesture Recognition)以促进包括手势检测识别技术在内的技术交流与发展。

1 手势检测识别技术的发展及当前难点

在手势检测识别研究的早期阶段,往往需要通过使用者佩戴收集手势数据的手套对系统进行输入,如已经产品化的Cyber Glove,能够对人手22个关节角度进行高精度的测量,哈尔滨工业大学的吴江琴、高文等人就利用该产品研发了基于神经网络和隐马尔科夫模型(ANN/HMM)结合方法的中文手语识别技术[1]。但利用数据手套作为输入设备会给使用者带来不舒适感如出汗等,且设备价格昂贵,难以推广。其后,又有研究者以在手部粘贴高亮标签使计算机易于识别作为改进方法,如美国中弗罗里达大学的Davis J和Shah M通过在五个指尖处粘贴高亮标记并利用有限状态机(FSM)建立手势动态模型进行识别[2]。在上述研究的基础上,研究者渐渐把研究的重心转移到实现难度更大的不佩戴手套或不粘贴设备的自然手识别检测技术之上,以追求使用者更舒适的体验,其中从计算机视觉的研究方式入手是当前比较主流的研究方向。

目前实现自然手势检测识别的难点主要有以下三个方面:(1)因使用场合的不同和光照环境等的变化及人手本身因光滑而产生的大量阴影,会对手势区域与背景的分离造成巨大干扰,而能够准确和合理地分离手势与背景是提高识别效率和准确率的一个重要前提。(2)人手由多个部分组成,其中手指往往包含丰富的信息,而手掌和手腕包含的信息则大多为冗余信息,故如何将有用的信息与冗余的信息分离也是提高手势识别能力的关键。(3)人手是弹性物体,同样的使用者要重复做出完全相同的手势是不可能的,不同的使用者在做同样的手势时也会体现出一些差异,如何降低甚至消除这个因素的影响对整个识别的准确率也有一定影响。(4)手势往往具有复杂、多重的含义,单一的方法很难准确地解读人手的具体内涵进而实现最终的识别,故需要综合多种方法。针对上述的不同难点,不同的研究者提出了大量的方案,本文将主要介绍手势检测识别技术的基本过程和几种主流方法。

2 手势检测与识别的基本过程与主要方法

广义的手势可分为两种,一种为由连续手部动作组成的动态手势(gesture),另一种为静态的手部姿势(posture)。由于动态手势的识别可以归结为数个静态姿势识别的综合,所以两种手势识别的过程和方法是基本一致的。当然,动态手势的识别更富挑战性,需要考虑时间空间等因素,即不同因素会造成手势轨迹在时间上的非线性波动,动态手势识别必须考虑如何消除这些波动的影响,故在具体方法上与静态的识别略有不同。

2.1 手势检测与识别的基本过程

如图1所示,一般而言,手势检测与识别包含以下几个主要过程:

1)图像预处理:一方面将动态的视频分解为若干个静态的画面进行分析,另一方面,按照手势检测分割与识别对图像的要求,去掉冗余信息,对其进行平滑或者滤波等处理。

2)手势检测和区域分割:检测图像中是否存在手势,若存在手势则将手势区域与背景分离,从而得到手势识别分析的具体区域,便于下一步对手势进行识别。

3)手势识别:获得分离的手势图像后,对其进行特征值提取等分析,将已分离的手势种类按照一定的方法识别出来。

不同的研究者对手势的模型建造的方式也有不同,但大致可分为基于2D表观的手势建模和基于3D模型的手势建模,且可以进一步细分[3]。前者关注手势的图像表观,即手势本身体现出来的图像特征,例如用泛椭圆类去拟合人手或人脸实现建模,又如Dardas采用主成分分析法PCA(Principle Components Analysis),对不同大小、旋转度与光照状态下的手部姿势进行训练与识别[4]。也有研究者利用手势的2D表现特性去表达3D特性,如Choi S H,Han J H和Kim J H利用单目摄像机,使用基于单应性和神经网络的算法估测手势的3D位置特性,取得不错的效果[5]。后者则更为精细和复杂,通过衡量人体的一些具体物理特征如手指最大的弯曲程度和人体的骨骼架构去进行3D的人手建模,但也存在计算机视觉技术获取相关参数难度大的一些问题,且往往需要使用深度摄像头或者多目摄像头。手势建模实质上是一个从计算机视觉角度考虑识别方式的过程,不同模型的特点往往也决定了手势检测分割与识别的方法。

总的来说,不同过程所采用的不同方法是相互关联的,例如要确定预处理的方法往往要考虑到最后识别所采取的方法。可以说如何建立一个完整的手势检测识别技术是一个复杂的计算机视觉的问题,具有很强的综合性。

2.2 手势检测和区域分离的主要方法

手势检测的主要目的就是检测当前图像中是否存在手势、手势的数目及具体位置,而手势区域分离的实质是使手势和背景分离。目前手势检测主要算法的分类方式不一而足。而手势区域分离主要采取图像二值化的方法,即手势区域用黑色表示,非手势区域用白色表示,也就是把检测到的手势区域以灰度图表示,如图2所示[6]。下面侧重介绍目前比较主流的一些手势检测方法。

2.2.1 以颜色信息为基础的检测分割

利用特定颜色信息区分人手和背景的方法十分常见。为了降低干扰,这些检测分割方法往往提出诸如简单的摄像背景、使用者穿着的衣服颜色与背景一致、手部粘贴或佩戴有颜色的标记等限制条件。更为常见的则是肤色分割的检测分割方法,因为人的肤色相比于其他常见颜色而言较为特殊,且肤色不会因为手势图像的大小和旋转而发生太大差异,利用肤色去区分手势和背景的方法相对可靠。

早期的肤色分割方法主要是设置基于RGB颜色值的阈值,使隶属肤色范围的像素点和不隶属肤色范围的象素点分离。尽管利用RGB色彩空间分割可以避免考虑手势多变的几何特性,但这种分割方式受光照影响较大。因而当前的一个研究的方向在于确定最为适用于分割肤色的色空间,不同的研究者提出了适用多种颜色空间的方案。如Bhurane A A和Talbar S N利用HSV色空间进行肤色分割[7],其后他们又采用了R/G比例的肤色分割方法[8];又如Stergiopoulou E和Papamarkos N利用YCb Cr色空间进行肤色分割[9]。一般而言,在光照变化较大的情况下,利用YCb Cr色空间进行肤色分割效果较好,而在正常的光照条件下,利用RGB色空间的肤色分割效果较好。Kakumanu P等人考察评价了不同的因素对肤色分割的影响及比较了不同色空间的优劣[10]。总之,不同的色彩空间在对分离肌肤本身的色彩成分和光照成分有着不同的差别,这种差别一定程度上决定了分割方式的优劣。另一方面,人种的不同会造成肤色的不同,为了设置一种普适而不需针对不同肤色使用者额外初始化的分割方法,不同色空间内肤色设置的阈值往往不是固定的,而是采用自适应的阈值选取方法。

除此之外,还有多种以颜色信息为基础的方法。如利用灰度级直方图进行手势检测。利用灰度级直方图建立高斯混合模型(GMM),表达背景和手势的灰度级往往会各自达到其峰值,而峰值间的波谷处往往就是手势的边缘。于洋通过结合灰度级直方图和设置动态阈值的方法,进行手势识别和分割,达到了更好的效果[6]。Sawarkar S D等人利用CAMSHIFT算法实现了动态手势追踪[11],该算法大量利用了颜色2D的概率分布,故也可归为通过以颜色信息为基础的方法。又如Raut等人捕获手部运动图像,并依据形状颜色调色法将其映射为特定轮廓信息[12]。另外一些方法诸如边缘检测和轮廓提取等大多都是依赖于图像灰度的跃阶变化,也可以归结为利用颜色特性进行的检测分割手段。

值得注意的是,以颜色信息为基础的检测的准确度往往和背景复杂程度、背景颜色与肤色类似程度有密切关系,而且身体的其他部分的颜色信息也会造成不同程度的干扰。同时,由于手产生的不均匀的阴影等影响,以颜色为基础检测分割后获得的灰度图内部往往有一些“小孔”,往往需要经过进一步滤波处理才能得到更为完整的灰度图,供下一步识别所用。

2.2.2 以运动信息为基础的检测分割

显然,背景相对于人手往往是静止的,或者说,非手势的图像运动量远小于手势的运动量。通过和既定背景的比较,可以分离手势和背景。其中比较基本的方法是,对摄取的相邻图像作差分运算滤除背景。另外,光流法也是利用运动信息的典型方法,该法通过图像序列中不同点灰度分布的变化去体现物体的运动状态,广泛应用于动态的物体识别,如在Schwarz L A等人的研究中,便成功运用光流法去实现动态人的3D姿势建模[13]。Ramadass等人采用光流法检测非复杂场景下的人体运动形态噪声与无关特征信息[14],Schwarz等人采用健壮性检测解剖标志以及约束化逆运动学,结合光流法以检测运动姿势[15]。Hackenberg G等人在构建实时3D手势控制系统时,运用以光流法为基础的算法去实现手势追踪[16]。该类方法能够弥补以颜色信息为基础的检测的一些不足,然而往往也会对使用者的动作和背景有一些要求如动作不能太快和背景相对静止。

2.3 手势识别的主要方法

手势识别是对手势区域分割后的图像进行特征值提取和手势模型参数估算并通过一系列不同算法的处理后,将其归类为已知手势的过程,或者说是根据手势模型提取的特征值空间的点(静态姿势)或轨迹(动态手势)分类到该空间内某个子集的过程。这个过程往往需要不同分类器的参加,在允许的条件下甚至建立几个独立分类器的级联并联或混合联的组合系统去进行识别,亦有利用Adaptive boosting算法去对数个分类器的输出结果综合后分类的做法[17]。而根据分类器的不同,手势识别目前的方法有大致以下几种:基于模板匹配的方法、基于人工神经网络的方法(ANN)、基于概率统计模型的方法、基于支持向量机的方法、基于动态时间规划(DTW)的方法和基于压缩时间轴的方法。下面分别介绍常见的分类方法。

2.3.1 基于模板匹配的方法

模板匹配的识别方法是比较简单的识别技术,常常用于静态姿势的识别。其核心思想是把输入的图像与预先存储的模板进行匹配并测量比较其相似度来完成识别过程,分类依据就是匹配的相似度。如轮廓边缘匹配、弹性图匹配和基于Hausdorff距离匹配等都属于这种方法。Bergh M V D等人的研究表明,与领域间隔最大化法(ANMM)相比,Hausdorff距离匹配分类准确率较低且当可分类的情况增多时,Hausdorff距离匹配分类准确率急剧下降[18]。刘玉进等人则引入M+N特征维数的人手成对几何直方图(PGH)特征值,进而描述静态手势的相似程度,效果较好,每种手势仅需一个模板即可匹配,随后又运用Kalman滤波器作为动态手势的预测机[19]。这些都属于基于模板匹配的方法。简单快速是该法的一大特色,但分类的准确率往往不高,不同手势之间可分的程度也取决于特征值的选择,可识别手势数量一般不多。

2.3.2 基于ANN的方法

在数字图像处理领域,人工神经网络是一种基于决策理论方法的识别方法。作为一种模仿人与动物神经活动特征的算法数学模型,人工神经网络能进行大规模分布式并行信息处理。它一般由许多具有非线性映射能力的计算单元(称为神经元)组成,不同单元之间通过权相连,通过一定的训练,能够估算对应某种模型中决策函数的参数,从而完成一定分类的任务。该算法鲁棒性强,可以对一些未知过程进行拟合,具有一定的学习能力,且近年来发展迅速,无论在静态姿势或是动态手势的识别中都被大量运用。其中运用比较广泛的是误差反向传播的神经网络BPNN(Back Propagation Neural Network),该神经网络往往有三层,并使用最速下降的学习方法,使网络的误差平方和达到最小。如Murthy G R S和Jadon R S使用监督前馈的BP神经网络,对五个不同使用者十种手势进行分类识别,准确率达89%[20]。模糊神经网络(FNN)的运用也十分常见,该神经网络是模糊理论和人工神经网络结合的产物。如Tusor B等人,建立了模糊手姿势模型,用14个取值介于“小”、“中”、“大”的模糊特征值去描述和区分不同的手的姿势,并在此基础上改变了模糊神经网络的拓扑结构使之成为闭环的模糊神经网络,经检测该神经网络的训练时间缩短且对识别准确率没有明显影响[21]。Hafiz A R等人则利用Kinect深度摄像头,对手势进行边缘检测和细化算法建立“手势树模型”(细长形似分叉的树枝的手势模型),再利用复数域神经网络(CVNN)去对手势进行分类,效果较实数域神经网络(RVNN)好[22]。神经网络模型变化丰富,可以适应不同应用要求,但其识别准确率一般受模型自身的优劣、训练样本多少限制。

2.3.3 基于概率统计模型的方法

为了解决在静态姿势识别中出现的分类错误等问题,往往引入基于概率统计的贝叶斯分类器。但贝叶斯分类器所涉及的密度函数的维数和具体表达形式难以确定,所以往往需要进行估计或者假设,这种假设与真实情况越接近,贝叶斯分类器在分类中就越能接近最小平均损失[23]。这一特性在一定程度上限制了贝叶斯分类器在复杂的手势识别过程中的应用。

另一方面,对于动态手势识别,隐马尔可夫模型法(HMM)作为基于概率统计的典型方法得到广泛应用。马尔可夫模型可用于描述一个随机过程,若其中隐含未知的参数(如状态未知),即称为隐马尔可夫模型。HMM法在语音识别领域已经得到大量应用,近年在手势识别领域亦有很大进展,其主要识别过程是:先训练手势的HMM库,使每一种已知手势对应一个HMM。识别时,将待识别的手势特征值代入模型库中的各个HMM,对应概率值最大的那个模型即为该手势。如Elmezain M利用Baum-Welch算法(BW)训练HMM并进行手势识别[24]。Delgado-Mata采用HMM与ANN(artificial neural networks)以识别欧几里得空间中的运动姿势轨迹[25]。基于向量化的HMM(VQHMM)模型也比较常见[26]。HMM法较好地解决了不同手势间时间上的非线性波动问题,提供了时间尺度不变性,但计算量大,实时性依赖于计算速度。

2.3.4 基于支持向量机的动态手势识别的方法

支持向量机(SVM)是近十几年迅速发展的方法,兼具学习和优秀的分类能力。SVM通过把特征向量映射到高维空间并建立能够充分区分不同种类的最大间隔超平面。在手势识别领域,选择什么样的特征向量是当前主要需要研究的问题。在Dardas N H的研究中,先采用尺度不变特征提取训练样本的特征点并向量化后使用SVM进行手势识别[27]。

2.3.5 基于动态时间规划的动态手势识别的方法

基于动态时间规划的方法最早也成功运用在语音识别领域。该法通过非线性的归一函数调整或弯曲不同时间轴从而消除时间上的非线性波动,故称为动态时间规划法。通过DTW,能够实现不同时间轴上模式的最大程度的重叠从而实现分类。Corradini A运用该法识别五种动态手势,准确率均在88.5%以上[28]。

2.3.6 基于压缩时间轴的动态手势识别的方法

基于压缩时间轴的方法一般通过动态手势某些不依赖时间参数的特征参数或向量去对动态手势进行分类。压缩这些特殊的特征参数或向量使动态手势由轨迹转化为点,进而用模板匹配等静态姿势识别的方法去实现动态识别。如黄国范和程小平利用皮肤历史图像(SHI)进行动态手势建模,得到包含一系列肤色轨迹点的静态矢量图,并计算与模板的切线距离,进而衡量手势间的相似程度,以此实现分类[29]。

3 手势检测与识别技术的现状与发展方向

近年手势检测与识别技术已经由原来的理论探索阶段渐渐过度至理论研究与实践应用并行的阶段。一方面,高性能的运算芯片和成像效果更优的摄像头等设备的频繁更新换代使得复杂的建模过程和大量的计算处理更为迅速,为手势识别的准确率和速度的提高提供了硬件基础。另一方面,在新的硬件基础上,方法间的不同融合和互补也成为了当前研究的主流。例如王西颖等人利用HMM对运动手势的三个运动分量进行建模后利用FNN进行分类识别,获得了比传统HMM法更好的识别方法[30]。又如倪训博等人以“类别隶属度”是广义概率为假设,利用模糊理论,证明并建立了DTW算法和Viterbi算法(用于解决HMM解码问题的常用算法)间的模糊贴近度关系,从而提高大词汇量情况下非特定人手语识别的准确率和速度[31]。又如周维柏和李蓉,以自组织特征映射网络为静态姿势的分类器进而以ART网络为动态手势的分类器实现了平均识别率为94%的动态手势识别[32]。多种方法的组合结合各种方法的优势,增强普适性,但也提高了对硬件运算能力的要求。现有成熟的技术基本能对十几种甚至数十种的静态或动态手势进行检测识别,准确率、适用背景的复杂度和抗干扰能力都能满足一般应用需求。经过多年的研究,手势检测与识别技术已经经历了从不能识别到能识别,从识别率低到识别率高的发展过程,但该技术仍然不太成熟完善,在以下方向仍能进一步拓展。

3.1 新硬件趋生新研究

此前的研究大多利用普通摄像头所提供的颜色与运动信息,随着具有新功能的硬件如深度摄像头的出现,许多研究者也开始使用新的硬件去进行手势识别的尝试。如微软公司开发的Kinect,除了能够摄取RGB颜色信息外,还能利用红外线提供深度信息。这就为手势的检测提供了极大的便利,因为红外深度信息与背景的区分度远大于颜色信息与运动信息,使得手势检测的大部分工作能够由硬件直接完成。如斯坦福大学的Tang M便利用该款产品进行手势识别[33,34],Raheja J R等人利用Kinect改进实现对人手指尖与掌心的检测追踪[35];国内方面,中科院陈熙霖研究员和北京联合大学李晗静副教授利用Kinect开发了一款能帮助聋哑人实现与正常人无障碍沟通的手语识别翻译工具,华南理工大学的金连文教授此前已经利用早期的一些设备进行空中手写识别的开发并取得不错的成果[36,37],如今新开发的“空中手写—基于Kinect的虚拟手写体识别”项目,更能让使用者体验在空中自由移动手指向设备输入包括汉字在内的各种字符的舒适,浙江大学刘利刚教授利用多个Kinect建立实时捕捉3D人体模型的扫描系统。即使说深度摄像头的出现带来了手势识别的一次革新并不为过,如何进一步利用诸如深度摄像头等新硬件是目前研究的热点。

3.2 普适性与准确率的更高要求

对手势识别准确率影响的突出因素有光照、背景复杂度和手势运动快慢等因素。过往的研究为了保证准确率一般对具体的应用环境加上一定的限制如只能使用单手或保证背景完全静止等。实际需求则亟待普适且准确率更高的识别技术的出现:无论用于白天或黑夜,不受背景和使用者肤色、衣着等影响的高准确率的手势识别。同时如多手,多人共同使用的手势识别系统开发也引起了不少研究者的兴趣[38,39]。继续增强手势识别系统鲁棒性,在保证高准确率的前提下提高运算效率和适用性是更具挑战性的课题。

3.3“一次成功识别”

目前,手势识别技术无论是使用何种算法,基本都要经历训练的阶段,训练过程中不断地由上一层向下一层传输输出值,同时进行误差的反向传输,整一个过程是一个多次的循环,周而复始,一直到最后的输出值与预期的目标值的误差在阈值之内。这个过程通常需要研发者收集大量的训练集,同时耗费大量的时间。在人与人的交互中,肢体语言只需示范说明一次便可实现相互理解。故降低训练时长成为了当前手势识别的一个发展方向。Chalearn公司目前更在力图开发“一次成功识别”(Oneshot-learning)的手势识别技术。“一次成功识别”意在使用者只对计算机做一次手势动作示范,机器通过所谓的“智能学习模式”对手势进行自动记忆和识别,而无需更多额外的训练,从而减少了耗时。“一次成功识别”倘若能够实现,将使机器可以像人一样,通过预先一次的认知而能在以后准确识别,从而使机器更加智能和人性化。

3.4 以用户体验为核心,综合运用多门学科知识

手势检测识别对于计算机而言是复杂的图像信息处理过程。而对于使用者说,则是一个有别于传统体验的新型人机交互方式,能够提供给使用者自然、高效的交互手段。由于手势检测识别仍处于新兴发展阶段,当前研究多关注技术层面的实现问题,对基于用户体验的人机交互研究相对不足[40]。在一些研究中,要求用户作出一些并不自然、难于记忆的手势作为输入,脱离了用户本身的要求。手势识别的发展除了需要计算机硬件、软件、网络等理性认知外,还需要设计心理学、人类工效学等多学科共同努力,在更高的层次上符合人类的认知和使用过程,能够以准确而简单的方式来描述用户的意图。今后的研究将会在此基础上,大量结合诸如心理学和社会学等学科知识,使手势检测识别技术的学科交叉特性更为突出。

4 结语

很多手势检测识别技术方法的灵感直接来源于人类本身观察事物、识别事物的方法。人通过对物体的色彩特征和运动规律记忆分类,并结合其他认识实践理解物体本身,对于计算机而言这整个过程也是类似的。手势检测识别技术的直接应用便是提供了新型的人机交互方式,但从长远来看,作为计算机视觉技术的一部分,它很大程度上推动了计算机对其他特征物体认识水平的发展。运用于手势检测识别中的大部分技术也能够运用于其他领域、其他物体的识别。可以说手势检测识别技术的出现,同时也赋予了计算机能够对运动物体进行记忆、分类和识别的能力,对人工智能的进一步发展有重大的意义。

隐马尔可夫模型、神经网络、动态时间调整等算法的发展和当今计算机水平的极速进步,不仅仅让人机交互方式更加智能和实用,更加促进了计算机视觉技术朝着精度更高、效率更快的方向发展,使计算机有能力处理更加复杂化的视觉信息,以致在某些方面的功能甚至比人眼更有优势,能识别出人的视觉上所不能观察到的细微信息,这也意味着,未来的计算机视觉不仅能够理解人手的运动轨迹,更有可能观察理解到不为人察觉理解而更为丰富的自然规律。

纵观近几年的发展,手势检测识别技术已经渐趋成熟,获得了很多可喜的进展,但它仍然是一个较为新兴的领域,亟待进一步的完善和深入研究。

计算机视觉技术 篇5

【摘要】本论文是基于啤酒空瓶检测进行研究,采用的是机器视觉技术。介绍了机器视觉技术的基本结构、啤酒瓶检测流程、软件实现方法及检测系统的结构。

【关键词】机器视觉;啤酒;空瓶;图像采集

一、啤酒空瓶检测系统介绍

啤酒生产厂商使用的啤酒瓶大多采用可以回收利用的啤酒瓶。回收的啤酒瓶可能非常脏或者存在许多缺陷,必须在灌装前进行清洗,清洗之后需要检测是否洗干净。随着啤酒工业的迅速发展,对啤酒生产效率的要求越来越高,啤酒生产速度可以达到每秒钟10瓶以上,单靠人工检测啤酒瓶是否干净效率低、漏检率高,检测人员很容易产生视疲劳。而基于机器视觉技术的啤酒空瓶检测能够实现速度快、精度高的自动化检测。

采用机器视觉系统的目的就是给机器或自动化生产线添加一套视觉系统,其原理是由计算机或图像处理器以及相关设备来模拟人的视觉行为,完成得到人的`视觉系统所得到的信息。人的视觉系统是由眼球、神经系统及大脑的视觉中枢构成,计算机视觉系统则是由图像采集系统、图像处理系统及信息综合分析处理系统构成。如图1所示为机器视觉系统基本结构。

二、啤酒空瓶检测流程

采用机器视觉技术啤酒空瓶检测流程如图2所示。被检啤酒瓶进入检测系统后首先触发输入光电开关,系统将开关信号传递给控制器,控制器通过编码器记录脉冲信号,经过固定的脉冲之后瓶身检测摄像机、瓶口检测摄像机、瓶底检测摄像机、瓶身内壁检测摄像机相继工作,分别对瓶身、瓶口、瓶底、瓶身内壁进行拍照。将拍得的图像信息送入图像处理模块进行的图像处理,控制系统判断空瓶图像是否合格。如果控制系统判断瓶子不合格,控制器会输出一个信号给踢出器。当次瓶运动到踢出器时,踢出器动作将次瓶击出。最后合格的啤酒瓶被送入下一道工序。

三、啤酒空瓶检测系统软件设计

图3为基于机器视觉技术啤酒空瓶检测系统软件框图。啤酒瓶视觉检测系统是高速实时控制系统,因而对软件要求速度快、控制及时。在连续检测时,PC机使用特殊的图像采集卡和CCD摄像机连续地对被检啤酒瓶进行准确地拍照,获得图像的数字化信息,并通过数字图像处理与判断模块获得啤酒瓶检测的决策信息,并将其传送给可编程控制器,完成对执行设备击出器的控制。在系统待命时,PC机接收用户的指令,完成对系统的软件参数配置、硬件的检测等,包括图像处理与判断模块参数的设置,传送系统电机转速设置,系统各个传感器检测,击出器检测,CCD摄像机检测等。

本系统选用PLC作为底层控制器,它通过I/O口与光电传感器,编码器,击出器,图像采集子系统等相连,通过图像采集子系统控制CCD摄像机的拍摄以及直接控制击出器的动作。同时PLC通过485总线与工控机连接,接收工控机传来的控制信息和系统参数等。

在系统运行过程中,PLC负责及时地通知图像采集子系统启动CCD摄像机,抓拍处于拍摄位置的空瓶。为了达到这一目的,需要使用光电传感器来检测空瓶的位置。在系统中使用了反射式光电传感器,这种光电传感器在没有接收到从反光板反射回来的光束时,就会输出触发信号。将光电传感器安装到CCD摄像机拍摄位置旁,把输出接到PLC的I/O输入口上。当没有空瓶经过时,光电传感器可以接收到反射光束,没有输出信号,而当有空瓶经过时,光电传感器无法接收到返回的光束,于是输出触发信号。PLC从输入口接收到此信号后,即可判定空瓶已到达拍摄位置,从I/O输出口输出启动信号给图像采集系统,启动CCD摄像机,摄像机及时进行拍摄,获取被检空瓶的图像。

在专门的信息处理模块对获取的图像信息进行分析处理后,将得出空瓶质量是否合格的结论。如果不合格,主控的工控机就会通过485总线发出控制命令,要求PLC控制击出器击出该空瓶。PLC在接到击出命令后,需要标定不合格空瓶,并追踪其位置,当不合格空瓶到达击出器所在位置时控制击器动作,击出不合格空瓶。为了确定需击出空瓶位置,在系统中使用一个编码器与驱动传送带的电机相连,当电机转动时,编码器相应发出脉冲。计算脉冲的数目,即可知道传送带运动的距离。这样一来,如果能测出不合格空瓶要运动多长距离才到达击出位置就能将其准确击出。可以在事先把编码器的脉冲输出与PLC的I/O输入口相连,然后在传送带上放一空瓶,让其依次经过检测位置和击出位置,PLC使用计数器记下此过程中脉冲的数目,这一数值即对应着检测位置和击出位置之间的距离。

四、结语

基于机器视觉的啤酒空瓶检测系统是我国目前啤酒行业急需的高科技设备之一。本系统从啤酒瓶视觉检测的相关基础技术、电气控制系统等进行了说明,是PLC、视觉系统、传感器、上位机的灵活结合应用,系统采用视觉传感器拍摄和处理实时图象,最终达到去除不合格啤酒瓶的目的。

我国的工业化、现代化还刚刚起步,图像和机器视觉技术的应用也刚刚开始。随着我国工业化进程的加快,工业体系的完善,劳动力成本的上升,参与国际竞争必定要求产品质量和生产效率不断提升、自动化程度不断提高,机器视觉技术的应用领域和应用水平也会随之发展,机器视觉技术将会大显身手。

参考文献

段峰,王耀南,刘焕军.基于机器视觉的智能空瓶检测机器人研究.仪器仪表学报,2004,25(5):624―627.

宋学勇,赵敏.机器视觉系统的关键技术.计算机世界,2007/7/23/第B11版.

董瑞翔.用机器视觉技术提高生产率.机器人技术与应用,2002(5).

关胜晓.机器视觉及其应用发展.自动化博览,2005(3).

钟权龙,许积飙.西门子机器视觉系统在烟草行业的应用.现代制造,2004(22).

基于计算机视觉的结构动位移测试 篇6

【关键词】图像处理;计算机视觉;立体视觉;结构位移测试

本文以立体视觉的基本原理为理论基础,采用两台商用消费级相机作为测试工具,开发了能灵活地进行多点、多维动位移测试的新手段。基于计算机视觉的结构位移测试手段包括以下关键技术环节,即相机标定、图像点跟踪及三维点重构。

1单相机标定

在计算机视觉中,相机标定是指确定相机参数的过程,这些参数能直接反映二维图像点与三维空间点间的计算关系。单个相机成像的过程在数学上被称为透视投影,通常可采用针孔模型来描述,其数学表达式为:

式中,为以齐次坐标形式表达的图像点二维坐标,为m对应的三维空间点的齐次坐标,λ为比例因子,P为投影矩阵。公式(2)中K为相机标定矩阵,K包含了5个相机内部参数、、、及,R为3×3的坐标变换的转动矩阵(含3个转角参数),t为坐标变换的平动列向量(含3个平动参数),I为3×3的单位阵。可见,若要标定单个相机的11个参数,则需至少6个已知点的空间和图像坐标值。

采用非量测型相机作为动位移测试工具,可避免量测型相机复雜的预先标定过程和昂贵的费用,同时,为了进一步提高现场位移测试的使用灵活性,本文利用计算机视觉中的平面相机标定手段来对相机进行现场标定。该相机标定手段采用转动黑白方格平板来进行单个相机的参数标定,每个小方格尺寸均为30×30mm。假定在某一固定焦距下,相机在不同角度拍摄了方格平板的n张图像,每张图像上有l个角点,考虑到K矩阵在标定过程中为不变量(焦距固定),且所有空间点均共面,根据公式(1)和(2)有:

2基于立体视觉的两相机立体标定

为了进一步优化相机参数的准确度,并为后续三维点的重构算法提供基本数据,上述单相机标定完成后仍需进行立体标。根据立体视觉的基本原理,某一空间点M在两相机平面的图像点分别为m1和m2,M C1 C2定义了一个极平面,l1和l2为两根极线(极平面与两图像平面的交线),则某一图像点m1对应的另一图像点m2一定落在另一极线l2上。可实际情况下,由于单相机标定存在的误差,C1、C2、m1、m2及M的共面特性并不一定满足。因此,可通过把两相机参数综合在一起进行立体标定的手段,进一步优化各相机的参数值,优化算法的目标函数如下:

式中上标s代表相机序号,其余各参数含义与上文相同。

3图像点跟踪

图像点跟踪是基于立体视觉的结构位移测试手段中的重要环节。在图像(或视频)分析过程中,点跟踪的精度会直接影响位移测试的最终结果。在实际测试中,本文采用两个黑方格组成的目标模板粘贴在所测结构的表面,方格尺寸均为30×30mm,两方格的交叉角点作为图像分析的跟踪点。图像点自动跟踪算法具体包括以下步骤:①采用边缘检测技术对目标方格进行二值图像处理;②利用二值图像骨架的交点来提取潜在的特征点;③通过图像匹配手段剔除掉明显非交叉角点的特征点;④在二值图像上提取最可能的角点,确定其图像坐标值;⑤最后,根据Harris角点检测(Harris corner detection)算法,以步骤;⑥所得角点坐标作为初始值,在原始真彩图像上进行角点优化计算,最终得到目标中两方格交叉角点的亚像素坐标值。

4三维点重构

针对本文采用的两相机位移测试手段,在两相机的所有标定参数和所拍摄的图像跟踪点都确定完成后,最后一个重要环节就是三维点重构,即得到实测结构上目标点的三维坐标值。三维点重构可采用计算机视觉中的非线性三角测量法进行。设三维空间点在两相机平面的图像点分别为、,由式(1)有:

其中为第j个相机投影矩阵P中第i行的行向量。式(7)为共含3各未知数的齐次方程组,则空间点的三维坐标即为其最小二乘解。根据立体视觉原理,将上述最小二乘解作为初始值,并通过下列目标函数进行非线性优化求解,进一步找到三维坐标的最优值,

5实验验证

为了验证基于计算机视觉的结构动位移测试手段的实际准确性,本文从不同振动形式的角度设计了平面简谐振动、悬臂梁自由振动和框架模型振动台实验。实验配备两台逐行扫描的高清摄像机,图像(视频)尺寸为1280×720,摄像机视频采用频率为30fps,10倍光学变焦能力(5.2~52mm)。两台相机的标定采用第1、2节的平面相机标定法。相机视频采用激光点进行同步。

5.1平面简谐振动实验

首先进行单向简谐振动实验,图像跟踪模板固定在振动台的表面,两台相机距离振动台约2m,相机之间的角度约30?。需要指出的是,根据前文所述的立体视觉原理,只要两台相机能够足够清晰地拍摄到模板的振动,相机与被测结构角度的影响并不重要。实验采用3种不同的焦距进行测试,分别为5.2mm、15.6mm和20.8mm。两台相机首先进行单相机标定和立体标定,标定结果显示,在静态情形下,空间点重构的误差在上述三种焦距设置下分别为:0.44mm、0.22mm和0.13mm。可见,在图像保证清晰的情况下,焦距越大,测试精度越高。

相机标定完成后,给振动台设定沿X方向的不同频率的简谐振动(一维正弦振动),相机采用三种不同焦距进行测试。振动频率设置分别为1Hz、2Hz和5Hz,振动幅度均为20mm。表1列出了实测动位移时程测试误差的均值和方差。从表1可见,各对应时刻点的测试结果均值基本在0.25~0.30mm之间,方差值随着结构振动频率的增加有所增大,其绝对值在0.37~0.91mm范围内。测试数据的方差增大的原因可归结于频率增大导致的图像模糊和点对应关系所存在的误差。

为了进一步验证立体视觉手段用于简谐位移测量的可靠性,设置振动台进行二维平面振动,振动幅值为100mm,频率为1Hz。平面振动的X坐标为正弦振动,Y坐标为相同幅度和频率的余弦振动。立体视觉的测试结果。实验结果显示立体视觉手段可以非常准确地用于二维动位移的测试,其测试误差最大为0.4mm。

5.2悬臂梁自由振动实验

悬臂梁长约530mm,材质为铝,方格目标模板粘贴离固定端约270mm处。实验采用的相机和相机标定手段均与上述简谐振动实验相同。测量时两台相机具悬臂梁的距离约为2.5m,两者间的角度约30?,两台相机的焦距设置为15.6mm。为了评估立体视觉结果的准确性,实验采用激光位移计进行同步测量。立体视觉手段的测量结果与激光位移计的测试结果十分吻合,在自由振动最大幅值处两者的测量误差仅为0.3mm。

5.3三层框架模型振动台实验

本次实验是将立体视觉手段用于振动台实验,目的是评估该手段测试结构在随机激励下动位移响应的准确性。三层框架模型由铝质构件组成,每层高0.38m,模型总体高度为1.2m。若干个方格目标模板粘贴在框架表面用于动位移的测量。振动台的激励采用的是1940年El Centro地震波(一维NS分量)。目标A和目标B在地震激励下的实测动位移时程,因此,与激光位移计的测试结果相比,立体视觉手段同样能够非常准确地捕捉模型的动位移响应。

6结论

本文提出了用于结构动位移非接触测量的立体视觉手段。该手段以计算机视觉理论为基本原理,主要包括以下三个关键技术:相机标定、图像点跟踪及三维点重构。文中提出的平面单相机标定和立体标定手段能够大大提高动位移现场测试中的灵活性和准确性。本文采用了简谐振动、自由振动和随机振动(振动台地震激励)实验来验证立体视觉手段进行结构动位移测试的可靠性。实验结果均显示该手段能够非常准确地测量结构的动位移响应,其测试精度在5Hz振动频率下可达到0.3mm,且在保证相机能够合适拍摄情况下,测试精度随着结构振动频率的降低、相机焦距设置的增大而提高。当然,相机硬件条件本身的提高(如高清晰度、高分辨率等)同样能够提高立体视觉手段的测试精度。总的来说,相比结构动位移的传统测试手段,本文提出的立体视觉手段具有能够灵活地进行多点、多维的非接触式测量的最大优点,其在土木工程结构位移测试领域有着较好的应用前景。

参考文献:

[1]刘志铭,方勇,张建慧,李铁军.“非量测数码相机在砼管片变形检测中的应用”测绘通报,2001(6), 40-41.

[2]王同军,叶俊勇,蒋昀赟,汪同庆.“基于机器视觉的轨道梁梁面破损状况的检测手段”,工业控制计算机,2006(19-11),52-53.

[3]項贻强,李春辉,白桦.“新型非接触式桥梁挠度和变形的检测手段”,中国市政工程 2010(5), 66-68.

作者简介:

计算机视觉技术 篇7

上述几种方法,都是在饲料、体液(如尿液、血清)、局部组织(如猪肝)上面做文章,对于消费者来说常见也是最关心的却是最后的环节———我买的这块猪肉是否含有瘦肉精却明显无能为力。如果可以制作一个直接面对上市猪肉检测,测量速度快,操作简单、价格适中的仪器,无疑会为瘦肉精残留检测领域带来一片新天地。据此提出构建一种基于数字图像处理与多元信息融合的智能检测仪器的设想,利用计算机视觉做检测,结合瘦肉精方面专家的经验作出判断,可望实现较准确、较直观的测量。

1 视觉系统总体研究方向

本文的研究方向是采用物理方法对猪肉试样进行检验,模仿人类感官检验专家经验,拟研究一种瘦肉精快速测定方法。该方法主要利用计算机视觉和取样传感器,对被测试样(猪肉)的肉品颜色、脂肪层厚度等相关信息进行模糊测定,并对信息进行对比和处理,从而得出被测对象的瘦肉精含量是否超标的结论。

数字视觉系统原理框图如图(1),主要完成图像的数字化,用计算机处理的图像。将一幅图像进行数字化的过程就是生成一个二维矩阵的过程,数字化过程包括三个步骤:扫描、采样和量化。扫描是对图像进行遍历的过程;采样是指在图像的像素位置上量测灰度值,从而获得图像的数字表示形式;量化则是将采样得到的灰度值转换为离散的整数值。

2 视觉系统信息采集部分的构想

视觉系统中的硬件采集设备,通常选择数码相机或工业摄像头。数码相机对于研究静止对象的某一细节更有优势,其内置的图像预处理硬件和软件,可以获取较满意的图像。本系统需要从一幅拍摄到的猪肉图像中提取关于肌肉红色度、脂肪层厚度等方面的特征作为进一步分析的依据,高分辨率的图像是完成准确提取的基本保证,因此应考虑采用600万像素以上的数码相机作为系统图像采集设备。考虑到图像高分辨率的要求,本系统可采用失真最小、支持最好的TIFF格式来保存采集到的图像信息。

针对图像处理的要求,本文提出了对拍摄到的猪肉图像进行处理与分析的简单流程为:首先对获得的数字图像信息进行简单预处理,包括灰度校正或规格化、几何畸变的校正、噪声消除等处理;然后将对象从背景中分离,结合测量目的进行特征选择与提取,这也是本系统研究的关键之一;如果有必要,还可以做图像描述方面的工作。

3 视觉系统研究的两个关键点

由图像所获得的数据量相当大,为了有效地实现分类识别,就要对原始数据进行变换,得到最能反映分类本质的特征,这就是特征选择和提取过程。本文中选择肌肉红色度和脂肪层厚度两方面作为区分正常猪肉与含有瘦肉精问题猪肉的主要特征。

计算机首先对来自数字视觉系统的图像信息做处理,获得关于肌肉红色度、脂肪层厚度两方面测量信息,并对信息进行对比和处理,从而得出被测对象的瘦肉精含量是否超标的结论。如图(2)所示。

肉品颜色C、脂肪层厚度T为主要测量信息;ωi (i=1……n)为相应的权值;V为阈值;称为激发函数或作用函数,一般具有非线性特性,常见的激发函数有阈值型函数、饱和型函数、高斯函数、S函数等;OP代表输出结果。

对于图像主要完成的是肌肉红色度、脂肪层厚度两方面特征的选择与提取,考虑到含有瘦肉精的猪肉样品暂时难以获得,本文首先研究如何提取正常猪肉的特征,然后对问题猪肉的特征进行测量,最后要研究的两种样品在数值或者描述上的差异。

3.1 肉片颜色的提取方法

当一幅数码照片被软件调入时,在工作空间里可以看到它的RGB矩阵并利用RGB矩阵对颜色作分析。研究发现,对于判定肌肉色度这点来说,R通道是最主要的影响因素,应从RGB矩阵中将R通道单独提取出来作分析。经研究,可针对样品瘦肉多次统计出肌肉部分所在的像素按R灰度值,在R灰度值140~200大区间内的各个小区间的比例,从而得到含瘦肉精样品的参考值,在实际检测过程中参考该参考值。

3.2 脂肪层厚度的提取方法

对于图像平面来说,脂肪层厚度对应着宽度。可考虑将脂肪层各处的宽度作积分,对应数学上即求得脂肪层的面积,然后再计算出平均宽度,这样也可以使误差得以减小。

4 计算机视觉系统研究的总结

食品安全是社会广泛关注的敏感问题,与消费者权益密切相关。本文针对当前影响较大的肉类食品瘦肉精残留问题,提出了一种基于数字图像处理与多元信息融合的瘦肉精快速检测方法。但很明显,瘦肉精的检测技术只是治标不治本,只有主管部门落实好防、治工作才能最终消除瘦肉精对人们的危害。

参考文献

[1]田村秀行编, 金喜子, 乔双译.计算机图像处理[M].北京:科学出版社, 2004.

[2]刘毓敏.数字图声信息处理技术[M].北京:科学出版社, 2003.

计算机视觉技术 篇8

1 计算机视觉图像精密测量的关键技术的具体形式

在以往的测量中,选择的测量方式还是完全采用机械的形式,但是在使用了计算机视觉图像精密测量后,完成了许多以往技术所不能达到的任务。在我们的研究中,计算机视觉图像测量的原理是通过摄像机将被处理的对象采集进行影像采集,在多个控制点的数据采集完成后,系统会自动将这些图像进行整合,得出相关的几何多变参数,再在计算机上以具体的数据显示出来,以供技术人员使用参照。

在上面所说的摄像机并不是我们通常意义上生活中使用的摄像机。它是一种可视化较强,表针比较敏感的测试仪。可以将视觉中的二维形态通过显影,记录在机械的光谱仪上,再将这种的二维图像做数学处理,有二阶矩阵转换为三阶矩阵,通过播放仪呈现出三维的影像。这时的图像变为立体化,更有层次感,效果上也有了明显的变化,这是一种显示方法。此外还有一种造价较高的仪器,我们不常使用,就是图像提取器。同样是采集控制点的数据,将数据整合在系统之内,然后对于原始的图像进行预处理,不再经过有曝光这个程序,将图像中关键点的坐标在整个内部轴面上体现出来,提取数据帧数,再运用机器的智能识别系统,对控制点的坐标进行数据分析,自动生成图形,这也可以用于精密测量。它的优点就是使用上极其的方面,基本只要架立仪器和打开开关,其他的工作机械系统都会自动的完成。使用的困难就是造价极其的高,不适合一般企业使用。在基于计算机视觉图像测量中使用上的原理如下:

1)计算出观察控制点到计算机视觉图像测量仪器的有效距离;

2)得出观察点到目标控制点之间的三维的运动几何参数;

3)推断出目标控制点在整个平面上的表面特征(大多时候要求形成立体视觉);

4)还通过观察可以判断出目标物体的几何坐标方位。

在整个计算机视觉图像精密测量的关键技术中最关键的元件就是压力应变电阻仪,这也是传感器的一部分。压力应变电阻仪的使用方式是将应力片粘贴在控制点位上,事先在物体表面打磨平整,清理干净后,涂抹丙酮试剂,在液体完全风干后就可以黏贴应力片,通过导线的联接,形成了一小段闭合的电路,时刻让计算机视觉图像系统可以感应到并作跟踪观察。因受到来自不同方面谐波的影响后,应力片会产生一定数值的电阻,在电路中,这些电阻会转化为电流,视觉图像系统接收到了电流后就会显示在仪表盘上相应的数据,我们就可以根据仪表盘中的数据记录测量中的数据,很好的解决了原始机械在使用过程中大量的做无用功所消耗资源的现象。传感器对每个应点都进行动态的测量,将数据模转换成现实中的图像,精确的成像可以测算出控制点的位置,用计算机视觉图像精密测量结合数据方面的相关的分析,得出施工中的可行性报告分析,减低了施工中的成本,将施工的预算控制在一个合理的范围之内。

当无法观察到控制点是,计算机视觉图像精密测量可以通过接收信号或是相关的频率波段来收集数据,不会因为以往测量的环境不好,距离太远,误差太大的影响。

2 计算机视觉图像精密测量的关键技术分析

在计算机视觉图像精密测量的关键技术中解决了很多以往很难完成的任务,但是在使用过程中还是发生了很多的问题。尤其在视觉图像的选择中,无法使用高帧数的图片显示,无法将计算机视觉图像精密测量的关键技术的优点发挥出来。我们就计算机视觉图像精密测量的关键技术中常见的问题进行讨论。

2.1 降低失误的概率

在很多的数据误差中,有一部分是出现在人为的因素上面。对于机器的不熟悉和操作中的疏忽都会在一定程度上对图像的视觉感模拟带来麻烦。对于网络设备的配置上,要经常性的学习,将配置在可能的情况下设置的更加合理和使用,保证网络连接系统的安全性。为防止更多因操作带来的误差,选用系统登入的制度,用户在通过识别后进入系统,在采集数据后,确定最终数据上又相关的再次确定的标识,系统对本身有的登录服务器和路由器有相关的资料解释,记录好实用操作的时间,及时备份。

2.2 对于权限的控制

权限控制是针对测量关键所提出的一种安全保护措施,它是在使用计算机视觉图像精密测量的关键技术中对用户和用户组赋予一定的权限,可以限制用户和用户组对目录、子目录、文件、打印机和其他共享资源的浏览和更改。图像中的运行服务器在停止的情况下可以做出不应答的操作指令,立刻关闭当前不适用的界面,加快系统的运行速度,对于每天的日志文件实时监控,一旦发现问题及时解决。对于数据终端的数据可采用可三维加密的方法,定时进行安全检测等手段来进一步加强系统的安全性。如果通过了加密通道,系统可以将数据自动的保存和转换为视图模式,对于数据的审计和运行可以同时进行,这样就可以很好的保证大地测量中的图像数据安全,利用防护墙将采集中废弃的数据革除在外,避免数值之间发生紊乱的现象,进一步改善计算机视觉图像精密测量的关键技术。

2.3 开启自动建立备份系统

计算机视觉图像精密测量的关键技术的完善中会常遇到系统突然崩溃或是图像受到严重干扰导致无法转换的一系列情况,发生这种情况最大的可能性就是系统在处理多组数据后无法重新还原成进入界面。这时为保证图片转换成数字的系统数据不丢失,我们对系统进行备份。选定固定的磁盘保存数据,定期将产生的数据(转换前的图像和转换后的数值)导出,保证程序的正常运行。当系统一旦发生错误,可以尽快的恢复数据的初始状态,为测量任务的完成争取更多的时间。我们还要减少信号源周围的干扰,定期的更新系统数据库,保持数据采集的稳定性,把摄像机记录出的数据节点保存在相应的技术图纸上,用这样的方式来知道测量工作。系统备份的数据还可以用于数据的对比,重复测量后得出的数据,系统会自动也备份的数据进行比对,发现误差值在规定以外,就会做出相应的预警,这样也能在工作中降低出现误差的概率。

3 计算机视觉图像精密测量的关键技术遇到的困难和使用前景

计算机视觉图像精密测量的关键技术作为一种新兴技术在使用时间上不过十几年,其使用的程度已经无法估算。正是因为它的简单、使用、精度高以及自动化能力卓越的特点受到了测量单位的广泛青睐。在测量方面的这些可靠性和稳定性也是有目共睹的。在土木和机械测量的行业计算机视觉图像精密测量的关键技术都会有广泛和良好的使用,前景也是十分的广阔。但是不容忽视该技术也有一些弊端。这项关键技术中涵盖的学科非常的多,涉及到的知识也很全面,一旦出现了机器的故障,在维修上还是一个很大的问题,如何很好的解决计算机视觉图像技术的相关核心问题就是当下亟待解决的。

我们都知道,人的眼睛是可以受到吱声的控制,想要完成观测是十分简单的,但是在计算机视觉图像技术中,毕竟是采取摄像机取景的模式,在取得的点位有的时候不是特别的有代表性,很难将这些问题具体化、形象化。达不到我们设计时的初衷。所以在这些模型的构建中和数据的转换上必须有严格的规定和要求,切不可盲目的实施测量,每项技术操作都要按规程来实施。

上文中也谈到了,计算机视觉图像精密测量的关键技术中最主要的构建是传感器,一个合理的传感器是体统的“心脏”,我们在仪器的操作中,不能时时刻刻对传感器进行检查,甚至这种高精度的元件在检查上也并不是一件简单的事情,通过不断的研究,将传感器的等级和使用方法上进行一定的创新也是一项科研任务。

4 结束语

在测量工程发展的今天,很多的测量技术已经离不了计算机视觉图像技术的辅助,该文中详细的谈到了基于计算机视觉图像精密测量的关键技术方面的研究,对于之中可能出现的一些问题也提出了相应的解决方案。测量工程中计算机视觉图像精密测量的关键技术可以很好的解决和完善测量中遇到的一些问题,但是也暴露出了很多的问题。

将基于计算机视觉图像精密测量的关键技术引入到测量工程中来,也是加强了工程建设的信息化水平。可以预见的是,在未来使用计算机视觉图像技术建立的测量模型会得到更多、更好的应用。但作为一个长期复杂的技术工程,在这个建设过程中定会有一些困难的出现。希望通过不断的发现问题、总结经验,让计算机视觉图像精密测量的关键技术在测量中作用发挥的更好。

摘要:随着国家基础建设的不断深入,建筑物在尺寸方面的精度要求也是越来越高,这样就给测量工程带来了很多的要求。在以往的测量中,大多采用是人工测量的方式,在误差的控制上选择的是多次测量,反复操作,再将多次测量的结果进行加权,最终得到相对准确的测量数值。这种方法在一定程度上是操作十分复杂,精度还很难达到设计要求,所以我们在测量工程中引进了计算机视觉图像精密测量这样的一个概念,下面我们就如何通过计算机视觉图像的关键技术进行有效的观测测量来进行讨论。

关键词:计算机视觉图像,精密测量,构造几何模型,信号源的接收

参考文献

[1]汤剑,周芳芹,杨继隆.计算机视觉图像系统的技术改造[J].机电产品开发与创新周刊,2005,14(18):33-36.

[2]段发阶,等.拔丝模孔形计算机视觉检测技术[J].光电工程时报,1996,23(13):189-190.

[3]马玉真,程殿彬,范文兵,等.计算机视觉检测技术的发展及应用研究[J].济南大学学报,2004,18(23):222-227.

计算机视觉技术 篇9

1 基于视觉的大型工地现场车辆自动监管总体方案设计

1.1 需求及其分析

在大型施工工地,由于出入现场的车辆繁多,所以需要对进出施工现场的车辆进行监管。监管的需求主要是两个部分,一个部分是对出入的车辆数目进行监控,即对进出的车辆数目进行统计,并且将大型工程车与小型机动车分类计数;另一个部分就是要控制施工现场车辆的速度,因为在施工现场的车速是严格限制的,因此,要对出入施工现场车辆速度进行测量,并当车辆出现超速行为时对其给予警告和抓拍。

1.2总体方案设计

根据上述大型工地自动高效监管车辆需求,首先采用高斯背景建模方法得到高精度的监管区域背景,然后运用背景差分结合二值化方法实时提取运动目标,再根据车辆的尺寸和形状特征识别车辆运动目标,并通过尺寸和形状滤波等方法对车辆进行分类,识别出工程大车和小型机动车。另外,对车辆速度进行了基于视觉的虚拟检测线法估计,当有车超速的时候予以抓拍和警告,即在路中心位置平行设置两条检测线,当车辆通过其间时,对车辆的数目进行统计并测量其速度。系统整体设计的检测算法流程图如图1所示。

2 车辆目标自动检测与监管研究

2.1车辆目标检测算法研究

对施工现场车辆进行基于计算机视觉的监管,首先要获取车辆目标,即在摄像头所获取的图像序列中实时地提取出运动目标,并判断其是否为车辆目标,然后才能更好地进行后续处理和监控。在施工现场的安装的固定摄像头监管范围内获得场景中背景相对位置基本保持不变,则背景图像的大小和位置在不同帧中将保持不变,同时背景图像在视频序列中变化不大,于是可以考虑使用背景差分法[1,2]即利用当前帧与当前背景图像相减提取运动目标。

背景差法准确检测运动目标前景的关键在于背景图像是否准确,如果背景图像较为准确,那么背景差法的精度就较高,因此在系统正式开始检测前,首先要得到一张精度较高的初始背景。考虑到高斯背景建模方法获取背景的方法精度较高,首先使用该方法获取第一张初始背景。

为了减少图像中冗余信息的干扰,减小计算量,首先将获得摄像机图片做灰度化处理,这样每个像素点处图片的信息即为其灰度值一个值,大大提高了效率。对于一个固定的场景,光照变化较为缓慢,可以认为场景中各个像素的灰度值是符合一个随机概率分布的。高斯分布是以某一均值为基线, 在其附近有不超过一定偏差的随机振荡[4]。对场景中每个像素点建立高斯模型, 对依次进入的帧进行高斯模型的拟合来提取背景图像。即对每一个像素利用高斯模板建模, 每一像素点都认为服从均值为μ和标准方差为σ的分布, 且每一点的高斯分布是独立的[5]。将背景中的每个像素按照高斯分布模型建模, 通过一段时间的训练获得其参数并不断更新其分布参数, 据此来获取初始背景。

根据高斯模型,可以认为对于一个背景灰度图像, 其特定像素灰度值的分布满足高斯分布, 即背景图像B(x ,y)点的灰度值满足式(1):

其中背景模型的每个像素属性包括2个参数:平均值μ和方差σ。

在通过高斯背景模型获取初始背景时,首先用第一帧的灰度值作为均值μ,初始方差σ设为0。然后对背景模型进行更新,是通过学习每一个新帧得到的。设μN(x,y)和σN(x,y)是第N帧后背景模型的均值和标准差, GN+1(x,y)是新的帧图像在(x,y)点的灰度值。对于给定的图像,用式(2)进行判断[6]:

随着时间的变化, 背景图像也会发生缓慢地变化, 这时要不断更新每个像素点的参数。更新的算法可以表示为式(3):

其中α是更新系数,0<α<1。

考虑到施工现场场景的复杂程度,取系统摄像头启动后的前150帧进行如上过程的高斯背景建模,得到一张较为精确的初始背景。在后续的系统工作过程中,为了实时使用背景差分法得到运动目标,要进行背景更新。然而系统正式监控后对实时性要求较高,如果不能快速的得到较为准确的当前背景那么背景差分法也就失去了意义,高斯背景建模更新背景虽然较为精确却需要付出较多的时间代价,实时性达不到要求。考虑到在初始时已经由高斯背景建模获得了较高质量的初始背景,因此在后续监控过程中,选用变速率的滑动平均法来更新背景,其更新可以用式(4)表示:

其中BN(x,y)表示当前帧背景图像在(x,y)处的灰度值,BN-1(x,y)表示前一帧图像在(x,y)处的灰度值,GN(x,y)为当前帧图像在(x,y)的灰度值,γ为可调更新速率,其值越大则更新速率越快,对环境变化的适应越快,环境变化对背景的影响体现的就越快。

在实时的得到更新后的当前背景之后,用当前帧与当前背景做差得到差分图像,再对其进行二值化操作[7]得到二值图,过程如式(5)所示:

其中T(x, y)表示二值化分割后图像在(x, y)处的灰度值,D(x, y)表示差分图像在(x,y)处的灰度值,T为二值化分割阈值,由实验得到经验值。

如此得到的二值图像,运动目标体现在二值图上为一块块白色区域,这些区域就为运动目标潜在区域,其中可能存在车辆目标。然而由于噪声的影响,白色区域也有可能是噪声点造成的,因此还要对得到的二值图像进行一些处理,首先对其进行3×3窗口的中值滤波[8]消除椒盐噪声,然后对其进行先腐蚀再膨胀的处理以得到更完整的前景运动目标。经过上述步骤得到的运动目标的二值图像如图2中(b)的大型白色前景块所示,图2中(a)为当前帧图像。得到二值化前景后,再对它进行轮廓搜索并且进行尺寸滤波滤除尺寸太小不可能为运动目标的前景轮廓[9],找出初步确定的运动目标在前景二值图中的轮廓,并划出它的外接矩形,图2(c)为找到的运动目标及划出其外接矩形表示。

(a)(b)(c)

2.2车辆分类识别和数目统计算法研究

得到的前景目标轮廓即为含有车辆目标的潜在区域,对这些前景目标进行一些处理以便找到其中车辆目标。为了更好地确定前景轮廓中运动目标的位置和大小,该文用其外接矩形框来示意运动目标的位置和大小。

对当前所有前景目标轮廓的外接矩形框进行搜索,在其外接矩形框范围内检测其面积大小、前景区域与矩形框区域面积比例、横向距离、纵向距离、竖直积分投影图特性。因为进出施工现场的基本上只有行人和车辆两种目标,如图3所示,其中(a)和(b)是车辆目标而(c)是人目标,可以很明显地看出其中车辆目标的横向和纵向距离远远大于人,同时车辆目标外接矩形的面积也远大于人外接矩形的面积,但是如果出现同时好几个人距离很近的一起行走会造成目标粘连,也就是可能几个行人会被认为是一个运动目标,即几个行人会被算作一个目标框在一个矩形框中,此时该框的横向距离、纵向距离和总面积都比较大,可能会被误判做车辆目标,所以这里还要进行再判断。

(a)(b)(c)

由于车辆目标较为方正的形状,分布较为集中,而几个人并排走导致的粘连目标在其外接矩形中是有较大空隙的,分布较为松散。我们用离散度来表征运动目标轮廓的聚散程度,车辆轮廓由于较为集中其离散度是小于行人目标粘连轮廓离散度的。根据目标前轮廓离散度是否达到阈值来判定是否为车。同时由于人的身体的特殊特征,可以发现行人目标的竖直积分投影图中有许多的波峰波谷,然而车目标的竖直积分投影图则较为平坦,所以再根据目标的竖直积分投影图的波峰波谷特征来附加判断该目标是车辆还是人。

判定目标为车辆之后,再根据其面积、其中前景点数、离散度来判断其是工程大车还是小型机动车。小型机动车面积较小、其中前景点数也较少且形状较为规则近似方形,即离散程度较小。而出入施工现场的工程车都多为大型车,如图3中所示,(a)为小型机动车,(b)为工程大车,与小型机动车相比工程大车其不仅面积较大、其中前景点数较多,且因为工程车是体积较大的重型卡车、水泥搅拌车或者是有吊臂等施工器材的施工车辆,导致其形状不规则有凹凸和空洞,那么其在图像中成像前景的离散程度也就大。得到车辆目标及其外接矩形后,根据上述依据判断出车辆的类型,为工程大车还是小型机动车。

对捕捉到的车辆目标进行跟踪,并且在车辆目标第一次出现时建立其属性列表,包括其行进方向、面积大小、车辆类型、初始位置等等信息,并在后续跟踪过程中将属性列表传递和完善,其中很重要的一点是根据其当前位置与初始位置的坐标关系来分析其行进方向是进入还是出去,并进入其属性列表中。在固定摄像机视场正对施工现场出入口得到的摄像机图像靠近中间部分划取两条平行的水平检测虚拟线用以计数,当非重检车辆目标外接矩形的中心到达两条检测线中间时对其进行计数,并根据其属性列表中方向信息来区分其计入进入车辆数还是出去车辆数,并将数据录入系统统计日志中,实时显示。

2.3车辆速度测量算法研究

在施工现场车辆的速度是被限制的,一般不能超过20-30km/h,速度过快会造成许多安全隐患,在施工现场是不被允许的。在视频监控现场车辆数目的同时,也可以通过得到的视频初步估计车辆的速度,以监控车辆的速度。

通常利用视频图像检测车辆速度的方法一般是虚拟线圈和虚拟检测线的方法,该文采用简单易行高效的虚拟检测线方法[10]。虚拟检测线一般是在摄像头得到的图像中设置两条虚拟的检测线,位置是固定的,同时在现实的场景中实际测得图片中设置的两条虚拟检测线的实际距离,再记录车辆前沿到达两条检测线的时间间隔,如此用两条检测线间的实际距离除以该时间间隔便可以得到车辆的速度估计值,其计算公式如式(6)所示:

其中v表示车辆的速度估计值,s为两条检测线之间的实际距离,t1为到达第一条检测线的时刻,t2为到达第二条检测线的时刻。

在本文算法中,由上文所述,为了进行车辆计数在摄像头得到的图像中部划取两条间距一定的平行水平检测线,所以可以同时将它们设置为虚拟检测线给车辆进行测速。为了更好的判断车速,准确的分别测得车辆到达两条检测线的时间十分重要,这里采用一种通过测量检测线上像素的灰度值方差来确定车辆是否到达检测线的方法,检测线上像素的灰度值方差的计算公式如式(7)所示:

其中d为检测线方差值,N为检测线上像素点数量,gi为检测线上第i个像素点的灰度值,g为检测线上所有像素点灰度值的平均灰度值。

由于路面的颜色是几乎单一的,呈现一种暗灰色,为路面的像素点的灰度值之间相差很小,当检测线上的像素均为路面元素时,整条检测线的像素灰度值方差是很小的,然而有车辆通过时由于车辆的横向距离较大且与地面灰度值存在较大差异,所以检测线上像素中除了路面元素还有许多车辆元素,其灰度值方差将会明显增大。这样我们可以考察两条检测线上像素灰度值的方差大小,当其灰度值方差大于设定经验阈值时认为有车辆到达检测线,计算其时间差,使用前述实际测得的两条检测线间距离除以该时间差,得到车辆的速度值。当车辆速度值超过规定速度时,系统保存车辆图片,并实时显示在前端屏幕予以警告。

3 实验结果与分析

对施工现场实拍的一段视频来检测本文算法,结果如表1所示。

通过表1可以得知,该文算法的检测正确率达到百分之88%以上,该方法可以达到检测施工现场出入车辆数目情况的目的,并且算法简单有效,尤其针对单个通过的大型工程车和较为规则的小型机动车有良好的检测效果。但与此同时,在表格中可以发现小型机动车有时会多检,是由于实际施工现场中有一些骑着三轮车的人与小型机动车在大小和形状上难以区分,使得骑着三轮车的人被误检做小型机动车;还有些时候是由于路面有水而车辆轧过的车辙众多导致前景出现大量干扰造成误检测,这还有待以后深入研究和解决。

4 结束语

计算机视觉技术在物流领域中的应用 篇10

计算机视觉自动识别技术是对物体图像进行采集、加工、处理和识别,作为一门交叉学科,具有自动化程度高,能快速获取大量信息,且易于与管理信息系统和工业控制系统集成,被广泛应用于工业、商业、物流等领域,近年来受到各相关行业的高度重视,并逐渐形成一种新的检测识别技术——计算机视觉在线识别系统(Automated Visual In-circuit Recognition System)。

1 计算机视觉原理

计算机视觉是指利用计算机模拟人眼的视觉功能,从图像或图像序列中提取信息,对三维景物进行形态和运动识别,以实现对人类视觉功能的扩展,解决许多工业、商业和物流产品图像自动检测识别问题,提高检测识别效率和生产过程自动化水平。

对于计算机视觉系统而言,输入的是表示三维景物投影的灰度图形阵列,结合相应算法,通过计算机图像处理,输出图像所表示景物的符号描述,这些描述是关于物体的类别和物体间的关系,也可以包括表面空间结构、表面物理特性等相关信息。

目前,计算机视觉技术的研究工作都是基于马尔(Marr)的视觉计算理论。Marr视觉计算理论认为,视觉感知可分为三个阶段:(1)早期视觉阶段,目的是提取物体景物的物理特性,包括物体边缘检测、双目立体匹配、形状纹理确定和光流计算等。(2)形成物体本征图像,是以视觉观察点为中心的坐标系中描述物体表面的各种特性,根据描述重建物体边界、按表面和体积分割景物,获得物体的本征图像。(3)物体三维模型重构,即用物体本征图像中所得到的表面信息建立适于视觉识别的三维形状描述,该描述与视觉点无关,是在以物体为中心的坐标系中,用各种符号和几何结构描述物体的三维结构和空间关系。

人类视觉的景物识别能力很强,但也存在障碍,一旦置于某种特殊环境,且景物识别能力会急剧下降,使景物识别的有效性和可靠性大幅度下降。计算机视觉也存在着同样的障碍,它主要表现在三个方面:(1)如何准确、高速(实时)地识别出目标景物;(2)如何有效地增大存储容量,以便容纳足够细节的目标图像;(3)如何有效地构造和组织可靠的识别算法,并且顺利地实现目标识别。

前两者相当于如人类大脑般的物质基础,计算机视觉技术需要解决的是如何在此物质基础上,应用高速阵列处理单元及算法(如神经网络、分维算法、小波变换等)上的新突破,以极少的计算量快速并行地实现某些功能。

计算机视觉涉及到人工智能、神经生物学、心理物理学、计算机科学、图像处理、图像理解、模式识别等多个领域,是一门多学科交叉的边缘科学,其中,图像处理、图像理解、模式识别与计算机视觉关系最为密切。图像处理,是把输入图像转换成具有所希望特性的另一幅图像,例如滤波、锐化增强等。模式识别,是根据图像的统计特性或结构信息把输入图像分成预定的类别。图像理解,是对于给定的图像,描述图像本身及图像所代表的景物。

图像处理和模式识别一般过程主要由五部分组成:图像采集输入、图像预处理、特征提取、图像匹配和图像输出。

计算机视觉系统的特点是高效、准确和低成本。尤其是在某些不适于人工作业的环境或人眼难以满足要求的场合,用计算机视觉来替代人工视觉,可以大大提高生产效率和生产的自动化程度,是实现计算机集成管理和集成控制的技术基础。

2 工业视觉系统架构

计算机视觉作为一门独立的学科正受到越来越广泛的重视,目前,计算机视觉已被大量应用于遥感图像分析、文字识别、医学图像处理、多媒体技术、图像数据库、工业检测与军事等方面。在工业领域中,计算机视觉的应用已从国防工业转向了民用工业,推动图象处理和计算机视觉检测技术广泛应用于工业领域。

工业视觉系统的应用大致可分为两个方向:工业视觉检测系统和工业机器人系统。工业视觉检测系统是利用视觉手段获取被测物体图像与预先已知标准进行比较,从而确定被测物体的质量状况。工业机器人系统是一种基于视觉测量并进行制导和控制的系统。比较而言,工业视觉检测系统比工业机器人系统有更广泛的应用。工业视觉系统组成如图3所示:

工业视觉系统与普通视觉系统的区别,不在于图像处理的理论方法,而在于图像处理实现的技术和工业应用环境的特殊要求。典型的工业视觉系统,在线工作于生产流水线中;被测物体是运动的,图像的获取与物体的运动同步进行;被测物体处于杂乱背景中,必须将其从中提取出来。此外,检测结果必须及时报告或传输给其它执行系统。这使得工业视觉系统必须包括一些必要的子系统:光源和光学成像系统;摄像与图像处理系统;用于控制摄像、图象处理、图象分析的计算机系统;与生产线的同步通讯系统;输出检测结果系统。

工业视觉系统的各子系统,随应用问题的不同,有很大差异。通常,根据求解的问题不同,系统设计必须分别选择或设计不同的子系统,最后集成为一个完整的系统。

3 计算机视觉技术在物流领域中的应用

配送中心设立主要目的是为了实现对上游资源的重新整合,完成物流中的配送,是位于物流节点上专门从事货物配送活动的经营组织或经营实体。建立物流配送中心的根本意义在于提高服务水平,降低成本和增加效益。配送中心信息系统是一个内部流程十分复杂,信息量十分大的系统。其基本功能包括:系统管理、出入库管理、订单管理、发货计划、采购管理、报表管理、退货管理等。配送中心内部的信息流动是交错复杂的,所以各部门模块之间也相互关联。

配送中心信息系统与各种自动化设备和自动化技术密切相关。配送中心作业流程的每一步操作都要准确、及时,快速准确的关键在于数据采集。如果没有高效率的数据采集技术,就不可能将信息快速、准确的传达给管理控制系统。目前,国内配送中心大多采用的是条码扫描技术作为仓库管理中货物流和信息流同步的主要载体。随着企业对信息化要求不断提高,条码技术和RFID技术在应用中存在着一些无法克服的缺点。

(1)成本高、易受外在环境干扰而影响信息正确识别。

(2)需要上游供应商在生产过程中提供相应配合,RFID目前无统一标准,编码标准体系复杂。

(3)仅靠条码和RFID技术,无法对商品外观完整性进行检测等。

从整个供应链物流作业过程看,商品在整个供应链上流动。操作中最为频繁的就是出/入库操作和配送中心商品自动识别和分拣,与条码和RFID技术相配合,商品在线图像识别技术在配送中心出/入库、自动分拣过程中的应用具有很好的扩展价值。基于图像识别商品出/入库及自动分拣原理如图5所示。

依托先进的自控技术、电子技术和信息技术,可实现资源最优化配置,使整个物流系统进入现代化的运行模式,降低运营成本、提高运营效率、提高经济效益,把现代物流配送智能化推进到一个崭新的阶段。

4 基于商品图像自动识别关键技术

由于物流业务过程复杂,配送中心所涉及商品品目繁多,与条码和RFID商品信息自动采集系统相配合,商品自动识别和自动分拣应用必须解决以下关键技术。

(1)在计算机视觉系统中,分辨率是一项重要指标。不同应用环境、被测物体的大小和精度差别对计算机视觉系统采样分辨率都有不同的要求。在空间方面,必须满足采样定理,保证获取图像空间的分辨率足以表征被测物的最小缺陷尺寸;在灰度方面,光源必须有足够的照度,摄像机必须有足够的灵敏度和动态范围。大多数应用中,采用普通512×512×8面阵CCD摄像机和线阵1 024摄像机就能满足需要。在某些要求极高的场合中,必须研制光学成像系统或增加多套摄像系统。

(2)图像的处理能力和速度是计算机视觉系统另一个重要指标。在典型的计算机视觉系统中,图象处理应当完成如下任务:精确的维数测量,抑制无用信号,增强有用信号,检测特征尺寸、位置和形状,识别特征表征的物体、标号或缺陷等,确定位置、方向并决策。完成上述任务需要相当大的计算量,只靠高性能通用计算机是无法完成的,需要专用的实时图象处理系统与之相配合。

图象处理系统具有实时特征提取能力,是保证能实时进行图像分析的前提。通用计算机用于实时读取来自图象处理系统的特征数据,并在此基础上完成:特征数据分析、识别和判决、控制图象处理系统的工作流程、与生产线同步通讯、检测结果实时向外输送报告等工作。特征数据分析是较高级处理,需要特定知识的支持,但在计算机视觉系统中,图象分析的时间很有限,因此,研究简单有效算法非常重要。

由此可见,计算机视觉系统是一个集成系统,是一个面向特定问题的系统,它受到分辨率和图像处理速度两个条件的约束。计算机视觉系统要在满足这两者条件下,对每个子系统进行调整和平衡,以求得最好的性能价格比。

摘要:在计算机视觉理论和原理分析基础上,对计算机图像处理及识别技术在物流配送中心中的应用进行了探讨,介绍了该系统的硬软件结构,对应用中的关键技术进行了分析。准确识别商品包装外观,快速进行商品自动分拣,满足流水线上实时性要求,成为决定物流配送中心商品在线检测与识别系统获得成功的关键。

关键词:计算机视觉,图像处理,物流配送

参考文献

[1]连国栋,蒋挺.利用图象处理技术进行空心光纤内外径测量[J].计算机测量与控制,2003,11(8):569-573.

[2]郁梅,蒋刚毅,郁伯康,等.智能交通系统中计算机视觉技术的应用[J].计算机工程与应用,2001(10):101-103.

[3]王洪君,孙筱雯,石钧,等.基于自适应邻域对比度增强的直方图均衡算法[J].计算机应用,2003,6(23):124-126.

[4]张汗灵,郝重阳.基于特征的自动图像配准算法[J].视频技术应用与工程,2003,9(255):80-83.

[5]张文景,张文渊,苏健锋,等.计算机视觉检测技术及其在机械零件检测中的应用[J].上海交通大学学报,1999,33(5):635-638.

[6]王缅,刘文清.具有快速、可靠机器视觉的智能传感器[J].光电子技术与信息,2000,13(6):28-30.

上一篇:肠道杆菌下一篇:土木类高职院校