图像量化

2024-06-19

图像量化(精选七篇)

图像量化 篇1

关键词:数字水印,盲水印,量化公式,最优化分析

0 引言

随着信息网络技术和数字媒体技术的发展、普及和应用,进行共享和开放的数字信息越来越丰富,但同时,数字信息被非法复制、使用与篡改的现象也越来越突出。为解决这一问题,数字水印技术孕育而生,并发展成为了实现数字信息内容认证、版权保护等方面的一个有效手段。

图像的数字水印方法是数字水印技术中研究最多的部分,并且其近年来发展迅速,到目前已有了大量不同的方法。总的来说,图像数字水印方法可分为两类:一是在提取或检测水印时需要原始图像或者原始水印的非盲水印方法,二是提取或检测水印时无需原始信息的盲水印方法。相比非盲水印方法,盲水印方法要更为实用,因而它将是今后图像数字水印方法研究和发展的趋势。

量化,是实现盲水印方法的一种非常有效的策略。当前已有了大量不同的基于量化的图像盲水印方法。在这些方法所采用的量化公式中,存在多种不同的形式。而在这些不同形式的量化公式中,有优有劣、有相互等价。其中的许多方法,由于没有采用最优的量化公式进行水印的嵌入和提取,使得这些方法本应可以具有更好的性能和效果却打了折扣。为此,本文对这些不同形式的量化公式进行分析与比较,以得出其中最优的量化公式,为图像量化水印方法的优化设计提供强有力的支撑。

1 量化公式的描述

基于量化的图像数字水印方法一般以有意义的二值图像作为水印。这类方法通过对图像经整体变换或分块变换后的系数根据量化公式修改其特定的系数或系数表达式的值来实现水印的嵌入。其采用的量化公式,把待嵌入水印的系数或系数表达式的值,根据量化步长和其相应的一个bit水印信息(1或0)量化为奇数或偶数以嵌入水印。

量化公式分为水印的嵌入公式和提取公式。为方便公式的描述,本文把作为水印的二值图像用非负列向量来表示。为此,记向量w=(wi)l和分别表示待嵌入的原始水印和提取出的水印,其中,l表示二值水印图像的像素总数。设pi和分别表示待嵌入和已嵌入一个bit水印信息wi的系数或系数表达式值,其中,i=,1,2,l。于是,当前图像量化水印方法中采用的不同形式的几种量化公式可归纳描述如下:

1)文献[1-3]等采用的水印嵌入公式为

其中:iλ=round(pi/Δ),round为舍入取整函数,mod为模运算函数,Δ为量化步长。其相应的水印提取公式为

式中:,floor为向下取整函数。

2)文献[4-6]等采用的水印嵌入公式为

其中:ki=floor(pi/δ),ri=pi/δ-ki,δ为量化步长。其相应的水印提取公式为

式中。

3)文献[7-10]等采用的水印嵌入公式为

其中:zi=mod(pi,Q),Q为量化步长。其相应的水印提取公式为

其中。

4)文献[11-13]等采用的水印嵌入公式为

其中:si=floor(pi/d),d为量化步长。其相应的水印提取公式为

式中。

5)文献[14-17]等采用的水印嵌入公式为

其中ni=round(piq),q为量化步长。其相应的水印提取公式为

2 量化公式最优化的理论分析

2.1 等价性分析

上述5种量化公式的形式各不相同,但事实上,式(1)、式(2),与式(3)、式(4),以及式(5)、式(6)是完全等价的。下面将对这三对量化公式进行等价性分析和证明。

首先,证明当量化步长Δ=δ时式(1)、式(2)与式(3)、式(4)的等价性。注意到,对任意实数x有

于是,当Δ=δ时,对式(1)中的λi有λ3=floor(pi/δ+1/2),再结合ki=floor(pi/δ),ri=pi/δ-ki,则:

将上式及Δ=δ代入式(1),则式(1)变化为

此即为式(3)。所以,式(1)等价于式(3)。对于式(2)和(4),显然当Δ=δ时两者完全相同。这样,就证明了式(1)、式(2)等价于式(3)、式(4)。

接着,证明当Q=2δ时式(3)、式(4)与式(5)、式(6)的等价性。记zi′=mod(pi,δ),则当Q=2δ时,有

再结合pi-z'i=pi-mod(pi,δ)=δfloor(pi/δ)=kiδ及z'i/δ=(pi-kiδ)/δ=pi/δ-ki=ki=ri,则式(5)变为

此即证明了式(3)等价于式(5)。对于式(4)和(6),由于,因而

于是,当时,有;当时,有。此即可知式(4)等价于式(6)。

这样,就证明了式(1)、式(2),与式(3)、式(4),以及式(5)、式(6)之间的等价性。为方便描述,在本文余下部分将以式(1)、式(2)代表这类等价的量化公式。

2.2 最优性分析

式(1)、式(2),与式(7)、式(8),以及式(9)、式(10)相互之间不等价,事实上,式(7)、式(8)和式(9)、式(10)实现的效果都要比式(1)、式(2)实现的效果差。

下面,本文将在式(2)、式(8)和式(10)实现相同效果的前提下,对式(1)、式(7)和式(9)实现的效果在统计意义上进行分析与比较。这里的相同效果是指,利用这些提取公式提取水印的稳健性相同。而量化水印方法的稳健性强弱则由量化步长的取值大小所决定。因此,当量化步长Δ=d=q时,式(2)、式(8)和式(10)可实现相同的效果。为方便描述,量化步长Δ、d、q统一用δ来表示。

一般的,我们以峰值信噪比(PSNR)作为评价水印嵌入公式实现的效果(即原始图像嵌入水印后的图像视觉效果)的客观评价。设原始图像为A、嵌入水印后的图像为,则PSNR定义为

其中:NM×为原始图像的尺寸、L为原始图像的最大灰度值(比如对于256级的灰度图像,L即为255)。

从PSNR的定义式,我们可以看到,越小(大)则PSNR越大(小)。这样,评价水印嵌入公式实现的效果就转化为看水印嵌入后对图像改变量(即图像差值的F-范数)的大小。由于图像数字水印方法一般采用正交变换(如DFT、DCT、DWT、SVD等),因而根据F-范数的正交不变性,有

于是,评价水印嵌入公式实现的效果,又可转化为用来度量。

我们知道,评价一个数字水印方法的好坏,不能仅仅只看几个实例,而是要从总体上来看,也就是要对原始图像和水印进行一般化。当我们对原始图像进行一般化后,pi即可视为随机变量,于是就有

这样,评价水印嵌入公式实现的效果,又转化为用数学期望来度量了。

根据统计分布规律,pi减去由量化步长δ进行量化取整后所得的尾数pi-δfloor(pi/δ)服从区间[,0δ)上的均匀分布。更一般的,对任意常数C,pi-δfloor(pi/δ)+C服从区间[C,δ+C)上的均匀分布。再结合式(11),可得知pi-δround(pi/δ)+C服从区间[-δ/2+C,δ/2+C)上的均匀分布。

又因pi-(λi-1/2)δ服从区间[,0δ)上的均匀分布,pi-(λi+1/)2δ服从区间[-δ,0)上的均匀分布,从而有式(1)对应的数学期望:

又因pi-(si+3/2)δ服从区间[-3δ/,2-δ/)2上的均匀分布,pi-(si+1/2)δ服从区间[-δ/,2δ/)2上的均匀分布,从而有式(7)对应的数学期望

又因pi-niδ服从区间[-δ/,2δ/)2上的均匀分布,pi-(ni+)1δ服从区间[-3δ/,2-δ/2)上的均匀分布,从而有式(9)对应的数学期望:

综上,有E1

即,在一般情况下,利用式(7)或式(9)实现水印嵌入后对图像的改变量将大于式(1)实现的,也就是说,式(7)、式(8)或式(9)、式(10)实现的效果要比式(1)、式(2)实现的效果差。

另外,可以看到:式(5)非常繁杂,式(3)分段的条件有3个并且较为复杂,而式(1)分段的条件仅有2个并且非常简洁。显然,由形式、计算量等方面来看,式(1)、式(2)要更优于式(3)、式(4)和式(5)、式(6)。再结合上述的最优性分析与比较,可知:量化公式式(1)~式(10)中,式(1)、式(2)最优。

此外,由于水印是0~1二值的,因而水印的量化嵌入和提取公式最优化的分段条件应为2个,而式(1)、式(2)恰好仅为2个。此即说明,在量化公式中,式(1)、式(2)已达到了最优。

3 量化公式最优化的实验验证

下面将以实验来验证水印量化嵌入和提取公式式(1)、式(2)和式(7)、式(8)以及式(9)、式(10)中式(1)、式(2)的最优性。

本文实验以512×512大小的256级灰度图像作为原始图像(如图1(a)、1(b)、1(c)),以64×64大小的二值图像作为水印(如图1(d)),并以文献[4,13,16]的3种水印方法为基础,将其所采用的量化嵌入和提取公式分别替换为式(1)、式(2)和式(7)、式(8)以及式(9)、式(10)来进行实验,其相应的图像分块大小取为8×8。

3.1 水印透明性验证

首先,将在式(2)、式(8)和式(10)实现相同效果,即相同的水印稳健性的前提下,对式(1)、式(7)和式(9)实现的效果,即水印的透明性进行验证。为此,各个公式均取相同的量化步长32。

为方便描述和比较,本文以PSNR作为原始图像嵌入水印后图像的水印透明性评价。表1给出了3个原始图像基于文献[4,13,16]的3种水印方法分别采用3种量化公式获得的含水印图像的PSNR值。可以看到,式(1)、式(2)相应于每个原始图像的PSNR值均为最大,即水印透明性最好。此即表明,式(1)、式(2)实现的效果最好,这与理论分析得到的结论完全相符。

3.2 水印稳健性验证

接着,将在式(1)、式(7)和式(9)实现相同效果,即相同的水印透明性的前提下,对式(2)、式(8)和式(10)实现的效果,即水印的稳健性进行验证。

为方便描述和比较,本文以文献[18]提出的两极化相关值来度量从含水印图像中提取出的水印与原始水印的相似程度,并以此来评价水印的稳健性。对于二值水印,两极化相关值ρ定义为

其中e=(1,1,…,1)T为与水印w维数相同的向量。

表2给出了基于文献[4,13,16]的3种水印方法分别采用3种量化公式获得的3个含水印图像受各类攻击后提取出的水印的ρ值。可以看到,式(1)、式(2)相应于每个含水印图像受各类攻击后提取出的水印的ρ值均为最大,即水印稳健性最强。此结果表明,式(1)、式(2)实现的效果最好,这同样与理论分析得到的结论完全相符。

4 结论

本文对当前不同形式的多种量化公式,在严格的理论上进行了等价性分析和在统计意义上进行了最优性分析并以实验进行了验证,得出了其中最优的量化公式为式(1)、式(2)。

基于矢量量化的颜色图像检索方法 篇2

基于内容的图像检索 (CBIR) 已经成为一个非常活跃的研究领域。CBIR系统通过提取图像自身的视觉内容作为检索特征, 在图像数据库中查找与用户所提交样本图像在内容上一致或相似的图像集, 通过对图像底层特征的比较来实现检索。目前基于内容的图像检索[1]一般采用的底层视觉特征有颜色[2,3]、纹理[4]、形状[5]信息等。

颜色是彩色图像最底层、最直观的特征, 通常对噪声, 图像质量的退化、尺寸、分辨率和方向等的变化具有很强的鲁棒性, 被广泛应用于图像检索中。传统的基于颜色的图像检索方法主要采用颜色直方图, 其核心思想是在颜色空间中采用一定的量化方法对颜色进行量化, 然后统计每一个量化通道在整幅图像中所占的比重。这种方法计算简单, 但不能描述颜色的空间分布情况。矢量量化在图像检索领域应用广泛, LBG算法[6]是矢量量化技术中的经典算法。文献[7]采用LBG算法量化颜色空间, 用颜色转移矩阵描述颜色的空间分布, 检索效率有一定改善。但LBG算法存在两大缺点:一是对初始码书非常敏感, 初始码书的选取, 不但影响递推的收敛速度, 而且影响码书的性能;二是训练时间长, 不能自适应地跟踪图像信源的统计特性。因此, 用其量化颜色空间, 误差较大, 颜色量化不精确。文献[8]提出的竞争学习算法 (CL算法) , 通过每一次训练更新获胜码字或按一定规则更新所有码字, 较为有效地提高了码书质量, 但训练时初始码书的选择较为重要。基于全图的检索方法无法很好地包含颜色的空间分布信息, 突出图像重要部分, 文献[9]将图像进行均匀分块, 再对分块主颜色进行匹配。文献[10]根据图像中心部分的重要性, 对图像进行重叠分块, 再对图像各个分块采用不同的加权系数以进行颜色特征匹配, 相对于全局算法, 检索效率有所提高。但此分块法容易破坏图像的完整性, 使颜色信息不够丰富。

针对上述问题, 提出一种基于矢量量化的全局和局部感兴趣区域相结合的图像检索方法:把采用矢量范数排序的方法得到的码书作为初始码书, 再用基于神经网络的竞争学习算法训练初始码书, 以改善码书性能, 并对图像进行一定程度的分割, 划分出重要区域。算法克服了文献[7]对初始码书敏感、码书训练不精确以及颜色空间分布描述不够、不能有效限制背景信息的缺点。有效地聚类了相似矢量, 构造出鲁棒性较好的码书, 突出局部特征, 同时防止过分划分使得颜色信息不完整。通过实验, 验证了算法的码书性能好, 颜色量化准确, 匹配效果较好, 是进一步提高检索效率的有效方法。

2 相关理论

2.1 矢量量化及CL算法

矢量量化的过程可以看成是一个从k维空间Rk到其中一个有限子集Y的映射。对k×M个值组成的序列{xij} (i=1, 2, …, M;j=1, 2, …, k) , 每k个为一组, 共分为M组, 其中每组为一个k维矢量。把k维空间Rk无遗漏地划分为N个互不相交的子空间 (胞腔) R1, R2, …, RN, 在每一个子空间Ri中找出一个代表矢量Yi={Yi1, Yi2, …, Yik}, Yi则称为码字, 各个码字的集合为Y={Y1, Y2, …, YN}, Y则称为码书, 码字的个数N即为码书的尺寸。矢量量化原理示意图如图1所示。

神经网络的方法, 由于其高效的非线性逼近或聚类的特点, 已经成功运用到矢量量化码书设计中。这类算法利用神经网络强大的学习功能, 在学习的过程中不断更新获胜的神经元 (码字) , 且学习速度 (收敛速率) 可由学习率等控制因子控制。基于神经网络的竞争学习算法 (CL) 是一种简单的硬判决聚类算法, 在学习过程中只更新获胜的码字, 并不断地调整学习率, 使算法逐渐收敛。相对于LBG算法训练一轮更新一次码字, CL算法每训练一个矢量更新一次码字, 训练出来的码书性能更好。

2.2 颜色索引直方图

HSV模型更接近于人对颜色的视觉感知, 它把彩色像素值表示为三种属性:色调、饱和度、亮度, 与人的观察方式相一致, 选择HSV空间为量化空间更为合理。

将图像从RGB颜色空间转换到HSV颜色空间, 分别提取三个颜色分量并对图像进行分块, 采用CL算法训练初始码书。具体算法步骤如下:

1) 设训练矢量集为X={X1, X2, …, XM}, 待设计码书为Y={Y1, Y2, …, YN}, 迭代次数为t, 并采用平方误差测度。

2) 对于N个初始码本Yj (0) 且Xl∈X, 计算误差测度为

3) 选择最小误差的码字Yi, 其中di=min (dj) , j=1, 2, …, N。

4) 按式 (2) 调整获胜单元码字为

式中:a (t) 为学习速率, 这里取a (t) =1/t。

5) 当满足误差要求或指定迭代次数时停止训练, 所得Y作为最终码书;否则, 继续步骤2) 至4) 。

经上述颜色聚类过程, 三维彩色图像可以分别获得三本码书Hi, Si, Vi, 将它们合并为一个特征矢量C, C= (Hi, Si, Vi) , i=1, 2, …, N。每个像素块通过一个码字的索引号来表征, 并获得HSV空间的颜色码字索引表ω= (1, 2, …, i, …, N) , 它相当于一个包含N种颜色的查色表。根据矢量量化码表, 通过统计各码字出现的频率及所占百分比, 得到彩色图像的颜色索引直方图H (v1, v2, …, vi, …, vN) 。其中, vi表示索引号为i的码字频率百分比, N为码书尺寸。

2.3 主颜色转移矩阵[7]

矢量量化码表共N个码字, 也即量化成了N种颜色。根据此颜色集提取图像的主颜色, 并得到图像主颜色转移矩阵, 主颜色转移矩阵形成的简要过程如图2所示。

具体方法描述如下:

1) 将图像分成m×n块, 每一块均包含s×t个像素。

2) 得出每一块的主颜色索引值, 也就是该块出现次数最多的索引值。这样就形成了一个二维的主颜色矩阵, 其大小为m×n, 记为A={ai, j} (i=1, 2, …m;j=1, 2, …n) 。

3) 建立一个N×N的矩阵P, 各元素的初始值为0。将矩阵A按Z字形进行扫描, 设ai, j和ap, q为扫描序列中一对相继出现的颜色 (ai, j在ap, q前面) , 则P中相应元素Pai, j, ap, q自增1, 如此反复, 直到扫描完成。

4) 建立一个N×N的矩阵D, 其元素的计算公式为

式中:D即为所提取的图像主颜色转移矩阵。

由以上步骤和图2可以看出颜色转移矩阵描述了图像中相邻两块的颜色情况, 从一定程度上反映了图像的颜色空间分布。

3 本文算法

颜色空间的合理量化, 对图像检索的精确度有较大影响。采用矢量量化的方法量化颜色空间, 训练质量较好的码书尤为重要。人们在检索图像时对整个画面的重视程度是不同的, 突出图像中心主体部分, 限制背景范围对检索精度的提高有一定影响。针对以上问题, 本文采用基于矢量范数排序的方法对训练矢量运用分段选取初始码字, 算法使用了矢量的特征量, 脱离了对图像结构因素的依赖, 形成鲁棒性较好的初始码书;采用CL算法训练码书, 在学习过程中只更新获胜的码字, 同时不断地调整学习率, 以获得性能较好的码书;并提取局部中心感兴趣区域, 与全局特征加权检索。检索过程如图3所示。

具体检索过程如下:

1) 选取一幅色彩丰富且分布均匀的图像, 将图像从RGB颜色空间转换到HSV颜色空间, 并将其H, S, V三个颜色分量抽取出来。

2) 选择相邻且互不重叠的4×4像素点作为训练矢量。

3) 采用矢量范数排序的方法形成初始码书:设码书大小为N, 计算各训练矢量的范数normi (i=1, 2, …, L) , 将normi按升序排列, 每隔个矢量抽取一个作为初始码字, 以形成尺寸为N的初始码书。

4) 在图像库各类图像中选取色彩迥异的24幅图像作为训练图像集, 通过CL算法对像素块聚类, 三维彩色图像可以分别获得三本码书Hi, Si, Vi。将它们合并为一个特征矢量C (最终码书) , C= (Hi, Si, Vi) , i=1, 2, …, N。

5) 记录各码字索引值, 码字索引的集合相当于一个包含种N颜色的查色表。

6) 将图像按图4进行分块, 提取中心区域为感兴趣区域 (阴影部分) 。

7) 将待检索图像和图像库中图像分成和码字相同大小的像素块, 在查色表的基础上, 得到图像全局和局部中心区域的索引直方图及主颜色转移矩阵。设待检索图像为A, 图像库中任意一幅图像为B, 其感兴趣区域分别为a和b, 则相应的索引直方图和主颜色转移矩阵为:HA, HB, Ha, Hb, DA, DB, Da, Db。

8) 全局和局部颜色特征加权检索。采用式 (4) 和式 (5) 分别计算全局相似度Simi1和局部相似度Simi2, 它们的相似性度量采用欧氏距离, 然后进行加权。

式中:ω1, ω2∈[0, 1], ω1+ω2=1。

式中:ω3, ω4∈[0, 1], ω3+ω4=1。

式中:p, q∈[0, 1], p+q=1。

9) 将合成的相似度Similar按升序排列, 返回检索结果。

4 实验结果

采用Li[11]提供的图像数据库, 选取其中420幅256×384或者384×256的彩色图像形成检索图像库, 共有人物、恐龙、花朵、草原、海滩、山峰和汽车共7类图像, 每类包含60幅, 用查准率来衡量其检索性能。

查准率为

式中:RA表示正确检索出的相关图像数量;RB表示检索出的无关图像数量。

具体测试时, 不同类别的图像各取10幅构成测试图像集, 每幅图像依次返回6幅、12幅……60幅的检索图像。在不同返回数目情况下, 分别计算各类样本图像的平均查准率作为该类别的查准率。表1给出了文献[7]和本文算法在返回图像数目为12, 24, 36, 48的情况下, 每类图像的查准率。

%

从表1可以看出, 在返回图像数目较少时, 文献[7]算法和本文算法的查准率都相对较高, 随着返回图像数目的增加, 查准率都有所下降。对于颜色分布较为集中的图像, 如人物、恐龙、花等, 加入局部感兴趣区域之后, 在返回不同图像数目时, 检索效率均有明显提高。对于海滩、山峰这两类颜色分布相对较散的图像, 加入局部感兴趣区域后, 检索效率有一些起伏, 如海滩在返回24幅图像时, 山峰在返回36幅和48幅时, 本文检索效率有所下降, 这是因为对于颜色分布不集中的图像, 感兴趣的区域不一定就在图像中心部分。另外, 由于采用矢量范数排序的方法形成初始码书, 并用基于神经网络的方法进行优化, 使得颜色量化更为准确, 在返回12幅图像及其他情况下检索效率还是有所提高。对于图像库整体的查准率, 图5给出了相应结果。

在返回图像数目相同的情况下, 计算7类图像的平均查准率, 作为在该返回数目下图像库的整体查准率, 以此对算法进行综合评价。由于各语义类别的图像有很大不同, 每个人对图像的感受和理解也都不同, 所以查询准确率有一定的波动。从整体效果来看, 本文提出的检索算法性能较文献[7]更优。图6和图7显示的是一幅查询例图为花的检索结果, 第1幅为查询例图, 第2~24幅为检索结果图。

5 结束语

本文提出一种基于矢量量化的颜色检索算法, 算法通过训练码书, 将颜色空间进行更为精确的聚类划分。在全局特征的基础上, 对中心区域加权, 既在一定程度上反映了图像颜色分布情况, 又突出了重要区域, 限制了背景信息。与现有的颜色算法比较, 该算法具有较明显的优势, 是一种有效的图像检索算法。

摘要:针对颜色空间量化和直方图检索存在的问题, 提出一种新的颜色图像检索方法。该方法通过对颜色空间进行矢量量化, 使量化结果更接近人的感知;在提取分块主颜色的基础上引入颜色转移矩阵, 以描述颜色的空间分布情况;并将索引直方图和颜色转移矩阵两种颜色特征相结合, 对图像整体和局部感兴趣区域赋以不同的权值, 使局部图像特征矢量增强, 从而提高检索精度。实验表明, 该方法能较有效地提高检索效率。

关键词:图像检索,矢量量化,感兴趣区域,索引直方图

参考文献

[1]汪炎龙, 李金龙, 刘金华, 等.基于内容的图像检索方法[J].电视技术, 2005, 29 (4) :9-12.

[2]SWAIN M, BALLARD D.Indexing via color histograms[J].IEEE Trans.International Journal of Computer Vision, 1990, 7 (1) :390-393.

[3]高美真, 申艳梅.基于颜色直方图的图像检索技术[J].微电子学与计算机, 2008, 25 (4) :25-27.

[4]肖淑萍, 陈一栋, 杨建雄.基于小波变换和支持向量机的彩色纹理识别[J].微电子学与计算机, 2010, 27 (7) :117-120.

[5]蔡友杰, 陈秀宏.基于形态学的边缘检测[J].计算机应用与软件, 2009, 26 (5) :213-214.

[6]LINDE Y, BUZO A, GRAY R.An algorithm for vector quantizer design[J].IEEE Trans.Communications, 1980, 28 (1) :84-95.

[7]陈善学, 张艳, 尹雪娇, 等.矢量量化用于颜色图像检索的改进方法[J].电子技术应用, 2012, 38 (5) :125-127.

[8]YAIR E, ZEGER K, GERSHO A.Competitive learning and soft competition for vector quantizer design[J].IEEE Trans.Signal Processing, 1992, 40 (2) :294-309.

[9]郑秋海, 晁永胜, 任平红, 等.基于分块主颜色的图像检索方法研究与实现[J].中国石油大学学报:自然科学版, 2006, 30 (2) :143-146.

[10]林克正, 张彩华, 刘丕娥.基于分块主颜色匹配的图像检索[J].计算机工程, 2010, 36 (13) :186-188.

基于特征融合的核量化图像分类方法 篇3

图像分类是机器视觉的一个重要的研究方向, 在基于图像内容的目标提取、场景分类和视频监控等方面得到了广泛的应用。但是由于拍摄角度、光线、背景复杂性等因素, 增加了图像内容提取的难度, 也使得图像分类技术成为了机器视觉领域的研究热点和难点。

图像分类主要包括三个步骤: (1) 利用特征算子对图像进行特征提取; (2) 对训练图像进行语义建模学习; (3) 利用学习得到的模型对待测图像进行识别。图像特征的提取与语义模型的学习是分类系统性能的决定性因素, 在特征提取与表示的过程中, 有众多的算法供我们使用, 如词袋模型[1]、局部模型[2]等。由于, 词袋模型具有方便、准确构造语义学习模型的特征, 被广泛地应用于图像处理中。

在对图像进行特征提取时, 全局特征可以很好地表述图像的整体信息, 当图像间的类别信息的差别很明显时, 如:公路场景和卧室场景, 有很好的分类效果。但是当图像间的类别信息的差别不是很明显时, 如户外场景和森林场景, 就很难区分这两类图像。因此, 基于局部的特征算法被提出, 用于描述图像所包含的各种目标。局部特征虽然能够很好地描述图像内的目标特征, 但是不能描述图像的全局信息。在传统的分类模型中, 都是在特征的原始空间上进行特征的量化和分类。我们提取到的特征一般是高维的特征向量, 在原始特征空间中会出现线性不可能的现象, 导致在量化时产生误差, 从而丢失部分特征信息, 降低随后的分类准确率。

针对以上问题, 本文采用改进的词袋模型进行图像分类。首先采用局部特征与全局融合的方式对图像进行描述;然后通过核方法将图像特征映射到高维空间中进行聚类;再将提取到的特征用聚类中心进行量化表示;最后采用SVM分类器对量化后的特征进行分类, 本文方法比在原始空间中采用单一的特征进行图像分类有更高的准确率。

1 图像特征提取

1.1 全局特征提取

2001年, Oliva和Torralba[3]率先利用全局特征信息对图像分类进行了研究。全局特征主要由输入图像的自然度、空旷度、粗糙度等多维信息构成, 即Gist特征。它是一种低维的特征信息, 计算简单。首先对输入图像进行滤波处理, 将滤波后的图像划分为4×4的互不重叠的区域子块;然后对每个区域的8个方向和4个尺度采用小波滤波来提取图像的纹理信息。那么Gist特征就为4×4=16个窗口输出的线性组合, 得到4×4×8×4=512维的特征。Gist全局特征对有较大差异的场景图像有良好的识别效果。

1.2 局部特征提取

在众多的局部特征检测算法[4]中, 如:Harris角点检测、Harris-laplacian检测算子, SIFT检测算子等, 由于Low提出的SIFT算法[5], 在图像旋转、放射变换、尺度变换变化条件下表现出良好的鲁棒性, 被广泛地用于图像分类、目标识别等工作。

SIFT算法首先在尺度空间进行兴趣点检测, 确定兴趣点的位置及兴趣点所在的尺度, 然后选取兴趣点的邻域梯度矩阵的主方向作为该点的方向特征:

式 (1) 表示, (x, y) 处梯度的模值和方向。其中L (x, y) 表示图像与高斯核的卷积, 高斯卷积核为输入图像:I (x, y) , 得到L (x, y) =G (x, y) ×I (x, y) 。实际计算中对以兴趣点为中心的邻域窗口内采样, 用直方图统计邻域内像素的梯度方向。梯度直方图的范围为0~360度, 平均分为36个柱。直方图的峰值就代表着该兴趣点所在邻域的梯度主方向。以兴趣点为中心, 取16×16的窗口, 然后在4×4的小块上计算8个方向上的直方图, 这样对每一个兴趣点就产生了128维的数据, 最终形成128维的SIFT特征。

2 基于核方法的词袋模型图像分类

前期的基于词袋的图像分类方法, 都是在图像特征的原始空间上进行的。由于获取的图像特征维数较高, 在低维空间中存在着线性不可分的现象, 造成分类误差。为了克服这一缺陷, 这里我们采用核映射的方法来获取码书并进行量化, 以更好地刻画特征间的结构, 从而提高分类准确率。

2.1 词袋码书的获取

本文采用SIFT算子来进行图像的特征提取, SIFT算子实质上就是对邻域像素的梯度直方图统计, 因此在经过核映射后的SIFT, 我们采用直方图交叉核方法来进行词袋码书的获取。令h= (h1, h2, …, hd) ∈R+d表示SIFT特征的直方图统计, 我们定义直方图交叉核[6]为:

其中d表示直方图的维数。在文献[7]中已经证明, kHI是一个正定核, 符合Mercer条件。存在一个非线性映射Φ, 将任意的直方图h映射到高维特征空间中得到Φ (h) , 就可以用内积的形式表示为kHI (h1, h2) =[Φ (h1) ·Φ (h2) ]。通过核技巧, 巧妙地转化了对非线性映射的求解。依据k均值聚类的方法, 我们用直方图交叉核来替换欧式距离来计算特征间的相似关系, 得到直方图交叉核k均值算法, 算法描述如下:

输入:n个直方图特征h1, h2, …, hn∈R+d。预定义k, k为聚类中心个数。ε表示迭代终止阈值。

输出:聚类中心mi∈R+d, i=1, 2, …, k

(1) 用k均值方法选取k个聚类中心u1, u2, …, uk, Φ表示非线性映射函数, mi=Φ (ui) 。

(2) 迭代。

(a) 将所有的数据用一个聚类中心表示, 令li, i=1, 2, …, n表示与数据点距离最近的聚类中心的索引值, li←argmin1≤j≤m‖Φ (hi) -mj‖2。令Si表示属于第i个聚类中心的特征索引值集合, 有1≤i≤m, Si={j lj=i, 1≤j≤n}。

表示在第t次迭代中数据聚类的误差。

(3) 终止条件:ζt+1-ζt<ε。

2.2 图像特征量化

在获取到码书后, 对图像进行语义表示, 就是图像特征的向量量化过程, 即将输入的图像特征用码书进行重构, 其重构目标函数为:

由于Φ是一个我们无法预知的高维空间, 也就无法获得h*在高维空间中的具体的形式Φ (h*) , 所以我们对式 (3) 进行如下的展开计算:

算法实现:

通过式 (4) 可以获得特征与各聚类中心的距离, 选取最小距离所对应的聚类中心作为特征的描述。

由于词袋模型, 只是将码字无序地堆积在一起完全忽略了码字之间的空间上的联系。因此, 我们由码书模型得到对特征的描述就丢失了图像特征的空间信息。为了补充这部分空间信息, 我们使用由Lazebnik等人[8]提出的空间金字塔匹配模型来补充特征间的空间信息, 通过在图像的不同分辨率上, 采用网格分割方法分割图像, 以获取空间信息。在分辨率越小的网格中包含不匹配的特征概率就越大, 因此我们给分辨率小的网格分配较小的权重这样就可以得到金字塔匹配核:

这里的L表示金字塔的层数, l表示图像所在的层数。通过在不同分辨上进行直方图交叉运算, 我们可以得到最后的简化的金字塔匹配核:

可以把KL看作是不同分辨率上交叉直方图的加权和, 我们最后会得到一个很长的向量作为对图像的特征的描述。

2.3 全局特征与局部特征融合

通过量化后, 将图像的特征用码书中的码字进行表示, 得到对特征的编码描述RL, 结合全局Gist特征RG, 得到关于图像的最后表示R=[RL;RG], 用于最后的分类器的训练和对测试图像的决策分类。得到最终的基于FCM聚类的图像分类方法的流程图, 如图1所示。

对图像分别进行全局和局部特征提取, 对局部特征进行码书的提取和特征量化处理;这时量化后的特征不具备空间信息, 通过空间金字塔操作添加特征间的空间信息;最后, 将提取到的全局特征添加到量化向量中, 补充图像在全局范围上的差异信息, 此时就完成了特征间的融合。

2.4 直方图交叉核

我们得到的对特征的编码, 实际上就是图像每个局部特征对应码字的频率统计直方图, 根据这一性质, 我们将直方图交叉核用在多分类的支持向量机中, 用直方图交叉核, 作为非线性映射使用的核映射函数, 得到最终的分类决策函数为:

算法实现:

3 实验结果与分析

我们这里选择SIFT特征来对图像进行特征提取, Fei-Fei和Perona[9]用实验证明了密集取样的方法在图像分类中有更好的分类效果。采用网格分割图像的方法, 网格的大小为16×16个像素。然后进行密集取样, 步长为8个像素, 提取到特征后, 我们对每幅图像的特征进行归一化处理, 这样就减弱了奇异样本点对我们实验的影响, 也更方便我们对不同大小的图像进行特征提取。在实验过程中, 采用同Lazebnik等人实验相同的参数设置, 定义码字的个数为200, 金字塔为三层。全局特征用Gist描述子进行提取, 其中Gist特征提取结果如图2所示。

我们在Windows 7操作系统下进行实验, 使用Matlab2010a版本, 其中硬件配置为:3G内存, i3处理器。分类器我们使用LIBSVM进行分类, 用直方图交叉核替换常用的高斯径向基核函数来进行分类, 其中这两种核函数的分类准确率比较如表1所示。实验数据集选用国际通用的测试数据集Scene 15数据集和UIUC-SPORT数据集进行实验。

Scene 15涵盖了15类图像, 每个种类的图像有200~400幅, 每幅图像大小约为250×200像素, 总计4485幅图像。其中包括室内场景, 如:卧室、厨房等, 也有户外场景, 如山脉、公路等。随机的选取每类图片100张作为训练集, 其余的作为测试集。UIUC-SPORT包含八类图片, 如羽毛球, 水球, 攀岩等, 每幅图像的大小平均为1024×768像素, 共计1792张图片。每类包含137~250张图片。每类图片随机的选取60幅图片来学习码书, 其余的作为测试集。

在用直方图交叉核替换高斯核实验中, 我们只用SIFT特征来进行实验。从表中可以看出, 采用直方图交叉核的分类准确率要比高斯核高, 对UIUC-SPORT数据集提高了4%, 对Scene15数据集提高了9%, 但是分类时需要的时间也相应的增加, 前者大约是后者所需时间的两倍。在实际应用中, 我们要考虑分类准确率与计算速率的关系, 按照具体的要求选用核函数。

对局部与全局特征融合的特征分别采用k均值聚类方法和在直方图交叉核方法来获取码书, 并进行5次独立实验, 根据表1的结果, 我们选择用直方图交叉核函数作为支持向量机的核函数, 对两个通用的数据集进行实验, 分类平均结果如表2和表3所示。

由表2和表3可以看出, 我们采用基于特征融合的图像分类方法要比单独用一种特征的分类效果要好。局部特征能够很好地刻画图像所包含的具体目标特征信息, 全局特征用于描述图像的整体分布特性, 通过对两种特征的结合可以对图像所包含的语义内容进行更好地描述。我们通过核映射在核诱导特征空间中获取直方图间的内在数据结构, 然后采用直方图交叉核方法来获取码书和量化特征, 并用直方图交叉核作为分类器核函数, 对两个数据集分别有8%和5%的提高。

4 结语

本文提出一种基于特征融合的核量化技术来进行图像分类, 通过将图像特征映射到核高维空间中, 采用直方图交叉核来获取码书, 并将其用作支持向量机的分类核函数, 提高了分类的准确率。通过在Scene 15和UIUC-SPORT数据集上进行实验证明了方法的可行性。但是, 在高维中进行运算, 会加大计算负担, 尤其是当特征数目增多时, 计算码书的过程会很耗时。下一步工作将在如何加速码书计算上进行研究。

参考文献

[1]Sivic J, Zisserman A.Video google:A text retrieval approach to object matching in videos[C]//9th IEEE International Conference on Computer Vision, Nice France, 2003:1470-1477.

[2]Girshick R B, McA llester D, Ramanan D.Object Detection with Discriminatively Trained Part-Based Models[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32 (9) :1627-1645.

[3]Oliva A, Torralba A.Modeling the shape of the scene:a holistic representation of the spatial envelope[J].International Journal of Computer Vision, 2001, 42 (2) :145-175.

[4]Jared Heinly, Enrique Dunn, Jan-Michael Frahm.Comparative evaluation of binary features[C]//Computer Vision-ECCV, 2012:759-773.

[5]Lowe D G.Distinctive image features from scale-invariant keypoints[J].Int.J.of Comp.Vision, 2004, 60 (4) :91-110.

[6]Wu Jianxin, James M Rehg.Beyond the Euclidean distance creating effective visual codebooks using the histogram intersection kernel[C]//Computer Vision, 2009 IEEE 12th International Conference, 2009:630-637.

[7]Odone F, Barla A, Verri A.Building kernels from binary strings for image matching[J].IEEE Trans.Image Processing, 2005, 14 (2) :169-180.

[8]Lazebnik S, Schmid C, Ponce J.Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories[C]//CVPR, 2006.

图像量化 篇4

结合上文中的论述,我们在这里给出自适应相关边缘匹配矢量量化编码算法(英文简称为ACSMVQ),根据图像类别的变化,选择运用的状态码书编码也要有所差异性,这能能够有效提升编码的质量水平。对于自适应算法而言,其最为重要的是探讨怎样辨别出现在的编码图像是不是属于高细节块类别,这里我们所说的高细节块其实是指块内部像素值大小改变较大的一种块。选择运用方差加以辨别。在这里我们假设这一图像块一共包含像素数量为k,他所有的像素值组合形成k维矢量,那么它的平均值与方差能够依次定义为:

若方差σ超过了之前所设置的门限值大小THσ,那么它就属于高细节快,要不然的话就属于低细节块。

我们假设CSMVQ算法的状态码书规模是Ns,新算法大状态码书规模是2Ns,小状态码书规模是Ns/4。鉴于想要区别高细节块与,我们另外还要l比特标识信息。

编码算法流程遵循下述顺序:

1 : 设现有等待编码处理的输入矢量等于x,判定出编码图像块属于“高细节块”或者“低细节块”。

2 : 采取边缘匹配的这个途径,选定和已经编码上邻块及左邻块码字边缘匹配程度最高的Ni个码字组织行成状态码书,如果x是“高细节块”的话,Ni=2Ns,如果x是“低细节块 "的话,Ni=4Ns。把状态码书内的码字按照边缘匹配失真程度按照由大至小的方式排列,明确码字在状态码书内部的索引形式。

3从状态码书里面确定输入矢量x最佳的码字c。假如说,d(x,c)≤THs那么就输送2比特标识信息,这里需要注意的是,前一比特是“0" 就代表运用状态码书,后一比特是“0’’就代表状态码书规模是Ns/4,是“l"就代表状态码书规模是2Ns,同时输送c在状态码书中的索引P。

4:假如d(x,c)≥THs,那么在主码书中找到输入矢量x的最佳码字c。那么发送l比特标识信息“l”代表运用主码书,同时发送c在主码书中的索引mp。

图像量化 篇5

实际的目标获取任务都是在一定的场景中进行的。随着现代成像技术的不断改进,系统所显示的场景内容越来越丰富,如果与目标信号相似的内容越多,则目标获取的难度就会越大。场景中与目标信号相似的部分就是所谓的背景杂波,它是影响目标获取性能的重要因素之一。对背景杂波进行准确的量化不仅有助于对光电系统性能做出正确评价和预测,也有助于系统的优化设计。国内外研究者从不同的角度提出了多种杂波量化方法[1,2,3,4],文献[5]和[6]对其进行了分类。其中根据视觉接收系统的不同,可以分为基于人眼视觉系统的杂波描述和基于机器视觉系统的杂波描述。前者主要研究与人类视觉生理特性相关的背景杂波描述方法,例如边缘概率尺度[1]主要以人眼对高对比度区域敏感的特性为基础。而基于机器视觉系统的杂波描述是从对信号处理算法性能的干扰的角度出发的,因此常用基于背景功率谱密度分布模型的方法来量化杂波[2]。根据与目标特性的相关与否,可以分为不依赖目标特性和依赖目标特性的杂波尺度。例如统计方差尺度[3]和边缘概率尺度与目标特性联系不紧密,仅与目标区域的大小相关;而基于相位相关的尺度[4]依赖于目标特性。由于背景杂波的量化研究与光电系统所拍摄的图像有密切联系,因此这些杂波量化尺度的适用范围和鲁棒性需要用大量的场景图像来验证。

国内外研究者用于杂波尺度验证的图像数据库有荷兰TNO人类因素研究所的图像数据库[4,7,8]、美国夜视和电传感器管理局的基于计算机合成场景图像[9]等。由于图像所涉及的地形地物等目标对用户在应用对象方面具有某些“敏感”因素,我们迫切需要建立自己的数据库并且开展研究。因此,本学院的红外技术研究所建立了基于天地背景的外场实测图像所构成的测试图像集“外场一”,针对测试图像进行了基于人眼的目标探测性能统计实验。本文主要针对“外场一”测试图像的杂波量化问题开展研究,就统计方差尺度[3]、边缘概率尺度[1,5,10]和相位相关尺度[4]等三种典型的背景杂波量化尺度进行讨论。重点采用了相位相关杂波尺度,计算了图像的背景杂波,以这些图像的目标获取性能统计结果为基础,对三种背景杂波尺度进行了验证、对比和分析。

1 背景杂波量化尺度

在基于人眼视觉系统的杂波尺度中,统计方差尺度具有一定的实际应用价值,它在目前广泛使用的美国夜视和电传感器管理局研发的目标获取性能模型中用来描述整体背景杂波对系统性能的影响,它不依赖于目标特性。边缘概率尺度也是一种应用较为广泛,不依赖目标特性的杂波量化方法,然而其计算过程中阈值的选择对结果有影响,计算结果具有一定的不确定性。而相位相关尺度则运用了傅里叶变换的平移特性,计算是以目标为参考信号,结果具有唯一性。它依赖于目标特性,因而保证了计算结果与目标特性的密切相关性。下面对它们的特点进行分析。

1.1 统计方差尺度

统计方差尺度是利用“平均”场景辐射强度的标准偏差来描述背景杂波的强弱。如果将一幅图像划分成多个矩形的单元,单元的大小约为图像中目标尺寸的两倍。则这种尺度定义为

式中:N是图像中所划分的单元数,σi是第i个单元中像素灰度值的标准差。统计方差尺度是最早提出的一种背景杂波量化尺度,应用广泛,它描述了背景的总体可变性。显然,其值越小,表示图像各部分变化越小,场景内容越相似,则对应的图像杂波越严重。

1.2 边缘概率尺度

设定人眼观察阈值为T,将一幅图像分割成有限数目的单元,图像中第i个单元内超过阈值T的边缘点数目为DiT,利用图像中边缘点的数目来衡量背景杂波的强弱,结果表示为

式中N表示图像内的总单元数。它是基于人眼观察图像时的特点:集中观察图像中明显的边缘轮廓,而且对图像亮度和目标尺寸具有自适应性。以式(2)作为边缘概率尺度的定义,计算过程为:首先对图像进行边缘滤波,并将得到的图像分成N个单元;然后统计各单元中超过阈值T的边缘点数目;最后用式(2)求得各单元的均方根值P。显然,P越小,对应的图像杂波越严重。以人眼观察阈值为前提,边缘概率尺度的适用性较为广泛,但是,因阈值的选择不唯一,造成计算结果具有不确定性。

1.3 相位相关尺度

相位相关尺度的杂波量化方法主要运用了傅里叶变换的平移特性,即函数的平移不会影响其傅里叶变换的幅值,其平移量只是反映在相位上。设两幅灰度图像f1和f2的傅里叶变换为F1和F2,定义这两幅图像的相位相关函数为

式中:ℑ-1表示傅里叶反变换,F1*表示F1的共轭函数。通过计算R可以用来确定两幅灰度图像的相似程度。两幅图像越接近,其相位相关函数曲线的最大值越大,如果两幅图像完全相同,得到的曲线会在原点处出现峰值为1,否则,最大值会小于1。如果将相位相关尺度方法用于灰度图像,是文献[4]提出的基于四元数相位相关的杂波量化尺度的特殊情况。

相位相关尺度主要是用相位相关函数的最大值来衡量背景杂波的强弱。它的取值范围在0~1之间。先确定目标所在的矩形区域,大小约为目标的两倍,按同样大小将图像划分成多个小单元,并计算各个单元与目标区域单元的相位相关函数,找出最大值,最后求所有单元结果的算术平均值。这种尺度定义为

式中N表示所划分图像中单元的数量,RiPC表示第i个单元与目标单元中相位相关函数的最大值。该尺度的计算是以目标为参考信号,因而保证了计算结果与目标特性的密切相关性。显然其值越大,对应的图像背景杂波越严重。此外,它的计算结果具有唯一性。

2 测试图像集的构成

本实验室利用多次外场试验采集图像数据,经过挑选构成测试图像集。本次实验的测试图像“外场一”属于其中的一部分,它以可见光灰度图像为主,采用Mikrotron1302高速照相机,所拍摄图像的大小为1 280×1 024,测试图像为包含不同目标特征的自然场景。场景中包含部分天空背景,目标位于地面,其位置具有随机性,并且目标在场景中所占的比例不相同。此外,场景中有树木、草垛等影响目标探测的干扰物。

本次挑选的图像中只包含一种目标,图1中是目标为人的低杂波场景和目标为卡车的高杂波场景。测试图像中除了这两种目标外,还包含坦克和三角靶标(人造目标)等另外两种目标,部分目标的近景图像如图2。这里已知每幅图像中目标区域的坐标值,以便于实验中确定观测者对目标位置的判断是否正确。

(a)以人为目标的低杂波场景;(b)以卡车为目标的高杂波场景

(a)Low clutter scene with a person target;(b)High clutter scene with a truck target

(a)向下方向的三角靶标;(b)90°视角的卡车;(c)0°视角的人

(a)down-orientation triangle bar;(b)side-view truck;(c)front-view person

为了验证杂波尺度与实际探测概率之间的相关性,利用所编写的基于人眼的目标获取性能测试软件,组织人员进行了目标探测实验,实验结束后,对结果进行了统计。实验中为了满足显示器的显示需要,在不改变分辨率和保证目标相对位置的情况下将图像的大小裁剪为900×800。观测者在正常照明的房间内用双眼观察计算机显示的测试图像。所有观测人员用相同的计算机进行操作。观测者观察的视场角约为9.95°。本次实验共获得针对83幅图像的有效数据。其中每幅图像的目标探测概率的计算公式为

式中:Ncorrect表示正确探测的次数,Nfalse表示错误探测的次数,Nmissed表示没有探测到目标的次数。

3 计算结果与分析

针对测试图像,分别用三种尺度对背景杂波进行了量化,量化的算法描述如图3所示。表1给出了对图1(a)和(b)的计算结果,表中的SV、POE和PC分别代表统计方差、边缘概率和相位相关三种尺度,同时给出了实验获得的目标探测概率Pd,全部计算结果和实际探测概率间的对应关系如图4所示。

为了定量比较三种尺度的预测性能,本文采用文献[5]中的方法对它们进行评价,即利用杂波尺度的计算结果预测目标的探测概率,然后将预测值与实际探测概率进行比较。本次目标探测实验中设定目标搜索时间限为60 s,而实验结果表明探测时间都远小于该时间限,因此可以近似认为属于静态探测,利用静态目标探测性能模型来预测探测概率为

其中:X表示杂波尺度。X50和E为常数,利用最小二乘法拟合来确定。表2给出了三种杂波尺度分别对应的X50和E的值。对杂波尺度进行评价所采用的性能评价测度为均方根误差、Pearson线性相关系数和Spearman秩相关系数,分别用RMSE、r、rs表示,计算结果如表2所示,拟合曲线在图4中给出。

由表2数据可以看出,统计方差尺度的均方根误差大于边缘概率尺度和相位相关尺度,说明从预测效果来看,前者不如后两者。而统计方差尺度的Pearson线性相关系数和Spearman秩相关系数比较低,说明从与观察者的实际感知结果相符方面,它没有优势。

由图4可以看出,统计方差尺度的计算结果比较分散,说明它和实际探测概率之间的关系不紧密。边缘概率尺度(计算过程中设定阈值T为原图像中相应单元内像素平均值的0.7倍)和相位相关尺度的结果与实际探测概率之间存在一定的变化趋势,即边缘概率尺度值越大,探测概率越大;相位相关尺度值越大,探测概率越小。二者之间的定量关系通过拟合曲线来表示。

下面两种情况的分析进一步说明了统计方差尺度对目标预测的不足。一种是图像中背景灰度起伏大的区域比较多,这使得图像的统计方差值很大,但目标并不明显,因此目标探测概率很低,如图5所示(SV=13.336 4,Pd=0.294 118),图中数量较多的草垛比人目标(白框中标出)突出,此外,草丛的灰度起伏也比较大,造成统计方差值大但目标探测概率较低。另一种情况是图像中背景的灰度起伏比较小,但目标的形状很清晰,比较容易探测,这使得图像的统计方差值很小,但目标的探测概率却很大,如图6所示(SV=4.675 6,Pd=0.941 176)。由于本次测试图像中以上两种情况比较明显,使得统计方差尺度的计算结果比较分散(如图4(a)所示),严重影响它对目标探测性能的预测。

综合分析说明,统计方差尺度对目标信息考虑的很少,而对图像中的灰度起伏比较敏感,这和利用美国夜视和电传感器管理局的基于计算机合成场景图像进行分析后获得的结论一致[11]。当图像的统计方差均值与目标的显著性不一致时,统计方差尺度和目标探测概率的相关性就比较低。针对本测试图像集中的图像,当背景比较复杂,灰度起伏大的区域比较多但目标并不明显;或者当背景的灰度起伏比较小但目标比较明显的时候,都不适于用该尺度进行杂波量化。

由表2和图4还可以看出,相位相关尺度和目标探测概率的相关性比较高,仅比边缘概率尺度略差一些。

为了研究测试图像中的天空背景对杂波尺度预测性能的影响,我们将图像中的天空背景进行了去除,然后再次对背景杂波进行了量化计算和验证。由于本次测试图像中的目标均为地面目标,根据人眼视觉特性,场景图像中的天空背景不会影响目标的探测概率。仍然用该探测概率对杂波尺度进行评价,拟合参数及评价结果如表3所示。

由表3可以看出:

1)统计方差尺度的预测性能有所提高,原因是去除了天地边缘这种高对比度区域对尺度结果的影响。但是由于地面场景中仍然存在与图5和图6类似的图像特征,造成统计方差尺度和探测概率间的相关性不好,因此认为它不适合用于本组测试图像的杂波量化。

2)边缘概率尺度的性能变化很小,说明该尺度的性能比较稳定,这和利用其它图像数据库进行分析获得的结论一致[5,11]。

3)相位相关尺度的预测性能有所提高,说明它受天空背景的影响比较大。这主要是因为当均匀背景与目标区域求相位相关函数时,其最大值不能正确反映二者的相似程度,也就不能合理量化背景杂波。我们可以将这种现象理解为:相位相关尺度更适用于整幅图像所含信息量比较大的情况。

根据以上分析认为,对于背景的统计方差均值与目标的显著性不一致的场景,不适于用统计方差尺度进行杂波量化。相位相关尺度的预测性能和边缘概率尺度相当,并且它的计算结果具有唯一性,因此相位相关尺度是一种可行的杂波量化方法。但是当图像中包含天空这类含有较少信息的均匀背景时,其预测准确性有所下降。

4 结论

基于所构建的外场测试图像集,讨论了三种典型的背景杂波尺度并计算了图像的背景杂波。以这些图像的目标获取性能统计结果为基础,对比和分析了三种背景杂波尺度的性能。计算结果和分析表明统计方差尺度受图像中灰度起伏的影响比较大,对于背景的统计方差均值与目标的显著性不一致的场景,不适于用该尺度进行杂波量化。边缘概率尺度性能稳定,但结果会受到阈值选择的影响,不具有唯一性。而相位相关尺度是一种可行的杂波量化尺度,但它更适用于整幅图像所含信息量比较大的情况,不适用于场景中包含大面积均匀背景的情况。后续工作将扩充测试图像集中图像背景的种类,进一步总结各种杂波尺度的适用范围。

参考文献

[1]TIDHAR G,REITER G,AVITAL Z,et al.Modeling Human Search and Target Acquisition Performance:IV.Detection Probability in the Cluttered Environment[J].Opt.Eng(S0091-3286),1994,33(3):801-808.

[2]MCGLYNN J D,SOFIANOS D J.Parametric Model-based Characterization of IR Clutter[C]//Infrared Imaging Systems:Design,Analysis,Modeling and Testing2470,Orlando:SPIE,1995:236-244.

[3]SCHMIEDER D E,WEATHERSBY M R.Detection Performance in Clutter with Variable Resolution[J].IEEE Trans on Aerospace and Electronic Systems(S0018-9251),1983,19(4):622-630.

[4]YANG Cui,ZHANG Jian-qi,XU Xing,et al.Quaternion Phase-correlation-based Clutter Metric for Color Images[J].Opt Eng(S0091-3286),2007,46(12):127008(1-7).

[5]常洪花.光电图像背景杂波的定量表征及其对成像系统目标获取性能的影响[D].西安:西安电子科技大学,2006:21-71.CHANG Hong-hua.Quantification of Background Clutter&its Influence on Target Acquisition Performance of EO imaging Systems[D].Xi’an:Xidian University,2006:21-71.

[6]BIBERMAN L M.Electro-optical Imaging:System Performance and Modeling[M].Washington:SPIE press,2000.

[7]DAVID L W.Image-based Contrast-to-clutter Modeling of Detection[J].Opt.Eng(S0091-3286),2001,40(9):1852-1857.

[8]CHANG Hong-hua,ZHANG Jian-qi.New Metrics for Clutter Affecting Human Target Acquisition[J].IEEE Trans on Aerospace and Electronic Systems(S0018-9251),2006,42(1):361-368.

[9]ROTMAN S R.Evaluating Human Target Acquisition Using Infrared Sensor Technology[C]//9th Meeting on Optical Engineering in Israel:2426,Tel-Aviv:SPIE,1995:104-114.

[10]ROTMAN S R,AVIRAM G.Clutter Metrics for Predicting Human Target Acquisition Performance[C]//Targets and Backgrounds VII:Characterization and Representation4370,Orlando:SPIE,2001:114-119.

图像量化 篇6

数字半色调化是一种将连续色调图像转化为二色调图像的技术。比如,8 b深的灰度图像转化成1 b深的黑白图像。 由于人眼视觉系统的低通滤波特性,当从较远的距离看半色调图像,可以发现它与原始图像十分相似。目前流行的半色调化方法可以分为3大类:顺序调制法[1]、误差扩散法[2]和直接二值搜索法[3]。其中,误差扩散法在较好的视觉效果和合理的计算复杂度之间能够取得较好的折中。随着误差扩散半色调图像的广泛应用和传播,针对这类图像的无损或有损压缩方法正越来越成为人们感兴趣的研究课题之一。对连续色调图像,研究人员已经提出许多压缩标准或技术,如JPEG,JPEG2000、矢量量化等。同时,针对二值图像也提出相应的JBIG压缩标准。直至目前,人们只提出少数的半色调图像特别是误差扩散半色调图像的压缩方法。

相比半色调图像,JBIG,G3等传统的无损二值图像编码技术更适合压缩文字和图形数据。一般,用这类方法压缩半色调图像所能达到的压缩比介于0.5~2.75之间。目前,半色调图像的有损压缩方法较少,而且这些方法大都针对聚类调制法得到的半色调图像设计,因此它们对误差扩散半色调图像的效果不佳。JBIG2标准提出一种针对一般半色调图像的有损压缩方案。其高压缩比主要是在反半色调化中的降采样过程实现的,但是同时降采样过程也牺牲了图像的空间分辨率。 针对这个不足,文献[4]提出了一种改进方法。该方法包含3个步骤:预滤波、抽取和量化。预滤波用来去除图像中的高频噪声、伪色调和奈奎斯特频率。再通过抽取来降低空间分辨率,并用一个改进的误差扩散技术将量化误差调整到更高的频率上。这种改进方法能提高重建出的半色调图像的视觉质量,且与传统方法相比并不进一步降低空间分辨率。

本文提出一种基于矢量量化技术的误差扩散半色调图像有损压缩方法。首先,原始图像被分成若干个4×4的像素块,将所有的块与一个模拟人眼视觉特性的5×5高斯滤波器做卷积。然后,将得到的8×8的卷积结果作为输入矢量,经过LBG算法[5]训练得到一个码书。第三步,对每个码字,找到与其最相似的4×4的像素块作为最终的码字。这样就建立了用来编码原始图像的码书。最后利用该码书用传统的矢量量化思想原始图像,得到最终的码字索引。

2 压缩方法

本文方法的基本思想是矢量量化压缩技术。如图1所示,矢量量化压缩由编码和解码2部分组成。输入图像经过分块后得到一系列像素块,每个像素块作为输入矢量,通过训练得到码书。码字搜索是将原始图像块在码书中找到与之最相似的码字,并用该码字的索引来表示该图像块。这个过程就将原始图像压缩成一个比特流。经过信道传输后的解码过程与之正好相反,最后得到解码后的图像。

本文方法也是首先将原始图像分成n个不相交的像素块B={b1,b2,…,bn},每块含有4×4个像素。由于半色调图像每个像素的像素值只有0,1两种,因此每块总共有216个可能的模式。与传统的方法不同,这n个像素块并不直接作为训练矢量,而是先与一个模拟人眼视觉系统特性的高斯滤波器做卷积。

研究表明,人眼的空域频率敏感性可以用一个调制传输函数来估计。根据文献[6],如果从分辨率为300 dpi距离为30 inch的地方观察图像,一维的人眼滤波器在视觉上与一个参数为σ=1.5,τ=0.009 5°的高斯滤波器的冲激响应相同。这些参数对定义一个模拟人眼滤波器的一维最佳模型十分有用。本文采用文献[7,7]中提出的5×5的视觉响应滤波器f,如式(1)所示。

f=111.566[0.16280.32150.40350.32150.16280.32150.63520.79700.63520.32150.40350.797010.79700.40350.32150.63520.79700.63520.32150.16280.32150.40350.32150.1628](1)

如式(2)所示将所有像素块分别和f卷积,得到卷积结果R={r1,r2,…,rn},显然ri大小为8×8。

ri=bif(1in)(2)

这里用这n个8×8的卷积结果作为LBG算法的输入训练矢量。经过训练可以得到一个具有m个码字的码书,其中码字的大小为8×8。由于这个码书并不是最终用来图像编码的码书,称之为过渡码书CBt,相应地其码字称之为过渡码字CWt。

将一个4×4的二值像素块具有的216种模式分别与f卷积,得到216个8×8的卷积结果。对每个过渡码字CBw,计算其与这216个的卷积结果的欧式距离,记录距离最小的卷积结果对应的4×4二值像素作为最终的码字CW,从而构成最终拥有m个码字的码书CB。

3 性能评价

除了压缩比,传统的图像压缩算法性能评价指标是和峰值信噪比(PSNR)。由于半色调图像是利用人眼视觉特征模拟灰度图像的视觉效果,因此与传统的连续色调图像压缩方法性能评价方法不同。半色调图像压缩算法的评价方法是将压缩后半色调图像与原始灰度图像进行比较,因此直接用PSNR是不理想的。文献[4]提出一种新的评价指标加权信噪比(WSNR),其计算方法如式(3)所示。

WSΝR=10log10[uv|X(u,v)C(u,v)|2uv|D(u,v)C(u,v)|2](3)

其中:C(u,v)是一个低通对比度敏感函数;X(u,v)和D(u,v)分别是加窗原始图像和剩余图像的傅里叶变换。对比度敏感函数是将人眼视觉系统响应近似为一个单频率的正弦波。一个低通的对比度敏感函数假设这样一个事实:观察者观察图像时眼睛并不集中于图像的某一点上,而总是自由地移动眼睛。与PSNR一样,WSNR越大表明压缩图像的质量越好。

4 仿真实验

本文仿真实验采用的测试图像是由8 b灰度图像经过Floyed-Steinberg误差扩散模板(见图2)半色调化得到的。图3给出了大小为512×512的Lena灰度图像及其由Floyed-Steinberg误差扩散模板半色调化后的图像。为验证本方法的有效性,仿真实验选取了6幅大小为512×512的误差扩散半色调图像作为测试图像,如图4所示。

通过训练,实验对每幅测试图像创建了大小分别为16个码字和8个码字的码书,表1列出6幅图像未经压缩和经过这两种码书压缩后的WSNR值。

5 结 语

本文提出一种基于矢量量化技术的误差扩散半色调图像有损压缩方法。相比以前的方法,该方法能够在相近的压缩比下更好地保持图像的质量。未来的工作将是结合人眼视觉特性研究一种适合于大多数图像或某类图像的公共码书,另外,在此基础上研究将本方法推广到彩色半色调图像的压缩。

参考文献

[1]Ulichney R A.Digital Halftoning[M].Cambridge,MA:MITPress,1987.

[2]Floyd R W,Steinberg L.An Adaptive Algorithm for SpatialGray Scale.Proc[C].SID 75 Digest.Society for InformationDisplay,1975:36 37.

[3]Lieberman D,Allebach J.Digital Halftoning Using DirectBinary Search[C].Proc.of 1996 1st IEEE Int.Conf.onHigh Technology,1996:114 124.

[4]Valliappan M,Evans B L,Tompkins D A,et al.Lossy Com-pression of Stochastic Halftones with JBIG2[J].ICIP,1999:214 218.

[5]Linde Y,Buzo A,Gray R M.An Algorithm for VectorQuantiser Design[J].IEEE Trans.Commun.,1980,COM,28(1):84 95.

[6]Pappas T N,Neuhoff D L.Least squares Model basedHalftoning[J].IEEE Transactions on Image Processing,1999,8(8):1 102 1 116.

[7]Sin Ming Cheung,Yuk Hee Chan.A Technique for LossyCompression of Error diffused Halftones[J].ICME,2004:1 083 1 086.

图像量化 篇7

目前,信息技术以及网络技术正在快速发展,尤其网络技术的快速发展为多媒体信息的交流提供了传输的基础。多媒体信息已经全面的数字化,数字化的音频、视频以及图像能够在网络中快速的进行传播与交流,这为人们的信息化生活提供了极大的便利。数字化信息易复制、快传播的特点,也导致了数字作品极易被非法传播、剽窃以及篡改,对数字作品作者的合法权益带来了很大的威胁。对数字信息的传统保护模式,是将通信信道进行加密,加入通信信道被攻击,数字信息就完全被泄露。因此,传统的数字信息的保护方面及其有限。

数字水印的出现很大程度的解决了数字信息版权保护的问题。近些年来,数字水印技术成为了信息技术领域中的前沿学科。数字水印技术作为隐藏技术的一个主流分支,通过信号处理的方式将数字水印在不破坏原数字信息的情况下对数字信息作品,如音频、视频以及图像等信息进行加密保护。水印的形式可以为序列号、文本、标志等等。水印在数字信息作品中是不可见的,需要借助专有的水印检测软件将其提取出来,作为数字作品作者版权保护的有力证据。而且数字水印技术还具有抗压缩、剪切等操作的攻击,能够对知识产权的保护起到至关重要的作用。

1 数字图像水印的相关技术

数字水印技术本质上讲,是一种保密信息在保持原有数字信息作品不被破坏的情况下进行嵌入操作。这些秘密信息能够有效的抵御压缩和裁剪等攻击,使得有效的保密信息不遭到破坏,能够有效的保护作品的版权信息。一般来说,数字图像水印技术分为三个方面。

(1)数字图像水印的生成

数字图像水印的生成就是讲水印信号在秘钥的控制下通过生成算法输出待嵌入水印的过程,数字水印的生成具有唯一性以及不可逆性。数字水印的生成过程如图1所示。

(2)数字图像水印的嵌入

数字图像水印的嵌入过程是将嵌入的水印信息在秘钥的控制下,将生成的水印信息嵌入到数字信息载体中。因此,带水印的数字信息作品通过此步骤形成。

(3)数字图像水印的提取

数字图像水印的提取过程与嵌入过程是互逆的过程,提取操作是将水印信息从数字作品载体中通过秘钥的控制以及水印提取算法,生成完整的水印信息。水印提取的过程如图2所示。

2 基于 DCT 域量化的数字图像水印嵌入算法

由于DCT域量化技术的数字图像水印具有更强的鲁棒性、能够有效的抵御信号变形以及有损压缩的能力。因此,本文主要针对DCT域量化的数字图像水印的嵌入算法进行研究。本文提出的算法为了保证水印的不可见性,对图像进行嵌入操作时,将图像的红、绿、蓝进行DCT变换,将变换后的低频系数采用量化的方式进行嵌入图像操作。

首先,算法将原始图像F进行8x8的像素块分解,每个像素块记为Bq=fq(x,y),其中,q=1,2,3…N。即原始图像F可以表示为。之后,对图像的红、绿、蓝三个分量进行DCT变换,结果得到红、绿、蓝三种颜色的系数矩阵。

对于大部分的图像文件,一般幅值较大的系数放在低频域中,位于变换系数矩阵的左上角部分。然而对于能量比较低的高频部分,位于系数矩阵的右下方位置。这些系数在图像进行压缩时将会被量化为0。因此,水印信息仅仅能嵌入到图像的低频部分。我们可以采用Z型扫描,导出m?n?8?Cr/N个低频的系数,作为水印的嵌入系数。为了保障水印的透明性,忽略每块中的首参数。下面将对系数矩阵进行量化,并嵌入至数字图像中。

首先,将坐标轴分割成长度为M的等长区间。将上面步骤中,已经被DCT变换后的水印嵌入系数进行量化,量化为接近区间长度的中间坐标值。在进行数字图像水印嵌入时,将预处理后的水印信号Wr,Wg,Wb,嵌入至红、绿、蓝三种颜色的低频系数中,即RED_Bq,GREEN_Bq,BLUE_Bq,从而得到新的三种颜色的系数。再对新的系数进行离散余弦的反变换操作,得到嵌入水印的图像。在这里,我们需要注意,量化区间的长度越大,嵌入水印的鲁棒性越好,但是区间过于大又会导致水印数字图像质量的下降。

3 结束语

本文首先介绍了数字水印的发展历程以及原理,并指出了当前数字水印技术的现状与问题。其次,本文对数字水印的相关技术做了详细的分析,分别从数字图像水印的生成、嵌入以及提取过程的原理进行深入的讨论。最后,对基于DCT量化技术的数字图像水印嵌入算法进行深入探讨。本文提出的算法对常见的图像攻击,尤其是压缩以及剪切操作的攻击有着良好的抵御效果。

摘要:随着社会科技不断的进步与发展,网络、通信以及多媒体技术得到飞速的发展,多媒体信息的交流越来越便利。同时,数字信息的版权保护方法却比较简单,导致数字作品极易被非法传播、剽窃以及篡改,对数字作品作者的合法权益带来了很大的威胁。图像数字水印技术使这种情况得以改善。本文以图像数字水印技术作为研究对象,提出了一种基于DCT的图像数字水印算法,该算法有着良好的健壮性,能够有效抵御JPEG压缩、剪切等操作攻击。

本文来自 360文秘网(www.360wenmi.com),转载请保留网址和出处

【图像量化】相关文章:

栅格图像矢量化研究论文04-15

量化标准05-06

效果量化05-05

指标量化06-12

过程量化管理04-07

经济量化分析04-13

量化管理方案05-07

量化管理细则05-31

量化策略研究06-02

班级量化管理07-01

上一篇:房企融资需求下一篇:不安全因素采矿工程