图像编码

2024-07-30

图像编码(精选十篇)

图像编码 篇1

去时域冗余信息,使用帧间编码技术可去除时域冗余信息,它包括以下三部分:

1.运动补偿。运动补偿是通过先前的局部图像来预测、补偿当前的局部图像,它是减少帧序列冗余信息的有效方法;

2.运动表示;不同区域的图像需要使用不同的运动矢量来描述运动信息。运动矢量通过熵编码进行压缩;

3.运动估计。运动估计是从视频序列中抽取运动信息的一整套技术。

编码方法分类

编码方法大致可分为三类:

1.考虑到图像信源的统计特性采用的预测编码方法、变换编码方法、矢量量化编码方法、子带-小波编码方法及神经网络编码方法等;

2.考虑到视觉特性采用的基于方向滤波的图像编码方法、基于图像轮廓/纹理的编码方法;

3.考虑到图像传递的景物特征,采用的分形编码、基于模块的编码方法。

在IP视频通信应用中,编码方法的选择不但要考虑到压缩比、信噪比,还要考虑到算法的复杂性。太复杂的编码算法可能会产生较高的压缩比,但也会带来较大的计算开销,软件实现时会影响通信的实时性。目前,在众多视频编码算法中,被广泛应用的算法是MPEG和JPEG。

多媒体处理过程算法(JPEG和MPEG1)介绍

1.JPEG

在JPEG图像缩减过程中,将DCT应用到图像的8×8的像素块中。因此如果图像有256×256的像素,我们把它分为32×32的方块,每一块都有8×8的像素,它们将被独立地处理。每一块的64个像素值经DCT变换成一组新的64个值,这64个称为DCT系数的新值给出了一种全新的方式来表示图像。DCT系数表示图像子块的空间频率。DCT矩阵的左上角是低频率部分,右下角是高频率部分(见图)。最左上角的系数称为DC系数,它的值比起8乘8列像素块的平均值只是几分之一。其余系数称为AC系数。

到现在为止,由DCT我们还没有得到任何缩减。但是,自然图像的本质决定了最大能量(信息)落在低频率部分而不是高频率部分。我们可以粗略地表示高频率部分,或把它们都丢掉,这样并不会严重影响到复原的图像的质量。这导致了大量的压缩(有损)。JPEG有损压缩算法包括下列运算:

(1)首先把重量最低的变为零。

(2)然后对剩余的重量量化(也就是用一个离散码中某个最接近的值取代),有些量化比其他的更粗略些,这要根据观察者对这些退化的敏感程度而定。

2.MPEG1

MPEG1是为CD光盘介质定制的的视频和音频压缩格式。一张70分钟的CD光盘传输速率大约在1.4Mbps。而MPEG1采用了块方式的运动补偿、量化等技术,并为1.2Mbps传输速率进行了优化。MPEG1随后被Video CD采用作为核心技术。MPEG-1的输出质量大约和传统录像机VCR,信号质量相当,这也许是Video CD在发达国家未获成功的原因。MPEG1具有以下特点∶随机访问、灵活的帧率、可变的图像尺寸、定义了I-帧、P-帧和B-帧、运动补偿可跨越多个帧、半像素精度的运动向量等。

MPEG—1的视频压缩算法依赖于两个基本技术,一是基于16*16(像素*行)块的运动补偿,二是基于变换域的压缩技术来减少空域冗余度,压缩比相比M-JPEG要高,对运动不激烈的视频信号可获得较好的图像质量,但当运动激烈时,图像会产生马赛克现象。

H.264介绍

由于H.264在制定时就充分考虑了多媒体通信对视频编解码的各种要求,并借鉴了H系列和MPEG系列视频标准的研究成果,因而具有明显的优势。H.264作为最新的国际建议标准,在IP视频监控系统中有着重要的意义。它与目前的Mpeg4和H.263编码相比较,优势表现在以下几个方面:

1.压缩率和图像质量方面

H.264通过对传统的帧内预测、帧间预测、变换编码和熵编码等算法的改进来进一步提高编码效率和图像质量。在相同的重建图像质量下,H.264比H.263节约50%左右的码率,比Mpeg4节约35%左右。

2.网络适应性方面

H.264支持不同网络资源下的分级编码传输,从而获得平稳的图像质量。H.264能适应于不同网络中的视频传输,网络亲和性好。H.264的基本系统无需使用版权,具有开放的性质,能很好地适应IP和无线网络的使用,这对目前的因特网传输多媒体信息、移动网中传输宽带信息等都具有重要的意义。

3.抗丢包和抗误码方面

H.264具有较强的抗误码特性,可适应丢包率高、干扰严重的信道中的视频传输。实际应用中,实时性和较好的图像质量,较低的网络带宽占用以及带宽适应能力是监控系统的主要考虑因素。H.264相比较以前的视频编码标准,主要在网络接口友好性和高的压缩性能上有了很大的提高。综合以上因素在本系统中采用H.264作为视频数据的编码方式。

参考文献

[1]张元伟,刘彦隆.JPEG标准的静态图像压缩算法研究[J].电子设计工程,2010(2).

[2]尹明,章云,蔡述庭.视频编码的自适应图像组结构研究[J].计算机应用,2010(5).

噪声图像的分形压缩编码研究 篇2

分形的概念是由数学家B.Mandelbrot于1975年提出的,他把分形定义为“一种由许多个与整体有某种相似性的局部所构成的形体”。分形概念的提出及分形几何学的创立为描述客观世界提供了更准确的数学模型。图形学是几何学的延伸与发展,分形模型研究成果的积累形成了新的图像学分支――分形图像学。而基于分形的图像编码方法实质是对图像中一个或多个相对大的部分施行压缩变换来逼近图像的每一部分。1990年,A.Jacquin提出了全自动的可行的分形压缩编码方法,由于其可以获得极高的压缩比而得到广泛关注。在实际的图像编码过程中,原始图像经常被噪声(最常见的是高斯白噪声)污染。由于噪声的存在,一方面使得图像编码的时间延长,另一方面,降低了图像的信噪比,图像质量明显下降。因此,笔者试图寻找一种方法,在不影响图像压缩比的前提下去噪,从而提高编码效率和图像质量。

1 分形图像压缩编码方式

1.1 拼接定理(Collage Theorem)

拼接定理是分形图像压缩技术的核心。

设{RT:wi,i=1,2,…,p}是T维的收缩仿射变换集合,即IFS、R为实数集。给定V∈RT,ε>0,如果IFS中最大的收缩因子s∈(0,1),且满足:

h(V,W(V))<ε

则有:h(V,A)<ε/(1-ε)

其中,A为IFS的吸引子,h(A,B)为Hausdorff距离。拼按定理给出了数集V与吸引了IFS之间逼近程度的一个上限值,即拼接误差的上限值。

拼接定理提供了用IFS进行图像压缩的理论依据。对于一般的灰度图像,可认为是一张原始灰度曲面(R3空间上的一个紧子集)进行抽样和量化得到的。尽管无法使原理图像(V)成为某一个迭代函数系统IFS的吸引子,但是如果能找到一组收缩仿射变换wi,i=1,2,…,p,使(本网网收集整理)与V充分地接近,那么由拼接定理可知V是该IFS(RT:wi,i=1,2,…,p)对应吸引子的良好逼近。

在利用收缩仿射变换{RT:wi,i=1,2,…p}结图像进行解压缩时,迭代过程与初始条件无关。也就是说,对任意给定的初始图像数据进行多次迭代,就可以完成对原始图像的重构。

1.2 分形图像压缩编码的实现

所谓局部IFS(LIFS)是指其变换的定义域由原来的整个区域放宽为全部区域的某些子集。通过将理论从全局扩展到局部,可以得到一种全自动的分形压缩方案,Jacquin方法的实质是固定方块定义域块的大小并限制仿射变换为一定的形式,然后搜索图像录找与定义域块相匹配的值域块(它的大小是定义域块的4倍),搜索中要配合Jacquin提出的八种对称变换算子对值域块进行变换。

编码压缩过程:把原始图像分成互不重叠的定义域块(Range块),这些块能将原始图像全部覆盖,每一个Range块大小均为B×B;每一Domain埠的大小均为D×D,且通常D=2B。为使压缩后重构图像的质量更好,相邻 的Domain块之间在水平及垂直方向均有重叠,水平及垂直方向上位移量为B。依次对每一个Domain块中相邻的4个灰度值求平均,于是每一个大小为D×D(2B×2B)Domain块就变成了大小为B×B的Sub_Domain块。之后利用最小二乘法,并配合八种对称变换算子,将收缩后的Domain块(Sub_Domain块)与Range块进行匹配运算:

若计算出的MSE小于给定误差,则认为匹配成功,否则继续匹配,在找到最佳值域块及仿射变换后,需要存储其参数以便传输。这些参数包括:匹配成功的Domain块块号、Jacquin变换算子的编号以及比例因子S、偏移量O。

基于云编码算法的图像增强研究 篇3

关键词: 云滴; 编码; 自适应; 权值

中图分类号: TP 393文献标志码: Adoi: 10.3969/j.issn.10055630.2014.04.009

引言图像增强是数字图像处理的基本内容之一,针对给定图像的应用场合,将原来模糊的图像变得清晰或强调某些感兴趣的特征,扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,使处理后的图像对某些特定的应用比原来的图像更加有效[1]。目前在图像增强过程中采用的方法有:多尺度分析学算法可以增强图像中的轮廓和方向性纹理信息,但是直接在时(空)域中设计滤波器比较困难,并且计算量大;粒子群算法在图像增强过程中编程实现简单,但是算法运行后期易出现数据坍塌现象;模拟退火算法过程简单,鲁棒性强,但是却不能解决收敛速度和全局最优之间的矛盾[2]。本文采用云编码算法对图像进行增强,在云滴搜索最优解的过程中,采用不定长的自然数编码机制,个体被选择的概率与目标函数的具体值无关,仅与顺序有关,采用赌轮选择法产生新一代云滴,通过整体目标函数淘汰适应值小的个体。 1云理论描述云理论实现定性概念与定量值之间的不确定性转换[3],设U是一个精确数值表示的定量论域,C是U上相联系的定性概念,若定量值x∈U,且x是定性概念C的一次随机实现过程,x对C的确定度μ(x)∈[0,1]是有稳定倾向的随机数μ∶U→[0,1]ifx∈U

1.1云编码算法过程在云编码过程中,采用不定长的自然数编码机制,染色体的第一位置是图像含噪声源节点号,最后一个位置是消除噪声目的节点号[4]。染色体的编码由源节点到目的节点的序列组成。编码方案如下:计算开始时,随机生成一定数目N个个体(父个体1,父个体2,…,父个体N)。用2进制1、0来编码1个父个体。后面的变异和交叉操作只要改变二进制编码的结构,如1变成0,0变成1,这种信息排列方式在图像增强过程中比较容易获取和维护,在标记路径上获得染色体导向性信息。染色体的基因有2个要素:基因的位置(即数组的下标)代表节点ID,基因的值代表节点优先级,用于从多个候选邻接节点选择一个来构造路径,结合邻接矩阵将其扩展到多路径应用,由一个染色体生成一个子网。在图1表示的无向网络中,对于从节点1到节点4的数据优化方式,给定图2中的染色体,就确定了唯一一个由3条路径组成的优化方式。

1.2个体适应度计算本文的适应度函数是基于顺序的基础,其特点是个体被选择的概率与目标函数的具体值无关,仅与顺序有关。构造方法是先将种群中所有个体按目标函数值的好坏进行排序,设参数β∈(0,1),定义基于顺序的适应度函数为eval(Xi)=β·(1-β)i-1i=1,2,…,m(2)式中,Xi为种群个体按优劣排序后的第i个个体。

1.3选择将每代群体中的n个个体按适应度由大到小排列,排在第一位的个体性能最优,将其复制一个直接进入下一代,并排在第一位。下一代群体的另n-1个个体需要根据前代群体的n个体的适应度,采用赌轮选择法产生。具体地说,就是首先计算上代群体中所有个体适应度的总和(ΣXi),再计算每个个体的适应度所占的比例(Xi/ΣXi),以此作为其被选择的概率。这样选择方法既可保证最优个体生存至下一代,又能保证适应度较大的个体以较大的机会进入下一代[5]。交叉概率Pc和变异概率Pm的选择是直接影响算法收敛性的关键。为了防止产生早熟,陷入局部极值,本文的交叉概率随适应度改变,自适应的交叉概率能提供相对某个解的最佳交叉概率,在保持群体多样性的同时,保证算法的收敛。交叉概率的自适应调整算子为[5]Pc=Pc1-(Pc1-Pc2)(f′-favg)fmax-favgf′≥favg

Pc1f′

k2f

1.4图像目标函数优化在云滴数量确定的情况下,观察各云层是否满足图像增强优化,如不满足要求,通过整体目标函数F进行云模型的性能优化F=∑mj=1λj[Gj+Cj](5)

式中,Gj为第j云层上的已优化云滴数目,Cj为第j云层上将优化云滴数目,m为云层数,λj为各项权重且∑λj=1。初始种群和产生的子代种群放在一起,形成新的种群,然后计算新的种群各个体的适应度,将适应度排在前面的个体保留[6],将适应度排在后面的个体淘汰。每进化一次计算一下各个体的目标函数值,当相邻两次进化平均目标函数之差小于等于某一给定精度ε时,即满足如下条件:F(X(t+1))-F(Xt)≤ε(6)式中,F(X(t+1))=∑t+1j=1λj[Gj+Cj]t+1为第ε+1次进化后种群的平均目标函数值,F(Xt)=∑tj=1λj[Gj+Cj]t为第t次进化后种群的平均目标函数值,此时终止进化[78]。2实验结果实验采用MATLAB编程,其仿真结果如图3所示。在仿真实验中,图3(a)是含噪声图像,图3(b)是多尺度分析学含噪声图像,图3(c)是粒子群算法处理结果,图3(d)是模拟退火算法处理结果,图3(e)是本文算法处理结果。从处理的视觉效果看,本文算法改善了图像质量,突出了边缘分信息,同时压制噪声信息。表1给出了不同算法的处理时间,可以看出,本文算法不但处理时间少而且信噪比大。3结论本文采用云编码算法对图像进行增强,在云滴搜索最优解的过程中,采用不定长的自然数编码机制,云滴个体的适应度函数基于顺序的基础,个体被选择的概率与目标函数的具体值无关,仅与顺序有关,采用赌轮选择法产生新一代云滴,通过整体目标函数进行云模型的性能优化。实验仿真显示本文算法对图像增强效果最好,能够提高运算收敛速度和收敛效率,而且可以有效防止出现陷入局部最优、避免出现早熟现象,有着广泛的应用前景。

参考文献:

[1]李洪兵,余成波,张冬梅,等.基于脊波变换的手指静脉图像增强研究[J].重庆邮电大学学报,2011,23(2):224230.

[2]高延峰,许瑛.混沌遗传模拟退火组合算法性能研究[J].计算机应用与软件,2008,25(11):238240,267.

[3]李修海,于少伟.基于正态分布区间数的云滴获取算法[J].山东大学学报,2012,42(5):130134.

[4]童明荣.城市物流系统规划研究[D].江苏:南京理工大学,2009:2035.

[5]时银水,郭栋.基于SAGA的区域防空雷达组网优化部署[J].微计算机信息,2007,23(30):131133.

[6]张世钱,陈玉石,王珏明.遗传模拟退火算法解决纸箱生产的损耗问题[J].计算机应用与软件,2009,26(2):194196.

[7]马捷,钟子发,黄高明.基于自适应变权免疫网络的电磁信号监测算法[J].北京邮电大学学报,2012,35(2):5963.

[8]高晓燕,马军山,吴佳杰.手指静脉图像增强算法研究法[J].光学仪器,2010,32(4):2932.

分形图像编码方法 篇4

数字图像所包含的数据量十分巨大,必须对图像进行有效地编码(图像压缩),减小存储容量和降低数据传输率,使得现有的PC机和通信网络的指标与性能方面达到要求,图像编码也是多媒体技术的关键和瓶颈之一。由于图像数据量的庞大,在存储、传输、处理时非常困难,因此,图像数据的压缩就显得非常重要。图像编码可以减少存储容量,以利信息的保存和传输;便于特征提取,以利计算机模式识别。

图像编码是指以尽可能少的比特数代表图像或图像中所包含信息的技术,也称图像压缩。编码方案可以是保持原信息,即可从编码图像中没有误差地重建原图像,也称无损压缩;也可以是非信息保持的,即允许与原图像有某种合理程度的失真,即有损压缩。

图像数据都有一定冗余,这是图像压缩的前提。主要包括图像中相邻像素间的相关性引起的空间冗余、图像序列中不同帧之间存在相关性引起的时间冗余、不同彩色平面或频谱带的相关性引起的频谱冗余。通过消除这些数据冗余可以减少表示数据所需的比特数。去除多余数据,实际上就是将二维像素阵列变换为一个在统计上无关联的数据集合。

1 分形图像压缩

1975年,美国数学家Mandelbrot首次提出了分形及分数维,并指出凡是Hausdorff维数严格大于其拓扑维数的集合都称为分形。分形是指不规则的、碎片的、破裂的、分数的,是一类无规则、混乱而复杂,但其局部与整体具有相似性的体系。根据法尔科纳对分形定义的描述,分形具有精细的结构,其局部和整体都不能用传统的几何语言来描述;分形通常有某种近似的或是统计的自相似的特征,其分形维数一般大于其拓扑维数;分形通常能以非常简单的方法定义,由迭代方法产生。分数维数作为分形的重要特征和度量,它可以作为描述物体的一个稳定的特征量,把图像的空间信息和灰度信息简单而又有机地结合起来了,因而在图像处理与分析中备受人们的广泛关注。

由于分形图像具有一定的自相似性,也能由迭代方法产生,因此分形图像压缩方法是根据图像的自相似性,将数字图像转化为一组收缩的迭代函数系统模型,通过对迭代函数系统参数编码进行图像压缩。由于自然界中存在大量的自相似或自仿射的几何形状,它们表面上具有非常复杂的统计特性和视觉特性,但信息量却很少,可用几条简单的确定规则迭代出来。分形图像压缩技术既考虑到了局部与局部,又考虑局部与整体之间的相关性,适合于自相似或自仿射的图像压缩,适应范围很广[1]。传统的建立于信息论之上的图像压缩技术几乎不能压缩这类图像,而使用分形编码,只需对少数几条变换规则进行编码,即可以获得非常高的压缩比。分形编码只利用了图像中的自相似冗余信息,分形图像压缩方法具有压缩比高,解码速度快的优点,但在压缩时运算量较大,压缩时间较长。由于分形图像的自相似的严格性有限,因此分形压缩(Fractal compression)是一种有损压缩方法。

2 分形法编码

对于现实生活中的大量非严格自相似图像,常用的是基于子块划分的分形图像压缩方法。1984年M.F.Barnsley提出迭代函数系统IFS。将一幅图像分解为若干类景物的子图像,对每类子图像寻找出一个分形算法,简称为IFS码,使这组IFS码所综合的分形图像在主观上与原始子图像非常相似。由于IFS码的信息量比原始图像要少得多,因而可以获得较高的压缩比。

(1)图像分割

首先将原图(集合X或图像)预分割为若干分形子图X(m)(m=1,2,…,M),一般划分为互不重叠的大小相等的方块,使得每一个子图X(m)具有一定的分形结构。在总图像的分割中,常常把同类或者相近的物体放在同一子图中,而把不同的景物,如山脉、河流、沙漠、云雾、森林、草地等,分别置于不同的子图中。需要采用图像处理、计算机视觉和模式识别的技术,经过反复试凑才能完成。

(2)提取迭代函数系统(IFS)代码[2]

在分割完分形子图X(m)之后,对每一个分形子图提取IFS代码,其方法是:将子图置于计算机屏幕上,采用伸缩、平移、旋转或仿射手段,对子图进行压缩,获得一组仿射变换参量,便可得该图的IFS代码;通过仿射变换由子图X(m)生成X(m)的仿射图X(m)j。由于搜索IFS代码耗时太长,分形压缩编码的编码时间比解码时间要长得多。

(3)对IFS代码进行编码[3]

获得了原图的IFS代码之后,可按子图X(m)或仿射图X(m)j的预测加权,对IFS代码采用经典的编码方法进行编码。Barnsley采用迭代函数系统IFS和递归迭代函数系统RIFS对几幅图像进行压缩编码,获得了高达1000∶1的压缩比。

压缩方法的质量经常使用峰值信噪比来衡量,峰值信噪比用来表示图像有损压缩带来的噪声。但是,观察者的主观判断也认为是一个重要的、或许是最重要的衡量标准。分形压缩编码的仿射变换只能逼近原始图像,而不能等于原始图像。

3 结束语

分形图像处理技术是分形理论与图像处理技术结合的产物,已经在压缩编码、模式识别、区域分割等方面得到较多的应用。分形编码的高压缩比、解压缩时的高速度以及不受分辨率影响的特点使分形编码技术已越来越多地应用于多媒体技术。但仍然有许多问题有待研究,分形图像压缩是有损压缩方法,失真量大小与压缩比密切相关。例如图形分形特征严格与否将影响其压缩比,编码时间较长,失真测度等问题都是影响分形图像压缩质量的因素。

参考文献

[1]王东生,曹磊.混沌、分形及其应用[M].长沙:中国科学技术大学出版社,1995.

[2]齐东旭.分形及其计算机生成[M].北京:科学出版社,1994.

图像编码 篇5

关键词:图像;压缩编码;小波算法;haar;bior3.7

中图分类号: S126;TN919.81文献标志码: A文章编号:1002-1302(2014)01-0363-03

收稿日期:2013-06-03

基金项目:新疆农业大学前期资助课题(编号:XJAU201010)。

作者简介:吴艳(1981—),女,新疆哈密人,硕士,讲师,主要从事计算机应用图形图像处理研究。E-mail:wuyan_y@126.com。信息是现代社会的主要媒介,其中重要的媒介是图像。随着计算机技术、离散数学理论以及智能自动化的发展,数字图像处理被广泛应用于各行各业。图像信息是人类获得外界信息的主要来源,数字图像的一个显著特点是大的数据量,图像处理即在大量复杂的图像信息中找出所需要的信息,因此图像信息处理显得尤为为重要。通常提到的数据压缩技术主要有2类:第1类方法是基于速率-失真理论,由1组像素值来表示图像;第2类方法是利用按边缘信息将某特定图像分割成的若干区域的集合來表示图像。静态图像压缩方法是采用一般信号分析的方法消除数据中的冗余,最终使得用来表示图像的一组数据互不相关。

小波分析是一个图像分析与处理的新领域,较传统的、基于全局性变化的傅里叶变换而言,小波变换是针对空间(时间)和频率的局部变换。小波变换通过多尺度细化分析可以有效地将信息从信号中提取出来,很大程度上克服了傅立叶叶变换的局限性。

1图像压缩编码

图像编码与压缩从本质上来说就是对要处理的图像数据按一定的规则进行变换和组合,从而以尽可能少的代码或符号来表示尽可能多的数据信息。压缩通过编码来实现或者说是编码带来压缩的效果。图像是一种二维的连续函数,对图像进行数字处理时,首先必须对其在空间和亮度上进行数字化,这就是图像的采样和量化的过程。空间坐标(x,y)的数字化称为图像采样,而幅值数字化称为灰度级量化。图像是对图像空间坐标的离散化,它决定了图像的空间分辨率。对一幅图像采样时,若横向像素为M个,纵向像素为N个,则图像大小为M×N个像素;f(x,y)表示点(x,y)处的灰度值,则F(x,y)构成一个M×N实数矩阵[1]:

F(x,y)=f(0,0)1f(0,1)1…1f(0,N-1)

f(1,0)1f(1,1)1…1f(1,N-1)

111

f(M-1,0)1f(M-1,1)1…1f(M-1,N-1)(1)

将小波变换应用于图像编码的基本思想是对图像进行多分辨率分解,首先将图像分解成空间、频率都不同的子图像,再对分解后得到的子图像进行系数处理。需要注意的是,经小波变换后所生成图像的数据总量与原始图像的数据总量是相等的,即图像在变换前后所占的资源空间并未改变。本研究将小波变换应用于图像的压缩,考虑的是子图像系数处理后能量主要集中在低频部分,而其他3个(水平、垂直和对角线)部分的能量较少。

2小波图像分解与重构

2.1离散余弦变换

离散余弦变换(DCT)将一幅图像从空域变换为频域。DCT的功能是将一副图像的大部份重要信息集中在少数几个DCT系数上,由此减少大量的图像空间冗余。鉴于这个特征,DCT常常被使用在图像压缩中。

一个M×N的矩阵Amn的二维离散余弦变换被定义为[2]

Bpq=αpαq∑M-11m=0∑N-11n=0Amncosπ(2m+1)p12Mcosπ(2n+1)q12N,0≤p≤M-1,0≤q≤N-1(2)

其中,αp=1/M,p=0

2/M,1≤p≤M-1,αq=1/N,q=0

2/N,1≤q≤N-1,

Bpq即为DCT系数。

离散余弦变换是一个可逆变换,其对应的逆变换为

Amn=∑M-11p=0∑N-11q=0αpαqcosπ(2m+1)p12Mcosπ(2n+1)q12N,0≤m≤M-1,0≤n≤N-1(3)

离散余弦反变换可以解释为对任意M×N的矩阵A可以写成M×N函数和的形式:

αpαqcosπ(2m+1)p12Mcosπ(2n+1)q12N,1≤p≤M-1,1≤q≤N-1(4)

这些函数被称为离散余弦变换的基函数。DCT系数Bpq可以看作是对每一个基函数的权重。

2.2小波分析

在小波分析中尺度函数和小波函数φ组成了一个函数族,用于分解或重构一个信号。一般将称为 “父小波”,而将φ称作“母小波”。尺度函数和小波函数定义如下:

(x)=10≤x≤1

0others(5)

φ(x)=(2x)-(2x-1)(6)

设Vj为空间∑kak(2jx-k),ak∈R,其中k为一系列可正可负的整数。设Wj为空间∑kakφ(2jx-k),其中Vj+1=VjWj成立,持续分解Vj,Vj+1,…,可得到表达式:

Vj=Wj-1Vj-1=Wj-1Wj-2Vj-2

=…=Wj-1Wj-2…W0V0(7)

因此,空间每一个函数f都可以被唯一地分解成函数和的形式:

nlc202309041919

f=wj-1+wj-2+…+w0+f0(8)

2.3多尺度分析

利用式(5)对{Vj,j∈Z}进行多尺度分析,对任意的整数j,函数组{jk(x)=2j12(2jx-k);k∈Z}构成Vj的一个正交基。利用(x)=∑kpk(2x-k)对{Vj,j∈Z}进行多尺度分析,令Wj空间为{φ(2j-k),k∈Z},其中,φ(x)=∑k(-1)p1-kφ(2x-k),则空间Wj是空间Vj+1中与Vj正交的部分。此外,{φ(x)=2j12φ(2jx-k),k∈Z}是空间Wj的一个正交基分解与重构公式[3]。

相应的分解和重构公式如下:

分解公式:

aj-1k=2-1∑kpk-2jajk

bj-1j=2-1∑kpk-2jaj-1j+∑j(-1)kp1-k+2jbj-1j;(9)

重构公式:ajk=∑jpk-2jaj-1j+∑j(-1)kp1-k+2jbj-1j。

对于图像的分解问题,一般都将图像分解为水平分量、 垂直分量、对角分量、低频分量4个部分,一般需对图像做2次变换方能实现1次分解。

3小波变换

3.1二维小波变换

小波变换是一个在许多不同的尺度和方向上对信息进行分解的体系。一维小波变换通过1对滤波器 来定义,在数据为奇或偶时分别与其作卷积运算。对于二维小波变换,首先在水平方向作1次一维变换,然后再在垂直方向上作1次一维变换,通过2次一维变换后,将图像分解为水平分量、垂直分量、对角分量和低频分量。每一级变换中的低频分量可以再次进行分解进一步去除图像的相关性,一般只进行4次分解。除了各种变换级数之外,当用户需要零级变换时,原始图像数据被认为是低通带并且按照通常的数据流处理。

3.2图像量化处理

针对原始图像进行小波变换,其中包括小波变换、数字转换器量化的过程。小波变换后系数处理的一般方法为量化、重排列以及熵编码。量化的目的是依据人类的视觉系统特性,通过减少人眼无法感知的高频成分来达到压缩图像数据的目的。量化对图像进行的是有损压缩,是唯一产生能量损失的步骤,会很大程度上影响重建图像的质量;重排列则是对图像数据重新排列,该步骤依据的主要是频带分布相似性或重要性级别等性质;熵编码是一种无损压缩操作,该步骤的目的是为了进一步减少变换后图像的数据量。

在基于小波的图像压缩中一般采用非均匀量化,对不同层次的分解采用不同的量化电平。分解后的图像分为4个部分:水平分量、垂直分量、对角分量及低频分量。低频部分细节丰富,对其使用量化台阶大的量化器,而对其他几个部分采用量化台阶小的量化器。

为了获取一个高效的小波算法,尽可能地排除许多不必要的计算量是十分重要的。对小波的正變换和逆变换作仔细的验证,可以发现不完全的运算不是导致数据被破坏就是为无效运算。

4图像编码评价

在图像编码中,编码质量非常重要,图像编码的目的是以尽可能少的比特数来存储或传输一幅图像,同时又让接受者感到满意。对于有失真的压缩算法,最常用的一个准则是输入图像和输出图像之间的均方误差或均方根误差[4]。

设f(i,j)(i=1,2,…,N,j=1,2,…,M)为原始图像,f^(i,j)(i=1,2,…,N,j=1,2,…,M)为压缩后的还原图像,则 f(i,j)和f^(i,j) 之间的均方误差(EMS)定义为

Em=11NM∑N1i=1∑M1j=1[f(i,j)-f^(i,j)]2(10)

如果对式(10)求平方根,就可以得到f(i,j)和f^(i,j)之间的均方根误差(ERMS),即

Erms=Ems。(11)

另一种关系更紧密的客观评价准则是输入图像和输出图像之间的均方信噪比,定义为

SNR=∑N1i=1∑M1j=1[f(i,j)]21∑N1i=1∑M1j=1[f(i,j)-f^(i,j)]2(12)

除了均方根信噪比,最常用的信噪比是峰值信噪比(PSNR),设fmax=2k-1,k为图像中表示一个像素点所用的二进制位数,则峰值信噪比定义为

PSNR=10lgNMf2max1∑N1i=1∑M1j=1[f(i,j)-f^(i,j)]2。(13)

4.1小波图像压缩编码

本研究以核桃叶片为例,借助PC和MATLAB工具,分别对比haar算子和bior 3.7算子对图像的压缩编码。MATLAB中实现的图像压缩主要包括获取压缩阈值和进行图像压缩2个方面。实现获取压缩阈值的函数有ddencmp和wdcbm2;实现图像压缩的函数有wdencmp、wpdencm和wthcoef2,量化编码函数有wcdemat。

本研究采用小波压缩核桃叶片图像,主要分为以下5步:

(1)使用rgb2gray把核桃叶片图像转为灰度图像,采用wdencmp(‘lvd’,coefs,sizes,‘haar’,level,thrSettings,sorh)对核桃叶片进行降噪处理,具体如图1所示。

(2)采用haar算子对核桃叶片进行压缩处理,得到相应的图形参数,如尺寸、比特数等。由于小波变换并不改变原始图像的数据总量,本研究采用峰值信噪比来衡量压缩前后图像的效果。

(3)采用bior3.7算子对核桃叶片的信息进行分层分解,在HIS空间里,核桃叶片I亮度分量对于核桃叶片图像的信息量最大,核桃叶片图像信息量主要集中于低频信息,对核桃叶片进行低频和高频信息的第1层分解,采用wcodemat函数进行量化编码,并可适当改变图像高度以对比压缩前后质量。

(4)采用bior3.7算子对核桃叶片图像进行第2层低频信息的分解并压缩,进一步压缩冗余的信息量,尽可能地使用来表示核桃叶片图像的一组数据是互不相关的。

nlc202309041919

(5)根据核桃叶片本身图像特征,采用不同的量化电平值,对比上述haar算子和bior3.7算子,分别用压缩前后峰值信噪比和压缩前后比特数衡量图像编码效果。

由上述流程可得图像压缩结果如图1所示。

采用不同小波算法压缩得到相应的编码图像,图像具体属性见表1。从表1可以看出,经过haar降噪和压缩编码后的核桃叶片图像与原图像数据量相等,峰值信噪比较大,接近36,图像压缩后所占比特数与原图像相当,压缩编码效果较差;而bior3.7算子采用了分层分解和压缩方法,压缩前后比特数明显下降,压缩效果较好。采用bior3.7算子,基于haar的wdencmp函数压缩,得到的峰值信噪比为50.796 2,压缩质量较好,但是编码质量较haar压缩编码差。表1小波压缩图像属性

小波算法1图像1尺寸1比特数1类型1PSNRhaar1压缩前图像X1256×2561468 2241double131.427 91压缩图像X1256×2561468 2241doublebior3.71压缩前图像X1256×2561524 2881double150.796 21第1次压缩图像ca11131×1311131 0001double1第2次压缩图像ca2173×73140 8801double

5结束语

对冗余的图像信息采用小波变换能较好地实现图像的压缩编码,本研究以核桃叶片静态图像为例,全面而系统地分析了小波算法在图像压缩编码中的应用,根据核桃叶片图像信息特征,综合对比了haar算子和bior3.7算子,采用不同的量化电平针对不同层次的图像信息进行分解,结果表明基于bior3.7的小波图像压缩效果更佳,但压缩质量较haar压缩差。参考文献:

[1]Boggess A,Narcowich F J. 小波与傅立叶分析基础[M]. 北京:电子工业出版社,2002:221-223.

[2]杨福生.小波变换的工程分析与应用[M]. 北京:科学出版社,2001:22-89.

[3]Natonini M. Image coding using wavelet transform[J]. IEEE Trans Image Process,1992,1(2):205-220.

[4]胡春玲,陳义宽,马常楼. 图像编码时小波基的选择[J]. 中国图像图形学报,1998,3(9):742-745.田昊,王维新,毕新胜,等. 基于图像处理的机采棉杂质提取算法[J]. 江苏农业科学,2014,42(1):366-368.

静止图像压缩编码简介 篇6

常用的图像文件格式中JPEG以占用空间小, 图像质量高等特点而广为用户采用。

上世纪80年代ISO和CCITT两大标准组织共同推出JPEG压缩算法, 它定义了连续色调、多级灰度、静止图像的数字图像压缩算法, 是国际上彩色、灰度、静止图像的第一个国际标准。离散余弦 (DCT) 则是最小均方误差条件下得出的最佳正交变换, 作为多项图像编码国际标准的核心算法而得到广泛应用。其中最著名的算法即为JPEG图像压缩算法。DCT算法变换核是余弦函数, 计算速度较快, 质量劣化程度低, 满足图像压缩和其他处理的要求。

按照灰度层次, 图像可分为两类:第一类为有灰度层次图像;第二类成为二值图像, 即仅黑白层次图像。电视图像、照片传真、静止图像属于有灰度图像。而文件传真、二值静止图像则属于二值图像范畴。

经过几十年人们对图像压缩技术的不断研究, 并且随着软硬件技术的不断发展, 人们已经能够实现大量的图像压缩算法。早期的图像编码主要基于信息论的理论基础, 压缩效果不理想。最近几年随着相关领域科学的发展, 人们的研究重点已经转向视觉生理学和景物分析新的方向上, 实现了图像编码技术由第一代向第三代的跨越, 实现了非常高的压缩比, 极限情况下能达到千分之一。

以最小的代价实现特定质量的图像的传输是图像编码的核心, 又称为图像压缩, 广泛应用于图像的存储、传输和交换。在相关过程中对图像信号中存在的冗余都进行压缩编码, 能够最大程度实现图像编码的本质。

预测编码、熵编码和变换编码是最常用的编码算法。如果编码后无信息丢弃, 称为无失真编码;若编码后信息有丢弃, 则称为有失真编码。这是另外一种编码分类的标准。

预测编码法和变换编码法是图像统计压缩编码算法的两大类。预测编码法包括增量调制法 (法) 及差分预测编码法 (DPCM法) 等。差分预测编码法 (DPCM法) 是图像通信中常用的算法, 还有其他等等混合应用的各种方法, 此处不做介绍。

静止的、不变的、称为静止图像, 一般从设备屏幕上看长时间保持不变。被摄事务一般是静止或者某一特定时刻保持静止的。按照应用场景的不同, 传输文件、模型、图片等静止图像时常用静止图像传输;现场实时监控则常用凝固图像传输。

要求如下:

(1) 清晰度:图像清晰度更高, 从而满足人眼对观察图像细节的要求, 而不是利用通常电影的原理。

(2) 显示方式:逐渐浮现。即先传模糊的整体图像, 再逐渐传输显示细节, 从而使观看者不用等待太久时间, 适应窄带传输的场景。

(3) 抗干扰:在较长传输过程中, 编码方法要有较强的抗干扰噪声能力, 防止图像呈现在终端上时质量低下。

以下为对静态图像编码技术的介绍:

(1) 预测编码:由相邻像素间相关性出发, 通过前面像素值预测当前像素值, 并经过实际数据的运算得到预测误差, 而该误差通常接近实际值。因此对预测误差直接进行单符号的熵编码或对预测误差进行量化再进行熵编码是更高效率的计算方法, 最主要的算法则是简称为DPCM的差分脉冲编码。

(2) 变换编码:是目前几乎所有的图像、视频和视频等的压缩标准的核心编码算法。而新近发展的更多图像压缩技术中, 该编码也是核心的基础算法, 在实际中得到广泛应用。

JPEG是“Join Photographic Expert Group”的首字母简写, 可将每24比特的单彩色像素图像压缩至2比特, 而保持较高的图像质量。其定义的编码系统主要有以下三种:a DCT有损编码基本系统, 大部分压缩应用场景下均采用该系统。b可扩展编码系统:用于高压缩、高精度、渐进重建应用。c无损系统:应用于无失真场合。

JPEG标准一般用于自然景象、连续色调数字图像编、解码。

简单归纳为:两种工作方式 (顺序方式、渐进方式) 、三种级别 (基本系统、扩展系统、无失真系统) 。

顺序方式:将图像的行和列分割成四方小块, 从左到右、由上而下逐行逐列对所有的小块进行编码运算。并且解码时也按编码顺序逐块解码。这两个过程均一次完成。

渐进方式:整个图像需要经过多次编码运算才能完成, 初次编码时质量低于最终要求的质量。逐次编码, 质量逐次提升。解码时首先解码出较低质量全幅图像, 增加附加信息后再次解码, 重复若干次, 最终得到满足质量要求。解码过程可随时终止。

基本系统:以离散余弦变换为核心, 以顺序工作为方式, 用于一般精度。按照要求, 每个压缩编码器均实现了基本算法功能。

扩展系统:在若干方面增强并减少一些限制条件后就成为“扩展系统”。

无失真系统:以DPCM技术为基础, 压缩比较低, 但是能实现压缩时不失真。

JPEG标准是多年来图像压缩编码的研究成果。虽然DCT是它的核心, 但它同时也采用了DPCM、自适应量化、游程编码、可变长熵编码等多种技术, 所以应该说是一种混合算法。

参考文献

[1]Castleman, Kenneth R.Digital image processing.北京:清华大学出版社, 2003.

[2]Kenneth.R.Castleman.Digital Image Procession, 北京:清华大学出版社, 1998.

[3]孙兆林.MATLAB6.x图像处理[M].北京:清华大学出版社, 2002.

[4]朱秀昌, 刘峰, 胡栋.数字图像处理与图像通信[M].北京:北京邮电大学出社, 2002.

[5]薛永林, 刘珂, 李凤亭.并行处理JPEG算法的优化[J].电子学报, 2002, 30 (2) :160-162.

[6]林福宗.图像文件格式 (上) ——Windows编程.清华大学出版社, 1996年.

[7]李振辉, 李仁各編著.探索图像文件的奧秘.清华大学出版社, 1996年.

[8]黎洪松, 成宝译.JPEG静止资料压缩标准.学苑出版社, 1996年.

数字图像编码标准的发展研究 篇7

关键词:H.26x,MPEG,混合编码,可伸缩编码,多视点视频编码

0 引言

在计算机中以位图记录、处理和保存图像,其特点在于适合表现大量的图像细节,很好地反映明暗的变化、复杂的场景和颜色,逼真地表现图像的效果。但是位图图像在缩放时会降低图像质量,若不压缩处理其庞大的数据信息在文件存储及有限带宽传输中多有不便,因此迫切需要一种可靠有效的方法对数据进行压缩处理。

图像数据压缩技术的基本思想就是删除原始图像中因视觉图像数据存在各种形式的相关性带来的数据冗余或是不需要的信息,保留不确定的信息,去掉确定的信息,用尽可能少的数据量来表达尽可能完整的图像信息。根据图像编码压缩过程中是否存在信息丢失可分为无损编码压缩算法和有损编码压缩算法。

基于统计特性的运动补偿结合变换编码的混合编码框架在数据压缩方面取得了很大的成功,国内外的通用视频压缩标准大多基于此框架,比如H.26x系列、MPEG系列以及我国的AVS1-P2标准。在文献[1]中,将混合编码归类于有损编码压缩方法,如图一所示。

1 基于混合编码的数字图像编码标准

1.1 H.26x系列编码标准

H.26x系列标准[2]最早起始于1984年,并且在1989年完成第一个标准———H.261,这是ITU-T针对视频电话和可视会议而制定的标准。H.261主要采取16×16子块的运动补偿、8×8 DCT、标量量化、Z-Z扫描、行程编码和变长编码的编码结构,虽然只能支持CIF和QCIF两种图像格式,但它适应了有限的硬件和软件处理器性能,获得了里程碑式的成功,此混合编码方法和编码结构也在之后的编码标准中得到沿袭。然而,它的缺点是低压缩比和缺乏灵活性。

在1995年制定的H.263标准中,使用了半像素运动矢量和重新设计的可变长编码表,并且编码模式的可选择性使其应用更加灵活。与H.261相比较大地提高了编码性能,支持多种格式的图像。

H.264/AVC标准是ITU-T的视频编码专家组联合MPEG共同开发的一个新的数字视频编码标准。它主要采取帧间预测编码和帧间变换编码的混合编码方式,并且采用可变尺寸的运动估计、4×4块的整数变换、统一的可变长编码表、多种帧内预测等技术,因此具有更高的数据压缩比和更好的信道适应性。在网络传输过程中所需要的带宽更少,也更加经济。

1.2 MPEG系列编码标准

H.26x系列标准主要针对多媒体通信而制定,而MPEG系列标准[3]多为数字电视采用。MPEG-1沿袭了H.261标准的编码结构,采用缩减时间冗余度的16×16子块的运动补偿及减少空间冗余度的DCT两个基础技术,平均压缩比可达到50:1,码率可达到1.5Mbps。

MPEG-1针对CD-ROM制定,而MPEG-2则较大地提高了码率,支持高低四种级别的分辨率格式,并且在系统和传送方面作了更加详细的规定和进一步的完善,它特别适用于广播级的数字电视的编码和传送。

MPEG-4与MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具体压缩算法,它是针对数字电视、交互式绘图应用、交互式多媒体等整合及压缩技术的需求而制定的国际标准。MPEG-4标准具有基于内容的交互性、高效的压缩性、互联网视音频广播等广泛应用性的众多独特的优点。

1.3 AVS编码标准

AVS标准[4]是我国于2002年开始制定的、第一个具有自主知识产权、达到国际先进水平的数字音视频编解码标准,是高清晰度数字电视、高清晰度激光视盘机、网络电视、视频通信等重大音视频应用所共同采用的基础性标准。其中AVS1-P2部分主要针对高清晰数字电视广播和高密度存储媒体应用,采用混合编码的方法,应用了8×8整数变换量化、帧内预测、帧间预测运动补偿、1/4精度像素插值、二维熵编码等核心技术。因此在编码效率上与H.264/AVC相当,但在算法复杂度上明显占优,对硬件和带宽的需求也较低,并且这是一套包含系统、视频、音频、媒体版权管理在内的完整标准体系。

混合编码技术以运动补偿、预测编码、变换编码以及熵编码等编码为框架,采用整数变换量化、多种帧内预测、多参考帧运动补偿、1/4精度像素插值和基于上下文的熵编码等技术,在数据压缩方面取得了很大的成果。但是随着计算机网络的不断发展和应用需求的多样化,视频编码技术的研究逐渐摆脱压缩特性的局限,渐渐向网络适应性和用户交互性等方面倾斜,以此特性为特点的可伸缩编码、多视点视频编码得到了越来越多的关注。

2 可伸缩视频编码

可伸缩视频编码(Scalable Video Coding,SVC)[5]技术考虑了更多的网络适应性和灵活性,作为H.264/AVC的扩展集方案,实现了时域、空域和质量/信噪比等三个维度上的可伸缩性,可以让视频编码器提供既有较高压缩率、又有良好的伸缩性和容错性的视频码流,适用于不同的网络环境和用户的需求。编码器分别通过空域滤波和时域分解形成不同空域及时域分辨率的图像序列,然后按不同时域分辨率进行基本层编码,再在每一基本层上进行精细编码形成SNR增强层。图二是一个具有两个空域层的编码器。

时域的可伸缩,每个空间层通过时域分解来实现时域的可伸缩性[6]。在H.264/AVC扩展集方案中,是通过层级B帧图像实现的。图三所描述的GOP为8,以相邻帧为参考帧的3级时域分解B帧图像编码结构。首先以I帧或P帧的模式编码,第0帧和第8帧作为关键帧,其余以B帧模式进行编码。先编码第4帧,然后编码第2、6帧,最后编码第1、3、5、7帧,通过这样的金字塔式的编码顺序实现了时间的分级。

空域的可伸缩性,为了满足不同用户的需求,将原始尺寸的输入视频序列进行下采样,在给定帧的基础上产生较低的空域分辨率码流序列,每个空域分辨率在各自独立的层内编码。为了去除各空间层之间的冗余信息,采用了层间预测。由于低层是由高层通过下采样得到的,因此在相同的时域分辨率情况下,高层帧和与之相对应的低层帧之间存在着一定的相关性,通过对低层帧的纹理信息和运动信息进行插值来作为高层帧的预测参考信息,可以去除层间冗余信息。

质量/信噪比(SNR)可伸缩性,在SNR可伸缩技术中[7],使用传统的混合编码技术,经过整数变换、量化和编码得到基本层。增强层位于基本层之上,它是由基本层和原始子带图像之间的残差信息经过变换和量化而来,不同的是采用渐进细化(progressive refinement)的纹理编码方法,使用较小的量化步长进行重新量化来减小量化误差,从而生成精细度由大到小的SNR增强层。最后基本层系数和增强层系数再使用位平面编码和行程编码相结合的方式进行熵编码,分别形成基本层码流和增强层码流输出。

此外,在时域的可伸缩技术上,有一种混合框架结合MCTF(基于运动补偿的时间滤波)技术具有一定的优势,能获得较高的编码效率和较好的兼容效果。

3 多视点视频编码

多视点视频(Multi-view Video)是针对交互式媒体提出的,它主要解决3D交互视频的表现、交互以及存储、传输等。其通过在场景中放置多台摄像机,记录下多个视点数据,提供给用户以视点选择和场景漫游的交互能力。然而多视点则必然引起多倍的数据量,因此多视点视频编码成为多视点视频应用迫切需要解决的问题之一,而高效的编码、灵活的视点切换机制以及降低视点切换所导致的解码代价是多视点视频编码的价值所在。

实现多视点视频编码(MVC)可以基于传统混合编码框架,也可基于小波编码以及分布式编码等新一代视频编码工具。视点间相关性是多视点视频序列的重要特性,因此编码中的一个重要问题是如何消除多视点画面由于其内在的相关性而引起的数据冗余,而且不仅是空间上的,还有时间上的冗余。

目前存在着多种MVC方案[8]:Simulcast编码结构,该结构在H.264/AVC视频编码标准的基础上实现多视点视频编码框架,方案对各视点视频独立编码,但是没有考虑视点间的相关性,编码效率较低;Sequential View Prediction编码结构,该结构在率失真性能和计算复杂度方面有一定优势;Multi-direction Prediction编码结构对于视点间相关性较高的视频序列有着较为优越的编码效率,该方案更适合稠密相机拍摄的视频序列;Group-of-GOP(GoGOP)Prediction编码结构更适合随机访问,视点切换,但是在其他方面稍逊一筹。

文献[9]提出一种面向交互应用的多视点视频编码方案,在Simulcast的基础上,通过修改GOP结构将顺序帧间预测方式改变为所有的P帧均以I帧作为参考帧进行预测编码,使I帧成为GOP内唯一的参考帧,从而消除帧间相关性,提高交互性能;将视点内与视点间预测编码结合起来,预测帧可将本视点及其它视点帧作为参考帧,同时在空间和时间上进行预测编码,形成Sequential View Prediction编码结构,在时间预测编码的基础上,引入空间预测,同时降低时间和空间上的冗余,从而提高压缩效率。该方案改善了系统的交互性能,同时提高压缩效率和降低了视点切换引起的解码代价,满足交互式多视点视频的应用需求。其缺陷是修改GOP结构不适用于运动剧烈的场景,因为GOP结构中P帧和I帧距离较大时容易引起预测误差的增大,导致压缩效率下降。

4 结束语

视频编码技术是视频产业的关键技术。计算机网络的不断发展和应用需求的多样化要求视频编码技术一方面继续以混合编码为框架研究如何进一步提高压缩特性,另一方面不断的向可伸缩编码、多视点编码等分支方向发展。追求更高的压缩效率需要对传统的“整数变换、运动补偿、基于视觉的量化、熵编码”混合结构有所突破,才能为视频编码性能带来新的提升。可伸缩编码以其独特的适应性在当前的网络环境下会获得越来越多的应用,而多视点视频编码在自由视点电视、立体电视和沉浸感视频会议等应用方面有巨大的潜力。

参考文献

[1]张瑜,吴勇,左玉梅.多媒体技术[M].北京:清华大学出版社;北京交通大学出版社,2004.

[2]乔轩.H.26X系列的算法研究[D].杭州:浙江大学,2005.

[3]向健勇,朱学涛.MPEG系列标准的比较及最新进展[J].电子工程师,2004,(7):37-40.

[4]国家数字音视频编解码技术标准工作组.视频编码标准AVS技术介绍[J].电子产品世界,2005,(10):58-62.

[5]Draft ITU-T recommendation and final draft internation-al standard of joint video specification(ITU-T Rec.H.264/ISO/IEC14496-10AVC).Joint Video Team of ISO/IEC MPEG and ITU-T VCEG[S].JVTG050,2003.

[6]费伟,朱善安.基于H.264的自适应可伸缩编码研究[J].光电工程,2008,(3):102-107.

[7]胡瑞敏,刘琼.视音频编解码技术发展现状和展望[J].中国安防,2007,(3):56-64.

[8]徐秋敏,张云,郁梅等.多视点视频编码方法研究[J].宁波大学学报,2006,(9):296-301.

图像编码 篇8

关键词:图像压缩,MATLAB仿真,Huffman编码

数字图像压缩要求在保证图像重建质量的前提下,用尽可能少的数据量表示、存储和传输图像数据。数字图像压缩的基本思想是消除图像数据中存在的相关冗余和心理视觉冗余。图像压缩的过程,也称为图像编码,是消除冗余的过程;而与之相对应的是图像解压缩过程,是重建原始图像的过程,也称为图像解码。通常,根据图像解码后的数据是否与原始图像数据完全一致,将图像压缩编码分为无损压缩和有损压缩。

1 图像编码标准

近十年来,随着计算机行业的迅猛发展,图像编码技术也得到了迅速发展和广泛应用,并且日益成熟,其标志就是几个图像编码标准的相继指定。这些编码标准融合了各种性能优良的图像编码算法,代表了目前图像编码的发展水平。

(1)JPEG:JPEG是由国际标准化组织(ISO)提出,面向静止图像的编码标准,它规定了静止画面编码中所使用的技术。JPEG标准定义了两种压缩算法:基于DCT的有失真压缩算法和基于空间线性预测技术(DPCM)的无失真压缩算法。JPEG算法的平均压缩比为15:1,当压缩比大于50倍时将可能出现方块效应。

(2)H.261:H.261是CCITT针对可视电话、会议电视和窄带ISDN等要求实时编解码和低延迟应用提出的一个编码标准。

(3)H.263:1995年ITU-T推出H.263标准.这个标准的标题是“低于64kbit/s的窄带信道的视频编码”,用于极低比特率的视频编码,由于H.263是在H.261标准的基础上发展起来的,其信源编码算法的核心仍是H.261建议中所采用的DPCM+DCT混合编码方法。

(4)MPEG标准:MPEG系列标准是由国际标准化组织与国际电工委员会共同制定的。该标准由几种伴音压缩数据和图像数据的复用、图像数据的压缩以及伴音的压缩三部分组成。MPEG系列标准适用于不同带宽和数字影像质量的要求,具有很好的兼容性,压缩比高可达200:1,数据的损失小。主要包括MPEG-l、MPEG-2、MPEG-4和MPEG-7。

2 图像传输中的视频编码技术

图像数据量极大,允许有一定的传输差错率,但对实时性要求较高,希望延时尽量小,因此传输图像特别是活动图像较传输话音和数据困难的多。为了有效的压缩视频信号,并能很好地适应通信网络传输,国际上提出了很多方案,其中比较好的有分层编码和可变比特率编码两种技术,下面简要介绍。

(1)分层编码技术:分层编码将信号分成重要性不同的子信号,对各子信号独立进行编码和传输,每一高层使用低层的信息来构造符合该层质量要求的图像。分层编码使得视频业务可以满足各级用户的需要.通过选择适当的层.用户可以得到缩小的图像质量。分层编码还具有误差遮蔽能力,如果高层信息中有错误,可以用下一层中的信息代替,这种遮蔽效应非常适合于图像在传输中信元丢失所引起的无误差。

(2)可变比特率编码技术:视频信源本身的信息量变化不定,采用某种方法对图像信号进行压缩编码后,其比速率将随时间变化,若要使其输出码流的比特率固定不变,就必须按信源的高峰信息量去配置信道带宽,然而很多时候信源并不出现高峰信息量,为了保证固定码率,通常要插入填充码,因此固定比特率编码将造成通信资源的极大浪费。采用可变比特率编码,就是按信源本身的信息量去分配和使用比特,从而减少冗余度,实现通信资源的有效利用。

3 MATLAB仿真实现

现将一幅灰度图像进行压缩编码,首先把图像分成8×8的像素块,分块进行DCT变换后,根据JPEG标准量化表对变换系数进行量化后,再对直流系数(DC)进行预测编码,对交流系数(AC)进行Zig2Zag扫描和可变长编码,然后进行熵编码,输出压缩图像的比特序列,实现了图像压缩。在接收端经过熵解码、DC系数和AC系数可变长解码、反量化后,再进行反DCT变换得到重建图像。用MATLAB7.0对标准灰度图像进行JPEG压缩与重建,并分析实验结果得出结论。

(1)RLE编码:原图是128×128的jpg格式灰度图像,基于DCT的JPEG图像压缩,按照DCT—量化—DC系数、AC系数的Z型编码—熵编码,然后解码的步骤进行,首先熵编码采用的相对简单的RLE编码,最后得到的结果如图1所示。

原始图像在进行编码之前,需要分割成8×8的图像块,可是解码后,可以看到大体的形状,但是图块化很明显。

(2)Huffman编码:基于DCT的JPEG图像压缩,按照DCT—量化—DC系数、AC系数的Z型编码—熵编码,然后解码的步骤进行,其中熵编码采用的是哈夫曼(Huffman)编码方法。实验结果如图2所示。

相比较两种编码方式的仿真实验结果,采用RLE编码方法,解码后得到的输出图像,大体上形状和原始图像相似,但图像的块状化比较严重,相对于RLE编码的仿真结果,哈夫曼(Huffman)编码方法最终得到的解码后的图像效果比较好。

参考文献

[1]计文平,郭宝龙.数字视频压缩编码的国际标准[J].计算机应用研究,2003,20(4):1-5.

[2]章毓晋.图像处理和分析[M].北京:清华大学出版社,2004

基于图像压缩与编码技术的研究 篇9

1、图像压缩编码原理

图像压缩编码的原理如图1所示。图中模拟图像信号经过PCM编码器后, 再经过压缩编码器、信道编码器送至传输信道。在接收端现则完成它的逆过程。而图像压缩编码是依据图像信号本身的结构和统计上存在冗余和人们视觉特性行的。

图像信号固有的统计表明:相邻相素之间、相邻行之间和相邻帧之间都存在着较强的相关性。利用编码方法在一定程度上消除这些相关性, 以便实现图像信息的数据压缩, 尽量去掉那些无用的冗余信息, 保持有效数据的压缩编码。另一方面, 图像最终是由人眼 (或经过观测仪器) 来看的。根据视觉的生理学、心理学特性, 可以允许图像最终经过压缩编码后所得的图像有一定的失真, 只要这种失真是一种人们难以觉察的。这种压缩编码属于信息非保持编码。这样, 既实现了图像信息的数据压缩, 又能使人们的主观视觉看不出经过压缩编码处理后复原图像的区别。因些, 用信息非保持编码比起仅用信息保持编码, 有更多的数据压缩。

2、图像压缩编码的分类

实现图像压缩编码的方法有很多, 对这些方法的分类也有很多。根据恢复图像的准确度可以将图像压缩编码分为三类:信息保持编码、保真度编码和特征提取。从实现方式来分, 图像压缩编码可分为概率匹配编码、变换编码和识别编码三大类。图像通信中主要应用变换编码, 包括帧内和帧间预测变换, 去除空间和时间上的相关性。函数变换也能将图像间的相关性大量去掉, 因而其压缩效率很高, 并且有很多函数变换及快速算法, 可以保证实时处理。为了获得最佳压缩编码效果, 一般是多种方法兼用, 或以某种方法为主而融入其他方法。

3、常用的图像压缩编码方法

3.1 霍夫曼 (Huffman) 编码

霍夫曼编码是霍夫曼于1952年提出的一种编码方法, 它的基本原理是对那些出现概率较大的信源符号编以较短的代码, 而对于那些出现概率较小的信源符号编以较长的代码。霍夫曼编码方法在各种静止和活动图像编码中广泛应用, 静止图像编码的JPE G, 活动图像编码的H.261、MPEG-1和MP EG-2等国际标准都建议用霍夫曼编码作为统计编码。这种编码码。

3.2 预测变换编码

预测变换编码的原理是利用图像信号的空间和时间冗余特性一, 用已知相邻像素 (或图像块) 来预测当前像素值, 再对预测误差进行量化、编码和传输。预测算法的选取与图像信号的概率分布有关。在实际工作中, 要根据大量的统计结果, 采用简化的概率分布形式设计最佳的预测器, 有时要根据需要还要用自适应预测器, 以便更好的描述图像信号的局部特性, 提高预测效率。预测编码有两种:一种是帧内预测编码, 另一种是帧间预测编码, 前者是在一幅图像内进行预测, 以消除图像在空间域的相关性;后者是在多幅图像中进行预测, 以消除在时间域上的相关性。

3.3 游程长度编码

游程长度编码中的对象不再是每个信源符号本身, 而是每种信源符号在信息流中连续出现的长度。以黑白二值图像为例。图像中每一个扫描行由若干段连续的白像素和连续的黑像素组成, 分别称为白长和黑长。白长和黑长总是交替出现, 这种现象在黑白文件传真更为明显。对于不同长度的白长和黑长, 根据出现的概率不同来分别编成不同长度的码字。在一般的视频信号中也有类式的情况, 若干个相同亮度或色度的像素相连。不仅如此, 人们还常常通过函数变换有意识地构造成片的零值元素, 这时同样可以根据长度编码, 而不必对每个像素单独编码, 从而大大压缩了编码速度。

4、几种压缩技术

4.1 JPEG压缩

JPEG是Joint Photographic Expert G roup的缩写, 主要用于计算机静止图像的压缩, 在用于活动图像时, 其算法仅限于帧内, 便于编辑。采用JPEG标准可以得到不同压缩比的图像, 使图像的质量在得到保证的情况下, 可以从每个像素24bit减到每个像素1bit, 甚至更小。其原理为:在JPEG算法中, 先对图像进行分块处理, 一般把图像分成互不重叠的大小的块, 再对每一块进行二维离散余弦变换 (DCT) 。变换后的系数基本上要保持不相关, 要求系数矩阵的能量集中在低频区, 根据量化表进行量化, 量化的结果保留了低频部分的系数, 去掉了高频部分的系数。量化后的系数按zigzag扫描重新组织, 然后进行哈夫曼编码。JPEG的特点如下:

优点: (1) 形成了国际标准; (2) 具有中端和高端比特率上的良好图像质量。

缺点: (1) 由于对图像进行分块, 在高压缩比时产生严重的方块效应; (2) 系数进行量化, 是有损压缩; (3) 压缩比不高, 小于50。

4.2 JEPG2000压缩

JPEG2000是由ISO/IEC JTCISC29标准化小组负责制定的全新静止图像压缩标准。一个最大改进是它采用小波变换代替了余弦变换。其压缩原理及特点是:PEG2000编码过程主要分为以下几个过程:预处理、核心处理和位流组织。预处理部分包括对图像分片、直流电平 (DC) 位移和分量变换。核心处理部分由离散小波变换、量化和熵编码组成。位流组织部分则包括区域划分、码块、层和包的组织。JPEG2000格式的图像压缩比可在现在的JPEG基础上再提高10%~30%, 而且压缩后的图像显得更加细腻平滑。对于目前的JPEG标准, 在同一个压缩码流中不能同时提供有损和无损压缩, 而在JPEG2000系统中, 通过选择参数, 能够对图像进行有损和无损压缩。现在网络上的JPEG图像下载时是按“块”传输的, 而JPEG2000格式的图像支持渐进传输, 这使用户不必接收整个图像的压缩码流。由于JPEG2000采用小波技术, 可随机获取某些感兴趣的图像区域 (R OI) 的压缩码流, 对压缩的图像数据进行传输、滤波等操作。

4.3 小波变换图像压缩

小波变换图像压缩原理:小波变换用于图像编码的基本思想就是把图像根据Malla t塔式快速小波变换算法进行多分辨率分解。其具体过程为:首先对图像进行多级小波分解, 然后对每层的小波系数进行量化, 再对量化后的系数进行编码。小波图像压缩是当前图像压缩的热点之一, 已经形成了基于小波变换的国际压缩标准, 如MPEG-4标准, 及如上所述的PEG2000标准。

4.4 分形图像压缩

1988年, Barnsley通过实验证明分形图像压缩可以得到比经典图像编码技术高几个数量级的压缩比。1990年, Barnsley的学生A.E.Jacquin提出局部迭代函数系统理论后, 使分形用于图像压缩在计算机上自动实现成为可能。其原理为:分形压缩主要利用自相似的特点, 通过迭代函数系统 (Iterate d Function System, IFS) 实现。其理论基础是迭代函数系统定理和拼贴定理。分形图像压缩把原始图像分割成若干个子图像, 然后每一个子图像对应一个迭代函数, 子图像以迭代函数存储, 迭代函数越简单, 压缩比也就越大。同样解码时只要调出每一个子图像对应的迭代函数反复迭代, 就可以恢复出原来的子图像, 从而得到原始图像

除了以上几种常用的图像压缩方法以外, 还有:NNT (数论变换) 压缩、基于神经网络的压缩方法、Hibert扫描图像压缩方法、自适应多相子带压缩方法等

5、结语

图像压缩与编码技术研究了几十年, 取得了很大的成绩, 但还存在着很多不足之处, 值得我们进一步研究和探讨。虽然小波图像压缩和分形图像压缩是当前研究的热点, 但二者也有各自的缺点, 在今后的研究中, 要与人眼视觉特性相结合。总而言之, 图像压缩与编码技术是一个非常有发展前途的研究领域, 这一领域的突破对于我们的信息生活和通信事业的发展具有深远的影响。

参考文献

[1]周宁, 汤晓军, 徐维朴.JPEG2000图像压缩标准及其关键算法[J].现代电子技术, 2002, (12) :1-5.

[2]吴永辉, 俞建新.JPEG2000图像压缩算法概述及网络应用前景[J].计算机工程, 2003, 29 (3) :7-10.

[3]A Said, W A Pearlman.A new fast and efficient image codec based on set partitioning in hierarchical?trees[J].IEEE Trans.on Circuits and Systems for Video Tech.1996, 6 (3) :243-250.

图像编码 篇10

HDR的全称是High-Dynamic Range (高动态范围) 。Dynamic Range (动态范围) , 动态范围是指图像中所包含的从“最亮”至“最暗”的比值, 也就是图像从“最亮”到“最暗”之间灰度划分的等级数;动态范围越大, 所能表示的层次越丰富, 所包含的色彩空间也越广。高动态范围 (HDR) 就是从“最亮”到“最暗”可以达到的比值。

在日常生活中, 经常遇到这样的情况:突然从黑暗的房间中走到阳光下, 眼睛会无法睁开;清晨阳光会穿透窗帘像光柱般照射入房间;反光度较高的物体在强光下会在周围产生光晕。以上这些生活中随处可见的现象在有HDR以前无法在3D世界中呈现, 最大的原因就在于使用8~16bit的整数数据, 使用8~16bit的整数数据是整个图象处理失真的关键点, 所以对以往的运算方法做了以下二方面的重大改进:

1) 使用16bit、32bit的数据来提高像素数据的精度。既然继续使用8bit的数据来记录像素的特征不能满足HDR数据所需要的高精度运算的要求, 在这种情况下, 考虑使用16bit、32bit的数据记录来提高像素数据的精度都是可以的。使用了更多的数据来保存像素特征之后, 无论是像素的对比度还是像素可以体现的色彩数目都有了巨大的提高。

2) 图像数据采用浮点数据。HDR真正的巨大变革来自于浮点数据的引入。可以采用浮点方式来处理和存放亮度数据, 抛弃不准确的整数数据;同时计算机在引入浮点数据来存储象素的各个参数并且在运算的全过程都使用浮点数据, 这样就可以有效的提高据的精确度。

采用HDR后动态范围如下公式, 可以知道HDR后动态值可以有多大, 而动态值的大小直接表现了动态范围的大小:

Dynamic Range=log10 (Max Intensity/Min Intensity) 。

公式中intensity是指强度, 对最大亮度除以最低亮度的结果取对数, 得到的结果就是动态范围的相对数值。根据公式计算, 当在亮度通道使用8bit的的情况下, 最高亮度255, 最低亮度1。那么计算得出的动态范围就是数值约为2.4, 加上单位就是24dB。同理可以计算得出16bit的亮度通道的动态范围是数值约是4.8, 是使用8bit亮度通道的一倍。理论上在HDR模式下, 动态范围的数值最高可以到达76.8。在NVIDIA所使用的OpenEXR中表现出来的HDR动态范围的数值最大值约有12.0, 远远高出单纯使用16bit亮度通道的所带来的亮度体验, 这是采用了优秀算法的结果。OpenEXR所能实现的最大动态范围已经超过了人眼的9, 带来了更加真实的视觉体验。

2、HDRI编码 (OpenEXR、RadianceRGBE、SGI LogLuv)

HDRI (High Dynamic Range Image) 就是记录采用了HDR技术的图象数据文件。常用的HDRI文件有OpenEXR、Radiance RGBE、SGI LogLuv三种格式。

2.1 OpenEXR文件格式

OpenEXR是由工业光魔 (Industrial Light&Magic) 开发的一种HDR标准。OpenEXR文件的扩展名为.exr, 常见的OpenEXR文件是FP16 (16bit Float Point, 也被称为half Float Point) 数据图像文件, 每个通道的数据类型是FP16, 一共四个通道64bpp, 每个通道1个bit位用来标志“指数”, 5个bit用来存放指数的值, 10个bit存放色度坐标 (u, v) 的尾数, 其动态范围从6.14×10^-5到6.41×10^4。

在OpenEXR的算法里面共使用16bit来表示光照数据。虽然看起来和使用16bit亮度通道运算位数相同, 但是OpenEXR巧妙的采用了1个bit位用来标志“指数”, 5个bit用来存放指数的值, 10个bit存放色度坐标的尾数。这样就轻易的解决了浮点数值由于位数少而精度不高的问题。大大的拓宽的在FP16下的动态范围。根据实际的计算结果:在正规化的情况下OpenEXR可以提供和人眼基本相同的动态范围, 最暗到最亮是0.00006103515625 (6.14×10^-5) 到65504 (6.41×10^4) , 动态范围是9.03;非正规化条件下, OpenEXR可以提供从最暗到最亮的数值从0.000000059604644775390625 (5.96×10^-8) 到65504 (6.41×10^4) , 化为动态范围表示就是12。

2.2 Radiance RGBE文件格式

RGBE文件的扩展名为.hdr, RGBE正式名称为Radiance RGBE格式。其原本是BR、FR等作为radiance材质的一种格式, 也称之为radiance map, 后来成为流行的一种HDR格式。其中E, 就是指数。Radiance RGBE文件每个通道为8bit BYTE数据类型, 4个通道一共是32 bit。RGBE可以使用RLE压缩编码压缩, 也可以不压缩。由文件头、RGBE数据组成。

文件头如下:

类型输出格式

RGBE数据与HDR FP32 (RGB) 相互转换公式如下:

如果e为0, R=G=B=0.0, 否则:

如果v<1e-32, r=g=b=e=0, 否则:

将v用科学计算法表示成v=m*2^n (0<m<1) :

2.3 SGI LogLuv编码

1997年, Greg Ward在SGI工作, 开始着手开发新的高动态范围图像格式, 以弥补RGBE的不足之处, 他希望提出高动态范围图像编码的工业标准。他的工作最终产生了Sam Leffler的TIFF图像库中的LogLuv编码。这种编码是以人类视觉模型为基础, 并且使得其量化步长与人眼在不同对比度情况下色彩感知能力匹配。这种编码的主要优势在于它的量化误差低于理想现实系统下的可见误差。它的设计理念与YCC编码是一致的, 没有色彩范围和动态范围的限制。通过分离亮度和色彩通道, 并且对亮度进行对数编码, 能够获取更有效的编码方法。

实际上存在3中对数编码的变体, 第一种变体对亮度使用10位对数编码, 结婚14位CIE编码整合为每像素24位编码的格式。这种编码方式能够包含所偶可见的色彩信息, 其亮度数量级为4.8, 量化步长不可见。第二种变体对亮度使用16位对数编码, 允许负值, 其动态范围数量级为38, 量化步长为0.3%, 量化步长远远低于肉眼可见范围, 第三种变体对亮度使用带符号的16位对数编码, 加上CIE各8位编码, 每像素占有32位存储空间。

虽然LogLuv格式被许多计算机图形研究人员采用, 但是由于其包含咋Leffler的TIFF图像库中, 非常多的应用程序可以对其读取, 但是其并没有达到预期的广泛使用度。究其原因在于人们适应了RGB色彩空间, 不习惯Log Luv的色彩空间, 其实这两种色彩空间的转换相当容易。还有一个原因在没有强大的工业界的支持, 无论一个编码方式有多好, 也难被广泛应用。

3、结论

目前, HDR技术的应用才刚刚开始, 可以预计它今后的推广应用将是十分广泛的:

1) 基于物理的渲染现在高端渲染软件中的IBR (Image based Rendering) 技术就是HDR的一个重要应用。

2) 数字摄影HDR技术以其超凡的记录光影细节的能力, 无疑会为摄影创作提供广阔的空间。

3) 数字影院和数字视频。

4) 基于图像的虚拟现实全景图像数据包含了场景全方位的图像信息, 动态范围比一般的图像要大得多, 这正好为HDR技术提供了用武之地。

5) 遥测遥感技术卫星传回来的图像包含有许多肉眼可见范围以外的光谱信息, 而HDR宽泛的动态范围记录、多光谱记录和图像元数据的能力, 使之在科学研究上有着许多潜在的应用。

除了上述的应用外, HDR还会应用在图像编辑、人工视觉模拟、数字合成等领域。可以确信, 作为数字图像技术未来的HDR技术必将得到有关研究人员的重视, 其在各个领域的应用将得到普及和推广。

摘要:在讨论了高动态范围图像的基本理论基础上, 分析了高动态范围图像编码的三种技术方法及其特点, 最后展望了高动态范围图像技术的应用领域和前景。

关键词:高动态范围图像,HDRI,编码

参考文献

[1]G.Ward, E.Reinhard, S.Pattanaik, and P.Debevec, High dynamic range imaging:acquisition, display, and im-age-based lighting, Morgan Kaufmann Publisher, 2005.

[2]Y.Bandoh, G.Qiu, M.Okuda, S.Daly, T.Aach, andO.Au, “Recent advances in high dynamic range imagingtechnology, ”IEEE Conf.Int.Conf.Image Processing, pp.3125-3128, 2010.

[3]P.Debevec and J.Malik, “Recovering high dynamicrange radiance maps from photographs, ”Proc.ACM SIG-GRAPH, pp.369-378, August 1997.

[4]E.Land, “The retinex theory of color vision, ”ScientificAmerican, vol.237, pp.108-128, December 1977.

[5]B.Choi, S.Jung, and S.Ko, “Motion-blur free camerasystem splitting exposure time, ”IEEE Trans.ConsumerElectronics, vol.54, no.3, pp.981-986, August 2008.

[6]王家亮, 顾耀林.基于局部适应性的高动态范围图像显示方法[J].计算机应用, 2007, 27 (4) :989-990.

[7]何烽, 徐之海, 冯华君, 王凌, 裴锡宇.一种基于数字图像合成的扩展动态范围方法[J].光电工程.2003 (05)

[8]沈丰, 赵宇明.基于实时Retinex与双边滤波的图像增强算法[J].计算机应用与软件.2009 (11)

[9]万晓霞, 谢德红, 甘朝华, 张婧.基于颜色视觉的高动态范围图像压缩算法[J].中国印刷与包装研究.2009 (01)

上一篇:历史的味道下一篇:农村住宅改造