基于LSTM的图片压缩算法以及实现

2023-01-03

当今, 互联网时代每天产生大量的图片、thumbnails (缩略图) , 这些日益增多的图片容量造成服务器速度变慢, 大大影响到了人们的上网体验, 人们开始研究图像压缩技术, 来减小图片的容量, 提高网页的加载速度。

一、当前标准图片压缩的技术

(一) 常见的标准图片压缩技术

目前, 常见的标准图像压缩算法有JPEG、Web P等。

JPEG图像压缩算法是当前在图像压缩行业中应用最广的图像压缩技术, 被广泛应用于互联网、视频、数码等行业, 它不仅能具备良好的图像压缩性能, 还具有很好地图像重建质量, 被广泛应用于图像、视频处理、数码相机等领域。Web P技术是谷歌公司在2010年推出的一款用于加快图片加载速度的图像压缩技术, 它可以节省大量的服务器宽带资源和数据空间, 在2011年开始支持无损和透明色功能, 目前很多国外网站例如Ebay、facebook等网站均已采用此图片格式。

(二) 标准图片压缩算法的缺点

JPEG、Web P等标准图像压缩算法在当前被广泛应用在互联网技术中, 不过他们仍普遍存在问题。 (1) 两个标准图像压缩算法主要适应于大图片的压缩, 在大容量图片压缩方面效果显著, 但对于低分辨率thumbnail图片的压缩质量不高, 有时候会使图片受损。因为它们进行图片压缩都利用相同的原理:先通过设计算法降低需要保留的图片信息容量, 再利用保留的信息尽可能低损地压缩图片的转换方式。 (2) 两种算法对于对象比例中的假设存在问题, 很多时候并不能成立。

二、基于LSTM的图片压缩算法模型的创建及实现

RNN (Recurrent neural network) 是一类以在网络中出现环为特点的网络模型, 并且能存储着神经元这一时刻的输入与前一时刻输出的以来关系。RNN能把以前存储的信息连接到现在的任务中, 比如用过去的文字段落来预测当前段落的含义。

LSTM网络 (Long Short Term) 网络是一种RNN特殊的类型, 可以学习长期依赖信息。LSTML算法在很多问题解决方面取得成功, LSTM与RNN最大的不同在于, LSTM算法中添加了额外的一个判断型处理器工具, 这个处理器作用的结构被称为Cell。Cell用来判断进入网络中的信息对模型是否有用, 通过判断处理, 最后那些符合算法规则的信息被留下, 其他的不符合算法规则的信息被过滤掉。

(一) 基于LSTM算法的模型创建

二值化representation编码。

二值化方法分为如下两步:

(1) 第一步使用一个全连层加tanh激活函数, 将经过编码器得到的representation映射到 (-1, 1) 的区间内;

(2) 利用下面的函数将 (-1, 1) 区间内的编码进行二值化处理, 变成{-1, 1}:

这个二值化编码器等同于:

上式中, x为前面层的激活值, b、W分别是线性全连层的偏置和权重。最终图像的压缩比由残差自编码器的重复次数和W矩阵的行数决定。

(二) 基于LSTM的残差编码器

基于LSTM的残差编码器的LSTM结构如下:

上式中htl代表第l层在时间点t的LSTM隐层的状态, 圆圈里加一点代表的是元素级别的乘法, T代表一种仿射变换。这种LSTM模型能够减少操作数量, 这样可以保证GPU处理器更快速高效的运行。

(三) 模型训练

本文使用多种学习率进行模型训练。本模型统一采用尺寸为32×32的图像数据, 先从网络中下载随机的图片, 对于其他尺寸的图像, 现将图像尺寸转化为32×32, 将所有的图片无损保存, 格式为PNG图像。在进行模型训练时, 将全部图片的20%作为测试数据, 将剩余80%的图片作为训练数据。

三、结果与分析

经过模型训练, 最终得到输出结果。基于LSTM的压缩网络结构与标准图像压缩算法 (JPEG算法和Web P算法) , 基于LSTM模型的性能可以和JPEG相媲美, 在部分指标 (SSIM感知矩阵) 超越JPEG的压缩性能。基于LSTM的图片压缩算法是一项有效的、有前景的图像压缩技术, 这项算法尚未成熟, 但具有广阔的前景, 相信在以后, 基于LSTM的压缩网络技术会更加广泛的应用于各领域中。

摘要:近年来, 随着互联网技术和高像素数码相机技术的发展, 网络上和本地产生的图片的数量越来越多, 图片的像素越来越高, 导致图片的容量越来越大, 网络上过多的图片直接影响着网页的加载速度, 存储空间的减少意味着将获得更快的传输速度, 人们认识到如何将图像用低字节数保存越来越重要。本文基于各种图像压缩算法, 提出一种基于LSTM的图像压缩算法, 通过建立RNN模型、训练模型和结果分析, 得出结论。

关键词:LSTM,图像压缩技术,RNN网络

参考文献

[1] 王毅, 谢娟, 成颖.结合LSTM和CNN混合架构的深度神经网络语言模型[J].情报学报, 2018 (2) :194-205.

[2] 王毅, 冯小年, 钱铁云等.基于CNN和LSTM深度网络的伪装用户入侵检测[J].计算机科学与探索, 2018 (4) :575-585.

[3] 谢逸, 饶文碧, 段鹏飞等.基于CNN和LSTM混合模型的中文词性标注[J].武汉大学学报 (理学版) , 2017, 63 (3) :246-250.

[4] 代杰杰, 宋辉, 盛戈皞等.采用LSTM网络的电力变压器运行状态预测方法研究[J].高电压技术, 2018 (4) :1099-1106.

上一篇:在高三历史试卷评讲中培养学生的学习能力下一篇:精细化管理在施工企业成本管理中的应用