基于“唐诗宋词”文本为载体的信息隐藏技术

2022-09-11

信息隐藏技术是一门集密码学、数学、信息论、计算机视觉等多门学科为一体的交叉学科, 其原理是将一个有意义的信息隐藏在公开载体 (cover) 的信息中得到隐蔽载体S (stegocover) , 即利用载体中的冗余和人的视觉不敏感度来隐藏秘密对象, 实现保密通信。信息隐藏技术的原理框图入下, 在嵌入过程中, 隐藏者通过算法将已加密的信息嵌入到载体中形成隐藏对象, 并通过公开信道传输, 提取过程中, 提取者按秘钥和提取算法获得密文。

信息隐藏可以应用于多种数据结构的媒体类型, 在这些载体中, 主要分为文本、图像、语音、视频几类。文本是一种常见的载体类型, 不同于图像编码、音频编码和帧编码, 文本主要以字符编码为主来表示信息的数据, 具有编码简单、数据量小、存储传输方便快捷的特点, 相较于图像载体而言, 相同数据量的文本可携带的信息量更大。

文本可分为格式化文本和非格式化文本, 对格式化文本, 如Word、PDF等格式而言, 该文本具有许多特性, 如字的大小、颜色、字体、字间距及每行的行间距等、将密文通过这种不同的表现形式进行编码。非格式化文本数据 (TXT) , 只有编码方式有区别, 格式冗余很少, 相较于音频、图像等数据格式, 纯文本也几乎没有编码冗余信息, 所以要从句法和语义上进行信息隐藏。在句法上来看, 可利用空格的编码方式不同可隐藏信息, 或使用调整语句顺序、使用名词缩写等方式传递信息, 但这些方法都要求通讯双发事先约定好密码本, 公开载体可以是任何内容。从语义上来看, 可以使用同义词替换、等价词代换等方式完成信息隐藏。

一、以“唐诗”为载体的信息隐藏

“藏头诗”也是信息隐藏思想的一个体现, 但古时候的藏头诗都是由人创作而成的, 随着自然语言处理和计算机科学的发展, “诗歌生成器”的出现则能使得机器自动生成一首标准的“藏头诗”。诗歌生成器的原理是, 首先对大量的诗词语料进行预处理, 将其按照韵律拆分, 制定固定的模板格式, 如根据句长格律可分为五言绝句、七言绝句, 根据押韵方式可分为双句一押、双句押韵、一三四押韵等, 将拆分好的词语进行格式处理, 去标点, 去重并进行词性标注构建词典。在信息嵌入过程中, 机器根据输入的秘密信息在词典中检索, 并根据模板将词语拼接在一起, 就构成了一首藏头诗。由于直接拼凑在一起的诗看起来较为生硬, 更细致的诗歌生成器会对词语进行情感分析, 标注出词语的情感极性, 这样会使生成的诗歌语义更为通顺, 感情色彩相对一致。

二、以“宋词”为载体的信息隐藏

藏头诗对于秘密信息的传输而言, 抗检测性较差, 于是引入另一种具有音乐性的新题诗歌“宋词”作为载体, 并在秘密信息嵌入之前对其进行密码学加密, 更加保障了密文传输的可靠性。宋代以前的词都是配合音乐歌唱的, 有的依调制词, 有的依词制调, 曲调乐谱的名称称为词牌, 所填词既要满足音乐性还要有格律要求, 如字长、平仄、格式韵味, 这就为信息嵌入提供了良好的模板。词牌都有固定的韵律划分为“平”“仄”“中”, 再按韵律特点和分词将词划分为“二词”、“三词”, 这样就生成了一个载体模板。

生成载体模板之后, 宋词的拆分和词典的构建过程与唐诗的词典建立方式一样, 均是对大量的宋词语料进行预处理, 但与藏头诗生成不同, 以宋词为模板的信息嵌入之前加入了运用密码学的RSA公钥加密算法, 因此在词语预处理完之后需要用哈希函数对词典内词语进行散列, 并以文件流形式写入词典的相应位置。嵌入过程是将加密信息转化为二进制码, 并根据韵律 (平仄) 在词典中对应到其相应的词语, 组合起来形成一首词, 通信双方拥有相同的词典和模板 (很像前面提到的隐语在战时的应用, 只是载体变成了宋词) , 提取方得到所做的词之后进行嵌入的逆过程即可得到二进制密文, 再经过解密算法, 整个过程就实现了以宋词为载体的文本信息隐藏通信。例如:加密后的二进制编码为10000110011000011, 代入选用的宋词模板根据平仄划分为3/4/3/4/3, 对应构建好的词典可以得出词句为:秋声花谢雁南飞, 塞上伤离别。

随着近期人工智能的火热, 信息隐藏技术与自然语言处理相结合后, 可以有多种方式实现以文本为载体的信息隐藏, 在各种方法中, 由于我国的诗词歌赋是极具音韵与格律美感的, 于是可以用其为载体进行信息隐藏。在处理语料时, 加入情感分析, 还可以精确的生成固定风格的诗词, 如婉约派, 豪放派。虽然诗歌生成器在文学界存在不小的争议, 毕竟是由机器学习拼凑出来的成品, 完全没有人的情感、意境和想象在里面, 并不具有文学价值。但就信息隐藏技术而言, 诗歌生成器完美的做到了将密文隐藏其中的任务, 实现了以文本为载体的信息隐藏。不光是诗歌一种形式, 文本载体还有很多分支, 如超链接文本, 也可以做信息隐藏, 相信在未来, 会有更多算法实现信息隐藏技术在文本上的应用。

摘要:信息隐藏技术的思想于古代战时就已经存在, 在互联网日益发达的今天, 信息隐藏技术作为网络安全领域的一项重要技术, 引起了人们的关注。信息隐藏的载体有很多种, 本文所述的文本载体, 不同于广泛传播的数字图像、视频等数据, 文本数据拥有着独特的表现方式和不同的信息隐藏算法, 尤其是中国的“唐诗”、“宋词”等经典体裁的诗歌, 其极富韵律和特殊的格式的特点更是为信息隐藏技术提供了良好的模板。自然语言的迅速发展使得自动生成含有隐藏信息的诗词歌句更为方便, 将其与密码学加解密算法相结合, 实现以“唐诗”、“宋词”等文本为载体的信息隐藏。

关键词:信息隐藏技术,文本载体,自然语言处理

上一篇:预应力技术在公路桥梁中施工应用与分析下一篇:男性不育患者与正常人的沙眼衣原体感染的比较