数字图书馆存储设备技术分析与应用

2022-09-11

数字图书馆建设面临的一个重要问题是对数字化信息的存储, 理想的存储介质是能够以较低的代价存储大量数据的介质, 同时能支持快速存储和读取信息, 而且要非常可靠并经久耐用。当前, 磁盘是现代计算机系统中标准的存储介质, 磁盘速度对数字图书馆系统而言是足够的, 因为从磁盘中读数据的速度比网络上传输的速度快, 但磁盘的弱点是它们的不可靠性, 磁盘上的数据很容易丢失, 为了避免这种损失, 标准的方法是做数据备份, 通常是拷贝到磁带上, 并且还使用冗余的方法, 这样简单的错误可以自动纠正。对于长期存储来说, 磁盘和磁带都不可靠, 数据被记录在很薄的磁层上, 这个磁层迟早会衰退。大规模数字图书馆的馆藏为保证信息存储的可靠性, 安全性, 一般采用多级存储设备, 典型的存储有三层:磁盘、光盘和磁带。磁盘主要用于在线存储, 这样信息可以在几分之一秒内读取;光盘为存储大规模数据提供了廉价的方案, 但盘片是离线存储的;磁带也是离线存储的, 主要用于存储备份。随着存储技术的迅速提高, 当前以磁盘、光盘和磁带三种存储介质组成的比较流行的存储产品主要有磁盘阵列、光盘库、磁带机 (库) 。

1 磁盘存储技术与应用

磁盘是为读者提供在线服务的最有效的存储设备, 磁盘系统是存储系统中最主要的角色, 负责数据基本的存储与输入/输出, 能够提供高速的随机数据访问。另外, 为了提供比通常的磁盘存储更高的性能指标、数据完整性和数据可用性, 磁盘系统往往通过冗余技术将多个磁盘组成磁盘阵列, 又叫RAID (Redundant Array of Disks) 。RAID是指将多个类型、容量、接口, 甚至品牌一致的硬磁盘按照一定的方式组合在一起, 使其能以某种快速、准确和安全的方式来读写磁盘数据, 从而达到在更大的存储容量中提高数据读取速度和安全性的一种手段。RAID技术的使用, 不但提高了硬盘的容错能力, 而且解决了CPU和I/O之间的传输速度不匹配的问题。

磁盘阵列硬件中, 除了包含由多个硬磁盘组成的磁盘组外, 还有一个在主机和磁盘组之间可提供接口的磁盘控制器和接口控制器, 其中, 磁盘控制器的作用是使整个磁盘组就像对一片磁盘进行读写一样, 读写速度快、性能稳定, 而且存储容量大;接口控制器则可为主机提供无缝透明的磁盘操作功能, 常用的接口方式有I D E、S A T A、S C S I、S A S和F C, 以匹配接口技术、不同性能的磁盘。

磁盘阵列主要功能是可提高网络数据的可用性及存储容量, 并将数据有选择性地分布在多个磁盘上, 从而提高系统的数据吞吐率。它通过把多个较小容量的硬盘连在智能控制器上来增加存储容量, 通过使用不同的存储技术能够免除单块硬盘故障所带来的灾难后果。磁盘阵列的最大特点是数据存取速度特别快, 在尽可能提高磁盘数据读写速度的前提下, 确保在一张或多张磁盘失效时, 阵列能够有效地防止数据丢失。磁盘阵列是一种高效、快速、易用的网络存储设备。

目前, 磁盘阵列使用的数据存储技术主要采用条带技术 (Striping) 、镜像技术 (Mirror) 和奇偶校验技术 (parity) 三类关键技术。这三类技术使用构成了磁盘阵列的不同级别, 主要有RAID0, RAID1, RAID2, RAID3, RAID5。

RAID0使用条带技术, 把数据分块后分布到阵列中各个磁盘上。RAID0是最简单的一种RAID技术, 只是提供更多的磁盘空间和提高有效的系统性能, 使数据读写变得更快速, RAID0没有冗余或错误修复能力。一般应用于那些对数据安全性要求不高的情况, 如视频、图象的制作和编辑。

RAID1使用镜像技术, 即一个磁盘上的数据被完全复制到另一个磁盘上。如果一个磁盘的数据发生错误, 或者硬盘出现了坏道, 那么另一个硬盘可以补救回磁盘故障而造成的数据损失和系统中断。使用RAID1系统的可靠性很高, 具有100%的数据冗余, 但效率很低, 因为需要多出一倍的存储空间。

RAID3, 使用奇偶校验技术和条带技术, 用一个专门的磁盘存放校验数据, 剩余磁盘使用数据分块技术来进行数据读写操作, 所以使用的磁盘数量越多, 成本开销会越来越小。由于采用校验盘, 不论向哪一个盘写入数据时都要重写校验盘中的相关信息, 从而导致校验盘的瓶颈问题, 因此RAID3只适合写入操作较少, 读取操作较多的环境, 例如数据库和WEB服务器等。

RAID5, 使用奇偶校验技术和条带技术, 它克服了RAID3中校验盘的性能问题, 在运行机制上与RAID3类似, 不同的是RAID5将校验数据不是保存在一个专门的校验盘中, 而是分散到所有的数据盘中, 从而消除了校验盘的瓶颈问题。目前, RAID5是一种被广泛应用的磁盘阵列方案, 适合应用于输入输出密集、高读写比率的应用程序, 如事务处理等。

以上各种R A I D技术在实际应用中还可以采用RAID0+1 (RAID10) 技术, 即同时使用条带技术和镜像技术;RAID0+3 (RAID30) 技术, 即在两组RAID3之间再组成一个RAID0阵列, 实现跨盘抽取数据。R I A D 0+5 (RAID50) 技术, 即在两组RAID5之间再组成一个RAID0阵列, 实现跨盘抽取数据;RAID6技术, 即在RAID 5技术的基础上, 将奇偶位和校验信息备份成两份, 允许两块硬盘出错。这样配置综合了多种技术的优势, 提供了可靠的数据存储和优秀的整体性能, 并支持更大的卷尺寸。

数字图书馆建设主要为读者提供在线检索及数字化信息全文服务, 磁盘阵列由于其极高的性价比, 是当前在海量存储中应用最广的存储设备, 也是各数字图书馆建设中首选设备, 在阵列技术方面, 由于RAID5及R AID 6技术具有性价比高, 安全实用, 目前广泛应用于各类数字图书馆的在线存储服务中。

2光盘存储技术与应用

光盘是继磁介质载体后产生的一种重要的信息存贮载体。它采用光波进行存储, 与纸张、缩微胶片、磁盘等信息载体相比具有容量大、成本低、保存时间长、制作简单、体积小、方便交换等一系列的特点。光盘普遍用于重要文献资料、视听材料、教育软件、影视节目和游戏动画等多媒体信息存储。

光盘存储器按其存储方式可分为CD类、DVD类、MO类, 其中MO是磁光盘 (Megneto-Optical Disk) 的简称, 它是传统磁盘技术与光技术结合的产物, 能让用户在看似传统的3.5英寸或5.25英寸的盘片上存储数百兆甚至数千兆的数据。光存储器按其记录原理的不同, 还可分为只读式、一次性写入, 多次读出式、可读写式三种类型。

(1) 只读式:只读式光盘以C D-R O M/D V D-R O M为代表。对于只读式光盘, 用户只能读取光盘上已经记录的各种信息, 但不能修改或写入新的信息。只读式光盘特别适于廉价、大批量地发行同一种信息, 图书馆馆藏的数字信息光盘及配书光盘都属这种类型。

(2) 一次性写入, 多次读出式:目前这种光盘主要为C D-R/D V D±R。其写入系统主要由写入器和写入控制软件构成。目前的C D-R/D V D±R都支持多次写入, 而且可以在C D-R O M驱动器上读出所有逐步累加录入的任何数据, 这样可以向CD-R盘上追加数据。

CD-R/DVD±R的出现对电子出版也是一个极大的推动。对于需少量CD盘的场合, 它可免除高成本母盘录制和大批量C D-R O M复制过程, 具有良好的经济性, 是图书馆开展数字化信息制作与备份必不可少的存储工具。

(3) 可读写式:目前市场上出现的可读写光盘有C D-R W、D V D-R A M/D V D-R W、磁光盘MOD (Magneto-Optical Disk) 和PCD等, 其中D V D-R A M/D V D-R W是一种采用相变技术实现可反复重写 (擦写) 型DVD光盘存储器。可读写式光存储器主要用于数据交换。

在大容量光存储器方面, 目前还是比较流行D V D光盘存储器

光盘存储器在适应不同形式信息存贮的需要和满足人们对信息利用的各种要求等方面都显示出了无以伦比的优势, 目前最好的多媒体信息存储载体或重要文献资料备份媒体, 非光盘莫属。以光盘为载体的电子出版物现在已成为图书馆馆藏的一个重要组成部分, 图书馆光盘类型主要有配书光盘、数据库光盘、多媒体光盘等。为了有效管理和充分利用电子出版物, 共享光盘资源, 必须将保存有大量不同信息的光盘组合起来使用, 构建图书馆光盘电子资源存储与应用体系, 为读者提供海量光盘信息的网络存取及其在线服务。在海量光盘数据存储及应用上, 其主要代表产品有光盘库、光盘塔和光盘网络镜像服务器。

(1) 光盘库

实际上是一种可存放几十张或几百张光盘并带有机械臂和一个光盘驱动器的光盘柜。光盘库也叫自动换盘机, 它利用机械手从机柜中选出一张光盘送到驱动器进行读写。它的库容量极大, 机柜中可放上百片光盘, 这种有巨大联机容量的设备非常适用于图书馆一类的信息检索中心, 尤其是交互式光盘系统、数字化图书馆系统、实时资料档案中心系统等。光盘库的特点是:安装简单、使用方便, 并支持几乎所有的常见网络操作系统及各种常用通讯协议。由于光盘库普遍使用的是标准EIDE光驱 (或标准5片式换片机) , 所以维护更换与管理非常容易, 同时还降低了成本和价格。又因光盘库普遍内置有高性能处理器、高速缓存器、快速闪存、动态存取内存、网络控制器等智能部件, 使得其信息处理能力更强。

(2) 光盘塔

由几台或十几台C D-R O M/D V D-R M驱动器并联构成, 可通过软件来控制某台光驱的读写操作。光盘塔可以直接连接在网络上, 同时支持几十个到几百个用户访问信息。光盘塔结构比光盘库简单, 造价低, 读取光盘速度快, 但容量较小。

(3) 光盘网络镜像服务器

光盘网络镜像服务器是一种将光盘技术、硬盘技术和通用服务器技术相结合, 专为光盘网络共享而设计的NAS光盘网络共享设备。光盘镜像服务器将光盘的信息存储和读取功能分离, 凭借硬盘的高速存取能力来共享光盘信息资源, 因此光盘镜像服务器的访问速度要比光盘库或光盘塔快几十倍。光盘网络镜像服务器完成其硬盘数据与客户机之间的数据传送, 使客户机能以硬盘的访问速度来共享C D-R O M光盘上的信息资源, 消除了C D-R O M驱动器瓶颈问题, 极大地改善了光盘网络共享的性能。

光盘网络镜像服务器不仅具有大型光盘库的超大存储容量, 而且还具有与硬盘相同的访问速度, 其单位存储成本大大低于光盘库和光盘塔, 因此光盘网络镜像服务器已开始取代光盘库和光盘塔, 逐渐成为光盘网络共享设备中的主流产品。

3磁带存储技术与应用

在大容量数据备份和存档的存储领域, 因为可移动, 容量大, 技术成熟, 价格低廉等优势, 磁带仍是最佳的介质。在数据保护和数据迁移应用中, 磁带的优势非常明显, 它主要集中在两方面, 一是具有高可靠性, 它是实现脱机备份的最有效的手段, 而这种独立的脱机备份杜绝了数据丢失的一切可能性;二是成本低, 虽然磁盘存储的成本一再降低, 不断对磁带存储构成威胁, 但至今一台典型磁带库每G B的成本较之一套R A I D系统还是要低得多。将来, 磁带的基本介质成本不会增加, 而单位密度将达到与磁盘相当。

磁带存储一般指磁带机和磁带库。磁带机是一种经济、可靠、容量大、速度快的备份设备;磁带库是作为集中式网络数据备份存储的主要设备。

磁带库是一种机柜式的、将多台磁带机整合到一个封闭系统中的数据备份设备, 是离线存储系统中的关键设备之一。它主要由磁带驱动器、机械臂和磁带构成, 可实现磁带自动卸载和加载、连续备份、自动搜索磁带, 也可以在存储管理软件的控制下实现智能备份与恢复和监控统计等功能, 能够满足高速度、高效率、高存储容量的要求, 并具有强大的系统扩展能力。它的存储容量可达到数百P B (1PB=100万GB) 。磁带库不仅数据存储量大得多, 而且在备份效率和人工占用方面拥有无可比拟的优势。在网络系统中, 磁带库通过光纤 (Fabric) 和SCSI连接方式, 广泛应用于S A N、N A S等网络存储环境之中, 形成网络存储系统, 为数据存储提供有力保障, 很容易完成远程数据访问、数据存储备份, 或通过磁带镜像技术实现多磁带库备份。

现如今磁带机 (库) 支持的备份技术主要有D A T、8 m m、D L T、L T O、A I T及V X A等, 目前比较流行的技术是D L T、L T O、A I T技术。

(1) DLT (Digital linear tape, 数字线性磁带) 或S-DLT (Super-DLT) 技术

由DEC、Quantum公司开发, 采用线性记录方式。DLT磁带匣里只用到一个线轴将磁带卷起来。磁带的尾端有一个大环, 当磁带匣安装到磁带机上时, 磁带会从里头被抽出来, 卷到磁带机里的线轴上, 里头采用引导滚轮设计。目前DLT驱动器的容量从10GB到80GB不等, 数据传送速度相应由1.25MB/秒至10MB/秒。另外, 一种基于DLT的Super DLT (S-DLT) 是昆腾公司2001年推出的格式, 它在D L T技术基础上结合新型磁带记录技术, 使用激光导引磁记录 (LGMR) 技术, 通过增加磁带表面的记录磁道数使记录容量增加。目前S-DLT的容量为160GB, 近3倍于DLT磁带系列产品, 传输速率为11MB/s, 是DLT的2倍。DLT产品由于其高容量, 主要定位于中、高级的服务器市场与磁带库系统。

(2) LTO (Linear Taper Open, 线性磁带开放协议) 技术

由IBM、HP、Seagate公司开发, 采用线性记录方式, 工作方式与D L T磁带机类似。L T O技术结合了线性多通道、双向磁带格式的优点, 基于服务系统、硬件数据压缩、优化的磁道面和高效率纠错技术来提高磁带的性能。L T O技术有两种存储格式, 即高速开放磁带格式Ultrium和快速访问开放磁带格式Accelis, 它们可分别满足不同用户对LTO存储系统的要求, Ultrium采用单轴1/2英寸磁带, 非压缩存储容量100GB、传输速率最大20MB/s、压缩后容量可达200GB, 而且具有增长的空间, 非常适合备份、存储和归档应用。Accelis磁带格式则侧重于快速数据存储, Accelis磁带格式能够很好地适用于自动操作环境, 可处理广泛的在线数据和恢复应用。

(3) AIT (Advanced Intelligent Tape, 先进智能磁带) 技术

由索尼公司、Spectra Logic公司开发, 采用的是螺旋扫描方式进行记录。AIT技术具有螺旋扫描、金属蒸发带等先进技术, 在相同材料下, 采用螺旋扫描的方式能使材料寿命延长。AIT的数据保护性能比较突出, 可用于数据备份。AIT磁带库与其它同容量、同传输速率的产品相比, 具有体积小、能耗低、容量大、价格便宜的优点, 适用于中端用户。

随着基于磁盘的技术越来越成熟, 价格越来越低, 也有厂商推出虚拟磁带库产品, 虽然如此, 但磁带将继续在备份、恢复和存档策略中扮演不可或缺的角色。另外, 随着制造技术和生产工艺的不断改进, 磁带机的性能还将得到很大的提高。包括:磁带将被做得越来越小;存储能力越来越大;磁带机的自动化程度也将越来越高。磁带存储凭借可靠性高、存储单位均价低、容量扩展方便等诸多优势使其成为容灾备份不可或缺的技术。

4结语

图书馆作为信息中心, 为读者提供各种信息服务, 大量数据的存储及安全是构建数字图书馆的关键, 随着磁盘价格的大幅度降低和存储技术的迅速提高, 数字化信息的存储和备份基本上使用磁盘存储。在网络海量存储及备份系统中, 磁盘阵列、磁带库、光盘库等存储设备因其信息存储特点的不同, 应用环境也有较大区别。磁盘阵列主要用于网络系统中的海量数据的即时存取;磁带库更多的是用于网络系统中的海量数据的定期备份;光盘库则主要用于网络系统中的海量数据的访问。我们在规划和建设存储网络时, 可根据不同需求和资金, 结合性价比综合考虑。

未来的存储世界是和网络化、分级化存储相关的, 在分级数据存储结构中, 磁带库等成本较低的存储资源用来存放访问频率较低的信息, 而磁盘或磁盘阵列等成本高、速度快的设备, 用来存储经常访问的重要信息。这样一方面可大大减少非重要性数据在一级本地磁盘所占用的空间, 还可加快整个系统的存储性能。一个服务功能齐全、安全完善的数字图书馆, 将会涉及到几种不同性能的存储设备和不同的存储形式。

摘要:数字信息存储设备是构建数字图书馆的基础设备, 本文通过介绍和分析当前常用海量存储设备的技术及其应用, 为不同规模与安全体系的数字图书馆建设选择存储设备提供参考。

关键词:数字图书馆,存储设备,磁盘阵列,光盘库,多级存储

参考文献

[1] 张旭苹.信息存储技术[M].电子工业出版社, 2001, 9.

[2] 罗登文.海量存储系统设备和模式的选择[M].图书情报, 2004 (11) .

[3] 韩育, 安兵菊.数字图书馆存储系统的构建[M].信息技术, 2003 (5) .

上一篇:《化工管理》杂志约稿函下一篇:海派文化下的上海高校景观文化表达及对现代文化向校园迁移的思考