基于Grid存储的数字图书馆建设与研究

2024-05-15

基于Grid存储的数字图书馆建设与研究(精选8篇)

篇1:基于Grid存储的数字图书馆建设与研究

浅析网络存储在图书馆数字化建设中的应用

王振锟

(海军航空兵学院图书馆 辽宁葫芦岛)

关键词:iSCSI,网络存储,数字化建设

摘要:在信息资源建设不在受限于服务器性能的今天,数据存储空间成为了部分中小图书馆数字资源发展的制约。网络存储的使用,能够很好的解决存储中间的不足。本文通过对iSCSI协议的浅析,结合网络存储的实际使用,论诉了网络存储可在数字图书馆建设中发挥的作用。

大数据已经渗透到我们生活的方方面面,纸质图书目前还无法被完全取代,但数字化资源正大面积渗透入人们的生活。数字资源以他高效的检索优势正成为人们生活、学习中最不可或缺的信息形式。

数字资源在存储过程中存在一定的风险,这种风险往往是由于服务器系统的瘫痪或硬件损坏造成的。系统瘫痪还能相对便捷的恢复数据,但硬件损坏往往会因配件无法获得而导致数据无法恢复。传统服务器使用一体或分体式的磁盘阵列,连接、配置繁琐,且每款服务器因品牌差异配置、调试方式迥异,加大了技术人员工作负担。

目前互联网中使用比较广泛的云存储在一定程度上解决了数字资源存储中的诸多问题,但其搭建成本较高、技术难点多并不适合大部分军队院校图书馆。在这种情况下,网络存储成为了中小图书馆的最佳选择,其相对成本较低、使用维护方便、扩展性好等特点十分符合中小图书馆数据存储的需求。

目前网络存储技术大部分都是基于iSCSI协议的,iSCSI(Internet SCSI)是SCSloverIP的标准协议,基本搭建方式是在TCP/IP网络上运行SCSI协议从而达到通过网络进行I/O操作的目的。ISCSI协议整合了现有的主流存储协议SCSl和主流网络协议TCP/IP,实现了存储和网络的融合。ISCSI协议中存在两类设备:启动器和目标器。启动器发起I/O请求,目标器响应I/O请求。在使用过程中启动器往往是指我们的服务器,目标器指的是网络存储设备。

iSCSI协议结构

一.iSCSI 技术优势

存储区域网SAN需要高昂的建设成本,一般中小图书馆难于承受。NAS(Network Attached Storage 网络接入存储)技术虽然成本低廉,但是受带宽消耗的限制,无法完成大容量存储的应用,而且系统开放性差。iSCSI技术在以上两者之间架设了一道桥梁。虽然iSCSI基于 IP 协议,却拥有 SAN 大容量集中开放式存储的品质。这一技术对于一边要面对信息爆炸,另一边却身处“数据孤岛”的众多中小馆无疑具有巨大的吸引力。iSCSI 技术具有以下几个明显的技术优势。

1)成本投入小。iSCSI 可以在现有的 TCP/IP 网络上直接安装,并不需要更改馆内的网络体系,iSCSI 的实现完全可以使用因性能低下而濒临淘汰的服务器,这样可节约大量资金投入。单独采购网络存储设备的费用虽然相对较高,但一次投入长期受益,不会受限于服务器性能低下而导致的淘汰更新,同时也降低了数据迁移的时间成本。

2)管理便捷,维护成本低。FC SAN 需要专用软件进行管理,管理人员需要专业培训,培训成本较高;iSCSI 利用现有网络就可以管理,设置简单,管理人员无需专门培训,更能节约成本。iSCSI 的数据传输速度随以太网的速度而变化,单机直连的方式能促进 iSCSI 的数据传输速度的提高。

3)组建方式灵活,可扩展性高。由于 iSCSI 存储系统直接借助现有网络系统进行组建,无需改变网络体系,对于需要增加存储空间的各图书馆来说,只需将存储设备连接到交换机或直连至服务器就可实现。一台带管理的网络存储,理论上可以无限添加存储空间,高可扩展性降低了资金成本,也降低了人力成本。二.中小图书馆网络存储搭建

以下结合我馆网络存储的使用情况,简要列举网络存储在使用过程中的优势:

1.连接、配置简单,管理便捷。实际使用中来看,服务器与网络存储的连接方式采用超五类以上双绞线直接连接是比较理想的,既保证了数据的传输效率也保障了数据的安全性。网络存储的配置主要以各种RAID操作为主,我馆采用了RAID6加两块热备盘的结构,在保证存储空间最大化的同时,也为硬件故障提供了足够的保障。在做好RAID后,网络存储端就可以移至web界面继续配置,此web界面需要专用接口通过网线连接至电脑,通过对空间管理、SAN空间配置、网络端口配置等一系列的配置,便可以简单的完成网络存储端的搭建。服务器端的配置更加简单,在windows操作系统下安装官网发布的iSCSI程序后,就可轻易连接网络存储。连接后的存储空间可以在系统的磁盘管理中看到相对应的磁盘空间,其与普通的物理磁盘一样使用,并且在windows2003操作系统中无2T磁盘大小限制。当服务器出现系统和软件无法解决的问题时,只要前期将系统或虚拟机做过备份,就可以短时间内对系统进行恢复,从而继续为用户提供服务。

为了实现异地容灾,建设好本馆内的服务器及网络存储的基础上,我馆托管于网络管理中心一台相对性能较低的服务器和一套网络存储设备。使用了光纤、光电转换器、交换机、双绞线的专网结构连接至本馆,通过软件实现了重要资源和数据库的备份。当本馆服务器等设备遭遇不可预知的灾难性毁坏时,可以最短的时间内回复大部分重要数据,为读者提供持续服务。在没有网络存储的情况下,要实现大数据的异地备份,就要搭建更多的服务器,消耗了大量资金的同时管理上也存在诸多困难。2.维护简单,可扩展性良好。在搭建和配置好网络存储和服务器后,日常的维护尽限于停、断电后的启动,出现此情况后,需要先启动网络存储,再启动服务器,这样就不会出现因磁盘连接未完成而导致的数据库文件无法连接的情况发生。因为使用的工业级硬盘,硬盘寿命一般较长,极特殊情况才会出现硬盘损坏的状况。因采用了RAID6间两块热备盘的结构,只要不是出现大面积硬盘损坏情况,通常只要及时更换硬盘,就可以完成网路存储的维护,且数据不会有任何丢失或损坏。

中小图书馆信息资源建设中,随着数据量不断的增加,往往都因存储空间不足,导致现有资源无法更新、新资源无法引进等问题。我馆在使用网络存储后很好的解决了这个问题,一台有管理的网络存储,理论上能够无限扩展存储空间,实际使用中在不影响性能和存储效率的情况下,可以外挂四台扩展存储,以最大化配置和使用来看,总计可增加300T以上的存储空间。这样的空间足以满足中小馆十年,甚至几十年数据增长的存储需求。当外挂扩展存储后,原本存在的存储空间可在不对数据迁移的情况下进行无损扩展,节约了大量的时间成本。

3.兼容性良好,售后服务完善。iSCSI协议可以在各种版本windows操作系统下运行,这也就为数据的迁移带来了更多的便捷,再也不用因为服务器的调整或故障,消耗数天的时间将数据从一台服务器迁移至另一台服务器,通过在另一台服务器上简单的配置iSCSI服务后,便可将网络存储上的资源直接进行使用。当系统瘫痪根本无法访问数据的时候,原来的解决办法是只能冒着数据丢失的风险,重做服务器系统。实际使用中更便捷的方法是在服务器中创建虚拟机,虚拟机配置并发布数据后,将网络存储与虚拟机脱机,对虚拟机进行快照备份。这样一来,一旦出现系统瘫痪的情况,直接对虚拟机进行恢复,就可以快速完成对数据的再发布,为读者提供短暂间断的数据服务。同时,这种服务器结构因物理机中除运行iSCSI服务和虚拟机外,不再运行其他程序,降低了物理机瘫痪的风险。

每个品牌的网络存储都会提供完善的售后服务,无论是硬件还是软件,其售后皆能提供独具针对性的解决方案。在对应的解决方案下,图书馆技术人员能够迅速的对服务器和网络存储进行硬件更换以及配置调整。

随着网络存储技术的不断提高和完善,必然更适合中小图书馆的使用,为数字资源建设提供更方便快捷的存储空间解决方案。

篇2:基于Grid存储的数字图书馆建设与研究

一、数字图书馆大数据存储容量不足的问题

现代图书馆是一个十分复杂的机构,完备的图书馆除了具有对借阅人员信息、图书还借与出人信息、图书设备信息等硬数据进行管理外,数据量最大最复杂的当属对图书资料本身的软数据管理以及现代电子图书资料的储存与管理,特别是大型图书馆或高校图书馆,门类齐全、借阅量大、内容及设备多样,更使得它所产生的数据结构复杂且数据增量大。

图书馆的数据量随时间线性增长,随着各种类型的数字化图书及设备越来越多,信息化程度的不断加强,对图书及读者管理规范程度的不断提高,以及读者对资源要求的不断加深,致使数据容量加速增长。

当前大型图书馆每年的数据增量大约为20~30TB,如此浩大的数据量,对于一个拥有100TB存储容量的图书馆一也只能满足3一5年的`数据存储需要,因此需要采取有效的应对措施予以解决。

日前,许多高校图书馆的存储设备容量利用率不到50%,大有潜力可挖。在图书馆实际管理工作中,在缺乏技术的情况下,经常采取整理碎片的技术来提高存储空间利用率和数据查询效率,这对于一般性的小容量操作是可行的,但对于大型数据系统其耗费的时间是难以估计的。况且,碎片的整理并不能有效消除分配卷中未使用的空间,达不到精简配置的目的。

二、数字图书馆大数据存储容量不足的应对

措施日前许多图书馆采取的办法是由被购买了电子图书的商家作数据备份,这显然不是最有效的数据存储机制。为了大幅度提高数据存储效率,最有效的办法是采用数据压缩技术和重复数据删除技术。

1、利用压缩技术提高空间利用率

对于书籍等图书资料文件,其文件内和文件间存在大量的相似性关系,Delta压缩技术则可以对文件内和文件间的数据进行比较,删除文件内和文件间的冗余数据,达到数据压缩的日的,相似程度越高,压缩比越小。

2、利用消重技术提高空间利用率

图书馆数据在存储过程中往往有大量的备份数据,数据经过多次备份后,产生较多的数据重复,重复数据删除技术在备份过程中能够较好地消除重复数据,进而节约空间。对于重复数据备份,可以分为时间数据消重和空间数据消重。对于电子书籍等产生的数据一般属于自然数据,其主要特点是,数据的变化率较低、完备的数据备份、数据长期保存、数据内容可以感知等,因此,适合采用时间数据消重。因此,就本校图书馆的数据整理,大约每三个月进行一次。

图书馆数据量庞大,仅仅一所5000人规模学校的中型图书馆,其电子图书数据量就可达到15TB以上。因此,不能简单采用与中小备份类似的解决方案,由于存在大量的图形文件及影像文件等,其海量数据备份是一个非常耗时的过程,在热备份情况下,可能需要花费近一个月时间。最佳实践做法是,采用备份设施来拷贝数据并同时保证应用程序仍然可以让客户端使用。重要数据的备份可以使用有冗余级别配置的主机或硬盘RAID。两个独立硬件控制的RAID阵列的软件镜像可以用来备份其关键数据。这种技术可以保证当某个磁盘或阵列发生故障时整个系统仍然可以使用,任何网络组件的故障,如网卡、视频设备、IDE控制器、电源等可以容易地替换而不影响运行。最经济且非常有效的数据备份方案可以采取冗余技术RAID4,即若干个数据盘带一个冗余盘,在这些盘中的相应块内,存储的相应位的1的个数必须是偶数个。当某一个数据盘发生故障而更换了新盘后,只要按照偶数个1的原则就可以将损坏了的数据恢复到新盘中。

在实际操作中,可以有多种备份方案,通常采用停机备份:正常关闭待操作数据,进行数据的冷备份。备份所有数据文件、控制文件、日志文件和参数文件,把冷备份拷贝到新存储设备上,然后新建一个同名实例,最后再把备份数据文件重新打开即可。

3、提高存储空间的利用率

对于某项应用,传统空间分配方案采用完全供给,以确保该应用拥有足够的增长空间,这势必造成大量的存储空间闲置,在空间浪费的同时也造成了能源损失。采用自动精简配置是一种较新的存储空间管理技术。利用自动精简配置技术,能够帮助用户在不降低性能的情况下,大幅度提高存储空间利用效率,能使用户实现接近100%的存储空间利用率,因为数据需要多少空间系统则按需要进行分配,基本不产生多余的空间。自动精简配置技术的一个明显的优势在于可自动扩展分配卷,无须手动扩展,而且当需求变化时,无需更改存储容量设置;通过虚拟化技术集成存储,减少超量配置,降低总功耗。这也是解决机房耗能问题的很有效的方法。

三、总结

总的来说,对于数字图书馆大数据的存储和管理都十分关键,有效地存储和管理大数据是现代图书馆信息化管理的必要基础,良好的数据管理技术能够为图书馆管理工作的顺利开展提供保障。所以,加强大数据存储工作的管理,是未来数字图书馆发展的重要保证。

参考文献

[1]彭磊.建立SAN(存储局域网)——高校图书馆数据存

篇3:基于Grid存储的数字图书馆建设与研究

关键词:NAS,SAN,网络存储,数字图书馆

0 引言

随着电子文献资源的日益丰富和不断扩充,访问数字图书馆查阅资料的上网用户也越来越多,如何面对呈几何级增长的数据存储压力同时又能高效检查和管理,为用户提供优质快捷的服务,已成为目前摆在数字图书馆建设者面前亟待解决的问题[1]。馆藏的电子文献信息的载体从原来的计算机硬盘、光盘发展到磁盘阵列、磁带库等存储设备,这些设备具有存储容量大的特点,堪称海量存储。近几年图书馆数字化资源建设的步伐明显加快,很多图书馆的数字化资源早已达到了TB级[2],所以在数字化信息爆炸式增长的情况下,建设一个稳定、高效的网络存储系统是对数字图书馆的必然要求,以存储为中心也将成为数字图书馆发展的趋势。

1 存储现状及传统存储模式

现代数字图书馆的电子资源类型有很多,例如:电子期刊全文数据库、文摘数据库、引文数据库、电子图书、事实数据库、电子报纸、学位论文数据库等等。目前,国内市场上还有很多商品化的电子资源产品,其中比较知名的产品有超星电子图书、书生之家电子图书、读秀知识库、CNKI中国期刊全文数据库、万方数据库、VIP中国科技期刊全文数据库等等。另外图书馆还有很多自建数据库和VOD等多媒体数据,特别是连续出版物的数据不宜断档,各个数据库的数据都在源源不断地扩充,这就要求存储设备的容量要非常大且有很好的可扩展性[3]。截止到现在累计数据存储容量已达到几十个TB,在这种数字化信息爆炸式增长的情况下,海量存储是对图书馆的必然要求,以存储为中心也将成为现代化数字图书馆的发展趋势。

传统的图书馆存储系统中,这些海量数据往往分别存储在几台磁盘阵列上,通过院内局域网连接终端客户机以供上网读者检索,这种传统的存储方式称为直接连接存储(Direct Attached Storage ,DAS)[4]。在DAS体系结构中,每一个磁盘阵列与自己专用服务器相连,使大型数据源的数据不能跨阵列存储,存储空间不能得到充分的利用,这样势必造成存储空间的浪费,其次DAS系统每一组阵列的存储容量不能无限制地增长,其可扩展性差,并且当用户数量增加或服务器正在提供服务时,其响应速度就会变慢,出现瓶颈。这种存储方式并不能提供真正意义上的网络存储,难以适应数字图书馆的建设和发展。

2 数字图书馆网络存储主流技术

目前网络存储技术最为成熟和应用最广的有以下两种:即网络附加存储(Network Attached Storage,NAS)和存储区域网络(Storage Area Network,SAN)[5]。

NAS不像DAS那样通过I/O总线附属于某个特定的服务器,而是通过RJ-45接口与网络交换机直接相连。作为网络中的一个节点设备,是一种即插即用的设备,其设备通常集成了处理器和磁盘柜,连接到TCP/IP网络上,应用服务器对它仅仅起到控制和管理的作用,客户机对存储设备的访问不再像DAS那样需要通过网络服务器转发而是直接进行数据存取。可将网络服务器及繁重的I/O负载中解脱出来,因而具有更快的响应速度和更宽的数据带宽,便于实现海量数据的网络共享。NAS 的主要 优点是:独立于操作平台,易于管理,安装使用简便;安全性,可用性好,性价比高易于升级和维护;提高了数据的可用性,实现了文件的跨服务器同享[6]。但在实际的应用中其不足也是显而易见的,因为NAS直接跟网络交换机相连占用了局域网的部分带宽,造成局域网传输能力下降,直接影响了其它前台应用系统的速度。

SAN即存储区域网络,是通过专用高速网络将一个或多个网络存储设备和服务器连接起来的专用存储系统,独立于局域网外,采用高可靠性的存储协议,使用光纤通道将存储设备、服务器连到光纤通道交换机上构成的高速专用存储局域网[7]。它通常由磁盘阵列、磁带库、服务器、光纤交换机等设备组成。由于SAN是高带宽存储网络,具有传输速率高,数据吞吐量大,容错能力强,并且不占用局域网带宽,不会影响其它前台应用系统,所以SAN这种存储系统适合于为大型图书馆构建网络存储系统。

3 NAS与SAN相结合的网络存储系统设计方案

通过以上对NAS和SAN两种存储模式的介绍,分析了各自的不足与可取之处,NAS和SAN经常被视为两种竞争的技术,但是在实际的数字图书馆建设中,我们可以采用NAS和SAN混合模式来解决数字图书馆的海量数据的网络存储问题[8]。其拓扑图如下图1所示。

在介绍网络存储系统之前,先谈及一下图书馆所要存取的数据:数字图书馆的数据可分为两大类,一类是业务数据,包括借还书记录日志、书目数据以及计费情况等;另一类为电子数据库,包括电子图书、电子期刊、音视频数据库和一些其它类型数据库。不同的数据类型可以采用不同的存储模式,NAS与SAN各有其擅长的地方,譬如可以把图书馆管理系统所产生出的业务数据存放在NAS上,把访问频率很高的电子数据库中的数据存放在SAN上,实现高速访问,不占用局域网带宽。

数字图书馆的网络存储系统的拓扑图如图1所示:以两台光纤交换机为核心构建医院的SAN存储网络,两台光纤交换机一用一备,其中主交换机宕机时备用交换机马上接管,这样就大大减少了单点故障对医院业务的影响,各种异构平台服务器组成的服务器系统通过光纤通道汇集到光纤交换机上,直接和光纤交换机相连的各种磁盘阵列、磁带库等存储器组成的分级存储系统交换数据。NAS设备直接接在局域网的核心交换机上,当然NAS也可以通过光纤通道与光纤交换机相连,这样NAS上存储的数据可以在SAN网络的存储设备上得到有效的备份。

4 结束语

数字图书馆的网络存储系统建设是一项庞大复杂的系统工程,面对海量的数据资源,既要保证数据完整安全的存储,又要确保访问的高效。所以对于数字图书馆资源的存储来讲,NAS和SAN相结合组建存储网络便于实现数据集中管理、备份、高速共享等需求,这种混合使用的存储模式是今后数字图书馆网络存储的发展方向。

参考文献

[1]李静,董倩.SAN与NAS融合技术在数字图书馆中的应用研究[J].数字图书馆技术,2009,29(9):101-103.

[2]徐革,李宁.基于FCSAN和IPSAN架构的数字图书馆综合网络存储应用[J].计算机应用研究,2005(6):168-170.

[3]金文新.高校图书馆存储系统的构建及其数据安全和备份方案研究[J].信息化与网络化建设,2009(1):40-43

[4]杜海宁.基于云计算的图书馆海量数据存储研究[J].图书与情报,2010(3):99-101.

[5]刘玉照,刘建准,岳修志.基于SAN与NAS混合模式的数字图书馆网络存储系统研究[J].图书馆工作与研究,2006(5):18-21.

[6]梁禄金,乔强.NAS存储技术在现代数字图书馆中的应用研究[J].现代情报,2008(12):99-101.

[7]张建中,陈松乔,方正,等.一种基于SAN架构的存储网络系统的设计与实现[J].中南大学学报,2008(2):350-355.

篇4:基于Grid存储的数字图书馆建设与研究

关键词:数字信息化;图书馆;网络建设;措施

中图分类号:G250.72 文献标识码:A 文章编号:1674-7712 (2012) 16-0059-01

当前,随着信息技术的迅猛发展,进一步完善了高校图书馆信息网络,其诸多的业务工作逐渐的朝着先进的计算机网络化方向迈进。推动图书馆向着网络化、信息化建设方向发展的主要内容是科学合理的开发和运用所产生的信息资源,及时的掌握与提供广大读者实际所需信息,不断的加强科技文化知识的宣传力度,更好的服务于教学科研工作。

一、现阶段,高校图书馆的现状

当前,诸多的高校图书馆相继应用了先进的信息技术,其对于网络资源的建设予以了高度的重视,现代图书馆已经逐步的实现了网络化、信息化的目标。绝大多数图书馆技术工作人员均利用自学及实践,进行经验的总结,未真正的构建起一套高效的运行维护操作规程以及技术文件。所以,要求高校图书馆必须以数字化与网络化建设为基础,科学合理的研发、规划,从而实现预期的资源共享目标,相互间优势互补,唯有如此,才会和当前时代发展需求相一致;另外,还要充分利用先进的技术,将图书馆中的纸质资源实行数字化的开发。

现阶段,随着互联网的迅猛发展,应加强改革高校图书馆,推动图书馆数字化、网络化建设步伐,以满足当前社会的实际发展需求。充分利用技术力量,不断强化信息管理系统的开发及其应用,积极的构建一套完善的、切实可行的检索系统;增强网络化服务力度,不仅要确保系统设备的先进化,并且,还要加强培养图书馆管理人员形成良好的业务及道德素质,从而真正构建起一个具有高智能、网络化的图书馆,良好的服务于学校教育科研工作的开发和人才的培养。

二、加强高校图书馆网络建设力度的措施

(一)对网络用户的培训

由于人们的知识背景与接受能力等各不相同,因此,广大的读者应用网络的技能程度也不尽相同。现阶段,高校中依然有部分师生难以灵活的运用先进的网络资源,这在一定程度上对网络资源的充分应用造成了极为严重的影响,然而,随着互联网的快速发展,信息资源的获取及利用效果将对广大用户信息素质高低起到了决定性的作用,因此,当前的首要任务就是不断增强用户应用网络的能力及其网上信息获取能力。

具体应从以下两方面着手进行:一方面,高校图书馆应积极的举办相应的用户教育活动,以此帮助广大的用户对基本网络知识及检索技能的全面了解,同时,还应获取到更多的计算机与网络知识方面的内容,定期的对学生进行相关知识的培训,以提高他们的计算机操作能力与信息查找能力;另一方面,应在广大的读者群体与文化素质基础上,有针对性的编制一套能够增强用户网上信息获取能力的教育计划书。可根据自身的实际情况,开展一些专题讲座活动,其内容应涵盖图书情报方面的知识和网络知识,并且还要有较强的针对性;此外,应设置一个专门的咨询站,以帮助广大的用户解决所遇到的问题。

(二)明确资源建设与服务原则

标准化是信息资源共享的前提条件,而资源共享具体涵盖了硬件、软件以及数据这三方面,所以,现阶段,数据库实际建设过程中应始终遵循着数据标准与数据资源共享原则,根据结构化与模块化特征,对系统所具有的通用性、集成性、社会性加以全面的考虑。为了达到馆际联机书目检索及其互借协调的根本要求,应实现一个统一的检索命令集,构建同一信息代码、数据库接口、用户界面等。在图书馆开展网络化工作中,数据库的建设是其核心部分,对于资源共享目标的实现具有重要意义,各高校图书馆中的数据库属于极为珍贵的资源,所以,各高校图书馆在构建数据库过程中,必须从长远角度出发,进行科学合理的规划与布局,并且还要做好准备工作,保证数据的精准度。

另外,数据库建设不是一蹴而就的,需要长期不断的努力方可完成,高校图书馆应将自身已有的馆藏资源作为前提,针对性的构建行之有效的馆藏检索系统以及具有独特特色的数据库。同时,各图书馆馆藏数据库还必须始终遵循着规范化、高质量的基本原则,唯有如此,数据库建设质量水平才会不断提高,图书馆才会朝着网络化方向快速前进。

(三)推动网络资源开发利用

由于不同程度上受到了传统观念的影响,大部分高校图书馆对文献资源均予以了高度的重视,而对于网络信息资源的获取及开发利用没有过多的关注,严重制约了自身持续良好的发展。要想确保馆藏文献具有较高的可用性与共享性,就必须把馆藏中已有的印刷型文献资源和其它类型的载体文献资源进行数字化,随着互联网的快速发展,现代图书馆信息资源具有两种类型,一种是现实馆藏资源,一种是虚拟馆藏资源。而由于网络信息十分的杂乱、不够集中,缺乏一套完善的组织,并且其资源属于动态模式,存在着较大的更新可能性,所以,当务之急就是收集、筛选以及整理网络信息。为了确保广大的读者能够很好的享用这些虚拟资源,应结合读者实际需求,全面整合信息资源,以确保网上信息资源得到良好的开发与利用。

三、结论

综上所述可知,笔者认为,图书馆应摒弃以往的以个人使用为主的模式,构建多样化的共同作业模式。从事图书馆管理工作的人员,应结合各用户的实际需求予以相应的服务,逐渐的朝着专业化方向迈进。这一改革将面临着严峻的挑战,应符合周围环境的变化,只有这样,图书馆才会有广阔的发展前景。

参考文献:

[1]刘晓娟.图书馆数字资源整合[J].图书馆理论与实践,2007,1.

[2]任宁宁,窦希铭.全球图书馆信息化建设新动向[J].学海,2009,6.

[3]宣宁.公共图书馆与高校图书馆网络建设的比较[J].科教文汇,2009,15.

[4]王晓艳.探寻高校图书馆信息时代的服务模式[J].青年文学家,2010,15.

[作者简介]陆晟(1987.6-),陕西省西安市人,大学本科学历,研究方向:自动化,信息化建设,网络安全,网络建设。

篇5:基于Grid存储的数字图书馆建设与研究

一、数字图书馆的存储需求

传统图书馆收藏了大量的纸质文献资料, 以纸张作为文献信息的主要存储载体, 因此它离不开纸张、书柜、房屋建筑等设施;现代数字图书馆则需要大量的磁、光、电等新型存储媒介来存储文本、图像、声音、动画、影视作品等文献信息资源的数字化信息。海量数据信息的存储和管理是现代数字图书馆的显著特征之一。明确存储需求是规划存储方案的前提。数字图书馆数据信息资源的种类、数量、性质及用户利用的方式、用户的多少等对分析存储系统的容量、性能、传输速度、可靠性等方面的要求起决定性的作用。

1.数字图书馆的常见数据信息资源。现代数字图书馆的数据信息资源不局限于传统图书馆馆藏文献的数字化, 而是一个包括以数字形式存在的文本、图像、声音、动画、影视等多媒体数字化资源的集合。就高校数字图书馆来说, 目前常见的信息资源主要有电子期刊、电子图书、自建资源数据库、馆藏书刊目录信息数据库、远程教学节目源、视频点播节目源、随书光盘内容发布数据、日常业务管理数据、日常教学信息数据、读者服务信息数据等[1]。

2.数字图书馆的存储空间需求。数字图书馆的信息资源需要占用存储空间的大小及其增长情况是我们规划存储方案和空间分配的重要依据[2]。就绝大多数数字图书馆来说, 对电子期刊、电子图书这类资源都是采用建立镜像站点的模式提供服务的, 这类资源需要占用大量的存储空间, 尤其是电子期刊需要持续更新数据, 数量持续增长很快, 对存储空间有很高的预留要求。馆藏书刊目录信息数据库、联合目录数据库等占用存储空间较小, 增长量也很小, 对存储空间要求较低。文摘题录类数据库、各种商业化的文本类检索数据库和自建特色数据库, 占用的存储空间不太大, 增长量也比较小。而多媒体类的教学节目、视频点播节目、光盘内容发存数据等也会占用大量的存储空间。其他日常业务管理数据、读者服务信息数据等对存储空间的需求则很小。

以下是我院几种主要数据库资源的空间需求统计 (截至2010年6月) :万方数据资源系统5.2T, 超星数字图书620G, 视频数据库650G, 特色数据库2.5G。

3.数字图书馆数据信息资源的特点。多种数据信息资源对重要性、安全性、再生性、读写性能、更新升级特性及保存时效性等有不同的要求。大文件的连续读写, 要求带宽性能高。小文件随机读写, 要求处理器的I/O性能, 如数字期刊、数字图书等, 这类资源访问频率很高, 下载流量也比较大, 对传输速度要求也较高。而采用关系型或非关系型数据库形式存储的数据库资源, 是基于块级的存储, 对这类资源的访问频率很高, 需要频繁地传送数据块, 因此, 也要有较好的传输性能来满足要求[3]。对于多媒体资源的访问频率虽然不高, 但读取数据流量非常大, 也需要很好的传输性能才能保障其使用效果。一个数字图书馆的数据信息种类繁多, 形式复杂多样, 数据的重要性程度不一, 数据访问方式各异, 因此数据信息的管理难度很高。而数字图书馆的服务是全天候不间断的服务, 尤其对那些关键数据和重要数据的安全与稳定性有相当高的要求。因此, 建立一个满足存储需求、运行稳定可靠的存储系统是数字图书馆建设的基本要求。

二、数字图书馆主要存储技术简介

DAS (直接附加存储, Direct Attached Storage) 、NAS (网络附加存储, Network Attached Storage) 、SAN (存储区域网, Storage Area Network) 是近几年数字图书馆应用比较普遍的几种存储系统解决方案。它们都是以RAID技术为基础, 并且绝大多数产品都提供RAID0、1、3、5的技术支持。在数字图书馆建立的初期, 当时的应用以计算机服务器为中心, 对数据存储的需求并不大, 数据存储的主要形式就是DAS模式。随着网络应用的发展, 数据存储需求越来越大, 各种应用逐步转化为以数据为中心, 于是就诞生了基于网络的存储:NAS与SAN。NAS是网络外挂式, 以网络为中心, 采用现有的TCP/IP协议;而SAN是通道外挂式, 以数据为中心, 采用专门的FC+SCSI数据存储访问协议[4]。NAS侧重于通用性和数据共享, SAN的优势在于不占用网络带宽。

关于三种存储模式的结构特征及性能描述已在很多文献中进行了详细的阐述, 在此不再重复。

三、数字图书馆的存储建设规划

1. 规划原则。

据报道:在当今存储技术发展领域中, 存储介质的记录密度大约每年翻一番, 存储介质的价格每年下降30%—40%, 存储介质的性能每年增长10%, 存储管理的成本是硬件成本的3—10倍[5]。由此可见, 我们在规划数字图书馆的存储体系时, 必须充分考虑各方面的因素, 尤其要有发展的眼光、超前的意识和全局的观念。我认为, 在数字图书馆的存储系统建设中, 持续投资、适时扩容、软硬并重、技术跟踪等是我们应该遵循的必要原则。 (1) 持续投资。数字图书馆的存储系统建设是一项耗时耗资的复杂的系统工程, 离不开相当数量的资金投入。但目前高等教育正处在快速发展阶段, 资金缺口比较大, 高校图书馆也普遍面临馆藏严重不足的现象, 难以一次性大量投入用于某项专项建设。建设存储系统必须在充分论证、合理规划、恰当选择建设方案的前提下, 合理分配投入资金, 分期建设, 把这种基础性建设资金纳入到图书馆经费的年度计划中, 使之成为常规投入经费, 同时也有利于适应技术的发展和前期投入的保护。 (2) 适时扩容。根据资源种类和容量的使用情况, 合理规划资源分配, 在持续投资原则的保证下, 适时扩容, 保证重要资源能够及时得到数据更新, 新的有价值的信息资源能够及时得到补充。 (3) 软硬并重。在数字图书馆的存储体系建设中有一种不好的观念就是重硬轻软。这会带来很多负面的影响, 甚至会严重制约整个体系的建设进程。选择了合适的存储解决方案和先进的存储设备只是工作的第一步, 还需要应用完备的存储管理技术并使两者有机地结合。随着技术的发展, 用于存储管理的成本会成倍增加, 软件建设必须要放到一个非常重要的地位。而最有效的方法就是选择合适的存储管理软件, 建立存储管理平台, 为整个资源系统提供有力的安全保护。 (4) 技术跟踪。任何工作都不是一劳永逸的。在科学技术快速发展的今天, 对新技术的跟踪尤其重要。存储技术的发展同样如此。存储虚拟化、ISCSI和网络数据管理协议等新技术的出现, 又为人们解决数据存储问题提供了新的方法。我们要跟踪存储领域的新思想、新技术、新方案, 及时调整我们的建设规划, 才能适应当今海量信息爆炸性增长的需求。另一方面, 先进的技术, 适当的方案也有利于我们做出最佳的规划和选择, 建设一个既适合本馆发展需要、又经济高效的存储系统。

2. 构建方案。

通常一个数字图书馆都有多种应用服务项目和上TB级的信息资源数量, 这些应用和信息资源都应该是24小时不间断地提供对外服务。在存储系统的建设中要充分考虑各应用项目和信息资源的特点, 合理分配网络和存储资源, 既要合理利用资源又要兼顾它们的相互关系。基于服务配置的灵活性、经济节约性、技术先进性、升级扩展性等诸多因素, 选择多服务器自由分配多个存储空间的存储网络架构、半光纤产品、采用RAID5技术构建磁盘阵列逻辑驱动器、适当配置全局热备用硬盘等应该是一个很好的方案[1]。另外, 由于数字期刊、数字图书、多媒体节目源、随书光盘等信息资源的内容虽然重要, 但实际上都是可恢复的数据类型, 并且数据量又很大, 如果对它们做备份存储显然不值得, 因此对这类资源不做备份存储设计可有效节约投资。当前, 我院在原有DAS存储系统10TB容量的基础上, 建成了一个SAN架构的半光纤存储系统, 10TB的容量。使得我院数字图书馆的总存储容量达到20TB, 在投资不太大的前提下, 基本上能满足未来五年的存储要求, 为我院数字图书馆的数字资源建设打下了坚实的基础。

3. 改造、升级与扩容。

对于我院原有DAS存储系统, 我们有过将其改造接入SAN系统的打算, 但考虑到改造接入的成本问题还是放弃了。因为根据具体应用类型和资源特点进行合理分配同样可以使其得到充分利用。在现在建成的SAN架构的存储系统中, 我们预留了五个硬盘空位, 可以满足临时扩展的需要。同时, 在光纤交换机上还预留有多个光纤接口, 完全可以根据需要自由扩充服务器或存储空间, 以满足较长时期的扩展需要。

参考文献

[1]李伶.高校图书馆网络存储系统的构建[J].情报理论与实践, 2004 (3) .

[2]王启云.高校数字图书馆如何解决网络存储[J].图书情报工作, 2003 (5) .

[3]徐晓琳.磁盘阵列存储系统在数字图书馆的应用[J].图书馆学研究, 2003 (1) .

[4]董其军.基于SAN技术的数字图书馆资源存储[J].图书馆学研究, 2003 (3) .

篇6:基于Grid存储的数字图书馆建设与研究

关键词 数字图书馆 大数据 海量数据存储 分布式存储架构 非结构化数据 半结构化数据

分类号 G250.76

Study on the Big Data Distributed Storage Architecture Model and Policies of

the Digital Library

Ma Xiaoting

Abstract Storing and processing big data by using ordinary relational database comes across some problems in the digital library. To solve the bottleneck problems of the traditional relationship database in big data storage and access efficiency, this paper presents a secure and efficient big data distributed storage architecture for the digital library, which has better scalability, fault tolerance and enhanced storage performance. Especially for the mass unstructured and semi-structured data, the performance advantage is more obvious.

Keywords Digital library. Big data. Mass data storage. Distributed storage architecture. Unstructured data. Semi-structured data.

随着信息技术的发展与读者阅读需求转变,云计算、大数据、物联网和传感器网络等技术,已成为数字图书馆构建与用户服务保障的关键技术。新技术的应用与服务模式的变革,大幅提高了图书馆服务系统的结构科学性、保障力和用户满意度。但是,图书馆在用户服务与系统管理、读者阅读活动保障、自动传感器数据采集和移动阅读终端阅读等过程中,产生了海量和级数递增的大数据资源,图书馆数据环境呈现数据体量巨大(Volume)、类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)的4V大数据特征。此外,非结构化数据占据图书馆总量的85%以上,并且读者对大数据资源的价值密度和可用性要求较高。因此,加强大数据存储系统架构的科学性、安全性、可用性和可扩展性,确保大数据资源可以安全、高效、灵活和经济地被存储、访问、查询和分析,是关系图书馆数据存储与管理效率,保证大数据资源挖掘和数据价值发现有效的关键[1]。

1 图书馆大数据存储面临的问题与挑战

1.1 图书馆大数据资源具有海量、多源的特点

图书馆大数据资源通常由读者个体特征数据、社会关系数据、系统运营与管理数据、视频监控数据、物联网传感器数据、阅读终端日志、读者阅读行为数据(主要由用户博客、微博、论坛和读者反馈信息)等组成,具有数据海量、多源、非结构化和数据总量级数增长的特点。随着用户阅读模式和需求的转变,传统的存储体系已不能满足海量激增的大数据资源存储需求,要求大数据资源库具备PB级的数据存储规模,并可根据未来服务需求进行存储性能升级和扩展。此外,要求大数据存储平台应完成对结构化数据、非结构化数据和对象数据的统一存储与管理,并保证存储系统具有高效、简单、经济和高资源整合的优点。存储系统应支持核心大数据的安全、即时备份,且备份空间应占据总系统总存储空间的30%以上[2]。

1.2 存储架构应实现从传统IT环境向大数据环境的平衡过渡

首先,大数据时代,图书馆传统IT环境下的集中式存储架构,已不能满足用户对大数据存储服务海量、高效的需求,管理员难以通过对存储设备容量、性能的扩展,满足图书馆大数据服务对存储系统的功能需求。其次,传统IT环境下,图书馆通常会通过增加存储系统模块的方式来扩展数据存储能力,导致存储系统结构复杂、管理难度大、存储负载不均衡和易产生数据孤岛。因此,存储架构必须实现由传统IT环境下的集中式存储向大数据环境下的分布式存储架构转变。第三,随着读者大数据服务需求的发展,图书馆应将存储系统转变为以读者大数据服务保障能力建设为中心,提高大数据存储、管理、部署和迁移的安全性、效率、可用性与可控性。第四,大数据存储架构必须增强软、硬件平台的开放性,消除传统存储平台不同系统与功能模块之间的层次化、封闭性和隔离性,实现大数据资源的最优化存储与部署[3]。

1.3 大数据存储的可用性与成本控制问题

大数据存储的可用性与成本控制问题,关系图书馆大数据资源挖掘、价值发现和分析决策的有效性。首先,大数据存储系统应具备多核并行处理和快速闪存的功能,可满足大数据应用对存储系统IOPs(每秒进行读写操作次数)的需求。其次,大数据存储平台应具备较高的存储效率和资源利用率,可通过监控系统对存储工作负载、系统存储效率、动态资源配置与分配、存储资源的优化水平进行实时监控。第三,大数据存储平台应具备较强的兼容性和可扩展性,可满足传统存储架构向大数据存储演进的系统硬件功能需求。第四,大数据存储管理算法应适应新的存储系统架构与存储介质运营需求,坚持以读者需求和大数据服务驱动原则,大幅降低大数据存储的能量损耗和成本投入。

nlc202309040929

1.4 大数据存储系统应构建新型的指标参数体系

根据图书馆大数据存储系统的结构科学性、系统功能性、存储可用性和可控性需求,存储平台系统指标体系应重点关注系统的结构复杂性、可扩展性、运行效率、灵活性、数据库弱一致性和建设经济性等。涉及大数据存储系统功能性和可控性的指标体系,主要应包括数据的安全性、长期可存储性、数据可访问性、数据定位与查询的效率、存储系统的数据吞吐量与延迟、大数据存储节点的部署科学性等参数指标。此外,还应根据指标参数对图书馆大数据存储系统的结构科学性与功能影响力,以及读者大数据服务的内容与模式转变程度,及时对指标的内容、参数和影响因子进行动态调整[4]。

1.5 云计算技术在大数据存储服务中具有局限性

对于云存储图书馆可通过购买云服务商公共云存储服务、自建私有云平台、构建混合云存储平台(公有云与私有云相结合)三种方式,实现大数据资源的存储、管理和应用。

公共云存储服务由图书馆交付云服务商来保障完成,具有服务部署快捷、存储成本低廉、按需分配资源和服务连续性的优点。但也存在着图书馆将所有大数据资源传输至公有云端,图书馆和其他用户共享云服务商的存储空间和管理服务,具有安全性低、数据可控性差和QOS(用户服务质量)无保证的缺点。图书馆自建私有云存储平台的方式,虽然具备较高的安全性、存储效率和数据可控性,但也存在着私有云平台的建设、运营成本高昂,对用户技术水平和管理员素质要求高的问题。混合云虽然有效解决了公共云和私有云在大数据存储中存在的问题,但也存在着跨公共云和私有云分配应用复杂,大数据资源存储安全需求评估和迁移管理难度大的问题[5]。

2 图书馆大数据分布式存储架构模式与策略设计

2.1 图书馆大数据分布式存储架构设计

图书馆大数据环境由于具有数据海量、级数递增、数据结构多样和价值密度低,存储平台用户服务过程呈现数据一次写入和多次读出的特点,因而存储平台应具备系统存储容量可依据大数据服务需求横向扩展,可支持不同数据接口的数据采集设备和阅读终端、多种数据访问协议、全局命名空间和支持面向对象的数据管理。此外,图书馆在大数据存储平台部署过程中,应具备系统快速部署、高速存储与读取、大宽带网络连接、PB级海量存储、多级数据冗余备份、智能的数据检索和查询能力。同时,存储系统应具备较高安全性和7×24小时运行不中断的能力,并支持系统的在线容量扩展和数据迁移。

结合图书馆大数据资源存储和读者服务需求,本文设计的图书馆大数据存储平台系统结构如图1所示。

图1 图书馆大数据分布式存储平台系统结构图

大数据存储系统由现有数据存储平台、分布式数据存储层、分布式数据处理层和大数据服务接口层4部分组成。现有数据存储平台主要完成所采集数据的初选和过滤,通过减少原始大数据资源的数据总量和增加其价值密度,降低大数据的存储负载和缩短大数据应用时间。分布式数据存储层主要由闪存和直连存储(DAS)系统组成。闪存作为DAS系统的二级缓存,具有平均无故障运营时间长、安全性高、数据读写速度快、能耗低和无噪音的特点。DAS基于闪存的二级存储服务支持,可安全、高效地通过存储系统感知器件端、中间层和应用层的服务,安全、高效、均衡、经济地实现大数据的分布式协同存储。分布式数据处理层主要由分布式并行计算框架和大数据管理、挖掘、处理、分析系统组成,基于分布式数据存储层支持而完成大数据的价值提取和知识发现。大数据服务接口层是图书馆大数据服务的数据接口,可为不同的大数据应用系统提供安全、高效、经济、可靠的数据传输服务[6]。

2.2 图书馆大数据分布式存储平台构建与管理策略

2.2.1 存储平台构建应以大数据应用保障为核心

图书馆大数据应用呈现“4V”的特性。因此,在大数据存储平台构建中,应以大数据应用保障能力建设和发挥大数据“4V”价值为核心,构建安全、高效、经济和低碳的图书馆大数据资源存储平台。

首先,管理员应仔细分析图书馆读者大数据服务的内容、模式和方法,将构建符合用户大数据服务需求的存储与管理架构放在首要位置,再依据大数据服务对存储平台的安全性、功能性、容量、I/O吞吐能力和硬件设施投资收益等要求,保障存储平台硬件设施在设备参数、接口协议标准和管理方式上满足大数据服务的需求。其次,大数据存储平台构建应注重系统的可扩展性建设,应采用Scale-Out(横向扩展)的系统架构,实现多存储节点的全冗余部署,并依据图书馆大数据业务的需求变化和数据存储量增长实际,对存储空间、带宽和处理能力进行实时的动态扩展。第三,大数据存储平台构建应以大数据存储服务生命周期规律为依据,重点关注系统的海量并行存储能力、全局命名空间、接口标准、读写性能、可管理性、系统架构开放性、多级数据冗余和多级存储备份等,实现大数据资源存储、复制、重构、迁移、分析和归档一体化的全生命周期管理[7]。

2.2.2 存储系统构建应以读者服务需求为依据

图书馆大数据除呈现海量、级数增长、非结构化和价值密度低的特征外,还具有数据一致性强弱不同、访问冷热度不均匀、数据读写操作负载波峰与波谷差异大的特点。因此,读者大数据服务要求存储系统具有高效、安全、低延迟、高并发、快流量和可扩展的特点。

大数据时代,图书馆服务数据呈现多媒体表现、更新频繁、读写速度高和页面数据量庞大的特点。因此,管理员应采用可预测网页变化的增量式更新模型,通过将磁盘的随机写入转化为批量的顺序写入,来大幅缩短网页数据的更新周期和提高用户信息搜索的时效性。其次,应根据大数据存储系统的结构、热点数据特征和用户数据读写模式,对大数据存储访问、数据索引、热点数据缓存、I/O缓存等方面进行全局优化,并通过提高数据的读取速率和系统吞吐量来降低读者在线访问延迟。第三,对于关系读者服务质量、图书馆管理与运营效率的重要数据,应采取子数据中心备份和多副本存储的模式,提高数据的安全性和可用性。第四,在图书馆大数据存储平台构建中,应将大数据存储系统、存储分析系统、大数据挖掘与过滤系统、计算系统整合到一个大的系统平台之上,实现数据采集、数据过滤和挖掘、数据存储、数据分析与归档一体化,提高大数据存储的效率、安全性、可控性和可用性。

nlc202309040929

2.2.3 大数据存储平台应具备智慧管理功能

图书馆大数据存储系统应具备较强的智慧管理功能,可高效、自动地实现大数据融合存储、查询、分析和归档的全生命周期管理。同时,应支持对多种设备接口、通信协议和数据类型的结构化与非结构化数据,进行统一存储、归档与分析,避免数据孤岛现象发生。其次,管理系统应结构简单和易于控制,可对存储系统硬件设备、软件系统和存储区域网络进行统一的管理。通过对所采集的存储系统运营状态反馈数据进行性能统计和智能分析,实现系统的自动化精简配置和存储空间的动态分配。第三,图书馆应增强基于大数据存储管理算法的科学性,实现大数据资源存储的智能、虚拟化管理,解决大数据环境下图书馆大数据存储系统所存在的存储介质异构、数据分片和存储资源分配难度大的问题。第四,大数据存储平台建设和系统运营过程应加强能耗管理。图书馆在存储系统构建中应尽量使用闪存、PCM等低能耗的新型存储介质。同时,还应采用能耗查询优化、数据存储节点负载均衡、能耗均衡的集群存储分配、面向集群的高能效缓冲区置换算法等,实现大数据存储平台的低碳运营和绿色存储[8]。

2.2.4 存储平台应安全、可控和易于动态扩展

在大数据存储系统基础设施建设中,图书馆应采用分布式存储系统结构来保证系统架构的可扩展性。通过对存储节点的平均负载配置实现节点间的存储负荷均衡,保证系统整体具有较高的安全性、存储效率、可控性和可用性。其次,在大数据存储平台建设中,应利用图书馆原有存储系统平台资源,对所采集的大数据资源进行数据分析、数据过滤和降噪处理,在降低大数据平台建设成本前提下增强大数据资源的价值密度,减轻大数据存储平台的计算、存储和网络传输负荷。第三,系统管理员应仔细分析图书馆的大数据存储业务,并购买或者开发相应的存储系统监控、决策软件,实现对存储磁盘I/O、磁盘总容量、磁盘占用率、CPU使用量、内存占用和存储系统传输网络效率等,进行全面、实时的运营状态监控和性能分析,并依据监控结果对存储系统的参数与资源进行配置和动态分配。

2.2.5 大数据存储系统构建应坚持公有云与私有云相结合的原则

利用云存储技术,图书馆可以保障读者在任何时间、任何地点,通过任何可连网的装置连接到云上,方便地存取数据和进行云阅读活动。但是,不科学的云基础设施架构和云应用策略,会导致云系统的构建与云服务成本上升,以及云存储数据安全性和个人隐私受到侵犯,严重影响了图书馆大数据应用与用户服务决策的安全、有效性。图书馆大数据存储具有数据安全级别、读写频率、结构特征和价值密度不统一的特点。因此,应根据图书馆大数据存储和大数据阅读服务需求,构建安全、高效的云存储系统和管理策略。

结合图书馆大数据存储环境特点和服务需求,应采用混和云的方式对图书馆大数据资源进行存储和管理。读者对图书馆大数据服务具有安全、高效、经济、便捷的需求。因此,在对海量、多类型、低安全需求的服务数据进行数据模式统一转化后,应存储于公共云平台上,并与云服务商签署相应的云服务租赁协议,保证图书馆租赁的公共云资源和存储空间,可随大数据服务需求和数据量变化动态弹性调整。此外,云服务商还应依据读者所处地理位置分布实际,在世界不同地域构建若干个服务数据备份存储空间,保证读者可就近、实时、高效、经济和便捷地阅读访问。而对于高安全级别的读者个体特征数据、社会关系数据、阅读行为数据和图书馆系统运营监控数据等,应存放在图书馆的私有云上,并制定安全、高效的数据管理与保密措施,实现对保密数据的统一管理、扩展、升级和集中备份与容灾[9]。

3 结语

随着读者大数据服务的深入与发展,大数据环境的数据海量、级数递增、类型复杂和低价值密度的矛盾将更加突出,大数据存储与管理的安全性、效率、经济性和实时性,会直接影响图书馆读者大数据决策与服务的科学性和可用性。因此,在大数据存储平台建设中,图书馆必须以读者大数据服务和大数据存储需求为依据,坚持大数据存储技术与读者需求相结合的原则,依靠云计算和大数据技术构建基于分布式的大数据存储系统,才能保证图书馆大数据存储与应用安全、高效、经济和个性化,才能为读者提供基于用户需求感知和客户关系管理的大数据智慧服务。

参考文献:

[ 1 ] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1):146-149.

[ 2 ] 史英杰,孟小峰.云数据管理系统中查询技术研究综述[J].计算机学报,2013(2):209-225.

[ 3 ] 金培权,郝行军,岳丽华.面向新型存储的大数据存储架构与核心算法综述[J].计算机工程与科学,2013(10):12-24.

[ 4 ] 黄冬梅,杜艳玲,贺琪.混合云存储中海洋大数据迁移算法的研究[J].计算机研究与发展,2014(1):199-205.

[ 5 ] 张天宇,贺金鑫,王阳,等.基于NoSQL数据库的地学大数据高效存储方法[J].吉林大学学报,2013(6):604-608.

[ 6 ] 覃雄派,王会举.大数据分析:RDBMS与Map Reduce的竞争与共生[J].软件学报,2012(1):32-45.

[ 7 ] Wilkipedia. Big data[EB/OL].[2014-03-15].http://en.

wikipedia.org/wiki/Big_data.

[ 8 ] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域大数据的研究现状与科学思考[J].中国科学院院刊,2012(6):647-657.

[ 9 ] 王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013(6):1126-1136.

马晓亭 兰州商学院信息工程学院副教授。甘肃兰州,730020。

(收稿日期:2014-08-29 编校:刘 明)

篇7:基于Grid存储的数字图书馆建设与研究

21世纪是一个信息化时代, 高质量高效率的信息是时代发展的需要。在高校教育工作中, 图书馆是获取知识、信息的重要渠道, 对高等教育工作水平具有非常重要的影响。图书馆是高校信息的主要提供者, 承担着高校信息资源建设的重要任务, 随着信息化时代的到来, 人们对图书馆馆藏信息需求量日益增加, 对于电子信息数据的需求也日益紧张, 高校图书馆学的数字化建设已经成为大学图书馆的发展趋势。

一、高校图书馆建立数字资源存储系统的必要性

在高校图书馆中, 其馆藏资源多种多样, 而且图书馆中还存有大量的音像、新闻、美术、照片、软件等各种数据资源, 由于数据资源极其庞大, 要求图书馆具有很强的管理能力, 才能保证高校图书馆的服务能力。由于图书馆数据资源极其庞大, 对其存储系统提出了更好的要求。数字资源存储系统的建立, 可以有效地将图书馆馆藏信息资源进行分类汇总, 通过数字资源分散处理, 方便用户对信息资源的检索、分析, 并借助于高校图书馆的计算机信息平台, 实现馆藏数据的管理。

在高校图书馆管理过程中, 建立数据资源存储系统可以大幅度提高高校图书馆馆藏信息的安全性。建立数字资源存储系统, 可以将馆藏信息以电子数据的形式进行保存, 有助于防止地震、火灾等灾害的侵袭。而且馆藏信息以电子数据形式进行流转、阅读, 有助于馆藏图书等资源的保护, 减少图书资源在使用过程中产生磨损。而且数据资源存储系统的应用, 有助于馆藏图书资源的维护, 通过互联网技术的维护, 实现对馆藏信息资源的保护。

二、图书馆馆数字资源存储系统存在的问题

(一) 系统设计不足

图书馆数字资源存储系统建设是一项技术行为, 根据现代图书馆建设的发展需要, 图书馆的建设需要合理配置现有的信息技术与硬件资源, 有效提高信息资源的使用效率。但是, 由于数字资源存储系统在设计方面的不足, 在人力资源配置方面欠缺经验, 导致系统管理存在许多盲区、漏洞。而且资源存储系统设计的不完善, 影响系统的使用效率, 不利于图书馆的发展。

(二) 存储系统的复杂性

在图书馆建设数字资源存储系统时, 需要考虑到学校的管理机制、经费来源、技术应用水平等等, 这些因素相互影响从而成立了存储系统。存储系统在使用过程中受到系统设计理念及技术条件的限制, 会忽略系统的外部环境, 影响系统的应用性能。从高校图书馆管理工作实践来看, 作为高校图书馆管理人员, 我们需要对图书馆的管理理念形成一种前卫意识, 及时了解行业动态, 了解图书馆数字资源存储系统中存在的不足。

(三) 电子信息需求量的剧增

随着信息化时代的发展, 读者对于数字资源的需求量日益增加。在高校学生阅读学习中, 电子资源的阅读也成为影响高校学生发展的重要因素, 但是, 高校图书馆数字化发展水平会限制高校学生的阅读。从目前高校图书馆管理来看, 其数字资源在存储、管理及服务等方面都面临困境, 影响高校图书馆的发展。由于数字资源存储系统中的信息资源分散存储于各个服务器上, 其数字资源难以是实现统一管理, 而且图书馆对于数字资源管理工作缺乏备份, 导致信息系统的安全存在很大的隐患, 为了推动高校图书馆数字资源存储系统的建设, 我们需要提高高校图书馆应用系统的服务能力及稳定性, 并建立完善的信息资源管理机制, 才能提高其管理服务水平。

三、推动高校数字资源存储系统的发展建议

(一) 合理设计存储系统

在高校数字资源存储系统建设时, 我们需要考虑到存储系统的需求和存储性能的要求, 结合高校的专业建设及学科划分, 分析高校图书信息需求情况, 设计图书馆数字资源存储系统。因此, 在图书馆建设过程中, 我们需要考虑数字资源的种类、存储系统的实用性、安全性等因素。

(二) 及时做好系统的优化升级

在高校图书馆管理工作中, 建立数字资源存储系统是为了满足读者的电子化阅读需要。但是, 该项投入并不是一次性的投入, 我们需要根据系统的发展需要, 对原有的系统进行优化升级, 从而提高存储系统的服务功能。因此, 在存储系统的后期维护过程中, 我们需要利用信息技术的改革对存储系统进行优化升级, 提高存储系统的服务性能, 从而全面提高我国高校图书馆的服务能力。在持续投资原则的保证下适时扩容升级, 保证重要资源能够及时得到数据更新, 新的有价值的信息资源能够及时得到补充。

(三) 存储系统实行技术责任制及创新机制

在图书馆建立数字资源存储系统后, 我们应当注重培养相关技术人员的责任意识, 建立项目责任机制, 防止因为技术人员的疏忽而损害资源存储系统。实行技术责任机制可以保障技术的完善性, 并对技术行为进行监督。同时, 通过技术创新鼓励管理人员进行创新, 推动存储系统的改革与完善, 从而提高管理人员的服务意识。避免决策缜密而实施疏漏的问题, 从而保证存储系统的服务能力。

结语

计算机技术在高校图书馆建设中的应用, 大大提高了高校图书馆的服务能力。图书馆数字资源存储系统的建立, 方便了读者的阅读。但是在数字资源系统的应用中, 仍然处在一些问题, 影响着系统的发展。数字资源的建立应当从合理设计存储系统、系统的优化升级、存储系统实行技术责任制及创新机制, 才能进一步提高系统服务水平。

摘要:随着信息化的不断发展, 计算机网络技术推动了高校图书馆建设管理的变革。在高校图书馆发展过程中, 数字资源存储系统推动了高校图书馆管理方式的变革。在高校图书馆管理发展过程中, 如何将现代化科学技术应用于图书馆管理工作中, 推动图书馆数字资源存储系统的建立, 成为高校图书馆管理工作改革的中心。因此, 本文针对我国高校图书馆数字资源储存系统进行分析, 进而提出了数字资源存储系统的发展建议。

关键词:高校图书馆,数字资源,存储系统

参考文献

[1]朱强.数字资源管理和长期存取的几个问题.CALIS数字资源管理与长期存取研讨会议, 2007, 5.

[2]周敬治.数字资源存储系统的构建模式与比较研究.情报杂志, 2006 (11) :106-107, 110.

篇8:数字图书馆资源云存储模型研究

〔关键词〕数字图书馆;资源存储;云存储

DOI:10.3969/j.issn.1008-0821.2012.02.012

〔中图分类号〕G250.76 〔文献标识码〕A 〔文章编号〕1008-0821(2012)02-0048-03

Cloud Storage Model Research of Digital Library ResourcesLi Aiqin Bao Lingyun Feng Xiaona

(Library,Shandong University of Technology,Zibo 255049,China)

〔Abstract〕On the basis of the introduction of related concepts and unique advantage of cloud storage,the article brought cloud storage into digital library resources storage,moreover,it established a system structure from the topology structure and function modules of the three aspects of the digital library resources and pointed out the defects of cloud storage in the secure storage and the library intellectual property rights.

〔Key words〕digital library;resources storage;cloud storage model

1 云存储

1.1 云存储概念与特征

云计算(Cloud Computing)作为IT产业继个人计算机和因特网之后的第三次变革,在社会各界引起了轩然大波。而云计算的资源存储即云存储(Cloud Storage),它是通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统[1]。

与以往存储方式不同的是,云存储中不仅仅是硬件的整合,更多的融合了网络设备、存储设备、服务器、应用软件、公用访问接口、接入网和客户端程序。通过结合应用软件与存储设备,云存储为用户提供的不只是单纯云端存储设备的存储服务,而是整个云存储系统带给用户的一种数据访问服务[2]。此外,由于集成统一,云存储更是具有其他存储所不具有的的规模经济性、资源虚拟性、弹性收缩性、高安全性、高可靠性以及可根据自身需要即买即用的云存储服务。

1.2 常见的云存储服务

云存储提倡的是利用云服务厂商的系统而不是本地系统来存储资源,用户则需要接入互联网,通过网络来访问存储在云上的数据。目前,国内外已经有数百种不同的云存储服务,如专门面向特定环境、特定用户的,专门存储电子邮件或数字图片的,专门负责存储视频、音频文件的等等。目前较常见的一些云存储服务有:

(1)电子邮件提供商,如Google的Hotmail和Yahoo!Mail,他们可以允许用户在厂商服务器上存储电子邮件消息。用户只要接入互联网就可以随时随地访问自己的电子邮件。

(2)YouTube为用户提供了在线的存储服务器,方便用户上传视频文件;而Flickr和Picasa,则是让用户通过创建自己的在线图库,任意上传数字图片。

(3)社交类网站,如Facebook和人人网、博客等则建立大型的服务器中心,方便其用户将文字、图片、视频、音频等各种数据存储在云存储厂商的服务器上。

(4)Amazon的ES3是一种可扩展、高速、低成本的基于Web的存储服务,可以为个人和企业用户提供各种数据及应用程序的在线备份和存档。

(5)IBM的Smart Business Storage和MicroSoft的Windows Azure则是一种基于私有云技术,为企业用户提供应用程序存储支持的云存储服务。

(6)金山的快盘,华为的DBANK数据银行,也都做到了以用户为中心,以企业服务器集群为基础,为用户提供方便快捷的在线云存储服务。

2 数字图书馆资源云存储研究

2.1 数字图书馆资源云存储体系结构

云存储的理念就是尽可能的整合资源,实现资源的共享利用。在利用各大高校图书馆原有资源的基础上,整合搭建可以共享的云数字图书馆,能够有效减少图书馆的硬件费用支出,最大程度上实现图书馆资源的有效利用。结合云存储的结构模型,本文构建了针对数字图书馆应用的数字资源云存储体系结构,如图1所示。

访问层数字图书馆用户各类存储应用统计访问入口、用户认证授权管理应用层数字图书馆资源存储平台、数字图书馆各种Web服务基础管理层集群系统、分布式文件系统、网络计算CDN、P2P、重复数据删除、數据压缩数据加密、数据备份、数据容灾存储层文件系统、数据库、元数据集存储设备、存储虚拟化、存储管理设备图1 数字图书馆云存储体系结构

2012年2月第32卷第2期数字图书馆资源云存储模型研究Feb.,2012Vol.32 No.2系统模型体系结构共分4层,从底层依次是存储层、基础管理层、服务应用层和访问层[3]。

最底层是存储层,也是数字图书馆云存储体系的硬件层。该层为整个云存储系统提供基本的网络环境、物理存储资源和逻辑存储资源,包括存储设备(磁盘阵列、光盘库和磁带库、FC光纤通道存储设备、NAS和iSCSI等IP存储设备、SCSI或SAN、DAS等存储设备)、存储管理设备、数据逻辑存储系统(文件系统、数据库和元数据集)等。其中云存储系统中的存储设备大部分是现有的存储设备通过网络连接整合形成。而统一的存储设备管理系统,可以实现所整合存储设备的逻辑虚拟化管理、多链路冗余管理,以及各种硬件设备的状态实时监控和故障维护。

第二层是基础管理层,是数字图书馆云存储体系的核心层。该层通过集群、分布式文件系统、网格计算等技术,实现云存储中的多个存储设备间的协同工作,包括存储监控、调度、副本管理等,可以根据数字图书馆的需求在某个时刻对外提供同一种服务,并提供更大更强更好的数据访问性能,保证众多用户可以同时访问使用数字图书馆资源。此外,该层还采用CDN内容分发、数据加密技术保证云存储中的数据不会被未授权的用户所访问,还利用数据备份和数据容灾技术保证数字图书馆云存储系统中数据的自身安全和稳定。

第三层是服务应用层,为用户提供了数字图书馆资源云存储平台和数字图书馆各类Web服务,包括信息采集、加工、管理所需的存储;信息的发布与服务所需的存储以及容灾备份等所需的存储。同时,数字图书馆中的业务管理、书目管理OPAC等,通过应用层共享云端平台,图书馆管理人员都可以更方便地访问与管理。

最上层是访问层。任何一个获得授权的用户,只要拥有能够接入互联网的终端设备,诸如PC、手机、移动多媒体等,就可以在任何时候任何地点通过应用层的数字图书馆资源存储平台使用数字图书馆资源的云存储服务,满足自己的信息需求。

2.2 数字图书馆资源云存储模型

2.2.1 数字图书馆资源云存储模型拓扑结构

图书馆的职责就是为社会公众提供他们所需要的知识服务,数字图书馆的出现更是将图书馆的服务进一步提升。在构建数字图书馆资源云存储模型时,可以借鉴IT界著名的服务管理最佳实践——ITIL(IT Infrastructure Library),ITIL最新版本三主要包含5個部分的流程:服务策略、服务设计、服务转移、服务运营和持续服务改善[4]。根据实际需求,在构建的云存储模型系统中并没有集成所有的ITIL流程,具体的系统拓扑结构如图2所示。

2.2.2 数字图书馆云存储模型功能模块

云存储的核心就是应用软件与存储设备相结合,通过应用软件来实现存储设备向存储服务的转变。在构建的数字图书馆云存储系统中,图书馆所使用的云存储不仅仅是单纯的存储设备的集合体,而是由众多存储设备集合带来的数据访问服务。从功能上划分,可以将整个数字图书馆云存储模型系统分成七大模块:物理存储设备和管理模块,虚拟化存储管理模块,存储网络连接设备管理模块,资源管理模块,存储管理模块,备份管理模块和I/O管理模块[5]。

(1)物理存储设备和管理模块。利用该模块可以对云存储系统中所有的物理设备监控,实时收集、管理各个设备的运行信息,保证云存储系统中各设备能联合起来协同工作,为数字图书馆工作的正常运行作保障。

(2)虚拟化存储管理模块。此模块作为数字图书馆资源云存储系统中的关键模块,它在物理设备整合的基础之上,对形成的巨大的逻辑资源池进行管理。

(3)存储网络连接设备管理模块。利用该模块,当整个云存储系统中某个设备不能正常工作或遇到某个设备被集中访问时,则可以及时地将任务转移到其他设备,来保证云存储服务的可靠。

(4)资源管理模块。该模块可以通过对所存储的信息资源进行合理调配和规划,根据用户的访问需求,自动地查找云存储系统中的可用资源来及时响应应用程序需求。图2 数字图书馆云存储模型系统拓扑结构

(5)存储管理模块。用户向存储管理模块提供的应用程序接口(API)提出数据访问请求后,此模块利用元数据目录中的信息进行协议转接,并将转接后的数据访问请求发向不同的存储设备,利用虚拟化存储实现对异构存储资源的统一访问。

(6)备份管理模块。云存储系统中数据是被集中存储在云数据中心,云数据中心的构建又是集合了数量庞大的服务器、存储设备等,设备的出故障率自然明显提高。为了在某个或某些设备出现故障,而不影响图书馆数据的安全、可靠及服务的正常提供,云存储提供中的备份管理模块发挥了很大作用。

(7)I/O管理模块。在云存储中,动态存储给数字图书馆带来了解决途径,通过I/O管理模块,可以很好的分配图书馆存储系统中的服务器资源,为用户提供实时不间断的服务。

3 结束语

随着计算机性能的不断提高和网络通信技术的迅猛发展,应用需求日益朝着高性能、大规模、多样性、多功能的方向发展,要求将地理上分布的、异构的各种高性能计算资源、存储资源、数据资源和其他特殊资源通过高速网络连接起来,实现高性能联合计算,共同完成重大应用问题。云计算和云存储的提出,使得高性能运算、大范围共享和低成本运营成为可能。

可以说,云计算与云存储的出现,不仅是IT界的又一个里程碑,也给图书馆界带来新的发展活力,尤其是将会带动互联网下数字图书馆的新发展。利用云存储来构建数字图书馆的资源存储系统,可以实现近乎无限的系统容量扩展,便于集中式统一管理,能有效减少图书馆的成本支出,满足众多用户并发访问的实时响应等。它能够在资源分布较广的范围内实现大范围联合为更多用户提供服务,真正消除数字图书馆的信息孤岛,实现数字图书馆资源的共享,发挥数字图书馆知识宝藏的潜能。但是由于云存储是通过硬件设备的共用以及虚拟存储等技术来完成存储,数据的安全性以及图书馆中资源的版权等问题还需要进一步探讨。

参考文献

[1]Anthony T etc.Cloud Computing:A Practical Approach[M].The McGraw-Hill Companies,Inc,2010:106-111.

[2]Mesnier M,Ganger G R,Riedel E.Object-based Storage:Pushing More Functionality into Storage[J].Potentials,IEEE,2005,24(2).

[3]刘文云,鲍凌云.“云”下的数字图书馆资源存储研究[J].情报资料工作,2011,(2):51-54.

[4]余智敏.深圳图书馆的存储技术的研究[D].武汉:武汉理工大学,2006.

[5]鲍凌云.基于云计算的数字图书馆资源存储研究[D].淄博:山东理工大学,2011.

上一篇:浅谈安全生产管理工作的创新下一篇:简单个人工作鉴定