服务器数据存储技术

2024-07-05

服务器数据存储技术(精选十篇)

服务器数据存储技术 篇1

1 公共云存储服务的数据加密机制

从内容角度来说, 加密混合机制能够有效的对公共云存储数据提供实质性保护, 其中机制类型主要包括两点内容, 分别为封装密钥机制和封装数据机制。前者主要的运行方式是通过密码公钥算法并对相关文件进行加密数据的保护, 而后者的主要运行方式是在确保数据运行速率的基础上, 降低其整体运作步骤的繁琐性, 并针对量数较大的数据文件进行秘数对称计算。例如, 使用者可以通过设计的具体方案进行有效的数据存储, 并对封装密钥机制进行有效的分析最终得到密码, 以方便对其文件的顺利访问, 由此可见这种加密混合机制的主要优势是根据每个文件中显示的数据, 灵活性的开展分加密工作, 加密访问形式内容较为丰富多样, 可以简要分为:加密广播密封机制、非对称传统加密密、封重加密代里密封, 加密属性密封机制四种主要的形式。

2 保护隐私的密文搜索

所谓的密文搜索是云存储应用中最为基础的运行技术, 主要是通过关键词语的搜索实行隐私保护, 在具体的搜索过程中需要形成有效的可搜机制, 并针对密钥对称和可搜索密钥开展有效的加密工作, 当搜索者进行加密数据搜索时, 相关的数据使用者可使用可搜索的非对称加密, 为搜索者提供最终结果, 主要的内容如下:

2.1 模型威胁

从客观角度来说, 云搜索服务器存在一定的不可信因素, 首先, 服务搜索器主要是通过具体的行为方式来进行具体操作的, 在尽可能分析数据的同时, 交换额外获得的有效信息, 这种情形会产生具有一定威胁的模型。

2.2 隐私搜索

(1) 隐私关键词, 使用者会从自身角度出发制定一个密码关键词, 实行隐私的保护。但是这种形式存在一定的安全问题, 不法分子通过某种攻击方式就可获取, 例如, 分析词频、文件、关键词攻击等。

(2) 不可关联性陷门, 陷门的安全性是在确保相同结合关键词的前提下实行的, 如果在陷门中没有满足此类要求, 那么在一定程度上也会造成关键词的外泄。

(3) 接入模式, 现阶段很多接入模式并没有列入保护搜索的内容中, 主要原因是因为往内接入模式是通过获取密码信息来实行隐私保护的一种运作形式, 实际应用代价较大, 范围规模过大不利于现实应用。

2.3 基于对称密钥的可搜索机密方案

现阶段基于密钥的可搜索机密方案具有一定的局限性, 首先在整个系统运行中在数据使用者数量方面有限制, 并且实际运行效率普遍偏低, 且缺乏一定的使用价值。基于对称密钥的可搜索机密方案主要指的是在基础内容的范围上对进行搜索的用户和数据的使用者进行实行信息共享, 众多专家针对这种技术分为提出了相应的具体方案, 但是普遍来说均是采用一个关键词进行搜索的方式来尽可能的简化运算程序和步骤, 但是这种方式运作效率较低, 且无法确保最后搜索出得到的结果的准确性。

2.4 基于非对称密钥的可搜索机密方案

与基于对称密钥的可搜索机密方案不同的是, 非对称方案是只要拥有授权密码的用户在服务器中进行相关搜索行为的都可以使用, 但是同样也是不支持多个关键词自由进行搜索, 现阶段基于非对称密钥的可搜索机密方案主要应用在用户数量较多的互联网模型中。

3 保护隐私的云存储数据完整性审计

隐私数据在云存储服务器中是否能够在完好存入后, 又可以完整性的取出是当前很多操作用户关心的主要问题之一, 但是这种情况给现阶段任务存数量大的云存储服务器来说带来了不小的压力和负担, 因为这种隐私数据的完整性审计会消耗大量的网络带宽。针对这种情况, 相关的研究学者提出可以通过群组有效用户采用消除云端数据的完整性审计措施, 这种方案在运行的过程中主要减少了用户的负担, 并将维护完整性数据所需要的消耗成本转移给云端进行承担, 但是这种方案在设计的基础上, 还要充分考虑多个审计任务同时进行的情况, 加大技术支持, 并对方案内容进行全当面的拓展, 保证在多个任务下的审计能力支持, 提高保护审计效率, 减少审计时间。

4 云存储数据的确定性删除技术

最后, 如何将使用者不需要的数据进行安全销毁成为了现阶段安全性技术讨论的热门话题, 云存储隐私数据服务是对外在数据进行密码保护, 在这种情况下的数据销毁也是实现对其文件密码进行销毁的过程, 在这种运行方案的发展环境下, 专业研究学者提供针对较强安全假设密码, 进行删除技术方案设定。例如, 可以利用云存储数据安全删除的措施, 实现密码统计和分享, 并进行周期性的密码数据删除, 在一定程度上确保整个过程的安全性, 但那时同时整个过程将会消耗大量的计算成本和宽带通信。

5 总结

公共云存储服务信息的安全和隐私保护需要多方面的综合机制和删除技术来共同实现和完成, 如何在现有研究的基础上, 将理论与实践相结合, 提高运作效率, 缩小审计时间, 是一个长期研究的过程。本文对公共云存储服务数据安全及隐私保护技术内容进行了简要探析, 希望对公共云存储服务系统的发展发挥积极的促进作用。

摘要:随着人们生活水平的不断提高, 计算机网络技术得到了一定程度的发展, 其中云储存服务已经成为云计算中受到广泛应用的技术之一, 随着公共云存储技术的逐渐普及, 用户在自身数据方面出现了一定的隐私安全性问题, 如何针对这种情况, 优化安全以及隐私保护技术解决措施, 成为了现阶段研究者讨论的热门话题, 本文将对公共云存储服务数据安全及隐私保护技术进行简要探析。

关键词:云存储,数据安全,隐私保护,分析

参考文献

[1]李瑞轩, 董新华, 辜希武等.移动云服务的数据安全与隐私保护综述[J].通信学报, 2013 (12) :158-166.

[2]孙辛未, 张伟, 徐涛.面向云存储的高性能数据隐私保护方法[J].计算机科学, 2014 (05) :137-142.

浅谈跨存储数据迁移技术与实现论文 篇2

1 数据迁移技术

数据迁移方法,要根据具体的存储设备类型、系统软硬件架构、系统数据类型等特点,选择合理、高效、便捷的技术,实现一种或多种技术并用、混用,才能有效地确保业务的连续,减少停机时间,可靠安全地进行数据迁移。目前,业界通用的数据迁移技术实现大致分为如下几类。

1. 1 基于存储的迁移方法

基于存储的迁移特点是基于存储系统的虚拟化技术或存储管理技术,有3 种方法实现:存储阵列内部数据复制,是利用存储阵列内置数据复制软件,将源数据卷复制到目标数据卷,如clone。存储阵列间的数据复制,可基于存储管理系统的远程复制技术不消耗服务器资源,并且可根据阵列io 对主应用的影响,来调整数据复制的速度,但条件有所限制,必须在同种品牌厂商存储设备间进行,如EMC 的VMAX 系列设备同DMX 系列设备间可使用cold push 方式和hot push 方式,利用存储设备具备的数据复制迁移功能进行数据迁移; 或是基于主机操作系统,利用专业的存储复制迁移工具软件,将不同存储连接至同一台主机,实现阵列到阵列的数据复制,但是会耗费一定的系资源,因此要根据应用场景,调整数据复制的速度。利用虚拟化存储技术,将虚拟化设备融合进SAN 架构的存储系统,实现存储设备统一封装,可以很方便地将数据从源端迁移至目的地,并可兼容主流存储设备、支持不同厂商或品牌存储系统间的数据迁移和容灾、适合于频繁的数据迁移,某些业务场景,可实现跨物理存储数据迁移而业务无需中断,但是需要配置专有的虚拟化设备如EMC 的Vplex,或具备虚拟化功能的存储阵列。

1. 2 基于主机操作系统命令的迁移方法

基于主机操作系统命令迁移的特点是数据迁移操作的发起和控制均发生在主服务器端,支持联机迁移,可在不同存储系统间进行,但对主机性能有一定影响,影响承载业务的响应效率,适合于主机存储的非经常性迁移,并且必须根据实际情况评估系统负荷的可行性。

有两种实现方法: 一种是对采用逻辑卷管理器管理的系统通过逻辑卷数据镜像实现数据迁移,但目标卷可添加至原卷缩在的卷组中,有些卷组属性参数支持物理卷数量有限,有一定局限性; 另一种是利用操作系统拷贝( 复制) 命令,如在Unix 系统上使用命令cp、dd、tar 等命令来实现数据复制、lv 复制、文件打包迁移等操作,或在Windows 系统使用图形界面拷贝或copy命令灵活地进行,但需要进行脱机处理。

1. 3 基于备份管理软件的迁移方法

基于备份管理软件迁移的特点是利用备份管理软件将数据备份到物理或虚拟带库,再恢复到新的存储设备中。如采用在线备份,数据迁移过程对服务器业务影响相对较小,但在备份时间点与切换时间点之间源数据因联机操作所造成的数据变化,需要通过手动方式进行同步如数据库备份工具DSG; 如采用离线备份,必须停止服务器业务,在数据恢复成功后再恢复业务运行。备份管理软件可使用存储系统自带软件,第三方备份工具如EMC network。由于选择备份方式不同,数据迁移所耗费的.实践会有较大的差异。

1. 4 基于专有应用软件的迁移方法

采用应用软件本身的迁移工具、或第三方支持的迁移工具来实现数据迁移,这种方法依赖于应用软件自身的机制,与主机、存储种类关系不大,可实现实时复制、定时复制、静态复制或数据转储。如Oracle 自带的工具DataGuard 或动态复制工具goldenGate。一般情况下存储系统上都有多种应用系统,因此,数据迁移大多采用多种工具及技术并用来实现存储系统的数据迁移。

2 陕西联通综合联机系统数据迁移

根据陕西联通综合联机系统存储现状,运用不同的存储迁移技术,制定数据迁移方案,实现非正常环境下,跨存储数据迁移。

2. 1 陕西联通综合联机系统现状

陕西联通于 年建立综合联机系统,利用两台IBMP570 小型机,利用DMX 存储,利用HA 软件构建双机互备份群集环境,采用SAN 架构搭建,如图1 所示。由于设备老旧故障频发,于 年购买IBM P740 小型机及EMC VMAX10K存储来替换上述设备。本次迁移面临的困难: DMX2000 与Vmax10K 存储位于不同的San 交换机上,需要跨不同的SAN网络进行数据迁移。ED140 交换机有故障,无法进行配置更改,无法与ED4800 交换机进行连接,配置链路。DMX2000有前端和后端板卡故障,无法进行change bin 操作,不能与VMAX10K 存储建立链路连接,不能使用EMC 存储使用的coldpush 方式和hot push 方式进行数据迁移。迁移系统时间不超过6 h。

2. 2 数据迁移方案

在上述硬件环境下,确定迁移方案,分为两个步骤进行: 首先进行操作系统层面数据迁移,然后利用存储Clone 技术,存储内部再进行数据迁移,实现主机和存储的同时替换。

现有主机各有一块空闲HBA 卡,连接至SAN 48K 交换机,VMAX10K 1F0 和3F0 端口连接到SAN 48K 交换机上,使主机可以访问VMAX10K 上的磁盘,利用OM 软件进行源主机VG数据复制; 然后将复制好数据的磁盘,作为clone 数据源盘,创建对应的Clone 关系,将clone 目标盘分配给新主机,运用全量与增量clone 技术,完成在线实时迁移。利用上述技术,可进行多次数据复制,可在新主机环境中进行多次应用测试,最终的业务割接测试时间很短,30 min 用于启停应用,30 min 可完成数据同步,业务割接1 h 完成。迁移工作全部完成后,拆除虚线链路。

2. 3 系统回退方案

由于前期数据已经进行全量数据迁移,并进行了业务测试,正式割接过程,仅仅适用于追平数据的实践差,数据跨存储迁移无需回退。

2. 4 数据完整性验证方案

数据完整性、一致性验证重点放在小型机系统数据迁移应用侧数据,由于前期测试阶段,首先进行了全量数据同步后的应用验证及数据一致性检测,和多次增量clone 后,应用验证及数据一致性检测。此方案将大量的检查验证工作在正式割接前进行,有充足的实践做全面的检测和一致性检查,因而正式割接仅仅是数据增量,无任何风险。

3 结语

服务器数据存储技术 篇3

关键词 网络存储;附网存储;对象存储;I/O

中图分类号 TP 文献标识码 A 文章编号 1673-9671-(2010)121-0036-01

用户把信息通过网络(LAN、WAN和Internet)存储到连接在网络上的存储设备,或通过网络从连接在网络上的存储设备中获得所需信息的过程,叫做网络存储。用户可以从企业的存储网络中获得企业的产品信息,企业可以借助存储网络进行各种商业活动。

1 网络存储技术的发展

按照存储设备与网络的连接方式,主流的网络信息存储系统有直接存储(DAS)、附网存储(NAS)和存储局域网(SAN)三种形式。传统存储结构多采用DAS,现代网络应用的快速发展对传统存储提出了极大的挑战,促进了以NAS和SAN为代表的网络存储技术的成熟和快速普及。除此之外,还出现了多种新的网络存储技术,如基于IP的SAN、对象存储技术等。

1)直接存储(DAS)。DAS是一种以服务器为中心的存储结构,各种存储设备通过IDE或SCSI等I/O总线与服务器相连。所有的客户端请求与数据传送都通过服务器,由于存储系统附属于服务器,受服务器总线技术限制,DAS的可扩展性较差,并且当客户连接数增多时,服务器将成为整个系统的瓶颈。所以,DAS存储方式难以满足现代社会对网络存储系统大容量、高性能、动态可扩展等方面的要求,解决这一问题的有效方法是将访问模式从以服务器为中心转化为以设备和网络为中心,这导致了网络存储技术(NAS和SAN)的普及与发展。

2)附网存储(NAS)。NAS是一种以设备为中心的存储结构,可以直接连接到网络向用户提供文件级服务,具有简化的实时操作系统,它可以将硬件和软件有机的集成在一起,用以提供文件服务。目前采用的协议是NFS和CIFS,其中NFS应用在Unix环境下,最早由SUN开发,而CIFS应用在NT/Windows环境下,由Microfoft开发。

3)存储局域网(SAN)。SAN是一种以网络为中心的存储结构,按照SNIA定义,SAN是一种利用Fibre Channel等互联协议连接起来的可以在服务器和存储系统之间直接传送数据的存储网络系统。SAN是一种体系结构,它是采用独特的技术(如FC)构建的、与原有LAN网络不同的一个专用的存储网络,存储设备和SAN中的应用服务器之间采用的是block I/O的方式进行数据交换。

4)基于IP的SAN。在实际应用中,基于IP的SAN以其优异的性能成为网络存储领域的研究热点。基于IP的SAN互连技术主要包括:FCIP,iFCP、iSCSI、Infiniband。

FCIP技术原理是将FC帧封装到IP数据包中,再通过IP网络传输到另外一个FC的SAN,目的SAN接收到这个IP包后,将其解包使其恢复成封装之前的FC帧,通过FICP可以方便的实现两个距离较远的SAN在Internet网络上互相通信。

iFCP是将FC协议映射到TCP协议之上,和FCIP不同,FCIP是一种隧道协议,除了将FC帧封装成IP数据包以外,不对FC帧进行任何处理,而iFCP则是一种网关协议,它对FC帧进行协议转换,重新用TCP/IP协议来表达FC帧。它必须对FC帧进行更多的处理,如读取FC帧的头部,理解其地址,并用IP地址方式来表示。

iSCSI技术原理是将SCSI协议映射到TCP/IP数据包,在IP网络上传输,到达目的节点后,再回复成封装前的SCSI命令,从而实现SCSI命令在IP网络上直接、透明传输。

Infiniband是一种可简化和加快服务器之间的连接,以及服务器与其它相关系统(诸如远程存储和网络设备)之间的全新输入/输出(I/O)技术。它的结构设计非常紧密,大大提高了系统的性能、可靠性和有效性,能缓解各硬件设备之间的数据流量拥塞。Infiniband技术目前主要被较大的数据中心采用。

5)对象存储技术。一个存储对象是存储设备上多个字节的逻辑组合,它包括访问数据的属性、属性描述、数据特征和阻止非授权用户访问的安全策略等,对象的大小可以变化,它可以存放整个数据结构,如文件、数据库表、医学图像或多媒体数据等。存储对象具有文件和块二者的优点:像数据块一样在存储设备上被直接访问;通过一个对象接口,能像文件一样,在不同的操作平台上实现数据共享。

2 数据存储应用的最新特点

1)数据成为最宝贵的财富。数据是信息的符号,数据的价值取决于信息的价值,由于越来越多有价值的信息转变为数据,数据的价值也就越来越高,数据丢失对于数据拥有者来讲,损失是无法估量的,甚至是毁灭性的,这要求数据存储系统具有卓越的系统可靠性。

2)数据总量呈爆炸性的增长。人们的信息活动中不断产生数字化信息,各种新型应用也层出不穷,如流式多媒体、数字电视、IDC、电子商务、数据仓库与数据挖掘等,因此造成数据总量呈几何级数增长,因为永远都会有新的数据产生,所以对存储容量的需求是没有止境的。

3)I/O成为新的性能瓶颈。目前,计算机的主要应用模式已经转化成数据的存储与访问,由于受机械部件的限制,磁盘数据访问时间平均每年只能提高7%-10%,数据传输率也只能以每年20%的速度发展,而同时代微处理器和内存系统正以平均每年50%-100%的速度发展,处理机与磁盘之间的性能差距已经越来越明显,数据存储系统已经成为计算机系统新的性能瓶颈,即所谓的I/0瓶颈。

4)全天候服务成大势所趋。在电子商务和大部分网络服务应用中,24小时×7天甚至24小时×365天的全天候服务已是大势所趋,这要求现代数据存储系统具备优异的高可用性。

5)存储管理和维护要求自动化、智能化。以前的存储管理和维护大部分工作由人完成,由于存储系统越来越复杂对管理维护人员的素质要求越来越高,因管理不善造成数据丢失的可能性大大增加,这要求现代存储系统具有易管理性,最后是具有智能的自动管理和维护功能。

6)实现多平台的互操作和数据共享。由于历史原因,存在着多种信息平台,这要求存储系统能够实现多平台的互操作和信息共享,从而具有高度的系统开放性。

3 结语

IT技术的发展经历过三次浪潮。第一次是以处理技术为中心,以处理器的发展为核心动力,产生了计算机工业,促进了计算机的迅速普及和应用;第二次以传输技术为中心,以网络的发展为核心动力,这两次浪潮极大地加速了信息数字化进程,进而引发了IT技术的第三次浪潮——存储技术浪潮,在新的技术浪潮中,数据存储的应用将面临一个全新的发展时期。

参考文献

[1]鲁丰玲,李朝永.浅析网络存储技术[J].计算机与网络.2007,10:221.

服务器数据存储技术 篇4

关键词:服务器,存储,虚拟化,资源利用率,中小型数据中心

1 当前中小型数据中心信息系统服务器与存储现状及面临的问题

1.1 信息系统服务器及存储数量多

中小型数据中心的业务系统及管理系统较多, 多系统需要多服务器的支持, 再加上业务系统的容灾备份, 导致中小型数据中心服务器及存储数量较多。中小型数据中心面临的问题之一是众多的服务器与存储管理困难。

1.2 服务器资源使用率低下

中小型数据中心大部分在业务高峰期的CPU使用率不足15%, 内存使用率不足40%。也就是系统资源的60%以上处于闲置, 导致服务器资源使用率较低。

1.3 存储空间浪费, 性能使用率低

从存储的性能上分析, 一套业务一套存储的方式也是很浪费的, 因为大部分主流的存储设备性能都非常好, 无论是在存储处理器能力、缓存大小、最大硬盘数等方面的性能都远超使用需求。

1.4 高成本高风险问题

在中小心数据中心应用中数量较多的服务器部署需要大量的人力成本, 运行成本, 管理成本, 维护成本。加上信息系统因硬件条件不足, 运行环境中无双机、无磁盘阵列存储, 系统一旦出现问题就面临停机、操作系统或数据库重新安装、数据丢失的风险。

2 使用虚拟化技术解决我们面临的问题

2.1 虚拟化技术特点

2.1.1 Vmware服务器虚拟化技术特点

从服务器虚拟化到存储虚拟化再到桌面虚拟化, 虚拟化技术的应用已经很成熟, 逐渐在中小型数据中心广泛应用。V M w a r e v Sphere虚拟化操作系统可以大幅度整合应用, 降低物理服务器整体拥有成本。服务器虚拟化只需要15分钟就可以部署一台虚拟服务器。在v Center的管理下, 可实现很多虚拟化功能, 例如VMware VMotion, 可以在不中断用户使用、不丢失服务的情况下在服务器间实时迁移虚拟机, 从而无需为计划内的服务器维护安排应用程序停机, VMware HA可以实现多台物理服务器组成高可用群集, 避免因物理服务器硬件故障带来的服务中断, 当HA群集中的任一台物理服务器发生故障时, 在其上的所有虚拟机会平滑地迁移到其它在线的物理服务器上, 从而降低了业务迁移的复杂度和风险。

2.1.2 V-plex存储虚拟化技术特点

像服务器虚拟化技术一样, 几乎所有的生产存储的厂家都推出了自己的虚拟化存储解决方案, 考虑稳定性和可靠性。V-plex存储虚拟化可以把不同信息系统中的各个分散的存储空间整合起来, 管理员不必关心物理存储的情况, 只注意其逻辑空间的管理。从管理的角度来看, 存储虚拟化是一种集中化的管理, 可以根据具体的业务需求把存储资源动态地进行分配, 并提供容灾、动态扩容等功能。

2.2 在中小型数据中心应用中部署服务器与存储虚拟化

2.2.1 中小型数据中心虚拟化环境部署中的要点

虚拟化业务部署由多台服务器共用至少一台存储, 同时Intel X86_64架构的PC服务器已经成为VMware虚拟化部署的标准配置。针对服务器CPU及内存的配置要充分考虑将来业务部署的情况及长远发展需求, 应尽量配置充分一些。如果利用旧的服务器则最好能添加足够内存, 因在以后的虚拟机部署中内存需求比较大。

新部署环境的存储设备选择可根据中小型数据中心内部业务系统资源消耗情况而定, 选择稳定性较高的产品, 硬盘的组合配置上也要考虑实际业务情况, 对存储内部的配置做进一步调整, 以减少硬盘故障带来的风险。

在服务器配置上注意添加多块网卡用于服务器之间的连接, 多块网卡以解决网络端口的冗余及带宽的问题, 在虚拟化部署上要提前考虑多个不同网段的实际情况, 为不同的网段提供虚拟化服务。

2.2.2 服务器与存储虚拟化在中小型数据中心应用部署的意义

服务器与存储虚拟化技术通过对物理服务器和现有存储平台的整合, 提高数据中心现有硬件和软件的利用率, 避免或减少设备采购, 从而提高投资回报率。服务器与存储虚拟化还可以提高IT系统的灵活性, 达到企业信息系统业务连续性的要求, 解决系统管理员的后顾之忧, 而且稳定的运行效果和便捷的管理操作可以减轻信息中心的运维负担。

3 虚拟化实施可能遇到的问题讨论

目前在信息环境加密措施上, 还存在个别系统使用USB外接物理密钥的形式, 当应用VMWare虚拟化中的Vmotion自动漂移功能时, 由于物理原因的限制将会因找不到加密盘而出现应用无法使用的故障, 这样就无法实现真正意义上的虚拟机自动漂移。

服务器虚拟化在资源利用、高可用、绿色节能上得到了广泛应用和认可, 但虚拟机内部的应用与数据库系统备份一直存在有待提高的空间, 特别是数据库系统, 不能实现数据变化后的增量备份, 存在部分数据丢失的风险。文件的META-DATA是虚拟化存储获取文件数据的关键, 如果META-DATA丢失则虚拟存储无法像传统存储一样进行数据恢复。

虚拟存储是建立在物理存储之上的管理软件, 但是物理资源仍然需要进行维护管理, 所以相对于传统存储, 虚拟存储的管理更为复杂;相对于传统存储, 虚拟化存储中必须进行虚拟存储地址到物理存储地址的转换, 尤其对于写操作过程, 这样会增加IO的延迟, 降低性能。

参考文献

[1]许冠军.基于Vsphere的虚拟计算机实验平台建设探索.2012, 33 (2) :53-55.

[2]钱琼芬, 李春林, 张小庆, 李腊元.云数据中心虚拟资源管理研究综述.计算机应用研究, 2012, 29 (7) :2411-2415.

[3]孔元生.利用虚拟化技术提高数据中心效率[J].网络与信息, 2011年07期.

服务器数据存储技术 篇5

[关键词]大数据;非均匀存储访问;线程调度

[中图分类号]C37 [文献标识码]A [文章编号]1672-5158(2013)06-0031-02

引言

在当今时代,互联网迅猛发展,各行各业数据量猛增。数据种类繁多,数据量巨大,大数据时代来临。随着大数据的来临,大数据处理成为越来越有价值的工作,而大数据的高性能处理则至关重要。

目前大数据处理大都采用多处理器系统,而多处理器系统中的非均匀存储访问架构为进行大数据高性能处理的主流体系结构之一。

1 非均匀存储访问技术特点

1.1 多处理器系统模式

在多处理器系统中,比较流行的有三种模式,即对称多处理模式、大规模并行处理模式、非均匀存储访问模式。对称多处理模式是在一个主存上连接着两个或两个以上的处理器,这些处理器共享一个主存,也被称为均匀性存储访问系统。大规模并行处理模式是分布式存储器模式,可扩展性比较好,但是需要并行编程和并行编译,在软件系统构建上比较复杂,使用不便。非均匀存储访问架构是将若干个单元通过专门的互联设备联结在一起组成分布式和共享内存系统。每一个处理器可以访问自己单元的存储器,也可以访问其他单元的存储器,所有访存有远近、时延长短之分,称为非均匀存储访问。

1.2 非均匀存储访问架构的性能优势

非均匀存储访问架构的性能优势主要体现在以下几个方面:第一,非均匀存储访问处理器访问同一单元上的内存的速度比一般对称多处理模式超出一倍。第二,非均匀存储访问的突破性技术彻底摆脱了传统的超大总线对多处理结构的束缚,它大大增强单一操作系统可管理的处理器、内存和I/O插槽。最后,非均匀存储访问系统提供内存互联的硬件结构,这种技术可以开发新型动态的分区系统。系统分区可以允许系统管理员根据用户工作负荷的要求,简单地管理和使用CPU和内存资源,从而达到最高的资源利用率和最佳的性能。正因为以上的原因,非均匀存储访问架构得到越来越广泛的应用。

2 非均匀存储访问技术线程访问时间研究

非均匀存储访问系统的基本特征是具有多个CPU模块,每个CPU模块由多个核(如6个)组成,并且具有独立的本地内存、I/O槽口等。由于其节点之间可以通过互联模块进行连接和信息交互,因此每个CPU可以访问整个系统的内存。但是线程访问远近程存储器的时间是不一样的。

我们使用的非均匀存储访问系统是四个主频为2.2GHZ的双核AMD opteron多处理器,每个处理器有2x1GB DDR400 DRAM内存。如(图1)所示。四个处理器由coherent HyperTransport(相关性超传输)总线连接,每个处理器有一条双向HyperTransport(超传输)总线和I/O连接,两条双向相关性超传输总线分别和另外两个双核处理器连接。每个双向超传输总线的数据传输带宽为4 GB/s。系统有4个节点NO,N1,N2,N3。每个节点有自己的内存控制器(MCT),连接着本节点的内存。每个节点有2个核CO,c1,两个核连接着一个系统需求接口(sRI),系统中间有一个交叉设备XBar,SRI、内存控制器、各种各样的超传输总线都和XBar连接。

在非均匀存储访问系统中,内存需要可以来自于本节点的核,也可以通过超传输总线来自于其它节点的核。前者叫做本地访问,对内存的访问要求从核到SRI,到XBAR,再到MCT;后者叫做远程访问,内存访问要求的路线是从远程节点的核通过超传输总线到达XBAR,从XBAR再到MCT。每个节点的SRI、XBAR、MCT都有缓冲区,缓冲区用来存放需要传送的数据包。

在非均匀存储访问系统里,影响应用程序处理大数据的性能主要有以下几个方面:

①远程内存访问。处理器访问远程存储器的次数多少会直接影响一个应用程序的性能。提高非均匀存储访问系统性能的策略之一就是减少远程访问的次数。要尽可能地让进程在本节点执行。

②相互连接的超传输总线带宽的影响。

③内存竞争的影响。当许多处理器在同一时刻访问一个内存单元的时候就会出现内存竞争,内存竞争会增加内存响应时间,降低程序的执行效率。恰当的数据分配策略会减少内存竞争。

④内存带宽的影响。

⑤缓冲区影响。在非均匀存储访问多处理器系统中,缓冲区在性能上发挥着重要的作用。如果处理器在本地缓冲区中没有找到需要的数据,就会访问远程的存储器。

⑥系统中各种各样缓冲区可容纳缓冲队列长度的影响。

2.1 远近程内存访问的时间差别

线程本地存储器访问和远程存储器访问时间究竟有多大的差别呢?我们先用一个例子来研究远近程内存访问的时间差别。

我们得到处理器所记录的当前时间的方法是使用时钟周期数TSC的值乘以CPU的时钟周期cycle来得到。就是在每次处理器启动的时候把TSC的值清零,然后每个时钟周期TSC的值都加1,这样要得到代码执行的周期数就在一段固定代码执行前后分别读取TSC的值即可。用下列公式可以计算代码执行时间:

T=(TSC1-TSC2)·cycle

当线程运行和访问内存都在同一个节点时,就叫做本地访问或0-跳访问。当线程运行在一个节点,访问内存却在其他节点,就叫做远程访问。在远程访问中,如果线程运行的节点和内存访问的节点是彼此直接连接的,就叫做1-跳访问。如果线程运行的节点和内存访问的节点不是直接连接的,就叫做2-跳访问。如图1中,线程在节点0运行,则其对于节点1、2、3的访问即为远程存储器访问,对节点1、2的内存访问叫做1-跳访问,对节点3的内存访问叫做2-跳访问。

我们采取了一段串行程序使用一个线程向不同节点存储区域写入5M相同大小数据量的方法来测试访问的时间,并且,每次实验我们重复了2000次。统计结果表明,本地存储区域的访问时间是最短的,平均为2166μs;而对于远程存储区域的访问则需要较长的时间,其中1、2节点的访问时间平均达2445μs,而节点3,访问距离最远,访问时间也最长,平均达3032μS。

由此实验可见,在非均匀存储访问系统中,访问远程内存的速度要慢于访问本地内存的速度。在本例中,1-跳距离的存储访问时间是本地存储访问的1.13倍,2-跳距离的存储访问时间是本地存储访问的1.4倍。访问远程数据的距离越远,付出的时间代价越高。我们在应用程序中,尽量保持数据在节点内部访问。

2.2 单线程只读和只写远近程存储器的研究

如果对内存的访问为只读或只写,本地访问和远程访问时间有什么差别呢?我们用下面的例子来研究只读和只写访问远近程存储器的影响。

我们采取一段串行程序使用一个线程向不同节点存储区域分别连续读出和写入60M相同大小数据量,读写入的大小要远远大于缓冲区大小。线程运行在节点O的C0上。并且整个系统只有这一个线程运行。线程的数据访问分为以下几种:

*线程本地访问节点0内存。(0-跳)

*线程远程访问节点1内存。(1-跳)

*线程远程访问节点2内存。(1-跳)

*线程远程访问节点3内存。(2-跳)

访问时间结果表明,随着访问距离的增加,读写访问的访问时间都增加了。每种情况,写访问的时间都大于读访问的时间,因为写操作会生产出更多的内存带宽负载。但是读写访问的访问时间都随着访问内存距离的增加而增加。

2.3 节点间和节点内线程调度访问研究

如果是多线程,通过节点调度多线程有以下几个制约因素:

*系统是否空闲,也就是系统有没有其它负载;

*多线程是否访问各自私有的数据。

*多线程是否访问共享的数据。

我们先来研究系统空闲下线程只访问本节点私有的数据。

我们使用2个线程进行写操作,每个线程都写)260M的数据,都访问本节点的内存。第一种方法是节点间调度,即一个线程在节点0的核0运行,另一个线程在节点1的核0运行;第二种方法是节点内调度,即2个线程分别在节点0的核0和核1上运行。比较两个线程运行的总时间。结果表明,节点间调度线程的执行时间比较少。

随后我们又使用8-CPU非均匀存储访问系统工作站(AMDOpteron 6168 1.9GHz processor,64G RAM,48 core,8节点,每个节点6个核)实验环境,使用6个线程进行写操作。都访问本节点内存,分上述两种情况,即第一种方法是节点间调度,每个线程分别在6个节点的核0运行,第二种方法是节点内调度,6个线程都在节点0的每个核运行。结果为,第一种情况执行时间比较少。

在非均匀存储访问系统中,在空闲执行环境下访问私有的数据,我们应尽量避免使用第二种情况来调度线程。从负载平衡的角度来说,如果某一个节点负载过多,而其他节点空闲,必然会导致一个节点内的资源产生竞争,从而影响应用程序的执行效率。

如果在空闲执行环境下,各线程之间的数据共享,我们使用2个线程和6个线程在2种环境下分别进行了测试。线程都访问本节点内存,第一种方法是节点间调度,一个线程在节点0的核0运行,另一个线程在节点1的核0运行;第二种方法是节点内调度,2个线程分别在节点0的核0和核1上运行。6个线程写60M数据的两种方法,第一种方法是节点间调度,每个线程分别在6个节点的核0运行,第二种方法是节点内调度,6个线程都在节点0的每个核运行。结果表明,在节点内调度线程的执行时间比较少。因为各线程之间数据共享,访问内存数据的距离越短,时间越少。所以我们在空闲环境下进行线程调度,各线程间数据共享,优先从节点内进行调度,一个节点调度为完毕,再从另一个节点进行调度。

对于上述实验,我们在系统有少量负载的情况下也做了相应的实验,取得了类似的结果。

由此可知,在非均匀存储访问系统中,在系统空闲的情况下,或者少量负载的情况下,对应用程序进行大数据处理提出如下建议:

*如果线程仅访问本节点私有的数据,优先从节点间调度线程;

*如果线程间数据共享,优先从节点内调度线程,一个节点饱和后再从另一个节点进行调度;

*如果线程需要访问的既有独立数据又有共享数据,但私有数据远远大于共享数据,优先从节点间调度线程。

3 结束语

当今,在互联网及各行各业都存在着大量数据需要高性能处理,本文通过实验对非均匀存储访问技术进行研究,发现了读写内存、不同访问距离等各种情况下线程内存访问的性能特点。得出了应用程序在线程调度中的重要结论,对大数据的高性能处理有重要的指导意义。

参考文献

[1]都志辉,高性能计算并行编程技术-MPI并行程序设计,清华大学出版社,2001

海量数据存储关键技术浅析 篇6

当今是一个信息大爆炸的时代,网络的广泛使用更加剧了信息爆炸的速度。信息资源的爆炸性增长,对存储系统在存储容量、数据可用性以及I/O性能等方面提出了越来越高的要求。信息技术正从以计算设备为核心的计算时代步入以存储设备为核心的存储时代。

海量数据是指数据量极大,往往是Terabyte(1012bytes)、Petabyte(1015bytes)甚至Exabyte(1018bytes)级的数据集合。存储这些海量信息不但要求存储设备有很大的储存容量,且还需要大规模数据库来存储和处理这些数据,在满足通用关系数据库技术要求的同时,更需要对海量存储的模式、数据库策略及应用体系架构有更高的设计考虑。

2 海量数据存储模式选择

存储系统的存储模式影响着整个海量数据存储系统的性能,为了提供高性能的海量数据存储系统,应该考虑选择良好的海量存储模式。

对于海量数据而言,实现单一设备上的存储显然是不合适的,甚至是不可能的。结合网络环境,对它们进行分布式存储不失为当前的上策之选。如何在网络环境下,对海量数据进行合理组织、可靠存储,并提供高效、高可用、安全的数据访问性能成为当前一个研究热点。适合海量数据的理想存储模式应该能够提供高性能、可伸缩、跨平台、安全的数据共享能力。

2.1 现有存储模式分析

目前磁盘存储市场上,根据服务器类型存储分类如图1所示。

其中外挂存储占目前磁盘存储市场的70%以上。由于网络技术的崛起,直连式存储(DAS)已显得非常力不从心,存储模式从以服务器为中心转向以数据为中心的网络存储模式,目前典型的代表是:网络附加存储(NAS)和存储区域网络(SAN)[1,2,3]。

2.1.1 网络附加存储(NAS)

NAS(Network Attached Storage,网络附加存储)是一种文件级的网络存储模式,结构如图2所示。它拥有自己的文件系统,通过NFS或CIFS对外提供文件访问服务。NAS将存储设备通过标准的网络拓扑结构连接到现有的网络上来提供数据和文件服务。NAS管理简单、扩容方便,统一的文件系统使数据共享变得非常简单,所以其最大的优点是跨平台性很好,但NAS服务器在网络存储中处于数据通路上,当服务请求激增时存在I/O瓶颈,性能是NAS的最大问题,因此基于NAS的存储方案对于组建海量存储共享系统来说并不是一种理想的方案。

2.1.2 存储区域网络(SAN)

SAN(Storage Area Network,存储区域网络)结构如图3所示。它是存储设备与服务器经由高速网络设备连接而形成的存储专用网络。SAN一般基于光纤通道FC(Fibre Channel)或i SCSI(internet SCSI)构建,它是块级的存储,系统性能非常优越。SAN的优点是高容量、高可靠性、低延迟,缺点是SAN没有一个统一的存储系统接口,对存储设备的共享访问存在数据的完整性与安全性问题,设备的跨平台性较差。

2.2 对象存储技术

对象存储技术提供基于对象的访问接口,将NAS和SAN两种存储结构的优势进行了有效地整合,通过高层次的抽象,使之既具有NAS的跨平台共享数据和安全访问的优点,同时又具有SAN的高性能和可伸缩性的优点。

2.2.1 对象存储模式

对象存储模式[4]一般由Client、MDS(Metadata Server)和OSD(Object Storage Device)三部分组成,如图4所示。

Client为客户端,用来发起数据访问;MDS为服务器,用来管理对象存储系统中的元数据并保证访问的一致性;OSD为存储对象数据的设备,它是一个智能设备,包括处理器、RAM内存、网络接口、存储介质等以及运行在其中的控制软件[5]。

对象存储设备(OSD)中,将对象(object)作为对象存储的基本单元,每个对象具有惟一的ID标识符。对象由对象ID、对象数据的起始位置、数据的长度来进行访问。对象提供类似文件访问的方法,如Create,Open,Close,Read,Write,对象属性等;对象的数据包括自身的元数据和用户数据,其中,元数据用于描述对象特定的属性,如对象的逻辑大小、对象的元数据大小、总的字节大小;用户数据用来保存实际的二进制数据。

对象分为根对象、组对象和用户对象。根对象定义了存储设备以及存储设备本身的不同属性;组对象为存储设备上对象提供了目录;用户对象存储实际应用数据。

2.2.2 对象存储模式用于海量数据存储的优势

对象存储模式的特性使其在处理海量数据存储请求时具有较大优势,主要体现在:

1)高性能数据存储:访问节点有独立的数据通路和元数据访问通路,可以对多个OSD进行并行访问,从而解决了当前存储系统的一个性能瓶颈问题。

2)跨平台数据共享:由于在对象存储系统上部署基于对象的分布式文件系统比较容易,所有能够实现不同平台下的设备和数据的共享。

3)方便安全的数据访问:I/O通道的建立及数据的读写需要经过授权许可才能进行,从而保证了数据访问的安全性;另一方面,任何Client都可以通过对象存储系统提供的标准文件接口访问OSD上的数据,统一的命名空间使Client访问数据的一致性得到了保证。

4)可伸缩性:对象存储模式具有分布式结构的特性。由于OSD是独立的智能设备,可以通过增加OSD数量,使存储系统的聚合I/O带宽、存储容量和处理能力得到提高,这种平衡扩展模式使得存储系统能够具有良好的可伸缩性。

5)智能的存储设备:OSD中集成了部分的存储管理功能,因此OSD具有一定智能的自主存储功能。

3 数据库策略

数据库管理系统(DBMS)是海量数据存储检索系统的核心部件,所有对数据的控制都要通过DBMS来实现。Oracle数据库管理系统应用十分普及,是目前高性能存储检索系统主要选择的关系数据库管理系统,因此本文海量数据的存储基于Oracle数据库管理系统来实现。

本文基于海量数据环境,对通用的数据库管理策略不作研究,只针对海量数据找到有效存储方法,设计并实现高性能面向海量数据存储的数据库关键策略。

实现高性能的海量数据存储可采取的数据库策略有:

1)分区技术:为了更精细地对数据库对象如表、索引及索引编排表进行管理和访问。可以对这些数据库对象进行进一步的划分,这就是所谓的分区技术。

2)并行处理技术:为了提高系统性能,可以让多个处理器协同工作来执行单个SQL语句,这就是所谓的并行处理技术。

3.1 数据库表分区技术

3.1.1 基本概念

本文研究的主要存储对象为海量数据,数据库的大小常常达到数百GB甚至用TB来计算。而单表的数据量往往会达到上亿的记录,并且记录数会随着时间而增长。当表和索引变得非常大时,分区可以将数据分为更小、更容易管理的部分来提高系统的运行效率。对表和索引进行分区的主要目的就是改善大型表的可伸缩性和可管理性。所以对大型表进行分区是处理海量数据的一种十分高效的方法。

由于本文研究的主要存储对象为海量数据,存储时数据库中只存储文件名、摘要及其它文字说明,源文件的内容存储在数据库以外的物理介质上。

3.1.2 分区策略

Oracle分区的表通过使用“分区关键字”分区,分区关键字是确定某个行所在分区的一组列。Oracle提供了三种基本数据分配方法:范围(range)、列表(1ist)与散列(hash)。使用上述的数据分配方法,可以将表分成单一分区表或组合分区表。则Oracle提供的分区技术主要分为以下几种:范围分区,列表分区,散列分区,组合范围-散列分区,组合范围-列表分区[6]。

此外Oracle还提供三种类型的分区索引,包括本地索引、全局分区索引和全局非分区索引。可以根据业务需求选择相应的索引分区策略,从而实现最合适的分区,以支持任何类型的应用程序。

Oracle提供一套强健的技术用于表、索引和索引编排表的分区。海量数据的数据库存储可以选用以上分区技术中的一种或几种,通过一组完整的SQL命令来管理分区表,从而达到高性能检索的目的。

3.1.3 分区技术的应用

本文的研究对象是海量的文档数据集,对文档集进行分类处理,采用范围分区技术的应用将使系统各方面得到改善:

1)增强可用性:如果数据库表的某个分区出现了故障,可以确保数据库表在其它分区中的数据仍然可用。

2)维护方便:如果数据库表的某个分区出现了故障,则仅需修复该故障分区的数据即可,而不需要对整个数据库表进行维护。

3)均衡I/O:可以将数据库表不同的分区映射到磁盘用以平衡I/O,可以使系统的整体性能得到改善。

4)改善查询性能:用户对分区对象进行查询时,只需要搜索用户关心的分区,从而可以提高查询速度,改善查询性能。

3.2 数据库并行处理技术

3.2.1 基本概念

并行处理技术是数据库的一项核心技术,是指利用多个CPU和I/O资源来执行单个数据库操作,从而使得数据库能够高效地管理和访问TB级的数据[7]。尽管目前主流的数据库管理系统都表示可以提供并行处理能力,但在并行处理结构上都存在着关键的差异。

3.2.2 Oracle并行处理结构

所谓并行处理是指:将单个任务分解为多个更小的单元。不是将所有工作通过一个进程完成,而是将任务并行化,从而使得多个进程同时在更小的单元上运行,这样做能极大地提高系统性能并且能最佳地利用系统资源。

Oracle使用动态并行处理框架,数据操作可以依据当前工作特征、查询及负载的重要性,使用1~N个真正应用集群节点并行运行。

3.2.3 并行处理技术的特性

Oracle数据库并行技术能提高数据库性能,并且能提高数据库的最大运行速度和最大负载量。由于并行系统的每个节点都相互独立,使得一个节点如果出现故障不会导致这个数据库崩溃,剩余的节点可以在为用户提供服务的同时对故障节点进行恢复,因此并行技术比单节点的可靠性要高。Oracle数据库并行技术还能根据需要随时分配和释放数据库实例,数据库的机动性高。还有一点就是并行技术可以克服内存限制,为更多的用户提供数据服务。

4 结束语

对象存储模式由于具有良好的可伸缩性、高性能、跨平台、安全数据共享等能力,成为海量数据存储模式的一个理想选择;配合数据库的分区技术和并行处理技术,可以实现高性能的海量数据存储。

摘要:海量数据的大量出现,使存储技术正发生革命性的变化。针对海量数据存储环境,对网络附加存储(NAS)及存储区域网络(SAN)进行了分析,研究了面向对象存储技术。并且对海量数据存储的数据库策略进行了阐述,包括Oracle数据库的表分区技术的策略、特性及应用;Oracle数据库并行处理结构及特性。

关键词:海量数据,对象存储技术,分区技术,并行处理技术

参考文献

[1]Garth A Gibson,Rodney Van Meter.Network attached storage architecture[J].Communications of the ACM,2000,43(11):37-45.

[2]Liao H.Storage area network architectures[J].PMC-Sierra,Inc,Technology White Paper,2003.

[3]Morris R J T,Truskowski B J.The evolution of storage systems[J].IBM Systems Journal,2003,42(2):205-217.

[4]苏勇,周敬利.基于iSCSI OSD存储系统的设计与分析[J].计算机工程与应用,2007,43(23).

[5]Sakar K.An analysis of object storage architecture[J].JEEE Computer,2003,2(3):12-34.

[6]申红雪,刘育熙.Oraclel0g表分区技术管理[J].科技信息,2008(20).

海量数据存储管理技术研究 篇7

1 存储技术发展

海量信息存储早期采用大型服务器存储,基本都是以服务器为中心的处理模式,使用直连存储(Direct Attached Storage),存储设备(包括磁盘阵列,磁带库,光盘库等)作为服务器的外设使用。随着网络技术的发展,服务器之间交换数据或向磁盘库等存储设备备份数据时,开始通过局域网进行,这主要依赖网络附加存储(Network Attached Storage)技术来实现网络存储。NAS实际上使用TCP/IP协议的以太网文件服务器,它安装优化的文件系统和瘦操作系统(弱化计算功能,增强数据的安全管理)。NAS将存储设备从服务器的后端移到通信网络上来,具有成本低、易安装、易管理、有效利用原有存储设备等优点,但这将占用大量的网络开销,严重影响网络的整体性能。为了能够共享大容量,高速度存储设备,并且不占用局域网资源的海量信息传输和备份,就需要专用存储区域网络(Storage Area Network)来实现。

目前海量存储系统大多采用SAN存储架构的文件共享系统,所有服务器(客户端)都以光纤通道(Fibre Channel,简称FC)直接访问盘阵上的共享文件系统(如图 1所示)。数据在存储上是共享的,数据在任何一台服务器(客户端)上都可以直接通过FC链路进行访问,无需考虑服务器(客户端)的操作系统平台,存储区域网络(SAN)避免了对传统LAN带宽的依赖和影响。SAN存储架构可以方便的通过扩展盘阵数量以达到扩展存储容量的目的,且不影响数据共享效率。

2 分级存储技术

分级存储是当今存储策略中最有影响力的方案,它的主要意图在于在几乎不降低效率的同时,极大的降低存储成本,是最具性价比的存储策略。分级存储又称为数据生命周期管理,它的理论依据是数据的价值随时间的推移而变化(一般是降低),并借鉴了计算机系统结构设计的缓存/主存/硬盘的设计原理。通常采用分级存储(也称为分层存储)技术,将价值最大的数据保存在等级最高、性能最好的存储资源上,以保证高性能、高可靠性,通常这部分数据在所有存储量中占的比例相对较小,但应用频繁,所要求的访问实时性也较高;而对应用不太频繁的数据,可以存储在相对廉价的存储资源上。根据需要可划分为两级、三级存储,目前应用较多的三级存储:在线、近线、离线。在线设备一般采用性能较高的高端盘阵(例如光纤盘阵),近线设备一般采用普通的大容量盘阵(如SATA盘阵),离线设备一般采用磁带库设备。在需要离线数据的时候,可以将磁带库中的数据恢复到近线(或在线)设备上。分级存储的技术保证了重要数据的高可用性,又最大程度的降低了整个存储系统的成本,在工程应用中被普遍采用。

分级存储技术需要迁移、回迁软件的配合才能真正发挥作用,具体来讲就是定时(如每天)或条件触发(如存储空间空闲率小于一定的阈值)迁移,按照算法(如存储最久数据或或最久未访问等)将满足条件的数据迁移到低一级存储设备上。如果要访问离线数据,还需要把相关数据恢复到在线设备上。技术实现路线既可以采用成熟的商业软件,也可以根据业务具体情况自行研发,还可以在封装商业软件的命令加入自身的业务处理逻辑。

3 数据自动化归档

由于在海量数据存储管理系统中,每天都有大量的新数据到达(没有节假日),且这些数据通常是根据上级数据产生系统不定时到达的,如果靠人工操作程序来完成数据的入库归档工作,成本无疑太过巨大,效率低、容易出错,且时效性不高。因此,数据自动化归档技术就成为海量存储管理系统中的一个关键技术,特别是针对卫星数据,要求接收处理后要及时入库归档。自动化归档一般设计为后台服务进程,开机即启动,7×24小时随服务器运行。自动化归档需要完成数据接收、数据解析、数据入库、日志记录、状态反馈等工作。

对于海量数据(尤其是大文件数据),一般不采取全部入关系数据库的做法,这样会使关系数据库的库体急剧膨胀,而适宜存储在共享文件系统中。归档操作完成数据文件从接收区到数据存储共享区的数据搬移,并从文件名、文件头或专门的元数据文件中抽取出用于管理、查询的元数据信息,把元数据信息插入到关系数据库中,利用成熟的关系数据库优化性能以方便对这些数据的查询、管理。

4 业务流程控制

在一个完整的海量数据存储管理系统中,通常包括数据接收、数据归档、数据备份、数据迁移(回迁)、数据输出等多个后台业务进程,这些业务进程各负其责,共同完成一些业务流程。如果这些进程直接进行通信完成控制指令(反馈)的交互,则各个业务进程的通信工作就会显得复杂,而且也不便于集中控制流程、掌握业务运行情况。因此在海量数据存储管理系统中需要有一个业务控制进程,各个业务进程受业务控制进程的调度指挥,并把业务执行情况反馈给业务控制进程,而不必关心负责自己的任务处理完后下一步该执行什么任务,业务控制进程负责接收各业务进程的状态反馈,并根据状态反馈决定接下来该向什么业务进程发送调度指令。这样各业务进程之间避免了直接的耦合,各业务进程只负责和总指挥(业务调度控制进程)通信,业务控制进程不负责具体业务,仅负责业务流程的控制,也有利于业务控制进程统一监视记录业务的执行情况。对于需要人工控制干预(或发起业务)的情况,也可由前台界面把控制信息发送给业务控制进程,由业务控制进程调度相关的业务进程,并反馈执行情况,这样就避免了前台界面与各个业务进程进行通信,降低了复杂度。常见的海量数据存储管理系统业务流程如图 2所示。

5 并发设计

在海量数据存储管理系统中,为提高收发、归档、服务、备份等业务的处理能力,常采用并发设计。并发设计可以采用多线程和多进程两种模式。

一个业务处理可以采用单进程多线程的方式,也可以采用多进程的方式。前者由进程的主线程完成任务消息的接收,针对每个任务,启动一个线程进行业务处理,一次业务处理完毕,相应的业务线程也就随之结束。后者则由多个业务进程并发的从消息队列中获取任务消息(同一个消息可保证不会被取走两次),分别进行处理。对于多进程的模式,需要有一个进程控制程序,根据任务的繁忙程度,负责启动或停止相应的业务进程。但作为系统业务中心的调度程序一般不采用并发,而采用主备模式。

6 数据服务模型

海量数据存储管理系统通常还包括对外提供数据服务的功能,这也是数据存储管理系统发挥价值的关键所在。提供服务的方式一般包括以下几种:API调用、订单服务、实时推送等。API调用通常用于实时性要求高、使用方式灵活的场景下,API调用对使用者有一定的编程要求,编程者可在API的基础上实现更复杂、更强大的功能。订单服务由数据使用者通过网站填写订单,存储管理系统接收到订单后查询数据库,提取满足条件的数据,并提供给订单提交者。实时推送主要针对少量对特定数据实时性要求高的场景,一旦接收到相关种类的数据,就向数据使用者(或应用系统)推送对应的数据,使数据使用者在第一时间获取到数据。使用何种服务模型要根据业务的情况具体分析,在大型的海量存储管理系统中一般都同时采用多种数据服务模型,对不同的服务需求采用不同的服务模式,充分发挥每种服务模型的优点。

7 展望

海量数据存储管理技术的发展如火如荼的进行中,海量存储管理目前要面对的问题包括海量数据存储管理数据量的持续增加、存储管理业务的容错处理、文件系统与关系数据库的无缝连接等。目前海量存储管理技术在在以下几个方面面临着重大的发展机遇:

IPSAN技术:将存储和IP网络相结合,使得用户可以在IP网络上传输块级的存储流量负载。IPSAN具有SAN的大部分优点,成本却远低于SAN,且由于其存储与访问同时基于IP使得存储、计算和网络可以结为一体,为数据密集型的网格计算提供良好的基础。

对象存储技术:为了解决文件数量的增加而产生的,基本的存储单元是对象而不是块,对象存储设备相对于块设备具有更高的智能,对象是智能化、封装的更好的块。

集群存储:将每个存储设备作为一个存储节点,并通过高速互联网联接,统一对外提供I/O服务。集群存储模式下每台存储设备都安装有操作系统可以独立运作。集群存储使用存储虚拟化技术,向用户提供虚拟的存储空间,该虚拟存储空间可能分布于多个存储节点。集群存储在如何设计稳定可靠的负载均衡策略、有效整合独立的存储资源以及存储节点失效的处理等方面,还在不断的发展和完善中。

参考文献

[1]张和生,张毅,胡东成.海量数据管理框架与方法研究[J].计算机工程与应用(全称),2004,(11):26-29

[2]姚书怀,刘兴伟.大型数据中心海量数据存储解决方案的设计[J].西华大学计算与数理学院(全称),2004(增刊),27-30

[3]江涛,张衡强.遥感海量数据管理研究与实现[J].山东科技大学学报,2005,26-31

[4]翟永,宋雪生.遥感数据成果的分级存储管理[J].国家地理信息中心,2005,(2):14-19

[5]武海平,余宏亮,郑伟民,周德铭.联网审计系统中海量数据的存储与管理策略[J].计算机学报,2006,(4):618-623

[6]任瑞贞,常会友.工作流系统的组织模型管理及动态维护[J].计算机应用与软件,2008,25(1):176-178

[7]李志俊.论数字图书馆的网络存储技术[J].现代情报,2007,27(10):86-88

云计算的数据存储技术 篇8

关键词:云计算,云储存,数据存储技术

21世纪是信息知识爆炸的年代, 每天产生海量的信息, 企业需要处理和存储的数据信息越来越多。如果按照传统计算机算法, 企业为了存储信息需要购置大量的硬件设施和软件设施, 并需要专人对数据信息进行管理, 对设备进行维护, 需要耗费大量的人力和物力成本。而云计算这种计算方式, 省去了企业管理和维修的麻烦, 企业可以将大量的数据信息放在服务器或者云端, 企业只需要支付少量的管理费用, 就能随时调取云端的数据信息, 并享受图片处理、归档服务、音视频转码等多种数据增值服务。

1 云计算与云存储的概念

1.1 云计算

根据美国国家标准与技术研究院的定义:云计算是一种按使用量付费的模式, 这种模式提供便捷的、可用的、按需的网络访问, 用户只需要进入到可配置的计算资源共享池, 包括服务器、存储、网络、应用软件和服务器等, 云端管理人员只要通过少量的管理或者与服务商进行少量的交互, 就能实现对云端的管理。云其实是互联网的一种比喻说法, 通过云计算可以将数据信息存储在计算机中, 这里的计算机指的是远程服务器。然后企业根据自己的需求, 对计算机存储系统进行访问, 并将信息资源直接切换到实际应用方面。计算机直接将主机功能交给了云端, 云端的计算能力就跟水电一样, 成为了一种商品, 这就促使传统计算机方式向现代计算机方式转变。

1.2 云储存

云储存是在云计算的基础上提出的, 它与云计算有很多相同的地方。云计算主要是通过网络技术、集群应用和分布式文件系统, 利用应用软件将网络中大量不同类型的存储设备连接起来, 共同合作, 对外提供业务访问和数据存储功能。云存储与传统的存储模式相比, 它是一种特殊的构架服务, 它必须建立在互联网基础上, 为用户提供在线的存储服务。用户不需要考虑存储器中的容量、数据存储位置、安全等问题, 只需要按时付费就可以了。

2 云计算的数据存储技术

云计算存储技术具有比较明显的两个特点:第一是高传输率, 第二是高吞吐率。当前, 云计算存储技术比较主要有谷歌开发的非开源的GFS和Hadoop团队开发的HDFS技术。不过后者在IT厂商应用的比较广泛。

2.1 Google File System

Google File System简称GFS, 这种存储技术不仅开源扩展, 而且是分布式的, 广泛应用在分布式的数据访问。它的硬件价格比较低, 但是却提供了容错的功能。每一个GFS都是由一个master和多个chunkserver构成, 能够提供多用户的访问权限, 只要用户的访问资源不受限制。chunkserver可以和访问同时进行。GFS系统文件被分成很多个小块, 每一个小块的标识是chunk—handle, chunk—handle由master分配。为了保证数据的安全性和可靠性, GFS系统文件会被复制在多个chunk—handle上, 文件的副本由用户决定, master会对系统文件进行维护。比如系统访问控制、空间名字。此外它还可以控制系统的活动范围, chunkserver间的迁移和单个模块的垃圾收集等。master还会定期发布指令给chunkserver, 让chunkserver收集它的发展状态。目前谷歌公司开发的GFS客户代码基本已经实现了系统文件的AP, 所以用户与master的数据交换, 之限制元数据操作, 存储数据直接和chunkserver联系, chunkserver和文件数据客户不会缓存。

2.2 Hadoop Distributed File System (HDFS)

Hadoop分布式文件系统是HDFS由多个存储数据的终点和管理节点构成的。它的中心服务器是namenode, 客户端和文件管理系统namenode对文件进行访问。每一个namenode节点都有一台普通的计算机对应, 运行时与单机计算机文件系统类似, 可以在文件系统常见名录、更改文件名。其实系统的底层已经把文件分割成了Block, 并将这些Block进行不同的存储, 从而达到容错的目的。namenode是HDFS文件系统的核心内容, 它可以维护一些数据结果, 再把记录文件分割成Block, 并在namenode获得相关的消息。

3 结语

云计算是一种新型的计算模式, 它必须依靠大数据或者在大数据的基础上, 为计算机用户提供服务和帮助。为了确保计算机数据的可靠性和安全性, 云计算对云端数据采取了分层存储的方式, 为用户提供多层次的安全防护。但是如今云计算的安全问题依然是用户关心的重点。云存储已经是未来存储的一种趋势。当前各大云存储运营商正在积极开发应用技术、搜索和云存储相结合的技术, 为用户提供更加便利的服务, 但是云存储的发展还须加强云存储的安全防护功能和技术研究。

参考文献

[1]刘晓辉.试析计算机云计算的数据存储技术[J].通讯世界, 2015 (21) :257-257.

[2]耿丽娟.基于云计算的数据存储技术探索[J].科技尚品, 2016 (03) :174-174.

服务器数据存储技术 篇9

随着医院信息化工作的不断深入, 在信息化系统的帮助下, 医院无论是从医疗服务质量、医疗服务成本控制、医院管理水平等方面均取得了瞩目的经济效益和社会效益。但同时医院业务管理数据不断增长, 特别是医疗图像信息化技术的飞速发展, 使得医学图像存档与通信系统 (Picture Archiving and Communication Systems, PACS) 日益成为各级医院信息的重要组成部分, 再加上病案数字化扫描的应用推广, 使得业务数据、医疗图像信息的数据量成几何级数增长, 其可靠存储和快速查询对于整个医院正常运作已经起着至关重要的作用。

1 医院信息系统数据存储现状

黑龙江省传染病防治院是全省结核病诊治、研究中心, 是黑龙江省唯一一家省级结核病专科医院。开放床位1020张, 是全国500所大医院之一, 近两年来, 业务量以30%的速度递增, 原有的数据存储系统已不堪重负, 迫切需要更新换代。

1.1 业务数据现状

目前, 医院已应用了门诊与住院收费系统、药品管理系统、检验信息管理系统 (Laboratory Information Management System, LIS) 和PACS等十几个信息系统模块, 对数据处理都具有较高的要求。并且各业务系统对数据的请求常常是集中在某个时间段内。例如, 住院部各科室医护人员对病历、处方等医疗单据的操作集中于每日上午医生查房后的一段时间, 同时要求其它的收费、发药等系统快速反应。以完成正常的医疗任务。其次, 医疗信息多具有时效性, 一是处方等医疗单据超过有效时间后自动作废, 二是完成的医疗单据需长期安全地存储。再者, 对病人的医疗信息的共享也十分重要。医院在优化管理流程, 运用信息系统各子系统时, 将尽可能把病人在临床一线生成的医疗信息真实地记录并反馈给医生, 最大限度地提高医疗信息的可利用率, 使有限的资源得到充分共享。

据此分析, 系统对数据存储的要求除了数据完整性和准确性外, 更重要的是在响应数据请求的时间上。一旦医院网络出现故障, 不仅会影响到医院的医疗业务无法正常开展, 医院数以亿计的财务数据丢失或损坏, 而且会对医院经济效益和社会效益造成严重影响。

1.2 数据存储设备现状

医院目前的存储系统是直接外挂存储 (Direct Attached Storage, DAS) , 即服务器通过SCSI线缆连接到磁盘阵列上, 网络客户端通过访问服务器来浏览存储设备上的数据信息。它的优点是连接费用低、技术成熟、对网络带宽依赖程度低, 安装过程也非常简单直观。采用DAS连接的服务器主机进行数据传输时, I/O的读写会占用大量的服务器主机资源, 且存储的数据量越大, 备份和恢复的时间就越长, 对服务器硬件的依赖性就越大。因此, DAS存在传输距离短、高度依赖服务器的缺点。而且存储空间得不到合理的利用, 造成数据分散不易管理、存储架构的扩展性差等。

2 虚拟存储技术

虚拟就是将一个对象 (产品或设备) 模拟成另外一个对象或实体的操作行为, 其目的就是使底层设备对上层应用而言, 达到屏蔽、透明的效果。Windows操作系统中的虚拟内存就是虚拟技术的典型应用, 而虚拟存储也是其中之一。

虚拟存储是指将不同类型的存储物理媒介和不同层面的存储子系统通过软硬件技术转换到统一的用户存储应用界面的技术。从已推出的虚拟产品结构来看, 可以将虚拟存储技术概括为主机级、设备级和网络级三个级别, 而网络级虚拟存储被认为是最具逻辑意义的虚拟化。这三种方式各具特点, 可单独使用, 也可在同一个存储系统配合使用。

与传统的RAID阵列相比, 虚拟化技术允许存储阵列将数据分布存储在更多磁盘上, 通过自动负载平衡来提升性能。

2.1 主机级虚拟存储

基于主机 (应用服务器) 上的虚拟化一般通过运行在服务器中的存储管理软件加以实现。一般常见的管理软件如逻辑卷管理软件 (Logical Volumn Manager, LVM) 。逻辑卷, 一般也会用来指代虚拟磁盘, 其实质是通过逻辑单元号 (LogicalUnitNumber, LUN) 在若干个物理磁盘上建立起逻辑关系。逻辑单元号是一个基于SCSI的标志符, 用于区分在磁盘或磁盘阵列上的逻辑单元。基于主机的虚拟化中, 管理软件的作用就是向系统输出一个单独的虚拟存储设备 (或者可以说一个虚拟存储池) , 事实上这个虚拟的存储设备后台有若干个独立的存储设备组成, 只不过在系统看来他们是一个有机的整体。通过这种模式, 用户不需要直接去控制管理这些独立的物理存储设备。当存储空间不够的时候, 管理软件会从空闲的磁盘空间中映像更多的空间输出给系统, 而系统看来它所使用的虚拟存储设备的空间在动态地增加, 并没有影响到它的使用。

由此可见, 基于主机的虚拟化可以使系统在存储空间调整过程中仍然保持在线状态。另外一个优势体现在, 通过虚拟可以实现主机上存储设备并行使用。但是, 由于基于主机的虚拟是通过软件完成, 因此会消耗系统CPU的使用周期, 容易造成主机的性能瓶颈。同时, 在每个主机上的虚拟化需要为每个主机单独安装软件, 从某种意义上讲也就降低了系统的可靠性。

2.2 存储设备级虚拟存储

基于存储设备的虚拟存储是目前相对常用的一种虚拟存储方式。它的实现过程是在阵列控制器上将一个存储阵列从逻辑上划分为多个存储空间, 供不同的主机访问。存储设备主要通过大规模的RAID子系统和多个I/O通道连接到服务器上, 智能控制器提供逻辑单元号 (Logical Unit Number, LUN) 实现访问控制、缓存和其他管理功能。

这种虚拟存储方式的优点是:能够高效地利用磁盘容量, 便于对存储设备的控制, 并且可以方便地调整硬件参数。缺点是:系统的兼容性不好, 尤其是当系统存储体异构时表现更为明显。

2.3 网络级虚拟存储

基于网络的虚拟化方法是在网络设备之间实现存储虚拟化功能, 这个网络就是存储局域网络 (Storage Area Network, SAN) 。虚拟功能的实现可以在交换机、路由器、存储服务器进行。

具体实现有下面几种方式:

(1) 基于互联设备的虚拟。这种方法使存储服务能够在专用服务器上运行, 使用标准操作系统, 例如Windows、UNIX、Linux或供应商提供的操作系统。存储服务运行在标准操作系统中, 具有基于主机方法的诸多优势——易使用、设备便宜。许多基于设备的虚拟化提供商也提供附加的功能模块来改善系统的整体性能, 能够获得比标准操作系统更好的性能和更完善的功能, 但需要更高的硬件成本。

(2) 基于交换机或路由器的虚拟。在交换机和路由器上的固件或软件实现虚拟功能。或通过附属在交换机上的服务器得以实现虚拟。他们的基本原理就是尽量将虚拟的职能转移到网络层。交换机和路由器处于主机和存储网络的数据通路上, 它们在中途可以截获主机发往存储系统的指令, 并加以处理。尽管基于交换机或路由器的虚拟技术还属于起步阶段, 但是在未来也有可能发展成为替代目前的基于存储服务器的虚拟技术。基于交换机或路由器的虚拟技术的优势就是不需要在主机上安装任何代理软件, 交换设备潜在的处理能力可能会比传统的模式提供更强的性能, 不过这一切还有待发展。基于交换机或路由器的虚拟技术的另一个优势体现在安全性上, 该层次比前面的虚拟应用对外来的攻击有更强的防护。其劣势主要表现在单个交换机和路由器容易成为整个系统的瓶颈和故障点。

3 虚拟存储技术的应用

据以上分析, 结合黑龙江省传染病防治院具体的情况, 本着充分利用原有设备的原则, 选择网络级的基于互联设备的虚拟存储解决方案。

3.1 主机的配制

在原有存储设备基础上再增加一台硬件服务器作为专用服务器, 以形成双机集群工作方式, 两台主机共同工作提高了工作效率。双机集群方式区别于以往的双机热备方式。双机集群方式为两台主机都在正常工作, 共同承担工作处理同一事务, 当其中一台主机发生故障时, 另一台主机承担所有工作;传统双机热备方式为只有一台主机在工作, 另一台主机为备用状态, 当工作主机发生故障时, 备用主机启用代替故障主机工作。双机集群方式与双机热备方式相比有两个优势:

(1) 两台主机共同工作提高了工作效率, 无形中提高了主机的性能。

(2) 双机集群方式充分利用了硬件资源, 而双机热备方式相当于有一台主机在闲置。

3.2 磁盘阵列的配制

采用双存储磁盘阵列柜, 数据首先存储于本地磁盘, 再通过磁盘柜自带的同步异步复制功能将数据复制到另一台磁盘阵列柜中, 实现两台磁盘阵列柜中的数据互为备份。

3.3 交换机的配制

配置两台8口的SAN switch交换机用于服务器与存储磁盘阵列之间进行数据交换。两台数据库服务器和两台存储阵列柜均配置光纤通道控制器卡, 通过光纤连接到SAN switch交换机形成SAN网络。每台数据库服务器和存储阵列磁盘都分别以双光纤连接到两台SAN交换机上, 形成设备冗余和线路冗余, 提高系统的安全性。大容量数据传输是通过光纤网络完成, 不占用局域网络带宽。而且数据库服务器和存储设备都可以很方便地进行灵活扩展。

3.4 数据保护设备

为了保证数据的可靠性和应用系统运行的连续性, 采用数据保护设备, 通过光纤连接到SAN switch交换机, 实现操作系统级的保护, 完成数据 (文件和数据库) 的实时备份, 真正实现备份数据的快速恢复和多点恢复, 在不到5分钟的时间内可以恢复操作系统和数据, 保证应用系统7×24小时的运行。

4 虚拟存储技术应用效果

通过这次系统的升级改造, 解决了长期困扰医院信息系统正常运行的技术瓶颈, 不仅提高了系统的运行效率, 而且系统的可靠性、稳定性和可扩展性都得到了空前的提高。

4.1 提高了系统响应速度和存储空间效率

虚拟存储技术很好地解决了目前用户所面临的服务器响应缓慢、物理存储效率低及存储空间使用上浪费的问题, 用户几乎可以100%地使用磁盘容量, 因为它只存储真正写入的数据。虚拟存储是一种智能化的系统, 它可以实现物理资源和资源池的动态共享, 有效地提高了存储资源的利用率。虚拟存储系统还可以很好地进行负载平衡, 把每一次数据访问所需要的带宽合理地分配到各个存储模块上, 从而大大提高存储系统的整体访问带宽。

4.2 简化存储管理的复杂性, 降低存储管理和运行的成本

在虚拟存储环境下, 无论后端物理存储是什么设备, 服务器识别的都是其存储设备的逻辑镜像。即使物理存储发生变化, 也不会改变逻辑镜像, 这使得系统管理员不必关心后端存储设备, 只需专注于管理存储空间, 所有的存储管理操作, 如系统升级、建立和分配虚拟磁盘、改变RAID级别、扩充存储空间等比从前的任何设备都容易, 存储管理变得轻松简单。而使用一般的存储系统, 当增加新的存储设备时, 整个系统都需要重新进行烦琐的配置工作, 还有可能造成数据的丢失, 从而影响医院业务的正常运行。

4.3 增强存储系统的灵活性、可用性、安全性及扩展性

虚拟存储技术可以实现动态的资源部署和重配置, 可在不影响用户的情况下对物理资源进行删除、升级或改变, 从而满足了不断变化的业务需求, 提高了存储系统的灵活性和可用性。根据不同的产品, 资源分区和汇聚, 虚拟存储系统可支持实现比个体物理资源小得多或大得多的虚拟资源, 也就是说它可以在不改变物理资源配置的情况下进行规模调整, 这使得存储系统具有更高的扩展性能。虚拟存储技术还可实现普通共享机制无法实现的隔离和划分, 这样就可以对数据和服务进行可控和安全的访问。

5 结束语

存储虚拟化可以通过不同的方法实施, 可以单独实施, 也可以与其它方法一同实施。用户可基于服务器、网络、存储设备三个不同的层面实施存储虚拟化, 每个层面的实施都各有利弊, 而且每个层面的虚拟化都会涉及到多种技术。

随着“云计算”概念的提出, 虚拟技术产品的不断推出, 未来的数据中心将是100%的虚拟化, 虚拟技术必然会带给人们更多的惊喜。

摘要:从医院信息化需求现状分析入手, 针对医院现有信息系统存储结构存在的问题, 研究了虚拟存储技术不同实现形式的特点, 并对虚拟存储技术的选择和实际应用进行了分析与总结, 为同行业信息平台硬件建设提供帮助和借鉴。

关键词:虚拟存储,存储系统,HIS,SAN

参考文献

[1]王晓华.医院信息系统中海量数据存储[J].中国水电医学, 2006, 4:244.

[2]陈其铭, 张宇, 林荣.虚拟存储技术及其现状分析[J].电脑知识与技术, 2009, 5 (2) :453.

[3]吉浩.医院信息化存储方式的研究[J].医院管理论坛, 2009, 26 (1) :61.

服务器常用四种磁盘存储技术漫议 篇10

关键词: 磁盘簇JBOD 直连式存储DAS 存储区域网络SANs 网络附属存储NAS

当很多单位顺应潮流,纷纷将数据搬上云端之际,我们不应当忽略对网络存储基础设施的建设和发展,这里通常有四种磁盘存储方案:磁盘簇JBOD(Just a Bunch of Disks)、直连式存储DAS(Direct Attached Storage,)、存储区域网络SANs(Storage Area Networks)和网络附属存储NAS(Network Attached Storage,),其各有特色,当如何取舍?

一、JBOD:适合中小企业的存储方案

JBOD又称Span,通常指的是一个底板安装有多个磁盘驱动器作为存储设备。和独立磁盘冗余阵列RAID不同,RAID系统是在多磁盘上冗余存储相同的数据,而这多个磁盘在操作系统看来就像一个磁盘;JBOD没有前端逻辑来管理磁盘数据分布,相反,每个磁盘进行单独寻址。与RAID阵列相比,JBOD的优势在于其低成本,可以将多个磁盘合并共享电源和风扇。

JBOD使用的主要问题是单独的磁盘出现故障的恢复能力,如果没有恰当的迂回能力,那么一个驱动器的故障就可能导致整个JBOD失效。JBOD的磁盘阵列有着严格的制冷系统和电源设施,这些都是容错的重要体现。电源、冷却系统、数据总线和其他部件的容错可以帮助数据存储系统挽回由于硬件损坏而引起的错误,但是不能帮助检查并修复错误。

由于JBOD一般在使用中都包含多个磁盘,因此总存储容量可以很大,一个磁盘的故障就会造成整个设备故障,势必对系统是一个巨大风险。其解决办法之一是软件RAID。从主机端看,采用软件RAID和JBOD的结合与硬件RAID在逻辑上没有任何区别,只是软件RAID会消耗一部分主机资源,而与硬件RAID相比,无法达到高性能系统的苛刻要求。

当然,通过使用存储虚拟化设备可以改进JBOD共享存储,存储虚拟化设备负责向多个JBOD或者RAID阵列存取数据,从而造成一种假象:每个主机都有单独的存储资源。这使得在主机上免除软件RAID成为可能,因为这项功能现在由设备来承担。从本质上说,存储虚拟化实现了智能RAID控制器相同的功能。尽管存储虚拟化设备给出了主机系统中对存储资源的简单描述,但它还是必须承担管理数据放置的复杂性,并自动地从故障和中断中恢复。

目前,JBOD比较适合中小企业用户的存储需求。在数据存储过程中,即使在百分之一的概率下出现故障,无非是多花些时间的问题,不会对关键业务造成致命影响,而用户在成本上却得到很大回报,无需为低端存储应用做昂贵投资。

二、DAS:简便并不简单

直连式存储DAS,指的是将存储设备通过标准的网络拓扑结构(如以太网)连接到一群计算机上。DAS与服务器主机之间的连接通道通常采用SCSI连接,随着服务器CPU处理能力越来越强,存储硬盘空间越来越大,阵列的硬盘数量越来越多,SCSI通道将出现IO瓶颈,同时服务器主机SCSI ID资源有限,能够建立的SCSI通道连接也有限。

DAS依赖服务器主机操作系统进行数据IO读写和存储维护管理,数据备份和恢复要求占用服务器主机资源(包括CPU、系统IO等),数据流需要回流主机再到服务器连接着的磁带机(库),数据备份通常占用服务器主机资源20%~30%,因此许多企业用户的日常数据备份常常在深夜或业务系统不繁忙时进行,以免影响正常业务系统的运行。DAS数据量越大,备份和恢复的时间就越长,对服务器硬件的依赖性和影响就越大。

但是,多台服务器同时使用DAS时,存储空间不能在服务器之间动态分配,可能造成相当的资源浪费;对于存在多个服务器的系统来说,设备分散,不便管理。而且服务器本身容易成为系统瓶颈,若服务器发生故障,数据不可访问。

三、SAN:适用于大型企业的存储方案

SAN,指的是采用FC(Fibre Channel)网状通道技术,通过FC交换机连接存储阵列和服务器主机,建立的专用于数据存储的区域网络。SAN主要用于存储量大的工作环境,如ISP、银行等。SAN经过十多年发展,已趋于成熟,成为业界的事实标准,尽管各厂商光纤交换技术不完全相同,其服务器和SAN存储有兼容方面的问题。

当前企业存储方案所遇到的两个主要问题是:数据与应用系统紧密结合所产生的结构性限制,以及SCSI标准的限制。大多数分析都认为SAN是未来企业级的存储方案,这是因为SAN便于集成,能改善数据可用性及网络性能,还可减轻作业管理压力。

SAN实际是一种专门为存储建立的独立于TCP/IP网络之外的专用网络。目前SAN提供的传输速率一般为2Gb/S~4Gb/S,同时SAN网络独立于数据网络存在,因此存取速度很快。另外,SAN一般采用高端的RAID阵列,使SAN的性能在几种专业存储方案中傲视群雄。

SAN由于其基础是一个专用网络,因此扩展性很强,无论是在一个SAN系统中增加一定的存储空间,还是增加几台使用存储空间的服务器都非常方便。通过SAN接口的磁带机,SAN系统可以方便高效地实现数据的集中备份。目前常见的SAN有FC-SAN和IP-SAN,其中FC-SAN为通过光纤通道协议转发SCSI协议,IP-SAN通过TCP协议转发SCSI协议。

SAN结构允许任何服务器连接到任何存储阵列,这样不管数据置放在哪里,服务器都可直接存取所需的数据。因为采用了光纤接口,SAN具有更高的带宽。因为SAN解决方案是从基本功能剥离出存储功能,所以运行备份操作就无需考虑它们对网络总体性能的影响。SAN方案使得管理及集中控制实现简化,特别是对于全部存储设备都集群在一起的时候。光纤接口提供了10公里连接长度,这使得实现物理上分离的、不在机房的存储变得非常容易。此时,成本和复杂性便成为光纤信道中的主要矛盾。

四、NAS:基于SCSI技术的存储方案

NAS被定义为一种特殊的专用数据存储服务器,包括存储器件(例如磁盘阵列、CD/DVD驱动器、磁带驱动器或可移动的存储介质)和内嵌系统软件,可提供跨平台文件共享功能。NAS通常在一个LAN上占有自己的节点,无需应用服务器干预,允许用户在网络上存取数据,在此配置中,NAS集中管理和处理网络上的所有数据,将负载从应用或企业服务器上卸载下来,有效降低总拥有成本,有利于保护用户投资。

NAS本身能够支持多种协议(如NFS、CIFS、FTP、HTTP等),而且支持各种操作系统。通过任何一台工作站,用浏览器软件就可以对NAS设备进行直观方便的管理。值得说明的是,NAS不同于SAN:NAS产品是一个专有文件服务器或一个只读文件访问设备,而SAN是一种网络;NAS产品能通过SAN连接到存储设备,而SAN是在服务器和存储器之间用作I/O路径的专用网络,包括面向块(SCSI)和面向文件(NAS)的存储产品。

NAS的优点主要有以下几点:

1.NAS产品是真正即插即用的产品。NAS设备一般支持多计算机平台,可用于混合Unix/Windows NT局域网内。

2.NAS设备物理位置灵活,可放置在工作组内,靠近数据中心的应用服务器;也可在其他地点,通过物理链路与网络连接。

3.无需应用服务器干预,NAS设备允许用户在网络上存取数据,这样既可减小CPU开销,又能显著改善网络性能。

4.能实现大容量存储,将多个磁盘合并成一个逻辑磁盘,满足海量存储的需求,而且实施简单:无需专业人员操作和维护,节省用户投资。

上一篇:矿井输送机下一篇:下肢骨折