网格技术的研究与应用

2024-06-16

网格技术的研究与应用(精选十篇)

网格技术的研究与应用 篇1

关键词:网格技术,资源管理,网格体系结构,企业

1 引言

目前企业之间的业务合作越来越普遍, 不同的企业部门可能需要互相交换数据资源和共享软硬件资源。由于不同的企业部门他们的应用系统往往不是一样, 并且同一企业内部也出现了各种各样的应用系统, 这些系统可能是在不同的时间由不同的公司开发, 他们都有自己的用户系统、资源库、权限管理, 是相对孤立的信息孤岛。所以最终无论是企业还是个人相对于TCO (总拥有成本) 而言TBO (总拥有利益) 往往不太明显。

信息网格的发展能够降低信息、交易平台的建设成本以及服务提供方面的支出, 反过来信息拥有的成本也将大大降低。信息网格是一个全局性的问题, 网格不仅是一个技术层面的概念, 对于企业而言, 网格意味着一种建立在随需应变组织架构上的先进管理理念。因此利用网格技术可以解决信息孤岛, 真正实现信息共享, 为用户提供单一的系统映象环境。

本文就网格技术在企业中的应用研究提出了一些新的理念, 给出了企业间网格的架构结构及企业各部门之间的资源共享和协作过程。

2 网格简介

2.1 网格概念

网格就是采用新型技术通过高速网络连接并集成地理上分布的、异构的资源 (各种高性能计算机系统、软件系统、数据存储系统、以及各种尖端设备、文件等) , 为用户提供一体化的高性能计算服务、信息处理服务和决策支持服务, 充分发挥网络资源的综合效能。

2.2 网格体系结构简介

目前流行的网格体系结构有Ian Foster, Carl Kesselman等人提出的5层沙漏结构和后来将Grid技术和Web Services技术结合的开放网格服务体系结构 (OGSA) 。

基于协议的5层沙漏结构包括构造层、连接层、资源层、会聚层、应用层。

构造层:提供了共享资源的本地控制接口。构造层的功能性为更上层使用提供了基础, 构造层提供的功能性越丰富, 更上层越能构造更复杂的应用, 否则, 上层只能使用简单的功能接口。

连接层:定义了核心的通信和安全协议, 使得通信更安全、更简单。

资源层:定义了在一个单独的资源上提供共享操作的协议 (同时提供API和SDK) 实现了安全协商、启动、监控、帐支付等功能。资源层只关心单个资源, 不关心全局的状态和跨域的行为。

会聚层:会聚层不关心单个资源的管理, 关心的是全局的状态和跨域的交互行为, 该层提供的协议和服务是可以很广泛的, 同时也提出了通用的一些协议和服务。

应用层:应用层是用户利用下层提供的API或SDK而实现某些特定功能的用户层。

OGSA体系结构采用了Grid 思想和Web Services技术相结合的路子, Web Services技术是目前流行的集成解决方案, 它的协议框架都经过标准化过程, 被各大主流IT厂商所接受、并通过基于XML的技术提供了很好的跨平台性和松散耦合特性。Grid思想是要在一个动态的、跨管理域、非集中控制的广域分布式环境下的虚拟组织里共享各种资源。OGSA的外在表现则是Web Services技术, OGSA更加合适商业领域的应用。

2.3 国内外网格研究状况

目前国外的网格研究项目有:美国的Globus项目 (它的核心部分就是元计算工具包, 它还开发出在各种平台上运行的网格计算工具软件Toolkit) ;澳大利亚的Gridsim项目;日本的Ninf (全球计算基础设施项目, 它允许用户访问硬件、软件、数据等分布在广域网上的资源) ;韩国开展的N*Grid项目 (目标是建立韩国国家网格, 包括计算网格、数据网格、访问网格和应用网格四大部分) , 该项目试图把韩国的超级计算机和高性能集群连在一起, 建立应用实验床、应用门户, 开发工具的应用程序, 最终建立一个支持多个领域应用的网格, 并跨越工程计算领域和科学研究领域。

我国网格研究项目有:国家网格CNGrid (科技部) 、中国教育科研网格计划ChinaGrid ( 教育部) 、E-Science网格研究计划 (国家基金委) 、上海交通信息网格以及中国空间信息网格、中科院的织女星网格 (主要包括织女星网格体系结构的研究、面向网格的超级服务器研究、织女星网格操作系统、网格计算协议栈) 。中国国家网格目前包括8个节点, 其中两个主节点, 6个普通节点, 全网格的聚合计算能力超过15TF, 存储能力超过100TB。中国国家网格将成为持续开展网格技术研究和网格应用示范的实验床, 它所提供的资源将大大提高我国科学研究和信息技术开发能力。

2.4 网格技术应用情况

网格应用主要有:生物医学 (网格可提供药品开发人员所需的计算能力, 用以研究药物和蛋白质分子的形态与运动。) 例如2003年2月5日IBM、United Devices及Accelrys发表了旨在开发天花治疗药物的天花研究网格计算项目, 对35000万种侯选治疗药物分及数种蛋白质和天花病毒进行化学互相作用的分析;分布式超级计算 (两个典型的分布式超级计算机应用:1军事仿真项目SF Express它将大规模军事仿真任务分解到分布式环境中运行;2数字相对论, 它利用网格求解爱因斯坦相对论方程并模拟出天体的运动规律。) ;分布式仪器系统, 例如:远程医疗和远程贵重仪器 (XPort项目) ;数据密集型计算, 例如:欧洲原子能研究机构CERN所开发的数据网格项目;远程沉浸 (是一种特殊的网络化虚拟现实环境, 这个环境可以是对现实或历史的逼真反映, 可以是对高性能计算结果或数据化的可视化, 也可以是纯粹虚构的空间。) 例如:EVL等开发的虚拟历史博物馆、协同学习环境、数据可视化同分析环境等;高性能计算方面, 计算网格的建立有利于各计算中心实现资源共享、充分利用硬件和软件资源节约成本, 它能在基础研究、汽车、大型水电工程、石油勘探、气象气候、航空、交通、金融、医疗等领域发挥空前的作用;复杂的仿真与设计;数据收集/分析;娱乐产业、特殊效果设计;超级视频会议等。

3 网格技术在企业中的应用研究

随着技术的长期积累、标准化环境的逐渐成熟、国家的支持、企业的投入和市场需求的推动, 网格正在逐渐走向商业应用。

3.1 目前企业的网络应用技术及存在问题

随着互联网 (Internet技术) 的成熟, 目前企业各部门之间已经普遍利用网络技术进行通信和交流, 为企业各级管理者和决策者提供各自所需的动态综合信息。同时利用企业内部的局域网实现无纸化办公, 并建立一套有效的经营管理系统, 能够向企业各部门及时提供准确、完整、客观的综合信息和统计资料, 实现了数据自动管理、分类、加工等。从而大大提高了企业的工作效率。

然而随着企业之间合作的更加密切化和为了进一步提高企业的资源利用率和协同合作功能, 目前的Internet技术已经不能很好满足企业的要求。例如:A企业拥有两台高性能计算机 (进行虚拟模拟出袜子模型) 和一套拥有大型数据库的机群系统 (存储着各种袜子的模型和款式) ;B企业拥有一套生产自动化软件 (根据参数自动产生最佳产品, 例如随温度和气候以及脚型等参数的变化, 袜子的透气程度、保温程度和舒适性的自动设计) ;C企业拥有50台计算机自动化的生产设备 (织袜机) 。如何把他们三家企业的资源 (包括硬件和软件资源) 合理的综合利用起来。例如:C企业可以利用A企业的高性能计算机, A企业可以拥有B企业的软件。以减少资源的孤立和浪费、减少企业的TCO (总拥有成本) 而提高企业的TBO (总拥有利益) 成为企业之间所要解决的最主要的问题。因此网格技术便成为了解决这一问题的关键, 来实现地理上分布的异构资源协同工作, 各个资源就是网格的节点。

3.2 网格在企业中的具体应用过程及模型

我们利用网格技术最主要的是实现异构资源共享和协同工作, 正如我们前面刚才提到的袜业产商间的资源共享和协同工作就是初步利用了网格技术。现设计一个网格来进行企业中的应用。甲是某重点大学 (拥有高性能计算能力的机群系统) , 乙是温州某企业集团 (皮革、袜业生产等) , 丙是义乌小商品批发商和采购商。网格节点资源通过高速的网络物理上实现连接。各节点资源如下:

大学:高性能计算机群系统、工业生产自动管理软件。

企业生产商:自动画皮机、自动裁缝机、及其它产品生产流水线的制造机等、模拟生产软件。

批发商:小型PC机、两个小型数据库、图形自动处理软件。

具体的资源共享和协同工作过程为:批发商把今年的天气和客户对今年产品款式的各种需求等参数存储在参数数据库中并将这些参数利用大学的高性能计算机群系统和温州生产商的模拟生产软件进行模拟今年的产品。模拟出的产品存入产品需求数据库, 温州生产商访问批发商的产品需求数据库把模型返回给生产车间, 并利用大学的工业生产自动管理软件进行自动化生产过程。这样就实现了各个企业之间的资源共享和协同工作的过程。使各个孤立资源有效的利用 (见图1) 。

这种利用网格技术对于各个企业来说是透明的, 企业不需知道它们内部的具体工作过程。其中网格资源的分配方式主要包括:网格服务供应商、网格中间件服务层、网格资源经纪层、网格用户层 (见图2) 。

(网格节点包括资源分配、预约、价格等)

4 网格在企业中应用的预期效果

网格是网络发展与网络应用需求的必然方向。也是解决目前由于标准化、模块化应用产品、服务的缺乏以及企业信息化成本过高等问题的关键。因此企业信息网格将会最大限度的实现设计、制造、技术资源的共享, 克服空间上的距离给不同企业间的协同带来的障碍。增强国际企业间技术的互操作性, 能使Web服务扩展到更广泛的商业运用中, 完善企业间的产品协同服务, 实现各类服务跨地域、跨企业的动态实践过程。

5 结束语

网格技术在企业中的应用将会大大带动企业的快速发展, 为提高企业效率、企业之间的协同合作和资源共享都提供了有利环境。因此研究网格技术在企业中的应用已经成为各国的关注重点, 今后企业必将逐渐采用网格技术来代替现在的Internet技术。

参考文献

[1]Foster Ian, Kesselman Carl.The Grid blueprint for afuture computing infrastructure[M].USA:MorganKaufmann.1999:1-600

[2]张玉晴, 范玉顺.网格技术及其在制造领域的应用[J].清华大学学报:2003, 3 (02) :120-123

[3]都志辉, 刘鹏.网格计算[M].北京:清华大学出版社, 2002:1-450

[4]陈新, 郭绍忠.两种流行的网格体系结构的比较[J].信息工程大学学报:2004, 5 (2) :80-85

[5]徐志伟, 李晓林.织女星信息网格的体系结构研究[J].计算机研究与发展, 2002, 39 (8) :75-80

网格技术的研究与应用 篇2

1 数据复制的概念

所谓数据复制,就是将数据库中的数据资源复制到一个或多个不同的物理站点上。数据复制技术可以有效地保证目标数据库与源数据库的中数据的一致性。

1.1 访问地有效性

我们在进行数据处理里,有时候受到网络的限制无法使用广域网WAN,为了可以继续访问本地数据,我们可以采用数据复制技术。在复制时,用户可以直接在本地讯问数据,非常方便,而不用通过数据库之间的网络连接来获取用户需要的数据资源。

1.2 缩短响应时间

数据复制可以缩短数据请求的响应时间,其原因如下:

1)由于数据复制的请求是在本地服务器上进行的,不需要访问网络,所以检索速度更快。

2)在本地服务器上处理数据减轻了中心数据库服务器的负担,同时也缓解了对处理器时间的争用。

1.3 事务的完整性

确保每个数据库始终保持事务完整性是任何复制系统都面临的挑战。Replication Server 和 SQL Remote 按以下方式复制事务日志的各个部分,因此在复制期间可保持事务的完整性。

MobiLink合并多个已提交的事务中所做的更改。这些更改以单个事务的方式应用到另一数据库中。

1.4 数据的准确性

我们在数据复制时,要使整个系统中的数据保持一致,提高数据的准确性。复制系统在整个体系中将工作时所做的改变以准确无误的方式复制到其他站点上,但是不同的站点在同一时间拥有不同的数据副本。

2 数据复制的分类

在数据复制技术中,复制配置和复制类型是两个重要方面,是区别不同复制技术的主要指标。配置,指的是有多少个源服务器被复制到多少个目标服务器,包括一对一复制、一对多复制、多对一复制、多对多复制。复制类型,指的是程序如何在两个系统之间进行数据同步,一个复制解决方案可能根据计划好的时间间隔来使数据保持同步,也可以用同步复制或异步复制的方式连续进行数据复制。数据复制类型主要有以下几种:

1)同步复制

在一个同步复制环境中,为了确保目标系统上最高程度的数据整体性,数据必须在主系统完成写入之前被写入到目标系统中。一方面,同步复制使得无论何时,目标系统上的数据都与源系统数据完全相同;另一方面,同步复制也可能导致源系统的性能延迟,尤其是在两个系统间的网络连接速度比较慢的情况下,延迟问题更为严重。

2)异步复制

在异步复制时,复制软件会对数据进行排队,然后在网络可用期间在系统之间批处理地传递改变的数据,源系统在执行前不会等候目标系统的确认。为了保持数据的完整性,有些解决方案将同步和异步复制操作组合在一起:当发生通讯问题时,同步复制会转为异步复制;当通讯问题解决后,又会转回同步方式。

3)计划复制

对有些用途而言,连续的复制不是理想的方案,采用计划复制更为适宜。在这种复制方式中,变化的数据将按预先设定的时间间隔被同步复制。

数据复制技术的应用范围非常广,不同的范围内,复制的目标数据、数据复制粒度及重要技术都有很大差别。如分布数据库、分布对象和移动计算等,这些应用领域和分布式储存关系非常密切。分布数据库系统的关键技术是非常有效的数据复制技术,它可以帮助我们有效地提高数据库系统的性能,如增强系统容错能力、改善数据访问性能和实现数据系统的负载平衡等。

由于移动环境下网络带宽低、速度慢。如果采用数据复制技术,可以根据当前用户的访问需求和分布情况,进行动态数据复制。这样做的好处是:可以使移动用户就近访问并复制所需的数据,大大提高访问的性能。

3 数据网格中的数据复制技术

为了改善数据网格系统性能,我们在网络系统中大范围地使用了数据复制技术。与传统分布式系统应用领域中的复制相比,数据网格中的复制技术在复制目标、复制粒度、复制关键技术等方面表现出独特性质。数据网格系统中,采用数据复制技术的目的是为了节省网络带宽、减少系统的访问时间等。在使用数据复制技术时通过数据在网格中的流动,实现数据网格系统的性能优化,也就是根据用户的访问需求和数据网格系统的数据特征自动将数据流复制到不同的网格节点或服务器上。

3.1 在网格中数据复制的特点

数据复制技术可以多个服务器上建立数据备份,如果我们在操作过程中发现某个服务器中的数据出错,就可以使用其他服务器进行操作,这样可以提高数据的准确性和数据的可用性。数据复制技术为了提高使用效率,降低传输负载,一般都会将远程服务器中的数据复制到本地服务器,让用户就近访问并复制所需的数据,大大提高访问的性能。但是,网格中的数据复制技术与分布对象等、分布数据库中的复制技术相比,还有一些问题要注意改进。

1)在数据系统中,用户可以把数据存储为一般文件、XML文件及各类数据库文件等;

2)而在数据网格系统中,需要充分考虑网络开销,这和数据库、分布对象系统选择副本时是不同的,只在减少网络开销,才能提高使用数据的速度;

3)在数据网格系统中,由于网格环境是呈动态性的,而且数据副本的数量可达几百甚至更多,存在巨大的数据量,为了对副本进行有效管理;我们必须采用合理的动态副本创建策略才能满足要求;

4)一方面,数据网格系统中的数据量巨大,且操作频率很高,整个文件的内容会被一个操作改写。这和传统的数据库中副本同步时几个小事务的操作有着很大的不同;而另一方面,数据网格中的数据广泛分布和复制在WAN上,更加灵活,一般的保持副本一致性算法并不适用于此。

3.2 在数据网格中对复制系统的相关需求

根据网络系统特点和对数据复制技术的分析,我们在使用数据网格下的数据复制系统需要注意以下几点需求:

1)动态性:在创建副本时,复制系统可以按需动态创建副本和删除副本;

2)适应性:复制系统需要考虑各种网络问题,如本地网速、用户网速以及访问失败等多种情况;

3)安全性:在创建副本时,应保证用户数据访问的安全,不让有图谋的他人进入;

4)有效性:复制系统创建副本时必须考虑资源和时间的开销,用自己能利用的资源设计出最佳方案;

5)灵活性:复制系统能够根据操作需要,灵活创建、删除和管理副本。

3.3 数据网格复制

Globus中数据管理的另一个基本服务是复制(replica management),Globus中数据的复制管理主要是针对远程的大型数据库文件进行访问。replica的原意是指复制品,即在文件复制时要与其本身保持一致性。为了满足这个要求,在复制管理体系结构中,必须要有一个支持WAN的分布式数据库。这样就可以在对文件复制时进行修改。同时,在原子操作时对文件进行加密。

在Globus项目中没有采用复杂的分布数据库。Globus中的复制管理服务实际上没有按照“replica”的一般语义进行实现,而是对“replica”语义放宽了限制,对于文件的多个复制操作,Globus的复制服务不会主动执行任何操作来检查确保文件的一致性。而当用户在复制一个注册的逻辑集合文件时,则需要由操作来保持数据文件之间的一致性。

在分布式计算的环境中,有时会遇到计算失败,或网络问题,这就给我们的复制管理服务提出了更高的要求,可以快速从错误中回复,并保持数据的一致性。在Globus的复制管理服务功能中只能够保证注册文件的一致性,但不能保证存储在复制管理服务中信息的.一致性。

Globus复制目录服务可以使科学应用程序快速地进行数据访问,它是Globus复制管理的核。其工作原理是智能地把部分相关数据放置在离科学应用程序最近的位置。复制管理服务的功能主要包括:注册新的拷贝到复制目录中以、创建全部或部分文件集合的新拷贝、允许用户查询复制目录来找到部分或全部文件集合的拷贝。

4 基于网格环境中的数据复制具体实现

在网格环境中,我们在数据复制前要对具体问题进行具体分析,做好规划与设计。这就需要我们在设计时必须确定出需要复制的数据对象、数据库站点及类型、冲突解决方案、同步方式等内容。从而设计出一套详实并能满足实际业务需求的合理方案。在进行详细的规划与设计后,我们就可以按计划实现数据复制,具体操作如下:

1)创建数据复制站点;

2)创建组对象;

3)配置合理、详实的解决冲突方案。

下面,我们举例说明相关操作。我们会设置主控站点和共享数据表各两个,采用多主控站点复制方式。

主控站点分别为处理站点(handle.world)和解释站点(explain.world);数据表分别为测区(region)和测线(line)。

1)用系统身份进行登录并访问主站点数据库。

2)为每个复制站点创建新用户,并为其授权复制管理员身份,其主要任务是负责创建并管理复制的站点,其代码如下图所示:

3)指定本站点的propagator,其主要职责是将本地的最新数据传播到其他站点上,完成任务。

4)指定本站点的receiver,其主要职责是接收其他站点上的propagator传输过来的数据,其代码如下图所示:

5)为了提高运行速度,我们需要定时清除已经加载的事务,在本例中设定每小时清除一次。这样做的目的是避免事务队列过长。

6)调度数据库链接

我们用同样的方法法创建处理站点(handle.world)和解释站点(explain.world)。创建的过程如下:首先,需要先在各个主控站点之间建立数据库链接,我们需要先建立一个公用的数据库链接,让它为其他私有数据库链接提供服务。同时,我们需要在解释站点(explain.world)上建立与处理站点(handle.world)的数据库链接。其次,我们要为每个数据库链接定义系统调度的时间。

5 解决数据复制中的冲突问题

在进行数据库系统和应用程序设计过程中,设计者会考虑到冲突的问题,在设计时进行优化操作,但是站点之间的冲突问题并不能完全避免。一旦发生冲突,就需要采用冲突解决机制来处理,从而保证各站点数据的一致性。我们可以通过以下几种方法来解决上述问题:

5.1 查看出错命令的具体内容

当出现复制冲突问题时,我们要及时了解哪些数据容易出现冲突。在系统中,静态数据很少出现冲突,发生冲突的主要是一些变化较大的动态数据。了解这一情况之后,我们要根据情况来解决冲突问题。其方法有如下几种,方法1:建立各站点间的优先次序,在数据不一致时,系统以基准站点上的数据为准;方法2:当数据不一致时,系统以某个站点上最新更新的修改为准。

虽然数据库中提供了很多解决方案来避免冲突,如针对更新冲突、删除冲突、唯一性冲突等多种冲突的解决方案。这些方案都有相应的适用范围,用户可以根据具体的业务情况来选择合适的方案来解决冲突问题。除了这些系统中的方案以外,我们还可以通过自定义方案的方法来处理冲突问题。

5.2 比较数据之间的差异

如果遇到一些查询复制出错的语句,使用人工处理同步失败时相对容易。但是当复制错误的命令很多时,就会比较麻烦,使用以上方法难以处理。这种情况下,我们一般会选择忽略失败的复制命令,然后通过比较订阅表的数据之间的差异来解决问题 。

网格技术在分布式教学中的应用研究 篇3

摘 要:利用网格技术可对所有教育资源进行有机融合,实现高度共享和全面协作。本文分析网格技术对分布教学模式的作用和影响,提出基于网格技术的分布式教学模型。

关键词:网格 分布式教学 资源共享 协同

中图分类号:G434 文献标识码:A 文章编号:1673-8454(2009)13-0078-03

网格倡导的最根本的理念是实现网络资源的共享和协作,网格的目标是实现各种资源的有机集成,实现应用的互连互通,使人们可以随时随地享用网上的各种资源。网格计算技术进入教育领域以后,使教学信息资源真正实现全面共享,这对基于网格的分布式教学模式起到了重要的促进作用,更好地促进个性化学习、协作式学习。

一、网格技术概述

1.网格的概念

网格是伴随着互联网技术而迅速发展起来的,最初是专门针对复杂科学计算应用的一种新型计算模式。这种计算模式将地理上分布、异构的各种资源通过高速网络连接并集成起来,共同完成计算任务,其中每一台参与计算的计算机就是一个“节点”,而整个计算是由成千上万个“节点”组成的“一张网格”,所以这种计算方式叫网格计算。它不仅仅能够为信息资源的获取、分布、传输和有效利用带来革命性和结构性的巨大变化,而且将根本改变我们的研究方式、教育方式、生活和生产方式。

2.网格的特性

(1)异构性:网格环境由分布在广域网上不同管理域的各种不同类型的计算资源组成,并且每类资源有各自不同的属性。异构计算机间的合作和转换的实现是首要问题。

(2)分布性与共享性:一个网格系统由分布在不同地点、不同类型的计算机、外部设备、各种各样的资源库、知识库、网格服务等构成。分布性是网格最根本、最典型和最重要的特征。网格就是要把物理上分散的资源整合、协调工作,使各种资源充分共享。

(3)自相似性:网格的局部和整体之间存在着一定的相似性。

(4)动态性:网格作为一个系统,其规模、资源、服务都是在不断的变化之中。网格资源、网格规模会随着时间的变化不断调整,或充实内容、或去除不再使用的资源。

3.网格关键技术

(1)网格节点:即网格计算资源的提供者,它包括高端服务器、集群系统、MPP 系统大型存储设备和数据库等,这些资源在地理位置上是分布的,系统具有异构特性。

(2)资源管理:资源管理的关键问题是为用户有效地分配资源。高效分配涉及资源分配和调度两个问题,一般通过一个包含系统模型的调度模型来体现,而系统模型则是潜在资源的一个抽象,系统模型为分配器及时地提供所有节点上可见的资源信息,分配器获得信息后将资源合理地分配给任务,从而优化系统性能。

(3)网格中间件:目前软件界研究的热点,尤其是网格中间件正处于起步阶段。网格中间件(Grid Middleware)提供核心服务,如远程进程管理服务、资源分配服务、存储访问服务、信息服务、安全控制服务。

(4)应用层的可视化工具:网格计算的主要领域是科学计算,面对海量的数据想通过人工分析得出正确的判断十分困难。如果把计算结果转换成直观的图形信息,就能帮助研究人员理解数据,这就要研究能在网格计算中传输和读取的可视化工具。

二、网格与分布式教学

基于网格的分布式教学环境改变了传统的教育理念,可以更好地实行个性化学习、协作式学习。学习者进入网格门户后,根据自己的需要,提出学习请求,教育网格系统会按照学习者的要求,在网格系统内查找学习资源,统一协调、组织和管理,以提供给学习者友好、快速、准确的服务。网格内所有的节点构成一台巨大的虚拟的计算机,各节点的资源、知识、服务相互协调、补充,或共同为学习者提供服务,从而达到教育资源的全面共享。

1.基于网格的分布式教学环境有效地实现了信息互连互通

网格的主要任务是在动态变化的网络环境中共享资源和协同解决问题。网格把分散在不同地理位置的资源虚拟成为一个信息系统,实现计算、存储、数据、信息、软件、通信、知识和专家等各种资源的全面共享。这些资源形成一个整体后,用户可以从中享受全面的信息服务,获得极大的使用方便性和超强能力。

2.基于网格的分布式教学环境彻底打破了知识获取的时空限制

网格融合网络资源后,突破了计算能力、存储能力大小的限制。教育科研网格在结构上形成纵向衔接、横向贯通、资源任意分布且全面共享的模式,便于教师和学生随时随地的接入,可在任意地点获取资源。在功能上,提供分布式的教学环境,信息查询、检索、分类、存储等,以支持教学科研的综合应用,从而最大限度地满足了教学领域的需要,为分布式教学创造了很好的环境。

3.基于网格的分布式教学环境为师生提供了全面的信息资源服务

教育科研网格利用现有的网络基础设施、协议规范、网络技术和数据库技术,为用户提供一体化的智能信息平台。在这个平台上,信息的处理是分布式、协作式和智能化的,教师或学生可以通过单一入口访问所有信息。信息网格可以科学地描述信息、存储信息、发布信息和查找信息;可以将异构平台、不同格式、不同语义的信息进行规范和转换,从而实现信息的无障碍交换;能够将网格环境中众多的服务功能,按照用户的需求进行有机集成,形成自动完成的工作流程,向用户提供一步到位的服务。

4.基于网格的分布式教学环境真正实现了协同式学习

教育科研网格打破了传统的共享协作限制,可以将各个领域的专家和各种资源充分结合起来,动态建立各种虚拟组织,协同解决问题。教育科研网格不仅能将国内的院校科研机构连接在一起,而且还可以将分布在世界上的所有教育机构连接成为一个庞大的组织。在网格技术的支撑下,带来全新的协同式教学模式,让分布在各地的学生根据特定的学习目的组成学习共同体,在沟通、交流和分享中共同完成学习任务。

三、基于网格技术的分布式教学模型

基于网格的分布式教学的核心是教学资源的共享和教学服务系统的建立,其模型如图1所示,主要由下面几个部分组成。

1.网络平台

网格以计算机网络为传输平台,在传输中仍然使用了传统的网络传输协议。因此现有的计算机网络将会成为未来网格系统的基础。

2.网格节点

网格节点是网格系统中最为重要的部分,网格功能的实现从根本上来讲依赖于网格节点。网格节点内含了网格资源、网格服务的实现。网格服务是通过网格服务描述语言(GSDL)或WEB服务描述语言(WSDL)来定义服务接口,学习者和网络系统的开发者可以通过这些服务接口使用网格服务。

3.资源管理服务器

这是整个教学网格系统的核心,它负责资源的接收、登记、调度分配等任务,根据各个网格节点的资源容量来决定将新进资源分配到哪个网格节点,并将此信息提交给资源注册服务器以便进行更新,还可以根据网络的带宽情况、用户点播的频率对教学资源进行调度管理。

4.用户管理服务器

对教学网格的用户进行注册管理、登录管理、安全认证管理、授权管理等。用户必须在用户管理服务器中注册登记并接受统一管理,登录教学系统时经过该系统的合法性安全认证以后才能有权使用系统资源。

5.网格服务注册中心

其功能是为用户提供网格教学服务的查询。网格教学服务通过UDDI (Universal Description,Discovery and Integration)注册到网格服务注册服务器。各种教学资源信息如资源类型、所在网格节点编号等在此登记,并将这些资源按照统一的分类标准进行分类,以提供给用户一个标准、快捷、友好的资源查询服务。当注册服务器内容更新时,能够定时将更新日志传送给上一级网格系统的网格服务的注册服务器,以保证在整个教学网格系统内教育资源信息的实时性。客户端或者说学习者通过服务注册中心可以查找到所有在此注册的网格教学服务的信息。对于教学系统的开发者,可以把在注册中心查到的网格服务直接嵌入到教学软件的开发当中。

6.网格门户

网格门户网站可以看作是为用户或学习者提供网格服务的WEB页面。用户或学习者通过网格门户网站进入网格系统,得到所需要的服务。

7.客户端

在教学网格中,客户端代表服务的对象或者说学习者。他不仅可以使用网格资源,享受网格服务,同时,也可以利用网格资源和服务,来构建自己的应用。

四、总结

网格技术为教育带来了机遇,同时也使其面临着巨大的挑战。目前,人们只能在科研和不多的几个场合看到网格的零星应用案例,网格在教育领域的应用没有达到预期的效果。主要原因是网格相关软件以开源软件为主,缺乏统一的标准和协议,网格安全和管理技术不够成熟,在这些方面还需要进行深入的研究。?筅

参考文献:

[1]Ian Foster.What is the Grid?A Three Point Checklist[J].Grid Today-daily News and information for Global Grid Community,2002,1(6).

[2]桂小林.网格技术导论[M].北京:北京邮电大学出版社,2005.

[3]傅晓兴,郭红.网格技术及教育领域应用展望[J].中国信息技术教育,2008(11).

[4]苗燕春.网格技术在教育领域中的应用[J].软件导刊,2008(8).

[5]莫秋云.网格技术在中国教育科研平台上的应用[J].中国科技信息,2006(4).

[6]企业介入云计算对网格发展是利好.http://www.topoint.com.cn.2008-10-13

网格技术的研究与应用 篇4

关键词:网格计算,数据抽取,数据转化,数据加载

网格计算[1](GridComputing)本质上指的是独立的用户组在高速网络上动态地共享计算机资源,以满足不断变化的计算需求。简单地讲,网格是把整个因特网整合成一台巨大的超级计算机,实现计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的全面共享[2]。然而由于资源信息分散在不同的计算机中,因此要求必须有新的网格系统管理工具。当前的企业级网格系统正是基于这种要求出现的。在商业化的推动下,企业级网格系统必须构建足够强大、灵活、可伸缩的计算基础架构来应对迅速增加的网络流量和使用量。一方面需要它们快速部署新的工作量,使用户能够快速访问他们所需的资源;另一方面还需要高效地处理网格上的资源数据,使用户可以直观地监控资源的使用情况及运行状况。

由于企业级网格系统在对资源信息数据进行管理的过程中,必须考虑数据抽取、转换和装载效率,以及让网格用户可以通过配置文件灵活的控制转换流程,而这几方面都正是ETL技术最大的优势所在。因此,本文引入了ETL技术来解决网格中资源信息数据的高效管理问题。

1开放网格服务架构(OGSA)

目前有很多研究机构对网格计算进行研究,其中最为著名的研究小组GlobusAlliance提出的开放网格服务架构OGSA[3](OpenGridServiceArchitecture),事实上已经成为了网格计算架构方面上的标准。OGSA中以网格服务为核心,通过网格服务提供的接口为网格用户提供各方面的服务。网格服务由服务数据和实现组成,服务数据指的是该网格服务可以提供的资源属性,实现是指对这些服务数据的访问操作。OGSA的架构如图1所示:

OGSA模型以网格服务为中心具有以下优点:

(1)由于网格环境当中的组件都是虚拟的,就可以设计一组核心接口,使所有的网格服务都基于这些接口来实现,从而能容易地构造出具有层次性的、级别性的服务。

(2)虚拟化可以将相同的物理资源虚拟成多个逻辑资源,因此在对服务进行组合的时候,不必考虑具体的实现,可以以底层资源组成为基础,在虚拟组织中进行资源管理。

2 ETL技术

2.1 ETL介绍

ETL:Extraction,Transformation and Loading,即数据抽取、数据转换、数据加载[4]流程的名称。

ETL技术就是对数据库或文件中的数据进行抽取、清洗、转换,并将其载入到数据仓库中,其主要作用在于对各类数据进行清理、标准化和汇总,为基于数据仓库的决策分析应用提供符合要求、高质量的数据。ETL技术主要应用于数据仓库中。

2.2 ETL流程

首先通过Extract data(抽取数据)模块,从关系型数据库或各种文件中抽取数据,并将抽取的数据传输给Transform data模块。

Transform data部分接受到数据后,如果数据来自文件,就根据用户的配子文件或借助于第三方工具,将数据转换成用户预定的格式。如果数据来自数据库,需要对数据进行聚合或合并,如将多个表中的记录合并、计算多条记录的平均值或总和。这个转换过程实际上是一次分析过程。

数据转换完之后,就将数据交给Load data部分,根据用户的需求,可以将数据放到数据库中新的表中存储起来,也可以供其他应用程序使用。

3 基于OGSA架构的ETL应用

OGSA中所有服务都是基于接口来实现,通过这些服务接口向用户提供服务;而在网格系统的环境下,使用ETL技术可以对网格资源信息进行有效地逻辑处理。本文的设计思想是在企业级的网格系统EGO[5]中把ETL技术应用到服务接口中,架构在网格上为用户提供各种服务。图3是企业级网格系统EGO中资源信息数据的处理流程:

从图3中可以看出,数据的处理流程分为三个模块:数据收集装载、数据转化、数据显示。这三个模块在网格系统中是作为服务接口存在的,其中数据收集装载和数据转化模块是ETL技术在企业级网格系统中应用。

3.1 数据收集装载

此模块功能是收集网格上的资源数据,安装预定的格式存储到文件中,并负责删除过期文件,最后将文件中的数据装载到数据库中。

网格系统中对应此功能模块的服务接口是数据收集控制器:Data Loader Controller,简称DLC。

DLC通过开源的作业调度框架对不同功能的data loader进行作业的调度和触发。这些不同功能的data loader在DLC的统一调度下,调用网格系统中的API函数获取网格资源数据,然后按照一定的逻辑,形成用户可理解的数据,并按照预定的数据格式写入文件中,最后加载到数据库。

3.2 数据转化

网格系统中对应此功能模块的服务接口是数据转化控制器:Data Transformer Controller,简称DTC。DTC通过开源的作业调度框架对不同功能的data transformer进行作业的调度和触发。这些不同功能的data transformer在DTC的统一调度下完成数据的ETL处理。实现的简单描述如下:

(1)Extractor: 主要功能就是从指定的输入中提取所需要的数据,包括以下几个部分:

a)Extractor抽取接口,定义了一些抽取方法。主要包括两个抽象方法:hasNext方法检查是否有数据需要抽取;extractNext方法是抽取每条数据;

b)FileExtractor文件抽取抽象类,主要定义了抽取数据存在文件中的情况。

c)ExtractorFactory抽取器工厂类,负责创建各种抽取类的实例。

d)EventExtractor事件型数据流抽取类,负责抽取事件型数据流。

e)SnapshotExtractor采样数据流抽取类,负责抽取采样数据流。

f)ExtractorException抽取数据的异常类,当在执行extractNext方法时,如果有异常发生时,将会抛出一个抽取类异常。

(2)Transformer:主要功能负责对经过抽取的数据进行一系列的转化,包括统计计算、聚合计算等,然后生成另外一种格式的数据来为Loader提供输入数据。包括以下几个组成部分:

a)Transformer转换接口,定义了一个transform方法来进行数据转换。

b)AbstractTransformer数据转换抽象类。数据转换的类都是基于此类来具体化处理。

c)FilterTransformer过滤转换类,主要负责过滤数据,将不符合要求的数据过滤掉。

d)TimestampTransformer时间转换类,主要负责不同时间的转换,因为数据地域不一致性以及GMT时间和Local时间的差值性,需要进行时间转换处理。

e)TransformerFactory转换工厂类,负责创建各种类型的转换实例。

f)TransformerException转换异常类,当转换方法发生异常时将会抛出一个转换异常。

(3)Loader:主要功能负责把经过转化的数据导入到数据库,如下是类模块简述:

a)Loader装载接口;

b)AbstractLoader抽象装载;

c)DBLoader数据库装载类,负责将处理后的数据装载到指定的数据库中;

d)LoaderFactory装载工厂类,负责创建各种类型的装载实例;

e)LoaderException装载异常类,当装载时发生异常,将会抛出一个装载类异常。

3.3 数据显示

此模块在网格系统中对应的服务接口是图形用户接口,简称GUI。主要功能是把经过ETL处理的数据通过界面的方式显示在网格用户面前,使用户最终得到直观而客观的网格信息。

4 结束语

随着网格技术迅速发展,特别是网格产品的商业化,对网格中资源信息的及时、高效管理成为网格用户的迫切需求。本文介绍的ETL技术在企业级的网格系统中的应用,很大程度上解决了资源信息的及时、高效处理问题。随着网格计算的迅速发展,最大程度发挥二者的技术优势,将具有良好的发展前景。

参考文献

[1] Foster I,Thre KC.Grid:blueprint for a future computing infrastruc-ture.San Francisco,USA:Morgan Kaufman Publisher,1999

[2]孙培德,胡月仙.网格计算的研究进展及应用前景.计算机时代,2003;(1):1—5

[3] Foster I,Kesselma C,Nick J M,et al.Grid services for distributedsystem integration.IEEE Computer,2002;35(6):37—46

[4]张宁,贾自艳,史忠植.数据仓库中ETL技术的研究.计算结工程与应用,2002;38(24):213—216

网格技术的发展与数字图书馆建设 篇5

【摘要题】数字图书馆论坛

【关键词】网格技术/因特网/数字图书馆

1 网格技术的特点及其意义

网格(Grid)是近年来兴起的一种前沿信息技术,是互联网信息技术发展的新趋势。它的思想来源于电力网格,目的是将计算能力和信息资源象电力网一样通过网络形式方便地传送到用户中。网格是高性能计算机、数据资源、因特网三种技术的有机组合和发展,它把分布在各地的各种计算机连接起来,进行资源共享。美国网格项目的负责人之一伊安・福斯特在他所主编的题为《网格:21世纪信息技术基础设施的蓝图》一书认为:“网格就是构筑在互联网上的一组新兴技术。它将高速互联网、高性能计算机、大型数据库、传感器、远程设备等融为一体,为科技人员和普通用户提供更多的资源、功能和交互性。互联网主要为人们提供电子邮件、网页浏览等通信功能,而网格的功能则更多和更强,能让人们透明地使用计算、存储等其他资源。”因此,网格是一个一致、开放、标准的计算环境的信息基础设施,支持聚合地理上广泛分布的高性能计算资源、大容量数据和信息存储资源、软件和应用系统、高速测试和获取系统、以及人力等各种资源的合作问题求解系统的构造。

网格的根本特征是资源共享。它把整个网络整合成一台巨大的超级虚拟计算机,实现各种资源的全面共享。目前因特网上各种信息资源由于分散在不同的地方,要进行资源共享十分困难,并且利用效率比较低。网格则可以实现互联网上所有资源包括硬软件资源、计算资源、存储资源、通信资源、信息资源、知识资源等的全面连通,通过网格系统进行利用,使网络信息资源能充分利用,从而发挥网络信息资源的价值。

网格是因特网应用的新发展。有人把网格看成是未来的互联网技术,是继因特网之后的第三次互联网浪潮,是“下一代因特网”、“新一代Web”等。因特网实现了计算机硬件、网页等的联想,而网格的性能比因特网具有更强的功能:首先,网格比因特网具有更大的带宽,欧美的网格计划都使用更高速度的主干网。第二,网格上将有更多高性能计算机,它的计算速度、数据处理速度可以大幅度提高。第三,网格的体系结构将比因特网更能有效地利用网络信息资源。网格采用广域缓存技术,能够自动把用户最需要的信息放在离用户最近的服务器上。第四,网格将促进更多、更大规模的网络社区的出现,这些相互联结的社区最终构成一个庞大的网格社区。

网格将带来一场互联网的革命。互联网的作用是将各种计算机连结起来,而网格是将各种信息资源连结起来。互联网实现了计算机硬件的连通,Web实现了网页的连通,而网格试图实现互联网上所有资源的全面连通,包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等。网格的应用将会遍及各个领域,从而给各行各业带来巨大的效益。正如IBM深度计算研究所所长比尔・普里布兰所说,网格和高性能计算机等信息技术的根本目的就是辅佐人类实现人与机器共生,从而解放人的大脑,提高社会的生产力。有人认为,美国70年代对因特网的研究导致了今天网络经济的繁荣,而现在对网格的研究可与当年的因特网研究相提并论,可以预料后的网格将如同今天的因特网一样,普及到国民经济和社会的各个领域,从而起到重大的作用。

网格将成为信息产业的新热点,从而带来许多机会和巨大的经济效益。据美国《福布斯》杂志的预测,网格技术将在达到高峰。如果网格技术能按预期的17%年增长率持续发展的话,那么,在将会形成一个年产值20万亿美元的大产业,将对世界社会经济产生巨大的影响。

2 网格技术的兴起和发展

网格技术是现代信息技术发展的必然产物。现代社会产生大量的数据和信息,而利用这些数据需要更大的计算能力,许多领域的计算和资源共享问题促使要利用分布在各地的计算机和信息资源,只有通过高速网络连接起来,才能共同完成有关的任务。网格可以连接广域范围内不同标准的异构“孤岛”,形成庞大的计算和信息共享体系。由于网格是因特网进一步的发展,因此它一经提出就受到世界各国的高度重视。

美国、欧洲、日本等国家都启动了大型网格研究计划。美国政府用于网格技术的基础研究经费则高达5亿美元。目前美国正规划实施一个宏大的网格计划“全球信息网格(GlobalInformationGrid)”,预计在20完成。美国国防部和欧洲能源机构等在三年前先后采用了网格技术,并得到了产业界的大力支持。英国政府已投资1亿英镑用来研制“英国国家网格(UKNationalGrid)”,将英国主要大学的超级计算机利用网格技术和高速宽带连接起来,并计划将这一系统面向企业用户开放。日本的NTTData计划进行一项网格计算试验,将有包括家庭、企业和学术机构的100万台计算机相联,其总处理能力将比现有的最快的超级计算机还要快5倍。许多信息产业界的企业也相继实施网格研究开发计划,如IBM公司正在研究一种能被多家科研单位和众多用户同时使用的超级计算机网格。5月,IBM与一家名为Butterfly.net的公司合作开发网络视频游戏平台――“蝴蝶网格(ButterflyGrid)”,使用了多台通过光纤连接的Linux服务器,采用分布式人工智能技术,支持无限用户数量以及数以百万用户同时在线的视频游戏。另外,Butterfly.net还计划推出相应的开发工具,供网格计算技术的开发商使用。蝴蝶网格的技术核心是网格计算,是真正意义上的第一个商用网格系统。206月,Sun公司推出网格引擎企业版软件,该软件提供了更高水平的控制能力和灵活性能拥有策略管理功能,允许多个小组根据公司确定的目标共享可用的计算资源,通过该软件Sun扩展了它对开放企业网格架构的理念,有关网格计算的开放方法排除了在异种环境中利用网格技术的障碍,继续强化了它在网格计算领域的领导地位,从而把网格计算技术推向了一个新的发展阶段。Microsoft也决定支持网格组织Globus企业建造和管理网格的计划。Microsoft的研究部门还参与了各项分布式计算研究项目,包括容错远程文件系统,以及建设分布式系统等。Compaq与加拿大PlatformComputing结盟,为用户提供完整的、集成的、开放的网络解决方案。Oracle在其最新版本的应用服务器中推出了全新的OraclePortal技术,是面向信息网格的新一代技术和解决方案。

网格技术在我国也开始引起重视,863计划已经启动了中国网格技术的研究,着手建立我国的国家高性能计算环境和国家信息网格,目前正在开

着眼应用 中欧加强网格技术合作 篇6

中国的国家网格、Virtual Network Environment、CROWN、教育科研网格,欧盟的EchoGRID、EC-GIN、GridCOMP、XtreemOS、EU-ChinaGrid等项目的代表各自展示了他们的研究进展和未来目标。

国家863计划的“高效能计算机及网格服务环境”项目负责人钱德沛介绍说,“2005年底,国家网格项目第一期就已经完成了,现在是863计划支持的第二期。在2010年前,我们将预计达到三个目标: 一是大幅度拓展规模,并建立12到15个网格应用点; 二是资源扩展到12个节点,存储量达到1PB; 三是高性能计算机的计算能力达到300万TF。”

近年来,网格技术发展迅速,但一直受到基础设施、软件、应用和国际标准等方面的挑战。高性能计算机与网格技术相辅相成,在此基础上,网格才能更好地实现计算、存储、数据、知识、专家等资源的全面共享。但高性能计算机的计算能力还有很强的上升空间。针对网格在“杀手级”应用上遇到的瓶颈,论坛参与者交流了自己的意见,探讨了网格在云计算、服务与计算、互操作、航空与生物医学等领域的应用模式,及如何应对未来科研、资源环境、制造业、服务业等领域对网格的旺盛需求,并对如何填充国际广泛认同的开放网格服务总体性标准框架——OGSA体系结构的细节进行了交流。

欧盟委员会代表、欧盟信息社会与多媒体指导委员会软件与服务单元的负责人Jorge•Gasos介绍了欧盟第七框架计划对服务与软件的支持,网格技术在IT、电信、媒体、商业等领域的应用,同时他还期望今后能加强中欧的长期合作。

“中欧双方在网格技术上的合作已经有好几年了,主要是科研学习与交流,这样我们才能了解国外的网格研究内容和研究体制。”钱德沛说。

网格技术的研究与应用 篇7

关键词:税务发票,数据网格,Globus,信息共享

1 绪论

1.1 研究背景

1.1.1 税务发票管理现状概述

税务机关在发票管理上提出了“以票控税”的目标,由于信息化手段落后,存在独自为政、系统林立、数据共享程度低、发票信息采集不全、验旧比对不准确不及时等一系列问题。税务发票虚假开具、发票转借、假发票使用等行为不仅成为滋生涉税违法行为的“温床”,而且严重侵害了消费者和纳税人的合法权益,扰乱了正常的国家市场经济秩序。

由于缺乏信息化手段的支持,海量的税务发票电子信息由于不能够实现数据的完全共享,形成许多“信息孤岛”。如何运用高科技手段,提高税务发票的管理水平,解决各省市税务系统的海量发票数据信息管理问题,达到数据共享的目标,建设统一的税务发票管理综合平台成为摆在税务机关面前亟待解决的关键问题。

1.1.2 数据网格技术特点

数据网格(Data Grid)是网格技术在数据尤其是在数据库管理技术方面的延伸,为网格信息用户提供统一的逻辑映象,为现今的海量数据管理带来新的解决思路与方法。借助数据网格技术搭建一体化的税务发票信息管理平台,加工处理异构的、分散的和海量的税务发票数据信息,成为税务机关借助信息化技术解决税务发票信息管理的首选目标。

本篇论文文将围绕“异构、海量、分散的”税务发票电子数据信息的主要特征,紧密结合数据网格技术海量数据管理的特性和与之紧密相关的网络服务(Web Service)信息化应用技术,对构建税务发票数据网格模型TIG(Taxation Invoice Grid),实现异构环境的功能互操作[1],使数据网格技术更好地应用于税务系统发票管理,提升税务系统发票管理水平。

1.2 国内外现状

税务发票信息化管理国内外现状:

1.2.1 国外税务系统发票信息化概况

信息化是美国税务管理的重要技术支持,但是美国的发票很少存在问题,美国的发票相当于中国的超市小票,但是在小票上有签名,签名具有很高的法律效力[2]。由于银行系统和美国国家税务系统的数据库衔接非常紧密,每一个公民的金融交易过程均在税务系统的监控之下,从金融交易源头控制了税收,假发票等问题几乎微乎其微[3]。

1.2.2 国内税务系统发票管理的现状和存在的问题

发票(特别是普通发票)涉及广大的纳税人、机关事业单位、社会团体和全社会的消费者,涉及范围广泛、使用数量巨大,可以说任何单位和个人,几乎都要和发票打交道[4],发票的管理一直是税收征管的难点和薄弱环节,其管理中存在的问题一直影响和制约着税收征管质量和效率的提高[5]。税务机关的检查管理力量严重不足,违规开具、违规申报、偷逃税款现象时有发生,税源难以监控[6],税务发票犯罪现象日益扩大化。

1.2.3 税务发票犯罪形成原因

从税收征管实践来看,纳税人偷骗税的手段主要是利用发票做文章,从管理角度分析,主要存在三方面原因:一是应用系统多,信息共享程度差,缺乏一个整合的、共享的数据平台,涉税信息为税收征管各环节所能发挥的效用还远远不够;二是监控范围有限,申报信息失真。三是缺乏有效的高科技的发票监控管理手段和措施。

以上问题是当前税收管理实践中的普遍性难题,问题的本质是由于税务机关对税务机关信息化手段落后,没有像国外那样将新的信息化技术应用的税务发票管理中来。要解决这一难题需要我们立足当前管理实际,进一步解放思想,必须依靠信息化手段提升税务发票管理水平,在管理的理念和措施上寻求新的突破[7]。

1.3 税务发票数据网格研究的内容和意义

本文的研究以税务发票电子信息数据管理现状为背景,针对现阶段税务发票管理的基本情况和存在的问题,引入了数据网格的思想,重点研究税务发票数据网格的构建。文章的主要研究内容和意义如下:

数据网格技术能够对不同地域、不同类型的税务系统税务发票电子信息整合共享[8],初步构建了一个统一的可重复利用的、高效的、简捷发票查询平台,利用它可以将全国各地的电子发票信息资源直接提取,供全国各地的税务机关和社会公众反复的查询利用,为税务发票检查管理提供针对性的数据资源,解决发票数据信息的“孤岛”现象,实现数据信息的共享利用,海量发票数据信息的筛选排查,解决异地发票信息的协查难题,保证国家税款及时足额入库,节约人力物力资源,提高工作效率。

2 税务发票网格

2.1 税务发票网格(TIG)的概念

针对税务发票系统分散异构的特点,提出了建立税务发票网格的概念,税务发票网格(Tax Invoice Grid)的目的是构建一个税务发票资源管理的网格系统,通过该系统将分散在各个省市的税务发票电子信息资源整合为一个超级的覆盖全国的税务发票资源虚拟库,实现系统在分散的各地的发票信息库中进行数据检索。

税务发票电子信息的存储的数据库格式虽然不同,在税务发票网格中我们将其作为根元素,缩小数据查询的范围,提高网格工作效率。为了统一标准,便于数据网格的应用,在研究中标记了TIML(税务发票标记语言)做为税务发票电子信息描述的标准。在税务发票网格系统中,不同来源、不同地域的税务发票都要被自动转换成以TIML描述的标准税务发票数据,然后进行整合处理,并反馈给用户。

税务发票电子信息是税务发票网格的基础,税务发票网格系统,将会给网格用户提供一个虚拟的、开放的、超大的税务发票资源库。税务发票网格中电子发票资源的来源主要有以下三种方面:(1)各省市税务系统已建立并投入使用的税务发票电子信息库。(2)综合征管系统的发票发售电子库。(3)利用搜索引擎技术,语义分析,信息提取等技术从公众使用发票的电子信息提取[9]。

2.2 TIG的体系结构

税务发票信息网格研究的重点不是底层的如何信息存储、表示,而是从分布的异构的数据库中将所需要的数据索取出来,进行数据转换加工。如何将各层应用程序逻辑具体分层、实现对异构数据信息的集成集成,如何对各中间层的数据存储、接口界面、通信机制进行管理等方面。在TIG中,主要研究的就是税务发票电子信息的数据转换、存储和显示方式、异构数据库的通一访问、作业调度策略、网格安全机制、网格的管理及评价、通信机制、应用程序接口等[10]。

在税务发票网格中,税务发票电子信息库分布在各省市分散分布,由于开发商的不同,应用系统开发使用时间的先后,数据库呈现异构特点,利用Globus Toolkit和OGSA-DAI对网格开发工具进行封装,屏蔽网格理论和工具的复杂性,展现在用户面前的是统一格的数据信息。

3 税务发票管理信息网格的构建

3.1 税务发票网格功能设计

税务发票网格与综合征管软件实现的业务功能如下:(1)税务发票全程监控。(2)税务发票辨伪功能。(3)发票信息加工深度应用。(4)开票信息与申报信息稽核比对。

3.2 税务发票网格管理信息系统技术

3.2.1 税务发票数据格式分析

综合征管信息信息库与防伪税控增值税专用发票信息库为Oracle9.0数据,普通发票数据信息库存在各种类型,如SYBASE、SQL2000等类型。

3.2.2 数据格式转换

在OGSA-DAI中需要把从关系数据库中得到的Result Set数据转换成Web Row Set XML形式以便进行传输。对于关系数据库与XML数据库间的集成,本文采用的解决方案是以XML为中介向关系数据库靠近的思想,提供的功能接口最多,能实现的功能也比较强大[11]。在从XML数据库到关系数据库的数据集成过程中,XSL样式表起着重要的作用。它完成了Resource Set对象到Web Row Set对象的转换,使数据格式能进一步转换为关系数据库所需要的形式。这个过程的实现如图1所示。

3.2.3 税务发票数据网格构建

从图1中可以看到,客户端运行资源浏览器,用户通过资源浏览器能看到系统的统一数据视图、对数据进行访问和操作、调用系统提供的网格服务等。客户与网格服务器之间的通信是调用网格服务接口进行的,之间的传输协议是SOAP访问协议。它们的交互数据通过XML语言进行统一描述,便于系统的理解,这样,客户端就可用浏览器对返回的数据进行解释和显示。

根据税务发票网格的结构和税务发票信息格式所需要的描述信息,可以将数据元素分为四类:(1)税务发票开具数据元素,用于描述发票的开具详细信息;(2)税务发票的辨伪元素,用于描述税务发票的比对内容;(3)数据处理分析元素,用于描述税务发票加工数据描述信息;(4)格式元素。

3.2.4 税务发票网格数据库连接和数据实例分析

对某县数据环境进行分析,根据工作实际对数据库连接进行了测试。在实验室模拟环境下测试数据库集成系统,系统在局域网下配置的拓扑结构如图2所示。

4 结论与展望

本文总结了当前税务系统在发票管理的现状、存在频繁发生后果严重的问题和原因进行分析,对数据网格技术国内外的研究现状进行了概述,在学习研究目前数据网格技术相关理论及研究成果的基础上,提出构建基于Globus和OGSA-DAI的税务发票网格系统(TIG)概念。

网格技术的研究与应用 篇8

关键词:计算机网络,医院信息管理系统,网格,虚拟局域网

1 医院信息管理系统概述

医院信息管理系统 (HIS) 是一门集医学、信息、管理、计算机等多种学科为一体的边缘科学[1]。医疗信息系统的复杂性是由其本身的数据特点所决定的。医疗信息系统主要具有以下特点: (1) 信息复杂:病人的信息包含体格检查、检验、影像多种数据类型; (2) 信息的保密级别较高:病人的就诊病历是具有法律效力的文件, 对病人的就诊信息医院须予以严格保密; (3) 数据量大:任何病人的病历都会随着就诊次数的不断增加而逐渐增多; (4) 系统异构性。整个医疗机构中存在着大量异构、自主且分布的数据/影像设备、数据库、信息系统、智能化诊断/治疗应用程序。

为了更好的解决HIS中存在的数据庞大、复杂性、调用资源的密集性和用户需求的多样性等问题, 需要引入一种机制来更好的完善医院信息管理系统。本文主要从虚拟局域网的建设和网格技术两方面来解决HI S中网络的复杂度, 庞大的医疗数据的共享、检索等问题。

2 VLAN与网格技术简介

VLAN全称是Virtual Local Area Netwo rk, 它的中文名为“虚拟局域网”。VLAN是一种将局域网设备从逻辑上划分成一个个网段, 从而实现虚拟工作组的新兴数据交换技术。[2]

VLAN所具备的优点同样可以在医院局域网络中得到应用: (1) 防范广播风暴; (2) 增强局域网的安全性, 每一位患者的就诊数据都是需要保密的, 同样医院的部分科室的数据也是保密的, (如财务科、干部科等) 含有这些机密数据的用户组应该和网络的其余部分隔离, 从而降低泄露这些机密信息的可能性; (3) 可以降低网络升级的成本, 现有带宽和上行链路的利用率更高; (4) 将第二层平面网络根据医院不同职能部门划分多个逻辑组, 例如内科、外科、门诊等, 可以减少网络上不必要的流量并提高性能; (5) VLAN为医院的网络管理带来了方便, 例如各个科室都需要向检验科室发送检验标本, 又都需要调用检验结果, 那么对于这一共同的网络需求, 就可以共享同一个VLAN; (6) VLAN将用户和网络设备聚合到一起, 这样可以很好的管理医院患者的电子病历以及他们的各项诊疗数据; (7) 借助VLAN技术, 能将不同地点、不同网络、不同用户组合在一起, 形成一个虚拟的网络环境, 相信医院信息系统的发展就是为了方便广大的患者使用, 未来希望不同地方的患者无论到哪里都能轻松调阅自己的既往病历, 使得医生可以很快为患者诊治。

网格是一种用于集成或共享地理上分布的各种资源 (包括计算机系统、存储系统、通信系统、文件、数据库、程序等) , 使之成为有机的整体, 共同完成各种所需任务的机制。网格这个词来自于电力网格 (PowerGri d) 。“网格”与“电力网格”形神相似。计算机网络纵横交错, 电力网格用高压线路把分散在各地的发电站连接在一起, 向用户提供源源不断的电力。[3]将网格的特点很好的与医院信息系统相结合:网格中的资源都是异构的, 不强调有什么统一的安排;网格的使用通常是让不同的使用者构成虚拟组织 (VO) , 例如将医生、护士、机关工作人员等分别构成不同的虚拟组织。

3 网格技术在医院信息管理系统中的应用

医院中每一个部门的计算机使用的操作系统驳杂, 包括了像检查 (PACS) 、检验 (LI S) 、临床病历等数据。有的用Windows系统、有的用Linux系统、有的是OS/2系统等。由于使用的系统不一样, 导致数据结构不一致, 在数据共享的时候会带来困难, 特别是在建设医院信息管理系统的时候需要将医院各个部门的信息都进行共享。[4]每位医生都希望可以通过医院信息系统了解到患者各个方面的信息。通过网格技术可以在不改变数据库的结构, 也不改变信息管理系统, 通过服务的形式将分布异构的数据库共享起来, 设计一个数据管理中心, 保存各部门的信息。数据管理中心有两种方式, 分别是: (1) 虚拟数据管理中心:所谓虚拟, 即该数据管理中心所传输的数据统统来自于最底层的数据库, 其自身不对任何数据进行保存; (2) 实数据的数据管理中心, 该数据管理中心集成各分系统, 将底层数据库的信息进行汇总, 同时将各个局部模式的信息转换为全局模式的信息存储起来。我们采用的是第二种方式进行数据中心的设计, 在数据管理中心设计一个全局数据库, 同时设立数据仓库, 保存过期的数据信息。通过这个数据中心的建立可以更好的建设医院信息管理系统。使用XML对数据进行交换, 可以方便通过HTTP协议传输和跨平台共享使用一个基于XML的异构数据交换模型, 利用XML进行数据描述并将XML定义的数据作为远程交换的媒介, 从而通过远程异种数据交换实现网格化医院信息共享结构。

对数据共享系统结构的设计。首先在医院信息管理系统中设立一个全新的部门数据管理中心。该数据管理中心必须从医院信息管理的全局出发, 对各级部门系统进行集成, 建立一个面向全局的数据库, 以此来对医院的所有信息进行保存。数据管理中心必须具有数据验证的功能, 因为该数据中心必须保证它的信息是最新和最权威的, 底层的各部门可以从数据中心获取需要的信息, 同时底层的各部门也要将最新的数据传输至该数据管理中心。系统通过数据处理来回交互, 从而保证信息系统数据的一致性, 从而实现信息共享。过期的数据由该数据中心传送到数据仓库中进行保存。

其次是数据共享系统采用的中间件。访问各级数据库系统时使用OGSA-DAI的中间件。部署OGSA-DAI过程如下: (1) 将该中间件部署于医院Web服务器中; (2) 利用OGS A-DAI数据库注册功能, 将需要共享的数据库注册GDSR; (3) 注册后, 客户端程序可以从GDSR中搜索到我们需要的数据库的网格地址, 通过网格地址和API接口就可以访问到其中的数据。中间件包括一系列工具和协议软件, 像API接口用于屏蔽网格资源的分布、异构特性, 能够提供透明、一致的接口。

接下来是对相关信息的检索。目前各类搜索引擎很多, 但是往往发出搜索信息后会搜索到很多不相关的信息, 从而大大降低了搜索效率。我们可以采用如下的方法来解决该问题: (1) 提供一个基于元搜索引擎的检索机制, 元搜索引擎指的是分布于网络的多种检索工具的全局控制机制, 该机制通过一个统一的用户界面帮助用户在多个搜索引擎中选择合适的搜索引擎来实现检索操作; (2) 建立基于Push技术的信息检索系统。Pus h技术通过它的信息代理机制, 在用户初次使用时设定所需的信息后, 能够把医院信息网上的相关信息用推送或网播的形式将搜索结果反馈给我们的用户。

4 虚拟网技术在医院信息管理系统中的应用

虚拟网技术是将一组物理上彼此分开的用户和服务器从逻辑上分成工作群组, 这种逻辑上的划分与物理位置没有关系。简单的说就是把组用户分配在一个单一的广播域, 而在广播域是上的广播流量只有其成员才能够收到。[5]

虚拟网对于网络用户来说是一种完全的透明, 用户在使用过成中感觉不到与交换式网络的任何差别。但对网络管理人员来说却可以方便的对网络管理。特别是对于医院信息管理系统这种组织繁杂的网络, 可以更加有效的对网络进行管理。

首先根据医院的实际情况确定需要划分为多少个虚拟网, 在划分时可以是一个部门一个VLAN, 也可以是多个部门一个, 鉴于医院的每个部门都有明确的分工, 所以采用一个部门一个VLAN, 例如内科楼VLAN1、外科楼VLAN2、门诊楼VLAN3、办公楼V LAN4、分院VLAN5、医保VLAN6、放射科V LAN7、CT影像诊断中心VLAN8、核磁共振影像诊断中心VLAN9等。同时对每一个VL AN都划分好可用IP地址的范围与网关地址。划分好VLAN后在主交换机上对VLAN进行定义。

配置VLAN, 首先要确保某交换机当前处于VTP服务模式或VTP透明模式。只有这两种模式, 才能进行VLAN的添加域删除工作, 默认情况下, Csico交换机处于VTP透明模式。步骤如下:配置VTP协议、定义主干连接 (干道) 、指定VLAN标识、分配VLAN端口。

对中心交换机的VLAN配置:

4.1 激活VLAN路由

Switch1#config t

Switch1 (config) #ip routing

4.2 创建VLAN

4.3 为VLAN分配IP

4.4 配置VTP

接下来是对Trunk进行配置、给中心交换机通往路由器的接口配IP、给中心交换机配置缺省路由、把VLAN号分配给IP接口、检查配置与保存相关配置。

VLAN间的通信需使用路由器或具有第三层功能的交换机。通常, 在路由器的一个端口上对应每一个VALN建立一个子接口;在交换机上定义一个公用端口, 两个端口之间相连, 就可实现不同VLAN间的通信。

配置子接口时, 应注意:

(1) 需配置IP、IPX等协议。

(2) 需配置对于每个VLAN所支持的帧标识,

(3) 需配置相关的路由协议。

同一子网, 只进行交换处理, 不同子网, 先路由, 在交换。

通过路由器实现vlan间的互联。由于交换机上有多个VLAN, 所以所连的路由器接口就存在有多个IP地址。因此, 要用子接口设置多IP地址。

配置交换机:

配置成干道, 将自动封装802.1q协议

配置路由器:

不同VLAN下的主机可以相互ping通则配置成功。

最后是保存配置。

对于医院的应用来说, 局域网内的业务流量类型越来越多, 对网络的整体性能也就提出了苟刻的要求。我们只有设计出技术优越的网络才能适应这种要求。

5 结语

如何能够很好的将网格、VLAN、虚拟网技术应用于医院信息系统是一个繁杂的工作, 本文就这一工作提出了一套方案、架构并对网格、VLAN、虚拟网技术应用于医院信息系统奠定了一定的基础。这套方案必须通过具体的实践工作才能够将这些技术很好的与医院工作相结合, 在实际运用中不断改进这些技术, 让先进的信息技术能够很好的为提高医生的工作效率、提高医院的检查、工作效率而服务是每一个医院信息管理者工作的重点, 也是努力的方向。

参考文献

[1]董怡松.论医院计算机网络信息资源管理.信息技术.

[2]张毅.计算机网络在医院信息系统中的应用[J].硅谷, 2010 (15) :120.

[3]王伟, 郑衍衡.基于网格服务的校园信息共享系统的研究[J].计算机应用与软件, 2006 (4) :37-39.

[4]刘东, 张君阳.医院网络信息系统浅析[J].福建电脑, 2009, (8) :75, 94.

网格技术的研究与应用 篇9

关键词:网格,数字图书馆,分布式,资源共享

一、网格概述

(一) 网格的概念。

广义上说, 网格是一个集成的资源环境, 或者说是一个资源池, 它能够充分吸纳各种资源, 并将它们转化成一种随处可得的、可靠的、标准的、经济的能力, 这些资源包括计算资源、网络通信资源、数据资料、仪器设备、知识等各种各样的资源。狭义上来说, 就是早期的网格, 主要用于科学和工程计算, 现在也被称为计算网格 (Computational Grid) 。不管是狭义还是广义的网格, 其目的不外乎是要利用互联网把分散在不同地理位置的电脑组织成一台“虚拟的超级计算机”, 实现计算资源、存储资源、数据资源、信息资源、软件资源、通信资源等的全面共享。

(二) 网格的特征。

(1) 分布与共享。分布性是网格的一个最主要特点, 网格设备是地理上分布的, 网格资源也是分布在不同的网格设备上的。虽然网格资源存在分布性, 但网格资源也是可以充分共享的, 因为网格设计的原始动机就是要把物理上分散的资源整合、协调工作的, 即网格上的任何资源可以提供给网格上的任何用户。 (2) 系统多层次的异构性。构成网格计算系统的超级计算机有多种类型, 不同类型的超级计算机在体系结构、操作系统及应用软件等多个层次上具有不同的结构。 (3) 多级管理域。由于构成网格计算系统的超级计算机资源通常属于不同的机构或组织并且使用不同的安全机制, 因此需要各个机构或组织共同参与解决多级管理域的问题。 (4) 结构的不可预测性。与一般的局域网系统和单机的结构不同, 网格计算系统由于其地域分布和系统的复杂使其整体结构经常发生变化。 (5) 网格是协同工作的, 很多网格节点可以共同处理一个项目。 (6) 高服务质量。包括响应时间、流量、可用性和安全性。

(三) 网格的体系结构。

网格体系结构是网格最核心的技术, 是网格的骨架和灵魂。开放网格服务体系结构OGSA (Open Grid Services Architecture) 是继五层沙漏体系结构之后出现的最重要、最新、最主流的网络体系结构, 被称为是下一代的网格结构。OGSA是5层结构, 自下而上依次为:构造层、连接层、资源层、汇聚层及应用层, 如图1所示。自身有以下特点:

1.以服务为中心的结构。OGSA是以服务为中心的“服务结构”, 实现的将是对服务的共享。在OGSA中, 服务所指的概念更广, 包括各种计算资源、存储资源、网络、程序、数据库、仪器设备等。这种观念, 有利于通过统一的标准接口来管理和使用网络实体。

2.统一的Web Service框架。Web Service解决了发现和激发永久服务的问题, 而在网格应用环境中, 大量的是临时性的短暂服务, 例如一个计算任务的执行等。为了使服务的思想更加明确和具体, 考虑到网格环境的具体特点, OGSA在原来Web Service服务概念的基础上, 提出了“网格服务” (Grid Service) 的概念, 用于解决服务发现、动态服务创建、服务生命周期管理、通知等与临时服务有关的问题。

二、数字图书馆

(一) 数字图书馆的概念。

数字图书馆是一个覆盖全球的庞大的数字化系统。它将分散于不同载体、不同地理位置的各种信息资源以数字化的形式存储其中, 并以网络化的方式互相连接, 以满足人们方便快捷地查询、阅览和下载各种所需的信息资料。

(二) 数字图书馆的特征。

(1) 拥有海量的数字化资源。海量的数字化资源是数字图书馆的“物质”基础。所谓数字化是将信息用电磁介质, 按二进制编码的方法加以存储和处理, 将传统的纸介质存储信息的形式转变为用计算机存储和处理信息的形式。数字化资源不仅包含多种文字, 而且还可将声音、图像、影像等资料数字化。 (2) 信息传递存取网络化。高速的数字通信网络即信息高速公路是数字图书馆存在的基础。数字图书馆依附于网络而存在, 其对内的业务组织和对外的业务服务都是以网络为工具和载体, 使得它得益于网络也受制于网络。 (3) 分布式管理是数字图书馆发展的高级阶段。分布式管理意味着全球数字图书馆遵循统一的访问协议之后, 数字图书馆可以实现“联邦检索”, 全球的数字图书馆将像现在的因特网联接网站一样, 把全球的数字化资源联为一体, 组成一个巨大的图书馆, 实现人类所有知识的完全共享。

(三) 数字图书馆现存问题。

一些科学家对数字图书馆的技术研究得出了制约数字图书馆发展的一些问题。概括如下: (1) 信息资源重复建设问题。 (2) 多媒体信息标准与国际接轨的问题。 (3) 如何通过存储与压缩保存和管理海量数据问题。 (4) 索引方法和分类标准不统一, 以及数据的搜索效率和速度问题。 (5) 数据传输与保护问题。 (6) 怎样将图形、语音融为一体, 设计用户的交互界面问题。 (7) 输出一信息表现问题。 (8) 多语言问题:包括机器翻译问题、多语言浏览器问题。 (9) 工具与平台问题。其中包括总体结构标准、软构件技术、信息录入工具、搜索工具、知识挖掘工具等问题。 (10) 高层信息服务协议应遵循统一性、分布式、开放式、可扩展性、简单易行、能充分利用现有的服务设施等问题。

三、网格技术在数字图书馆建设领域中的应用

(一) 提供一体化的平台。

网格技术的优势在于明显降低了建立网站和提供网络服务的成本。网格的许多平台和资源都是共享的, 它将分布在各地的计算机、数据、信息、知识等组织成一个逻辑整体, 此基础上运行各自的应用网格, 为数字图书馆提供各种一体化信息服务的信息基础设施。

(二) 实现资源的全面共享。

网格把整个Internet整合为一个巨大的超级计算机, 实现网上所有资源的全面连通, 能消除信息孤岛, 实现计算机、存储、数据、信息、知识等多种资源的全面共享。网格提供单一的系统映像, 具有透明性、可靠性、负载平衡等功能。网格支持对异构数据资源的访问, 为用户提供统一的访问接口, 选择适当的访问协议来实现用户提出的数据访问请求。

(三) 解决海量数据处理。

数字图书馆所要处理的数据通常比较大, 而网格能很好地解决海量数据的计算处理和分析问题。它将分布在不同地方的计算机连接在一起, 用户只需通过客户端发出要求计算的指令, 网格就把这些任务调配给各个计算机执行, 然后将各个计算机计算出来的结果汇总反馈给用户, 连接的计算机规模越大, 计算能力就越高。此外, 通过网格用户还可以在较短时间内, 把需要的数据从不同的数据库中找出来综合在一起, 省去了多次访问不同数据库的麻烦, 并能直接调用网格中的算法和程序等资源, 避免许多重复性的工作。网格与数字图书馆技术有机结合起来, 从而为在分布式异构环境中实施信息资源发现和知识发现提供支持。

(四) 进行资源集成。

数字图书馆建设是一个庞大的信息工程, 涉及到许多方面, 只有协同工作, 才能保证正常地运转。网格将分布在不同地理位置的资源通过高速的互联网进行资源集成, 从而提供一种高性能计算、管理及服务的资源能力。在分布式的异构环境中, 网格技术能够精确定位所需的数据集, 并为后续处理提供支持。

(五) 进行知识管理。

网格的知识生产特性是网格与Internet之间质的区别, Internet本身不生产知识, 人们把信息知识生产出来再放到网上, 供用户查找利用。而网格则根据用户的要求自动地生产知识。在知识生产的过程中, 高性能计算机起到关键的作用, 它把从数据源得到的各种原始数据、运行特定的程序加工成信息和知识。网格可以自动地找有关的数据源进行综合分析和知识的发现, 形成新的认识。可见, 网格有利于数字图书馆进行知识管理。

四、结语

本文指出了网格技术与数字图书馆之间的联系, 为数字图书馆的发展和建设提出了技术支持。随着对网格技术研究的不断深入, 数字图书馆追求的最终目标即把全球的数字化资源连成一个巨大的图书馆, 实现资源共享, 数字图书馆建设会更加完善。

参考文献

[1].王丽华.基于网格技术的数字图书馆若干前沿问题的理论研究[J].图书馆论坛, 2005, 3

[2].王晨.基于网格的WebServices[J].情报理论与实践, 2004, 1

[3].唐小新, 韦成礼.网格技术在图书馆资源整合中的未来[J].农业图书情报学刊, 2005, 8

[4].孙培香.数字图书馆与信息资源共建共享.情报学报, 2003, 5

网格技术的研究与应用 篇10

随着网格以及数据网格技术的蓬勃发展, 很多研究者开始致力于解决如何将数据库资源集成到网格环境中。另一方面, XML数据库相继出现。XML数据库网格正是这一领域的新发展, XML数据的广泛应用造成XML数据量指数级的增长, 要求更有效的数据管理能力和更快、更精确的查询。因此网格环境中对XML数据库资源的访问与查询技术是重点研究的内容之一。

1. 基于网格服务的数据库访问架构

网格服务用于解决服务发现、动态服务创建、服务生命周期管理等与临时服务有关的问题。本文采用Web Service技术来对数据库进行发布共享, 通过数据库服务, 可以屏蔽数据库的异构性、地理位置信息, 达到用户的透明访问。而且可以设置用户的使用权限, 使得不同的用户按照权限的不同获取不同的数据。

元数据服务是进行数据库集成与访问的一项重要内容和关键技术。数据服务从各种数据存储系统中抽象出共同的存储系统抽象模型, 并定义相应功能, 把多个存储系统抽象为一个虚拟的一体化数据存储和访问系统, 面向用户为不同的数据存储系统提供一套功能完备、语法规范的统一存储和访问API, 屏蔽数据对象的异构性和分布性。数据服务需要元数据库服务的支持才能实现数据访问和管理的功能。当用户通过高层统一访问接口提出查询请求时, 数据服务使用元数据服务中所提供的元数据与底层XML数据库建立连接, 然后调用具体的API接口实现对数据库的查询操作。

2. 数据库共享访问

如何使广泛分布的、数量庞大的数据库资源被有效的共享访问是数据库网格要解决的问题之一。考虑到网格的多域环境, 本文利用元数据检索子系统将用户的查询请求映射到其他逻辑域, 并返回该逻辑域的数据服务地址, 从而利用数据服务提供的统一API接口对底层数据库资源进行共享访问。另外, 通过用户逻辑视图的管理机制使用户视图得到统一, 从而屏蔽底层数据库资源的分布性和异构性, 使数据库的共享访问对用户透明。

2.1多域数据库共享访问机制

网格环境下海量数据库资源的共享访问就是多个逻辑域之间的数据库共享访问。其类型分直接访问和间接访问两种。

当用户连接到逻辑域A的数据服务器上时, 访问该逻辑域的数据库资源就属于直接访问。当用户要对其他逻辑域上的数据库资源进行访问时, 这就必然引起多个逻辑域的跨域访问问题。本文将各个逻辑域的元数据以树型结构进行组织和管理, 为系统提供了高效的和可扩展的元数据服务。在此基础上, 引入了一个元数据检索子系统, 灵活地实现了多个逻辑域之间的跨域数据访问。

2.2数据库共享访问模式

考虑到用户操作和访问数据的灵活性, 将数据服务为用户提供的数据库共享访问模式分为两种:基于数据库连接的数据库共享访问和基于数据库操作的数据库共享访问。

基于数据库连接的数据库共享访问:为实现这种共享访问, 我们结合系统中数据库资源的组织与管理方式、数据库特有的属性设计了数据库连接元数据, 通过为数据库访问服务提供相应的数据库连接元数据服务来实现这种数据库共享访问模式。

基于数据库操作的数据库共享访问:为了实现这种共享访问模式, 我们对数据库操作又进行了统一命名, 并结合数据库资源的组织和管理方式设计了数据库操作元数据的数据结构, 通过为数据库访问服务提供相应的元数据服务 (包括数据库连接元数据服务、数据库操作元数据服务) 来实现这种数据库访问模式。

3. 数据模糊查询方式

查询技术在数据库领域是一个传统的而又一直吸引研究者关注的重要技术。在基于网格服务的数据库访问架构中, 对底层异构数据源的操作和访问以Web服务的方式封装, 为用户提供统一的API接口。

目前, 原生XML数据库普遍支持基于XPath/XQuery语言的查询, 使用这类数据库接口属于精确查询。为了使用户在不了解数据文件结构的前提下进行查询操作, 本文提出了一种数据模糊查询方式。这种方式是在对XML模式进行解析的基础上, 选择某些相关的元素建立索引, 然后进行关键字查询, 最后返回的是一个包含用户查找关键字的结果集合。

3.1 XML模式分析

XML模式可以对XML结构、约束以及元素的名字、类型等信息进行详细的描述, 所以通过对XML模式的分析, 可以提取出用户需要查询的信息, 然后通过检索机制在数据库中获取相匹配的数据, 实现查询过程。

1.DTD作为XML的模式, 较早发布的DTD (文档类型定义) 标准存在不少缺陷。

2.XML Schema作为一种XML模式, 在描述XML结构、约束以及元素的名字、类型等信息方面具有其他模式无法比拟的优势。它的提出正是针对DTD的缺点而设计的, 具有强大的功能。

(1) XML用户在使用XML Schema的时候, 不需要为了理解XML Schema而重新学习, 节省了时间;

(2) 由于XML Schema本身也是一种XML, 所以许多的XML编辑工具、API开发包、XML语法分析器可以直接的应用到XML Schema上, 而不需要修改;

(3) 作为XML的一个应用, XML Schema理所当然的继承了XML的自描述性和可扩展性, 这使得XML Schema更具有可读性和灵活性;

3.2 XS-Query的提出

任何一个数据库系统都有自己的查询接口, 原生XML数据库提供了两种查询方式:XPath和XQuery。从上面对XML模式的分析可以看出, XML Schema在描述XML文档方面更具有优势, 并且最重要的是, XML Schema本身就是一种XML, 我们可以像处理XML一样来处理XML Schema文档。如何让用户在不知道数据库中XML文档结构的情况下进行查询, 本文提出了XS-Query查询策略。

3.3查询匹配过程

XS-Query查询分两部分:一是对数据文件建立索引;二是根据建好的索引进行关键字匹配。在建索引时, 首先要对数据文件的模式, 即XML Schema文档进行解析, 获取有用的元素信息。可以对解析得到的元素全部进行索引, 也可以根据用户的需要选择某些元素建立索引文件。

XML Schema主要有八种元素:, 这些元素对XML文档中允许的语法和结构进行了定义。针对这八种元素, 采取下面的解析策略:

(1) 需要通过对XML Schema文档解析得到其元素作为入口。

(2) 对于XML文档中的查询查询来说, 该元素并没有实际意思, 所以解析XML Schema文档不需要获元素。

(3) 解析XML Schema文档时不仅要获得元素, 更要取其name属性的值。

(4) 元素定义了Schema中使用的属性类型, 不需要获取。

(5) 元素给XS-Query查询带来了很大的灵活性, 用户不仅可以通过元素名称来查询, 还可以根据属性来查询。

其他三个元素在描述XML文档时并不经常使用, 所以一般也不考虑进行解析。

通过对XML Schema进行解析并建好索引, 执行查询就比较快速而简单了。用户在文本框中输入关键字后, 只需利用已经建好索引文件在指定元素 (选择进行索引的元素) 中进行关键字的匹配, 最后即返回含有该关键字的元素。

4. 小结

总之, 网格数据库访问与查询系统在网格环境下为用户提供了对地理分布、异构数据库资源的透明访问, 为用户提供了单一的逻辑数据库视图和统一的数据库服务接口, 使用户可以更方便、更高效地使用网格中的数据库资源。

摘要:网格环境下的数据库研究是一个比较新的研究领域。在数据库访问架构的基础上, 提出基于XML Schema的数据查询方法, 并详细分析了该查询方式的特点。

关键词:数据库网格,XML Schema

参考文献

[1]中国教育科研网格ChinaGrid网站.http://www.chinagrid.edu.cn

[2]张非, 阎保平.一种基于网格服务的数据库元数据管理柜架[D].计算机工程与应用, 2004, 40 (29) :209—212.

上一篇:岩溶(土洞)塌陷下一篇:银行计算机安全