空间数据仓库

2024-08-13

空间数据仓库（精选九篇）

空间数据仓库篇1

1.空间数据仓库的定义及功能特征

1.1空间数据仓库的定义

空间数据仓库是GIS技术和数据仓库技术相结合的产物, 其定义很多, 但中心思想包含三方面内容: (1) 空间数据仓库是在网络环境下, 实现对异地、异质、异构不同源数据库中地理空间数据、专题数据及时间数据的统一、整合、集成处理, 形成用户获取数据的共享操作模式; (2) 空间数据仓库可根据需求对这些数据再进行测绘专业处理, 提供多种空间数据产品, 满足用户更高层次对数据产品的需求; (3) 基于空间数据产品, 空间数据仓库可从多维的角度进行空间数据立方体分析和空间数据挖掘分析, 提供综合的、多维的、面向分析的空间辅助决策支持信息, 满足用户空间决策分析的需求。

1.2空间数据仓库的功能特征

(1) 空间数据仓库是面向主题的。传统的GIS数据库系统是面向应用的, 只能回答很专门、很片面的问题, 它的数据只是为处理某一具体应用而组织在一起的, 数据结构只对单一的工作流程是最优的, 对于高层次的决策分析未必是适合的。空间数据仓库为了给决策支持提供服务, 信息的组织应以业务工作的主题内容为主线。主题是一个在较高层次将数据归类的标准, 每一个主题基本对应一个宏观的分析领域。

(2) 空间数据仓库是集成的。空间数据仓库的建立并不意味着要取代传统的GIS数据库系统。空间数据仓库是为制定决策提供支持服务的, 它的数据应该是尽可能全面、及时、准确、传统的GIS应用系统是其重要的数据源。为此空间数据仓库以各种面向应用的GIS系统为基础, 通过元数据刻画的抽取和聚集规则将它们集成起来, 从中得到各种有用的数据。提取的数据在空间数据仓库中采用一致的命名规则和一致的编码结构, 消除原始数据的矛盾之处, 数据结构从面向应用转为面向主题。

(3) 数据的变换与增值。空间数据仓库的数据来自于不同的面向应用的GIS系统的日常操作数据, 由于数据冗余及其标准和格式存在着差异等一系列原因, 不能把这些数据原封不动地搬入空间数据仓库, 而应该对这些数据进行增值与变换, 提高数据的可用性, 即根据主题的分析需要, 对数据进行必要地抽取、清理和变换。最常见的操作有语义映射、获取瞬像数据、实施集运算、坐标的统一、比例尺的变换、数据结构与格式的转换、提取样本值等。

(4) 时间序列的历史数据。自然界是随着时间而演变的, 事实上任何信息都具有相应的时间标志。为了满足趋势分析的需要, 每一个数据必须具有时间的概念。

(5) 空间序列的方位数据。自然界是一个立体的空间, 任何事物都有自己的空间位置, 彼此之间有着相互的空间关系, 因此任何信息都应具有相应的空间标志。一般的数据仓库是没有空间维数据的, 不能做空间分析, 不能反映自然界的空间变化趋势。

2. 空间数据仓库的体系结构

空间数据仓库是存储、管理空间数据的一种组织形式, 其物理实质仍是对数据的高效存储系统, 由于使用目的不同, 其存储的数据在量和质以及前端分析工具上与传统GIS应用系统有所不同。空间数据仓库按照功能划分为以下几部分:元数据、源数据、数据变换工具、空间数据仓库、客户端分析工具。其体系结构图如下图所示:

(1) 元数据。空间数据仓库的元数据是指描述空间数据的数据, 它是数据仓库管理手段之一, 也是空间数据交换的基础, 是空间数据标准化与质量的保证。在空间数据仓库中, 元数据可以分为两类, 一类是管理元数据 (Administrative Metadata) , 它是对源数据及其内容、数据仓库主题、数据转换及各种操作信息的描述;另一类是用户元数据 (User Metadata) , 它帮助用户查询信息、理解结果、了解数据仓库中的数据的组织方式等。在数据传输、信息共享、大力发展互操作的今天, 元数据标准化是必不可少的, 一定要借鉴和使用ISO制定的元数据标准。

(2) 源数据。空间数据仓库为了支持高层次的决策分析需要大量的数据。这些数据分布在不同的地理信息系统或其他信息系统中的应用系统数据, 它们存贮在不同的平台和一般的数据库中。数据的来源丰富, 类型多样式存储或分布式存储。

(3) 数据变换工具。为了优化空间数据仓库的分析性能, 源数据必须经过变换以最适宜的方式进入空间数据仓库。变换主要包括提炼、转换、空间变换。数据提炼主要指数据的抽取, 如数据项的重构、删去不需要的运行信息、字段值的解码和翻译、补充缺漏的信息、检查数据的完整性和相容性等;数据转换主要指统一数据编码和数据结构、给数据加上时间标志、根据需要对数据集进行各种运算以及语义转换等;空间变换主要指空间坐标和比例尺的统一、赋予一般数据空间属性。数据转换工具为数据库和空间数据仓库之间架起了一座桥梁, 使源数据得到了增值和统一, 最大限度地满足了空间数据仓库高层次决策分析的需要。

(4) 空间数据仓库。源数据经过变换进入空间数据仓库。空间数据仓库以多维方式来组织数据和显示数据。维是人们观察现实世界的角度, 但多维数据库中的维并不是随意定义的, 它是一种高层次的类型划分。为了获得较高的系统性能, 维屏蔽掉了许多原始数据, 决策分析所需的综合数据预先已被统计出来放在其中。主题维、时间维、空间维、非空间维是空间数据仓库最基本的组织方式。空间维和时间维是空间数据仓库反映现实世界动态变化的基础, 它们的数据组织方式是整个空间数据仓库技术的关键。空间数据仓库的数据存储方式可分为虚拟存储方式、基于关系表的存储方式和多维数据库存储方式。基于关系表的数据模型主要有星形模型, 雪花模型和混合模型。多维数据库数据模型主要是超立方体结构模型。

3. 空间数据仓库的建模

(1) 多维数据模型选择。多维数据模型是资源环境空间数据仓库进行联机分析处理 (OLAP:OnlineAnalysisProcessing) 或多维分析的基础, 维是观察问题的角度, 通过多维模型可以对观察对象 (某一主题) 的不同侧面不同层次上进行分析。通过上节可知, 数据模式主要有:星型模式、雪花模式、混合模式和多维数据库模式。由于星型/雪花模式能够提供简洁和有组织的数据仓库结构, 并且支持OLAP操作, 因此在空间数据仓库的建模中, 仍可沿用其基本框架。相比之下, 星型结构更为简洁、便于OLAP操作、并易于浏览, 较雪花结构来讲更适合于空间数据仓库的建模。

(2) 维的建模。在空间数据仓库中可建立三种类型的维: (1) 非空间维, 仅仅包含非空间数据的维, 其泛化值也是非空间的。 (2) 空间——非空间维, 这种类型的维的特点是在原始概念层次上是空间数据, 但其泛化值在较高的层次上即变成非空间的数据。例如, 在土地利用时空分布研究中, 各种土地类型在广东省地图上的分布是用空间数据来表达的, 而这些土地类型数据可以泛化为一些非空间的值, 比如泛化为市一级行政区所包含的土地类型面积, 其更高层次的泛化值则全部变为非空间的数据, 这种类型的维与非空间维所起的作用类似。 (3) 空间——空间维, 原始概念层次及其所有高层次的泛化数据都是空间数据。例如, 各中土地类型的精确分布情况及其泛化数据, 如土地利用类型在全省范围的精确分布图形数据。

中国储运网Http://www.chinachuyun.com93

(3) 度量的建模。在空间数据仓库中可建立两种类型的度量: (1) 数值型度量, 仅仅包含数值型数据的度量。数值型度量可以进一步分为分布的、代数的和整体的。如果一个度量能用立方体分割和分布式聚合计算, 那么它就是分布的, 如count、sum、max;如果一个度量能用分布式度量的代数操作运算, 那么它就是代数的, 如average、standard、deviation;如果一个度量, 用于描述其子聚合的存储空间的大小没有常数约束, 那么它就是全局的, 如median、most-frequent、rank。 (2) 空间度量, 空间度量包含指向空间对象指针集合。例如, 在泛化操作中, 具有相同土地类型的区域可以组成一个相同的单元, 这样形成的度量包含这些区域的指针的集合。

4. 结束语

数据仓库与数据挖掘论文篇2

摘要决策树学习是人们广泛使用的一种归纳推理形式。先就决策树和决策树学习算法进行介绍，然后用实例阐述决策树在教育信息处理中的应用，主要以在教学评价中的应用为例来加以介绍。

关键词决策树；数据挖掘；教育信息处理；教学评价

当今社会处于一个信息爆炸的时代，海量的数据可以用来选择和发掘信息，然而有时却让人无从下手，因此数据挖掘技术受到人们的高度关注。数据挖掘是从大量的、不完全的、有噪声的、模糊的或者随机的数据中提取人们事先不知道的但又是有用的信息和知识的过程。它的方法很多，其中决策树是一种解决实际应用分类问题的数据挖掘方法。在教育教学中，根据决策树算法的实际特点，它可以在教育信息处理中的信息采集上发挥很大的作用。决策树介绍

决策树学习是人们广泛使用的一种归纳推理形式。决策树起源于概念学习系统，其思路是找出最有分辨能力的属性，把数据库划分为许多子集（对应树的一个分枝），构成一个分枝过程，然后对每一个子集递归调用分支过程，直到所有子集包含同一类的数据。最后得到的决策树能对新的例子进行分类。它一般是从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它一般需要给定一组训练例子，训练例子一般被看成用于创建模型的数据集。由此可以看出，决策树是一个类似于流程图的树结构，其中每一个内部结点表示对一个属性的测试，每一个分支代表一个决策输出，而每个叶节点代表一个目标分类。决策树通过把实例从根节点排列到某个叶子节点来分类实例，叶子结点即为实例所属的分类，树上每个节点说明对实例的某个属性的测试，节点的每个后继分支对应于该属性的一个可能值。假如需要根据人员的外貌特征对人员进行分类，用于人员的外貌特征有3个，外貌列表={高度,发色,眼睛}；各属性的值域分别为：高度={高,矮}，发色={黑色,红色,金色}，眼睛={黑色,棕色}。分类结果有两种：种类={+,-}。提供的训练例子集为：T={<(矮,金色,黑色),+>,<(高,金色,棕色),->,<(高,红色,黑色),+>,<(矮,黑色,黑色),->,<(高,黑色,黑色),->,<(高,金色,黑色),+>,<(高,黑色,棕色),->,<(矮,金色,棕色),->}。上述文字可构造图1所示决策树。决策树学习算法

决策树算法有几种，如ID3、C4.5、CA RT等。其中ID3算法是最经典的算法，该算法从根节点开始，这个根结点被赋予一个最好的属性。随后对该属性的每个取值都生成相应的分支，在每个分支的终点上又生成新的节点。然后按照该属性的取值将每个训练例子都分别赋给一个相应的新节点。如果没有任何训练例子能赋给某个节点，那么该节点连同相应的分支都将被删除。这时，将每一个新节点都视作一个新的根节点，重复执行整个过程。这里，最好属性的选择要基于信息增益这个统计特性。在定义信息增益前，先要了解另一统计特性：熵。

给定一组有c个分类的训练例子，对属性a来说，它有值v，其中pi是在第i类中属性a取值为v的概率。为了能选出最好的属性，需要使用度量信息增益。一属性的信息增益就是按照该属性对训练例子进行划分所带来的熵的减少量。其中，T是训练例子的集合，Tj是属性A取值为j的训练例子集合，为T的一个子集。决策树在教育中的应用

在教育教学中，尤其是在高等教育体系中，学校的数据库中存贮着大量的教育教学信息，其中一部分和教学有关，如学校的开课排课情况、教师情况；一部分和学生有关，如学生历年的考试、测验成绩等。这些大量的数据后面隐藏着大量的信息，只要加以分析，就能得到许多有用的信息，如教育规律、学生的培养模式、学生学科间的差异性和相关性的一些规律。这些规律对教育管理决策来说是相当重要的，对教育教学改革有指导性的意义。

3.1 决策树在教育信息处理中的应用

决策树表示的是一个离散值函数，树中每一个节点表示一个属性，同时目标分类具有离散的输出值信息。教育中的大量信息，一般都是对一些离散的数据进行分析，比如学习成绩一般分成优、良、中、差，外语六级成绩分成过与未过，这些信息都可以用决策树来加以分类归纳，对于连续的属性值，也可以进行离散化处理后再利用决策树来加以分析。

3.2 决策树在教学评价中的应用案例

决策树在教育信息处理中的应用很广泛，下面以决策树在教学评价中的应用为例，来说明在教育信息处理中是如何使用决策树来分析的。教学评价在教育中是一个重要的问题，它是指依据一定的教学目标与教学规范标准，通过对学校教与学等教育情况的系统检测与考核，评定其教学效果与教学目标的实现程度。教学评价具有复杂性、多因素性和模糊性等特点。如何客观、科学、全面地对教学进行评价，是教学评价中一个重要的课题，下面尝试将决策树应用于教学评价。

在评价之初要有一个数据采集的过程，之后可以用决策树来加以分析。课堂教学评价指标体系分为若干项，从教师的角度可以分为授课态度A1、授课方法A2、授课内容A3、授课效果A4、教学评价A5，可以取训练例子如表1所示。

对给定的训练例子数据是把连续的数据离散化的结果，A为评分90～100，B为评分80～89，C为评分70～79，D为评分60～69，E为评分<60，N1为教师编号，表中的A5为目标分类。

如果利用前面的ID3算法建立决策树，先检验所有信息增益的特征属性，选择信息增益最大的属性作为决策树的结点，由该特征的不同取值建立分支，对此分支的实例子集递归该方法建立决策树的结点和分支，直到某一子集中的例子属于同一类。

对给定训练例子的熵为：E(T)= 1.295 46。

表1 训练例子

N1 A1 A2 A3 A4 A5 1 B B B B 良 2 B B B B 良 3 B B B C 良 4 A A A A 优 5 B C C C 中 6 C C C C 中 7 B C B B 良 8 B B C C 良 9 C B C C 中 A A B B 良

以属性A1为例，A1的值={A,B,C}，由表中可以看出A3的信息增益最大，所以选A3属性作为根节点的测试属性，并根据其值向下分支，利用ID3算法进一步划分，当根节点到当前节点的路径上包括所有属性或当前节点的训练样本同属一类时，算法结束。根据以上分析给出图2所示决策树。

图2 决策树

可以根据生成的决策树，方便地提取其描述的知识，比如授课内容A3在这里产生的信息增益最大等信息。小结

在教育信息中存在隐藏在数据中的规则，这些规则可以用不同的方法被挖掘。本文只是对决策树中的分类ID3算法在数据处理中的应用进行研究，目的是得到教育教学中存在的规则，利用发现的规则对教育管理决策提供有参考意义的信息。

参考文献

大数据让数据仓库更具价值篇3

谈到大数据，首先想到的是数据管理，在数据管理方面，人们想到的是Hadoop和MapReduce等新兴技术，但是这些新兴技术并不能解决所有的数据管理问题。数据仓库作为一种传统的数据技术在大数据时代依然焕发着自己的活力。

数据仓库：从技术角度看问题

说到数据仓库，就要从数据仓库的概念提出说起。数据仓库概念最早诞生于1983年，然后就出现了商务智能，直到20世纪90年代开始成熟，并出现了提取、转换和加载（ETL），ETL的出现大大促进了商务智能（BI）的发展。以后，数据仓库出现了各种扩展，出现了多维的联机分析处理（OLAP）、数据集市、探查型数据仓库和ODS。

有了ODS即便更新和业务处理遇到集成数据问题，系统还是能够进行处理。其后，星型模型和事实表等都有了容身之地。有了探索型数据仓库，统计学家有了一个数据基础，可以支撑从数据管理员到统计分析员等不同角色的数据挖掘分析需求。一直到后来，数据仓库变成了企业的信息工厂，进而数据仓库也被称为企业数据仓库（EDW）。

随着EDW环境复杂性的增加，企业越来越认为需要一种监控机制来管理数据仓库，而这种监控机制与事务处理的监控机制本质上存在着各种差异。与此同时，商务智能的发展也随着数据仓库技术的发展而不断演进，商务智能的发展要求其不仅仅为决策层提供支持，同时，也要给普通的业务人员提供支持。不仅要能从整个战略层面进行综合分析，还能够在具体的战术层面进行详细指导，这些是商务智能未来的发展趋势。随着信息量的快速增长，产生了如网页文本等信息数据分析的需求。进而衍生了对大数据的分析技术。

事实上，大数据和数据仓库是同一个问题的两个方面，大数据是业务视角，需要汇聚各类数据，建立客户全景视图，实现客户深度洞察，而数据仓库是技术视角，需要汇聚各类数据，全景实现数据全生命周期管理、元数据管理和数据监视管理。

数据仓库和大数据的结合就是通过技术手段来解决业务问题。随着大数据时代的发展，数据仓库对于企业决策的支持作用将会越来越大。由此，数据仓库也成为了各大数据解决方案厂商着力开展的业务领域。IBM、甲骨文，惠普、Teradata等厂商纷纷部署了自己的数据仓库技术和产品。绝大多数的数据仓库厂商能够利用网格或者云架构将他们的产品扩展到PB级别，而且他们能够完成数据库内分析，即在大规模并行数据仓库网格或者云环境中实现。他们还可以在企业数据仓库之内来支持数据转化和数据清洗功能。

数据仓库发展迎挑战

目前，大量的数据运行的企业中，新兴的数据类型层出不穷，数据量增加的速度越来越快，越来越多的业务提出实时的需求，所有这些都让数据仓库在企业运营和领导决策支持中显现出“疲态”。

数据仓库遇到的第一个挑战是对大量数据的存储和管理。现在的数据量已经大大超越了传统事物处理的数据量，而且随着时间的推移，数据量还将不断增加，数据类型还将更加多元化。

第二是数据仓库要解决并行处理的问题。在传统联机事务处理应用中，用户访问系统的特点是短小而密集。对于一个多处理机系统来说，能够将用户的请求进行均衡分担进行并行操作是非常关键的。在数据仓库系统中，用户访问的特点是庞大而稀疏，每一个查询和统计都很复杂，但是访问频率很低。

最后，对于企业级数据仓库而言，数据源的 ETL操作是另一个挑战，特别是实时的ETL操作。传统的数据工具不能解决高容量和低延迟的需求，而能够满足这些需求的技术正是企业需要的。要解决这项需求所面临的主要挑战是，是否可以在给定的时间内移动必要的数据量。传统的批量处理过程需要几个小时甚至几天的时间才能够完成这样的操作，这就不能满足业务实时决策的要求。其他相关的挑战在加载到数据仓库时要减少操作系统上的影响，因为在数据仓库中运行大的查询会降低操作系统对使用者和客户的服务。

另外，从各种各样用户设备上访问数据仓库中的业务信息，也影响到了数据仓库的工作量以及它所支持的信息。从工作量的角度来看，用户设备需要大量的小查询，就需要在很低的延迟下跨越地域进行回答。从信息的角度来看，用户使用移动设备希望实现随时随地的即时访问，用户需要的是最新的信息。而且需要很快地加载信息，以便用户可以和历史内容一起访问数据。

三把利剑破解数据难题

Forrester高级数据管理分析师James Kobielus曾表示，数据仓库可以通过三种方式帮助企业处理好数据问题：第一，在企业数据仓库中，给不同的数据一个比较稳定的主题划分，按照主题来组织企业数据，比如，数据仓库架构中的OLAP cube，客户数据是一个分区，财务数据是一个分区，人力资源数据是一个分区。不管是物理上的实现还是逻辑上划分，这些数据主题都会比较稳定。这样有利于根据数据的关联性来匹配下游的应用和用户。这是数据仓库管理的核心所在，也是通过数据仓库处理大数据的重要方式。

第二种方式是通过数据库内分析，也就是在数据仓库内部执行数据挖掘。利用数据仓库执行数据清洗、数据挖掘和回归分析。因为使用数据挖掘或者回归分析可以从根本上了解数据建模式，所以这种方式可以很好地处理数据。然后使用数据库内挖掘来填充下游的分析数据集市，数据挖掘和统计模型专业人士可以利用它将复杂的模式实现可视化。

第三种方式就是将数据仓库作为数据治理的核心，可以合理地在数据仓库中维护主数据。当数据仓库作为数据治理与数据清洗的核心时，它将有助于搞清楚所有的信息。在整个企业架构中，数据就像是洪水一般涌入数据仓库，数据仓库作为数据的枢纽，可以确保大数据在下游的应用。

有了这三种方式，然后结合Hadoop、MapReduce等大数据新兴技术，企业就可以处理好大数据难题。

总之，数据仓库是一项基于数据管理的综合性技术和解决方案，数据仓库是企业不可或缺的关键性组成部分，它将成为数据库市场的新一轮增长点。作为下一代应用系统的重要组成部分，数据仓库可以把企业方方面面产生的数据汇集起来，然后分门别类，并最终对这些繁复复杂的信息进行分析处理，让其成为了解企业运营、进行企业决策的宝贵资料。

基于数字校园数据平台的数据仓库篇4

数字化校园的构成可以用图1表示, 计算机网络是数字化校园的基础设施;网络基本服务是数字信息流动的基础, 包括电子邮件、文件传输、域名服务、身份认证、目录服务等;在此基础上要建立各类基于网络的数据仓库, 包括职能信息库、课程资源库、数字化图书资源等;应用支撑系统包括办公自动化系统、各类管理信息系统、网络教学系统以及数字图书馆管理系统等等;在此之上的信息服务系统是校内用户的主要使用界面, 为师生提供各种服务, 如信息交流、信息查询、决策支持、电子商务等。五个区域分别表示数字化学习环境的功能领域:组织管理、教学活动、学术研究、公共服务和学校社区服务等, 各个功能领域之间是密切相关、相互促进的。

以选课系统为例解析数据仓库的构建与应用

数据挖掘, 又称为数据库中的知识发现 (Knowledge Discovery in Database, 简称KDD) , 是指从大型数据库中提取人们感兴趣的信息, 提取的知识表示为概念 (Concepts) 、规则 (Rules) 、规律 (Regularities) 、模式 (Pattems) 等形式。数据挖掘可以应用于各个领域, 包括商务管理、生产控制、市场分析、工程设计和科学探索等。利用数据挖掘技术, 挖掘选课系统中积累的有用信息, 可以使学校的相关部门有弹性地调节所开的课程, 调整热门课程和冷门课程的人数, 调节相关课程的学分, 通过选课率及相关信息做出正确决策, 鼓励和引导学生选择互补的课程, 这有利于学生整体素质的提高, 也有利于教师、教室等资源的合理分配。

1. 确定数据仓库和OLAP模型

OLAP (Online Analytical Mining或OLAP Mining) 是基于数据仓库的信息分析处理过程, 其基本特点是能够从多种角度对从原始数据中转化出来的信息进行快速、一致、交互地处理, 从中获得对数据更深入地了解。OLAM将二者结合起来, 发展一种建立在OLAP和数据仓库基础上的新的挖掘技术, 它兼有OLAP多维分析的在线性、灵活性和数据挖掘对数据处理的深入性, 是数据库应用工具未来发展的方向之一。

通常要先分析原有业务数据库, 确定待建的数据仓库主题。再根据用户的需求来确定各个级别数据仓库的存储主题。这里选取学生选课管理这一典型业务为主题。为了保证数据的正确性和一致性, 还要确保这些数据是按同样的方法记录的同一件事情, 需要对选课的原始数据进行预处理, 转换成适合数据挖掘的数据。数据预处理 (Data preprocessing) 包括三个步骤:数据清理 (Data cleaning) 、数据集成 (Data integration) 和数据变换 (Data transformation) 。完成数据的预处理之后, 便可确定待建的数据仓库模型, 实现OLAP建模, 生成多维数据集 (CUBE) 。可以建立以ROLAP方式存储的选课数目分析多维数据集 (以时间维、学号维、院系专业维为维度, 选课数目为度量值) 、选课学分分析多维数据集 (以课程类别维、课程开课部门维、学号学历维为维度, 学分为度量值) 等许多个不同的多维数据立方体。

2. 数据挖掘关联算法的实现

关于关联规则的挖掘算法主要有循环式扫描算法、增量式更新算法、并行挖掘算法、元模式制导、基于约束挖掘等等。目前大多数研究集中在频繁数据项的挖掘方法上。其中比较典型的关联规则挖掘算法有Apriori算法和FP-growth算法。

探讨数据仓库元数据的集成与转换篇5

元数据是描述数据的数据,或者说是与数据有关的信息,是数字信息组织和处理的基本工具,是理解数据含义和如何使用数据的关键。所以,每一个软件产品和工具能够在数据层进行有效集成的前提是,它在元数据层就必须被有效集成。所以对数据仓库元数据集成和转换的研究是非常有意义的。

1 元数据集成与转换的设计

1.1 元数据的信息供应链

本文所设计的元数据集成与转换功能,是基于数据仓库的,该功能用来提取数据仓库中各部分产生的元数据,并应用某种策略对其进行综合管理。通过这些元数据,相关人员可以清楚地了解数据仓库中的数据结构、业务规则等,从而对决策支持产生巨大的战略价值。换句话说,元数据集成与转换管理工具的起点就是数据仓库的构建过程和业务使用过程。而数据仓库中信息流动的和处理过程常常用信息供应链(ISC,Information Supply Chain)来描述。

从数据源开始,信息经过多次处理,最终用于辅助决策支持。在整个流动过程中,顺序产生了四种数据,即源系统中的业务数据、ODS数据、DDS数据,以及OLAP数据,这几种数据的在粒度、抽象级别以及面向的应用等方面均存在不同[1]。为保证ISC的顺畅流动,并使参与此过程的软件产品都能够有效工作并基于数据层进行交互操作,就必须对描述各软件产品的元数据有一致理解。这是因为元数据定义了它们的内部处理逻辑和存储结构,通过元数据可以制定处理数据的策略。综上所述,构成ISC的每一个仓储产品和工具能够在数据层上进行有效集成的前提是,它们能在元数据层面进行有效的集成。

1.2 集成和转换的体系结构

本文以联邦式管理模式为基础提出元数据集成和转换功能的架构,主要分为元数据源、局部元数据仓储、全局元数据仓储、适配器、元数据抽取、元数据转换、元数据汇集等部分,如图1所示。

在上述架构中,所有元数据均来源于组成ISC信息供应链的软件产品。对于存储业务数据、ODS数据、DDS数据、OLAP数据的仓储软件产品,可以经过元数据抽取操作从中获得诸如存储结构等信息的元数据,存入各自的局部元数据仓储中;对于诸如ETL工具、报表工具等软件产品,产品内部往往会配备记录该工具使用规则等方面信息的局部元数据仓储,除此之外,还需对这些信息进行格式的一致性转换以提供元数据共享的途径[2]。

局部元数据仓储中是以关系型数据库的形式存放元数据的,其中的元数据可以分为两类,一类是仅为软件产品自身服务的私有元数据,另一类是需要在企业全局范围内共享的元数据,称之为共享元数据。对于前者,只需要存放在局部元数据仓储中,而对于后者,就需要进一步将其送入关系型的全局元数据仓储中保存和共享。

2 元数据集成与转换的实现

2.1 数据结构分析

本文所涉及的集成及转换工具,内部实现总共分为四个步骤。其中第一步就是将局部元模型导入到工具设计的数据结构中,利用这个数据结构,我们可以存储局部元模型的表结构以及冲突差异分析后产生的标记。本主涉及如下四个数据结构表。

1)数据结构l:记录表来源的数据结构,如表1所示。

2)数据结构数据结构2:记录列来源的数据结构,如表2所示。

3)数据结构3:临时记录一一对应的列的数据结构,如表3所示。

4)数据结构4:临时记录一一对应的表的数据结构,如表4所示。

2.2 集成与转换的流程

假设模型集成工具的两个输入模型分别为Ml和M2,目标输出模型为M3,则需要按照如下步骤完成模型集成:

Step1,将M1和M2中表的相应结构填入初始的集成工具的数据结构中。

Step2,针对数据结构中的数据进行如下流程实现模型的冲突和差异分析。

1)检查M1和M2中所有表,将无同名的表的标记Tag值设为TD(Table Difference),同名表的标记Tag值设为TS,并将同名的表Id对加入到数据结构4中。进入步骤2)。

2)针对每一对标记为TS的表,检查该表中列个数是否相同、名称是否相同。如果列一一对应则进入3),且将对应的列Id值对记录在模型集成工具的数据结构3中;否则进入步骤4)。

3)查询并记录数据结构3对应的表项个数N,即对应的列的个数,分别检查每对列的属性,开始列对检查的循环,查看其数据类型是否冲突。

4)首先将模型中无同名列的Tag标识为CDl(Column Difference1),说明这是某个输入模型的表中多出来的列。然后记录同名的列对的个数N作为循环次数,进入步骤5)。

5)检查剩下的同名列的属性,如果相同,进入步骤6):如果不相同,进入步骤7)。

6)检查同名列的数据类型。如果相同,则在数据结构2中,将该对应列的记录中Tag值设为CE,表示这两列的完全相同;如果不同,则在数据结构2中将这对列的Tag值设为CC,表示冲突。然后返回到步骤4)进行下一次的循环。

7)检查属性不同的列对。如果其中一个列的属性是默认值,则进入步骤8);否则将数据结构2中的相应两个列对应的记录的Tag值设为CC,表示属性值冲突。

8)继续检查该列对的数据类型。判断是否所有的同名列都已检查完毕,如果没有,则返回步骤4)进行下一次的循环。

Step3,针对分析过程中得到的不同种类的冲突和差异加以解决,并输出目标模型M3。在分析的流程中,我们得到了不同标记的表和列,针对不同标记有不同的冲突和差异解决方案。

2.3 列冲突差异的实现

1)列冲突CC

思路:生成列冲突的原因是列属性设置或者数据类型不同。这种情况下,本文的集成工具默认认为其不存在模型合并的必要,只需将两个输入数掘模型的表结构完全拷备,添加到输出模型中即可。但是,如果将来需要用户选择解决冲突方式的需求,也可以在本文设计的集成工具的基础上增加这个功能。

算法:遍历查询数据结构2所在表每条Tag值为CC的记录,获得该记录的OwnedTableId,到数据结构l中查找符合条件的记录,使得该记录的TableID值等于0wnedTableId,这样,就找到了相应模型中的表结构,从而添加到新模型中。

2)列差异CD

思路:CD表示某一输入模型的表较另一输入模型的表多了一些列,这种情况下,我们要将含有多余列的表结构加入到新模型中。

算法:遍历查询数据结构2所在表中每条Tag值为CD的记录,获得该记录的OwnedTableId,到数据结构1中查找符合条件的记录,使该记录的TableID值等于OwnedTableId,这样,就找到了相应模型中的表结构,将其添加到新模型中即可。

3 结束语

总之,数据仓库及其元数据是企业知识管理的重要组成,数据仓库的元数据管理终归是一个非常繁琐复杂的过程,其范围涉及数据仓库的整个环节,一个完整、通用的元数据管理系统的构建注定充满了迭代和不断反复,因此,对它的研究也应该是长期的、不断探索的过程。

摘要：该文基于对数据仓库系统本身的架构和数据模型特征研究,并结合元数据仓储架构的理论设计提出一种数据仓库元数据集成与转换功能的架构,并进行了系统实现,涉及到数据结构的分析、集成与转换的流程以及列冲突差异的实现。

关键词：元数据,集成与转换,数据仓库

参考文献

[1]黎建辉,吴威,阎保平.一种基于XML的元数据映射与转换方法.[J].微电子学与计算机,2008,(1).

基于数据仓库的试验数据管理系统篇6

试验数据是分析飞机系统性能的重要依据之一。各种试验数据往往存在着种类繁多、容量较大等特点,在对其进行分类、管理和查询时存在条件混乱、读取速度缓慢和无法对数据进一步分析等困难。因此,设计一套基于数据仓库技术的数据管理系统就显得极为重要。系统通过友好的人机界面来管理试验数据,同时还可更深层次地分析这些数据,生成如报表、图像等更加直观的数据形式,方便设计人员分析飞机系统性能。

1 数据仓库技术在构建系统中的应用

1.1 数据仓库

数据仓库综合和合并多维空间的数据。它是语义上一致的数据存储,它充当决策支持数据模型的实现,并提供使用者决策所需信息的手段。数据仓库也常常看做是一种体系结构,通过将异构数据源中的数据集成在一起构造、支持结构化或专门查询、分析报告和决策制定[5]。

1.2 多维数据模型

多维数据模型又称之为数据立方体。该模型允许从多维对数据建模和观察,一般由维和事实定义。维是保存记录的透视图或实体。每个维都有一个表与之关联,称为维度表,用于进一步描述维。通常,多维数据模型围绕中心主体组织。主体用事实表表示,事实是数值度量的。把它们看作数量是因为用户想根据它们分析维之间的关系[5]。

1.3 数据仓库模式的比较和选择

由于数据仓库下存储的数据为多维数据模型,所以实体-联系数据模型广泛应用于关系数据库设计,其中数据库模式由实体集和它们之间的联系组成。这种数据模式适用于联机事务处理。然而,数据仓库需要简明的、面向主题的模式便于联机分析数据。目前流行的数据仓库的数据模型是多维模型,常常以星形、雪花形和事实星座形存在。

星形模式通常包含大批数据且不含冗余事实表,外加一组维度为一的附表。这种模式下的维表类似星光一样围绕在中心事实表周围。雪花形模式是在星形模式下进一步变化,区别是某些维表可能是规范化的,这样可以把数据进一步分解到附加表中,构成类似雪花形的结构。这种表相对容易维护且节省存储空间。而本文所述系统属于事实星座形的结构。该结构的特点是需要多个事实表共享维表。因此,这种构成形式可以看作星形模式的汇集。它能对多个主题建模,使系统更加有效。系统维表的关系如图1所示。

2 数据管理系统的组成

该系统是基于TCP/IP协议,并采用C/S模式组成整个系统。其中,系统的S端(指sever服务器端)将飞行数据清理、集成、变换后按一定的格式和关系维度表导入数据仓库。系统的C端(指clinet客户端)可根据需求调用数据仓库中的数据。系统构架如图2所示。

3 数据管理系统的开发环境

3.1 数据管理系统开发工具

系统采用Lab Windows/CVI8.5+SQL Sever 2008为系统的开发工具。

Lab Windows/CVI8.5是一个完全的ANSI C的开发环境,用于仪器控制、自动检测、数据处理等应用软件。软件本身含有丰富的常用控件,利用交互式的开发平台、交互式的编程方法使功能强大、使用灵活的C语言与用于数据采集、分析和显示的测控专业工具有机的结合起来[2]。

SQL Sever 2008是当前最流行的数据库操作软件之一,基于标准化查询语言(SQL)。当前,数据信息存储爆炸式增长。在耗费相同系统资源的情况下,用户可存储更多的数据供用户使用。而且,用户可在大量的数据中更加快速地寻找到所需要的信息。

当用户在安装好Lab Windows/CVI8.5和SQL Sever 2008后,再安装SQL Toolkit数据库系统应用软件工具包。该工具包会提供相应的关于数据库操作的面板库函数。此时,用户再结合SQL语言,便可以实现系统对SQL Sever 2008中数据库连接、添加、修改和删除等一系列操作。

3.2 开发工具所解决的难题

通常情况下试验数据容量都比较大,用传统的文件指针方式对其进行读写,速度非常缓慢,甚至会出现死机或者内存溢出等错误。为解决这一难题,该数据管理系统利用批量导入数据的方法先将飞行数据导入数据仓库中,再利用SQL语句对数据仓库中的这些数据进行查询和读取,不仅很好地解决了死机、内存溢出等问题,还大大提高了系统读取数据的速度。

4 数据管理系统的主要功能

1)服务器端将试验数据清理、集成和变换后按照一定的关系和格式导入数据仓库中。

2)客户端提供友好的人机界面,用户可方便快速的查询数据仓库中所需要的数据。

3)用户可对查询出的数据进一步分析,包括生成函数图像;动态捕捉关键点数据;局部图像放大;数据图像预览、打印和保存等功能。

5 结论

本系统已在分析试验数据中得到了具体的应用。事实证明该系统操作简单、实用,处理数据的速度快,进一步分析数据的功能全,极大减轻了设计人员分析飞机系统性能时的工作负担,很好的提高了工作效率。

参考文献

[1]史君成,张淑伟,律淑珍.LabWindows虚拟仪器设计[M].北京:国防工业出版社,2007.

[2]王建新,杨世风,等.LabWindows/CVI测控技术及工程应用[M].北京:化学工业出版社,2006.

[3]谭浩强.C程序设计(第二版)[M].北京:清华大学出版社,1999.

[4]孙晓云.LabWindows/CVI的虚拟仪器设计与应用(第2版)[M].北京:电子工业出版社,2010.

[5]Jiawei Han,Micheline Kamber,范明,孟小峰,译.数据挖掘概念与技术[M].北京:机械工业出版社,2008.

[6]Stephen Prata著,云巅工作室译.C Primer Plus(第五版)中文版[M].北京:人民邮电出版社,2007.

空间数据仓库篇7

1 概述

1.1 概念

DW (Data Warehouse, 数据仓库 ) 数据仓库的概念是W.H. Inmon在1991年的论著《Building the Data Warehouse》中提出, 数据仓库是一个面向主题的、集成的、非易失的和时变的数据集合, 用以支持管理决策。

1.2 主题

主题 (Subject) 是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念, 每一个主题基本对应一个宏观的分析领域。在逻辑意义上, 它是对应业务中某一宏观分析领域所涉及的分析对象。数据仓库的数据组织形式是按照用户使用数据仓库进行决策时所关心的重点方面, 即主题, 来进行数据组织规划。比如, 高校管理以教师、学生为主,以及它们参与的教学、科研活动, 还有与这些活动产生的相关财务和资产的内容。这些主题是用户使用数据仓库进行决策的所关心的重点, 一个主题通常与多个操作型信息系统相关。

1.3 ETL

ETL (Extraction-Transformation-Loading, ETL) 是构建数据仓库的重要一环, 用户从数据源抽取出所需的数据, 经过数据清洗, 最终按照预先定义好的数据仓库模型, 将数据加载到数据仓库中去。目前主流的ETL工具有 : Informatica、Datastage、OWB等。

1.4 OLAP 和 DM

联机分析处理 (Online Analytical Processing, OLAP) 是数据仓库的分析和展示工具, 可以为提供用户统计、分析、报表处理及进行趋势预测; 通过联机分析, 为用户提供交互式的快速响应, 多维分析使用户能从多角度、多侧面、多层次的获取信息, 侧重对决策人员和高层管理人员的决策支持。数据挖掘 (Data Mining, DM) 一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘使用数学分析来派生存在于数据中的模式和趋势。

2 业务调研与需求分析

业务调研是通过数据现状, 包括源系统数据表分类和数据结构描述、数据量、数据质量、数据标准、数据规范等情况进行了分析, 可以清晰了解业务系统现状、特点和数据情况, 理清数据结构和了解数据业务含义, 可以确定数据仓库主题, 为创建逻辑数据模型、物理存储模型提供依据, 为ETL阶段工作提供数据加载关键信息, 为制定数据标准提供基础。

2.1 主题确定

高校也和企业一样, 管理对象不外乎是“人”、“财”、“物”, 分属多个业务部门来管理 , 相对应多个业务信息系统。对于“财”和 “物”都与“人”发生关联, 本文从学校业务现状及实际需要出发, 确定了人员、机构、教学、资源、活动、项目、财物7个主题及相关的粒度、度量、维度等技术指标。为建设数据仓库的建逻辑数据模型和物理数据模型提供依据。

2.2 数据选取

选取人事系统中教师基本信息及教务、研究生系统里的学生基本信息作为人员主题的主数据表。人员的描述有姓名、证件类型、证件号、人员类别等, 在设计的过程中增加了辅助描述字段系统来源、正在使用的人员ID、处理日期等字段。另外学工系统里学生的奖学金、困难补助以及教育经历也作为扩展信息也选取进来。

3 数据仓库实施

3.1 逻辑模型

数据仓库模型设计的核心问题是多维数据的表示与存储。采取星形模型架构、三范式建模的思想, 最大程度上减少冗余, 用一张表作为维度表与事实表关联, 具有足够的灵活性和扩展性, 充分利用数据标准的产出, 按照各主题分类方法,结合信息项的业务和技术定义进行设计、以最小粒度的明细数据为基础, 可以根据不同的统计分析口径汇总生成所需的各种结果, 具有聚合快、效率高的优点。

3.2 数据仓库架构

数据架构设计是数据仓库建设的关键内容, 一方面应考虑技术架构设计的合理性和规范性, 保证其高性能、灵活、可扩展; 另一方面应考虑数据架构设计, 即如何进行数据的存放、组织、传输、分发, 如何形成统一集成的数据来源。按照Inmon提出的CIF (Corporate Information Factory, 企业信息工厂) 及相关的数据仓库架构理论, 设计成ODS (Operational Data Store, 操作型存储 ) 、EDW (Enterprise Data Warehouse, 企业数据仓库 ) 、DM ( Data Mart, 数据集市 ) 三层。ODS功能主要是完成各业务系统的数据抽取 , 进行初步的加工, 主要为EDW提供数据, 数据保存2周以上; EDW层是面向主题严格按照三范式建设, 整合的数据存储, 提供规范和共享, 强调的是整合和历史, 以支持较长时间周期的分析型应用, 为DM提供数据, 数据长期保存; DM以面向数据分析的业务而建模, 为报表分析与领导驾驶舱提供数据支持, 具有面向应用、形式各异、各自独立、满足特定业务的需求特点, 是各种业务应用的集市, 适合一些业务复杂的分析型应用, 数据保留策略根据需求而定。三层架构是一种容易建设、数据利用率高的数据仓库规划和设计方法, 能够满足各业务部门的不断增长的业务需要, 为学校管理层提供决策与支持。

3.3 ETL 实现

ETL数据抽取、转换、装载可以把把分散在不同业务系统中的数据整合到数据仓库中, 它占整个数据仓库项目的70%左右的工作量, 关系着数据仓库的成败和使用。

3.3.1 数据抽取

根据事先制定的规范和数据标准, 把各系统的数制抽到数据仓库的ODS层, 主要基于日期和时间标记和通过文件的比较来抽取, 抽取策略有定时/实时、定量/全量方式。抽取的数据保证源系统的数据全貌, 加上时间戳标记以便使用比较。同时还要提供外部数据 (如手工数据、Excel) 数据的接口。

3.3.2 数据清洗

由于各业务系统提供的数据不完美, 存在着“脏数据”,影响数据仓库的使用, 必须采取各种有效的措施对其处理 ,这个过程称之为数据清洗。包括标准化处理、空值处理以及不一致数据处理等。数据清洗工作主要在ODS层完成。如人员信息的数据清洗工作主要有: 将姓名中空格去掉, 将身份证15位转为18位, 身份证校验码转为大写等。

3.3.3 数据转换、加载

数据仓库是按主题进行分类设计, 所以各业务系统的数据输入到EDW层时需要按需要的格式进行合并、汇总、过滤、转换。高校中存在着学生毕业后留校、老师回校重新学习的情况, 学号和工号都不适合作为人员ID主键。解决方案是对于同一个人, 根据姓名和证件号进行识别, 分配8位人员唯一编号, 如表1所示, 进行人员主题信息汇总, 能很好地处理高校这种师生角色转换、同时存在的情况, 实现跨业务部门、历史数据的整合。

数据加载负责经过清洗和转换过的数据按照目标数据库元数据定义的表结构装入数据仓库。数据仓库中的表基本都是按照事先设计好的模型创建的, 把新的数据更新到这些表中, 如事实表、维度表、汇总表等、更新这些表的过程需要传一些参数, 如日期来运行这些程序。

3.3.4 数据质量控制

建立数据仓库的目的是为了保证使用的数据具有准确性、一致性、完整性、有效性, 因此数据仓库中数据必须保证较高的数据质量。首先要制定数据标准, 来保证数据的一致性;其次数据质量、数据变更从源头治理, 保证同类数据源的单一性; 再次, 做好数据审查, 建立故障检测处理机制; 另外还要加强元数据的收集、管理、维护和使用。还要做好数据安全管理, 通过数据保护机制比如备份策略、数据恢复等预案使数据在意外事件中得到保护。

4 展现与应用

通过人员信息的信息整合, 利用数据仓库技术可以为师生提供集中数据展示、数据填报、数据下载等服务; 可以为校档案人员库、外联办校友库、退休教师库提供数据源服务;可以利用OLAP和数据挖掘工具做出与人员相关的主题展示与决策支持, 如: 人员基本信息展示与查询 (教职工、学生信息统计), 教师和学生科研及学术表现, 学生成绩及招生数据分析, 一卡通、图书馆借书相关数据综合服务分析, 学生奖惩助贷及宿舍数据统计分析等; 还可以为校领导和各职能部处定制符合自身需要的数据展示图表, 如高等教育研究所、发展规划处、教学质量管理办公室等部门编撰年度的教学质量报告、高等教育基层统计报表等提供数据材料。

5 结语

医院数据仓库系统探究篇8

从20世纪80年代开始, 以实现数据高度共享、支持日常业务处理过程为目的的关系数据库得到快速发展, 以关系型数据库为基础, 建立了大量业务系统和信息系统, 累积了大量数据。在数据库应用到一定程度之后, 如何有效地将收集到的数据转化为信息为管理者进行决策服务, 是日益显现的问题。90年代以后, 以支持经营管理过程中的决策制定 (Decision Support System, 简称DSS) 为目的的数据仓库理论逐步发展起来。

1 数据仓库的概念

目前关于数据仓库的概念尚未统一, W.H.Inmon在《建立数据仓库》一书中, 对数据仓库的定义为:数据仓库就是一个面向主题的、集成的、相对稳定的、随时间不断变化的数据集合, 用于支持经营管理过程中的决策制定。

2 数据仓库的设计

2.1 粒度

粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库中保存数据的细化或综合程度的级别。细化程度越高, 粒度级就越小;相反, 细化程度越低, 粒度级就越大。在数据仓库环境中粒度之所以是主要的设计问题, 是因为它深深地影响存放在数据仓库中的数据量的大小, 同时影响数据仓库所能回答的查询类型。

2.2 数据分割

数据分割是设计数据仓库的另一个最重要方面。数据分割是指把数据分散到各自的物理单元中去, 它们能独立地处理。对当前细节数据进行分割的总体目的是把数据划分成小的物理单元。假如粒度处理不当并且分割也没有认真地设计与实现, 这将使其他方面的设计难以真正实现。

2.3 企业数据仓库建设的基本步骤

对企业自身来说, 数据仓库的建设是一个系统工程, 是一个不断建立、发展、完善的过程, 通常需要较长的时间。这就要求各企业对整个系统的建设提出一个全面、清晰的远景规划及技术实施蓝图, 将整个项目的实施分成若干个阶段, 以“总体规划、分步实施、步步见效”为原则, 不仅可迅速从当前投资中获得收益, 而且可以在已有的基础上, 结合其他已有的业务系统, 逐步构建起完整、健壮的数据仓库系统。

企业数据仓库的建设通常按照快速原型法予以实施, 主要包括:确定范围、环境评估、分析、设计、开发、测试和运行等几个阶段。同时企业数据仓库又是一个在原型的基础上进行不断迭代的过程。

2.4 企业数据仓库系统的总体结构

一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用4个部分。

3 数据仓库的管理

数据仓库的管理包括:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。

4 应用数据仓库理论建立医院数据仓库系统

HIS (医院管理信息系统) 是当前医疗部门信息管理的主要模式之一, 通过计算机网络实现门诊、住院、药品、设备等信息的全面网络化管理, 为提高医院的现代化经营管理水平发挥了重大作用。大多数三级甲等医院HIS业务系统已经运行多年, 多年的应用和发展为医院积累了宝贵的数据资源, 具备了建立数据仓库的条件。医院数据仓库的主要功能有:病人构成分析;病人就诊时间分析;病人费用构成分析;同期费用对比分析;单病种分析;成本效益分析和医院其他科学预测等。

4.1 主题确定

在HIS系统中, 数据仓库建立非常关键的一个方面是主题的确定, 若主题确定模糊或不准确会直接影响后期的查询决策的效率。经分析HIS所涉及的主题主要有病人信息 (基本信息, 诊疗信息, 费用信息等) 、医护人员信息、药品信息 (进、销、存) 等, 数据仓库的设计围绕以上的主题展开。“主题”在数据仓库中是由一系列表来实现的。数据表的定义可以是由于对数据的综合程度不同, 也可以是由于数据所属的时间段不同而进行的。一般采用星型模型组织数据表。

围绕病人的事实数据包括病人门诊费用、病人诊疗费用、病人药品费用等等。在事实数据的周围, 又从多个角度多个层次进行汇总, 形成维表。如病人就诊时间维、性别维、族别维、区域维、就诊科室维。它们一般变化不大, 数量也相对较少。汇总的层次就是粒度, 它是维划分的单位, 如病人就诊时间维 (年、季、月、甚至旬、日) 、性别维 (男、女) 、族别维 (汉、维、回等) 、区域维 (国家、地区、城市等) 、就诊科室维 (内科、外科等) 。

围绕医护人员的事实数据包括就诊人数、药费、诊疗费等等。在其周围, 可以从时间维、职称维、年龄维、科室维等进行分析。

围绕药品信息的事实数据包括进货单价、进货量、销售单价、销售量等等。在其周围, 可以从时间维、进货商维、药品名称维等进行分析。

作为事实数据的被存储在事实表中, 作为维度数据被存放在维度表中, 来作为建立多维数据立方体的数据表, 通过O-LAP工具、DM工具来访问这些数据。

4.2 查看数据

建立好的多维数据集, 经过处理, 就可以查看其中的数据。Microsoft Office 2000套件中的Access和Excel可以作为数据展现工具, 通过Microsoft Excel和Microsoft Access来查看多维数据集中的数据。并可以按照自己的需要, 定制查询。

5 结束语

本文介绍了数据仓库的一些基本知识, 并结合数据仓库理论, 初步探讨了如何逐步建立医院的数据仓库系统, 希望能对医疗信息数据仓库系统的设计与实现有些帮助。

参考文献

高校档案数据仓库设计篇9

在信息技术高速发展的今天, 许多高校都建设了规模不等的信息管理系统, 随着数据的不断增加, 历史数据累积越来越多, 这就需要一种工具来整合各业务领域的应用数据, 以充分发挥历史数据的最大功能。数据仓库能够处理大量的数据资源, 通过它的集成管理器能够将发展过程中离散的数据有效集中[1], 为解决上述问题提供了技术上的保证。

2 数据仓库平台设计

2.1 系统架构

结合高校信息管理的特点, 设计了系统方案如下:

(1) 数据库平台:数据库平台选择SQL SERVER数据库, WINDOWS为操作平台, 用于存储系统所有的数据, 包括业务数据与元数据。

(2) 管理平台:管理平台应用程序部署在WINDOWS操作平台之上, 以JBOSS为应用平台, JAVA为开发工具。

(3) 开发平台:平台采用MONDIRAN提供OLAP分析服务, JPIVOT提供OLAP展示服务, WEKA提供数据挖掘服务。数据展示以开源的BI工具为主, 通过BIRT来实现丰富的报表展示。ETL以开源的ETL工具KETTLE为主, 并配置适应于SQL SERVER数据库的SQL脚本做为数据抽取、清洗、转换与加载的工具。

2.2 管理平台设计

数据仓库管理平台是数据仓库的外围程序的集合, 其中包括元数据管理、数据质量管理、数据采集管理、ETL调度管理、数据仓库监控、数据安全管理与操作帮助七大子系统。

(1) 元数据管理模块。该模块是存储数据封装、数据敏感度和相关人员隐私信息等相关元数据内容的部分, 主要功能是扩充元数据对外服务接口内容, 向外部模块或子系统提供元数据内容和元数据分析服务, 为数据封装和安全管理等数据仓库管理模块提供支撑。

元数据获取层位于整个体系架构的最底层, 元数据获取层抽象概括了元数据获取的各种途径。存储层定义了元数据存储所遵循的元模型, 规范从获取层得到的各类元数据的属性要求和存储格式要求, 包括业务元数据、技术元数据和管理元数据。功能层为前端元数据应用提供了基本的功能支撑, 主要包括元数据基本功能、元数据分析功能、元数据质量管理、元数据服务接口和元数据权限管理五个部分。在元数据管理模块功能层的支持下, 元数据应用层通过调用功能层的功能, 对元数据管理的实际问题提供应用解决方案。

(2) 数据质量管理模块。是数据仓库管理平台的技术支撑平台, 主要对数据源接口、数据实体、处理过程、数据应用和业务指标等相关内容的管控机制和处理流程, 也包括对数据质量管控和处理的信息总结和知识应用等辅助内容。数据质量管理子系统功能按层次划分为获取层、存储层、功能层和应用层。

获取层主要实现的是数据质量数据的采集功能, 是数据质量功能和应用的基础。采集的数据范围有:源系统关键数据、源系统接口信息、数据处理过程信息和业务指标数据等。存储层中存储的数据质量信息主要包括三个部分:数据质量规则库、数据质量信息库和数据质量知识库。功能层包含了数据质量管理模块的基础功能, 它为数据质量管理的前端应用提供了基本的功能支撑。应用层为数据质量管理各环节管控和处理提供具体应用解决方案, 主要包括源系统变更协同管理、源系统数据质量稽核、数据质量监控知识应用和问题处理知识应用等。

(3) 数据采集管理。数据采集管理为数据仓库数据来源的总入口, 包括元数据采集与业务数据采集, 其中元数据采集又包括手工数据采集与工具或SQL脚本的数据自动采集, 业务数据采集包括业务系统的数据采集与手工报表的录入与导入。数据采集模块为数据管理平台与数据开发平台提供数据支持。数据采集模块分为存储层、功能层和应用层。

数据采集的存储层主要包括元数据存储、业务数据存储, 其中业务数据存储就是开发平台中数据接口。按操作方式分可以分为手工数据获取与系统数据获取。从系统工具中获取元数据, 包括ETL工具与BI工具, 主要是获取ETL工具中的数据抽取业务逻辑与BI工具中的权限与应用元数据。应用层主要包括的数据采集的设置管理功能、数据填报功能、数据导入功能、数据基本规范检查功能与数据采集功能提醒功能。

(4) ETL调度管理模块。该模块为数据的ETL流程提供管理基础, 同时为数据仓库的监控提供服务接口。主要进行调度设置, 设置各脚本执行的先后顺序、执行时间、执行周期, 以及各脚本之间的依赖关系。记录脚本执行情况 (开始、结束) , 脚本的出错记录等。该模块分为获取层、存储层、功能层和应用层。

(5) 数据仓库监控模块。该模块为数据仓库的运行状态监控程序, 对当前数据仓库的数据量、数据增量、磁盘容量、磁盘占用量、CPU与内存的使用率、ETL过程的执行时间与执行效率等做实时监控, 也包括对监控的信息处理与总结, 以及监控信息的知识形成及应用等功能。

(6) 数据安全管理模块。该模块为数据仓库的权限控制中心, 其包括数据安全与用户安全两类, 数据安全即对存储在数据集市中的数据定义行级与列级权限, 用户安全即用户对数据集市与用户的访问权限, 数据安全管理是将数据权限与用户权限结合集中管理的模块, 使数据仓库的安全管理与BI平台无关。

(7) 操作帮助管理模块。该模块为数据仓库平台的知识管理模块, 其包括应用操作帮助、业务知识学习、数据来源追踪等, 操作帮助管理模块需求元数据的接口支持。

2.3 集成访问门户设计

主要包括WEB、认证、安全、门户四方面的服务, 提供HTTP Web服务、门户的用户登录、用户认证、门户Web应用、并提交用户层请求到中间展示层, 对用户实施安全策略, 为用户管理报表、查询文档, 提供个性化定制等。

3 结束语

随着高校信息系统信息资源的不断丰富, 数据仓库技术在信息管理中的作用会越来越大, 它将使高校管理信息系统的信息服务能力、决策支持能力得到进一步增强[3], 为高校的信息化管理做出更大的贡献。

摘要：随着信息化的进一步发展, 高校信息历史数据达到相当规模, 为更方便管理数据, 提供决策支持, 提出了数据仓库管理方案, 介绍了开发过程中的开源工具, 重点分析了数据仓库中管理平台的设计。

关键词：信息管理,数据仓库,ETL

参考文献

[1]钱毅.数据仓库在档案信息管理中的应用[J].北京档案, 2006 (04) .