数据仓库应用

2024-08-26

数据仓库应用(精选十篇)

数据仓库应用 篇1

随着联入互联网络的发展,主机数、用户数和信息源节点数的爆炸性增长,使数据形式也出现了多样化,不光有结构性的数据,还有许许多多例如TXT文件或者图片视频等非结构性数据类型,但这些分散的数据使人们在信息检索和网络资源管理等方面面临着许多难题。

关系型数据库具有极强的管理能力,数据的安全性高,和可靠的并发机制,一直是结构化数据存储的主流。但各种数据库系统之间的差异,已经所依赖操作系统之间的异构型,严重影响了信息共享和数据交换。

随着应用的不断进步发展,企业已经不能光靠联机事务处理OLAP去应对压力取得行业领先水平,这是他们需要对自身业务的运作及整个市场行业相关的趋势进行分析,做出有利的决策。这时对以往大量的历史数据的使用和存贮就成了势在必行。但实际企业与企业之间,企业内部各部门之间业务、目标以及操作系统、存储方式的不同必然造成数据上的差异,不能提供有效的信息共享,形成数据孤岛,不能满足管理人员决策分析的需求。传统关系数据库依然不能满足以上需求,这时就需要一种能够适应决策分析的数据环境———数据仓库(Data Warehouse,DW)。在本文中建立一套数据仓库系统,完成了多种异构数据的整合,简单的BI分析并用图表显示。第二部分讲述数据仓库整体架构思路,第三部分为本套以元数据为驱动系统的具体实施,第四部分文章总结。

2 技术背景

数据仓库是数据分析和决策支持系统(Decision Supporting System,DSS)在当代海量数据背景下产生的技术。是一个面向主题的、集成的、相对稳定的、反映历史变化的结构化数据集合[1]。数据仓库的建设更像一个过程而不是工程,以现有企业大量历史的数据作为积累,进行归纳重组,运算分析,把计策信息及时地交给企业管理层,这才是数据仓库的根本任务。经典架构见图1。

ETL(Extract-Transform-Load),即从各种异构数据源中抽取数据,并按照预先设计好的规则进行转化清洗,处理一些冗余、歧义、残缺、违反业务逻辑的数据,统一数据粒度,最后加载到目标数据仓库中,是建立数据仓库的必要基础。ETL设计和开发占整个数据仓库系统开发量的60%~80%[2],一般有两种工具方案供选择:一种使用数据仓库引擎厂商提供的ETL工具进行数据的加载;通过ETL工具提供的编程API进行数据的加载。前一种更加简便快捷,后一种更加灵活,性能也有一定的提升。此外最主要的问题就是如何建立有针对性的ETL过程模型,研究组织对早期建立ETL过程模型也给出了很多建议[5]。还有国外著名数据仓库软件厂商,如Informatica的powercenter,IBM的info Sphere Data Stage,Oracle的Oracle Data Integration,Microsoft的SSIS都是优秀的数据仓库工具,其中也有源工具Repository Explorer,Beeload,Kettle,Data Spider集成整套的DW和BI功能。

ETL过程的设计需要对数据结构,不同的主题也需要设计专门的ETL的过程。所以当需要转变商业规则或数据结构,就需要重新设计ETL过程,重用性很低。为了解决以上问题,设计一种新的ETL应对方案,解决的了过程核心的重复编写,提供了重用性,采用了ETL工具和API接口相结合的架构方式,能够满足大部分的数据源和多样的处理过程,在保证数据加载性能的同时更灵活方便,以元数据为驱动,实施了一整套数据仓库系统并研究分析。

3 系统设计

本系统主要以意大利Pavia大学IRMA项目为背景,实现一套交互性的城市助手系统,建立数据仓库,提供分析图表,帮助行政人员更好的管理城市基础设施。市民也可以使用手机APP主动的加入到城市的监控,对公共设施出现的问题可以立即拍照上传,并根据位置信息显示在地图上,不同用户间可以相互评论。城市管理人员在web端监视到出现的问题,就会派专人去查看、确定问题,之后会有维修人员到现场去处理,并使用App追踪维修进度。当事故解除,市民能查看到问题已处理,可以放心出行。城市管理者也会收到反馈,这样管理者可以对事故做进一步的预测、预防。

首先以事故为主题确立需求,建立异构数据整合架构———即ETL过程设计,包括源数据确立、元数据驱动、ETL流程包。接着选择维度属性建立数据仓库,包括事实表维表属性选取、虚实多维数据库设计。

3.1 异构数据整合架构

源数据———本文的系统主要由三种异构数据源,文本、xls、xml和数据库,文本数据源和Xl S文件,一般为业务部门常用数据格式,其中文本数据属于非结构化数据;XML源数据主要是从新浪微博上根据关键字抽取的数据。传统数据库一般为系统内部结构化数据和外部开放API的DBMS数据,主要抽取跨业务的结构化数据。

元数据———是关于数据的数据,通过扫描数据字典来加载源数据库和目标数据库的体系结构,表相关信息等等。元数据库管理模块对元数据库中的元数据提供修改和维护管理并写入日志。中间件是转换过程中的重要部件,减少对数据库的操作,增加转换效率,提高数据操作的可靠性和一致性。见图2。

ETL———数据的抽取是ETL过程的第一步,从多种异构数据源根据规则抽取数据,系统中三种主要源文件:文本数据为非结构化数据,作者主要采用正则表达式和语义词典相结合的方式抽取;数据库数据抽取方面直接使用ETL的工具抽取;XML和XLS的文件需要进行预处理,抽取模式和数据库基本相同。

把多个功能相近的translater根据功能组成job,多个job组合实现了整个ETL过程。如图3。两个内部关系数据库在抽取时先过滤掉重复记录与空白记录,xls文件要先设定数据字段的映射,文本文件需要进行字段操作提取所需的信息。分布式平台上抽取的数据需要先进行字段拆分以便于文本字段整合,最后再通过相应的转换流程与结构化数据整合。

3.2 多维数据仓库数据库

多维数据模型———主要包括事实表和维表,每个数据仓库都包含一个或者多个事实表(见表1),它是每个多维模型的核心,不应该包含描述性的信息,以及除了数据度量字段与维度表中相关索引字段外任何的数据。维度表可以用来看作用户分析数据的窗口,表中包含事实数据记录的特性,提供信息并包含帮助汇总信息特性的层次结构。(见表2)

CUBE———区域查询时数据仓库中进行OLAP分析的重要操作,为了提高查询速度及分析性能,我们根据主题和需求定义分析模型,建立CUBE。常用的Cube分为三种:物理Cube、虚拟Cube、物理结合虚拟Cube。作者采用物理虚拟相结合能很好的发挥两者的优点。把常用的时间维度、事故维度、区域维度等数据一次性装入到原理立方体中建立物理Cube,这些特征变动量少、查询量大。虚拟Cube事前并不建立任何Cube,而是根据用户需求实时生成虚拟立方体,方便对于实时数据的更新,如一定维度下事故发生频率。使用灵活但网络负载大。如图5

3.3 验证

数据仓库就是决策支持系统和联机分析应用数据源的结构化数据环境。为了给用户提供更清晰、简洁、易于理解和操作的界面,我们做了表单、报表和各种图形来显示我们的数据,并提供一定的CRUD功能。把移动设备用户的上传消息根据地理位置聚类,对区域中有明显消息增加的地点做实时的线状图显示,当曲线的到达一定斜度,便生成提示信息,警告管理人员。如图6。根据单位时间类事故发生的频率作了统计分析,如图7。选择查看地点维度,如选取城市维度,发现paiva事故发生率高于napol。选择时间维度观测到pavia下午4点的问题发生率是全天最高。

4 结束语

本文提出一种较灵活的ETL方式,该方式采用手工编码与Kettle工具相互协作,以元数据为驱动对于多种异构数据源进行整合利用,从数据源的记录、抽取规则、多维数据库模型等全程监视,为数据仓库提供更加全面、更加丰富的源数据,并以报表、数据图和仪表的形式展示在web端。管理人员可以及时地检测到事故的发生,也可以对区域的问题进行总结分析,做出有效的预防工作。进行数据挖据和BI分析,最大限度的利用好企业的大量数据。

摘要:数据仓库技术广泛服务于业界信息系统建设之需求,大数据分布式架构的兴起也促进了数据仓库技术带的发展。文章结合一个应用项目的需求,设计开源技术方案,实施多种异构数据整合、元数据驱动、主题标签及Extjs架构的图形显示。实现了一套可视化的数据仓库系统,用以解决复杂的异构数据以及数据的展示,也为后续的决策支持系统构建和数据挖掘工作提供基础。

关键词:元数据,ETL,异构数据,数据仓库

参考文献

[1]Inmon W H(2005)Building the data warehouse.Fourth Edition,Wiley.

[2]P.Vassiliadis,A.Simitsis,and S.Skiadopoulos,Conceptual modeling for ETL processes,Proc.5th ACM Intl.Workshop on Data Warehousing and OLAP(DOLAP),pp.14-21,2002.

[3]J.Trujillo and S.Lujan-Mora“.A UML Based Approach for Modelling ETL Processes in Data Warehouses”.In I.-Y.Song,S.W.Liddle,T.W.Ling,and P.Scheuermann,editors,ER,volume 2813 of Lecture Notes in Computer science,Springer,2003.

[4]Gianmario Motta,Thiago Barroero,Giovanni Miceli and Yuwei Yin.“Design of performance aware service systems:A Case study”.Service Sciences(IJCSS),2011 International Joint Conference on.25-27May 2011.

数据仓库应用 篇2

电信行业数据仓库建设情况概述

从上世纪90年代开始,随着电信行业垄断格局被打破,电信行业的市场竞争越来越激烈,在2000年左右,电信企业间的竞争已经不满足于单纯的价格战手段,迫切需要提升竞争的手段和方法,提高企业的市场竞争力。

国际上的电信运营商在经历了传统的价格战之后,为了提升企业的竞争力,充分使用了各种信息化手段,其中,数据仓库技术是主要的手段。据统计,国际上资产排名前十名的电信运营商,均建设了数据仓库系统。

以中国移动为典型代表,从2001年开始进行了数据仓库的设计和准备工作,在建设数据仓库的同时,也在逐步构筑完整的数据仓库业务应用内容。2002年完成了系统的详细的设计过程,2003年中国移动完成了数据仓库系统的建设工作,2004年建立并完善了初步的应用体系,2005年开始进行专项的数据质量整改工作。中国联通也从2003年开始陆续启动了数据仓库系统项目的设计、建设和应用等工作。

与国外电信运营商相比,国内电信行业数据仓库项目有如下的特点:

1.数据量更加庞大

中国移动已经发展成为世界最大的无线运营商,拥有近3亿的客户,话务量大,数据量也十分庞大。目前中国移动的数据仓库设备容量已经超过上千个TB,而在国外的电信运营商,最大的仅300TB。庞大的数据量对数据仓库的处理能力等多个方面构成了挑战,对系统的性能提出了更高的要求。

2.业务管理不规范,导致数据仓库较复杂

由于国内电信企业的业务管理仍不规范,导致各省公司之间的产品差别很大,业务模式也有很大区别,这使数据仓库的设计十分复杂,同时对数据的梳理工作也变得十分艰巨。

3.业务应用水平仍有差距

从总体而言,国内的数据仓库在应用水平方面,较国外的先进水平仍有差距。国外在数理统计等多个方面积累了很长时间的经验,数据分析人员水平也比较高,而国内仍靠技术人员进行分析为主,对业务知识仍比较欠缺。

综上所述,国内部分电信企业已经完成了大型数据仓库的建设工作,而逐步转向为丰富业务应用的过程,只有通过深入的业务应用工作,才能保障数据仓库系统发挥效果,并真正提升企业的精细化管理、精细化营销能力。

电信行业的数据仓库应用特点

数据仓库的应用是满足对数据进行整理和分析的需求,与其它的IT系统相比有如下的一些区别。

1.业务应用范围比较零散,内容丰富

数据仓库的业务应用,不仅会涉及到企业外部的市场营销,也会涉及企业内部的各项管理工作,因此范围十分广泛。同时,内容也十分丰富,可以细到对某类客户的详细分析,也可以包括对电信企业宏观发展的决策等。

2.针对数据的分析为主,业务水平要求较高

数据仓库业务应用以对数据的分析为主,而这种分析的过程要求分析人员能够具备较丰富的业务知识,才能得出理想的分析结果。即使是同样的数据,技术人员和业务人员也可能会得出不同的结论。

3.业务应用是建立在保证数据质量的前提下

数据仓库的数据质量涉及到多个方面,在系统建设之初,主要是围绕系统本身的问题。经过一段稳定时间之后,问题常常集中在统计口径方面,需要对业务系统的很多业务规则进行梳理。应该说,很多的数据质量问题都是由上游系统产生的,但通过数据仓库系统暴露出来了。如果数据质量无法保障,分析的结果也会无法保证准确性,因此数据质量对数据仓库的业务应用是基础。

数据仓库业务应用的分类方法

数据仓库的业务应用,从不同的角度有不同的划分方法。

1.从技术角度划分的应用分类

从技术角度,对有关的业务应用内容可以分为:

(1)KPI应用

主要是反映外部市场和内部管理的主要关键指标,如总收入和客户数等内容。这些关键指标能够直观地反映出企业运营管理的基本情况。

(2)报表应用

这是目前应用最多的形式,目前国内大部分的数据仓库业务需求,都是通过报表的形式提出来。业务人员使用报表比较熟悉,也比较方便。由于对使用人员的技术素质要求不高,报表在几年内仍将是主要的业务应用形式。

(3)OLAP应用

OLAP分析方法是对报表分析能力的一次提升,跳出了传统报表的二维信息的局限性,能够灵活地提供多维度、多角度的分析方法,并能灵活地进行上钻、下钻等操作。OLAP能够更加丰富地展现数据仓库中的相关数据,提高了分析的过程,丰富了分析的视野,但对操作人员的技术水平要求也越来越高。

(4)数据挖掘应用

数据挖掘是在大量数据的基础上,通过数学的方法,发现有价值信息的过程。数据挖掘能够提升人类对数据的分析能力和深度,但对操作人员的技术和业务方面的素质要求也十分高,国内目前仍处于起步阶段。

2.从业务角度划分的应用类型

从业务角度,目前数据仓库业务应用可以分为两类。

一种是通用性的应用,即在进行业务分析过程中基本都会使用到的分析内容。例如,围绕客户、市场等方面,提供一些客户基本信息、基本行为的一些共性分析,供所有使用者进行分析。

另一种是比较专项的应用,即针对特定的部门或者特定的角色提供的个性化的业务应用内容。例如,主要是面向不同的业务领域,针对不同的业务部门,提供有关的分析内容。

3.数据仓库自身的业务应用

在数据仓库的业务应用内容中,也会包括对数据仓库自身进行管理的一些业务应用内容。这些内容会围绕数据质量管理等方面,如接口数据的变动干扰分析,指标的血缘分析等内容。这些应用的目的是为了提升数据仓库自身的准确性等方面的功能,提升自身的相关管理水平。

电信行业数据仓库具体应用举例

数据仓库项目包括了两个层面的价值。

首先,在建设数据仓库的过程中,对现有的数据资源进行了一次完整的梳理,对相关的业务系统的数据质量进行了同步的检查和监督。这是对企业内部IT系统进行梳理的过程,要解决很多业务方面的问题。该过程十分庞杂,但也为企业内部的业务系统进行了一次完整的整理过程,为企业的IT应用发展奠定了扎实的数据质量基础,这方面的工作对企业的长久发展意义十分巨大。

其次,是建立在数据仓库基础上的各种业务应用,这些应用过程是从数据中,发现有价值信息的过程,也为企业的各个环节的管理,提供了数据分析的依据。这种数据分析的过程,结合企业相关的管理手段的提升,会转化为巨大的生产力,提升企业的精细化管理和精细化营销的能力。

下面,以客户离网分析为主,提供有关的具体分析例子。

客户离网是生产经营面临的一个基本问题,也是影响经营状况的一个重要因素,一方面会造成收入的下降,市场占有率下降,营销成本增加、收入降低的问题;另一方面,恶意离网会造成客户欠费,带来不必要的经济损失。离网分析的目的就是要通过特定算法,分析出哪些客户具有较大的离网概率,从而对这些客户进行有目的的挽留工作,尽量减少客户流失带来的损失。通过离网模型可以提高对高价值客户挽留成功率,降低客户离网率,降低挽留服务的成本,做到有的放矢,减少由于客户离网带来的收入损失。

在这种情况下,如何挽留住客户成为一个非常重要的问题,而挽留的前提一方面要有好的市场经营策略,另一方面要能够预测那些客户有离网动向,有目的的、有针对性的进行挽留。

1.分析方法描述

分析方法主要采用:聚类、因子分析、决策树。

2.实现方案

(1)建立离网预测的分析模型,配合离网分析的客户信息库,建立离网分析模型基础挖掘数据;

(2)根据数据仓库中现有信息和历史数据,对客户进行各种信息进行归纳、分类,将客户进行分群;

(3)根据客户分群的结果,采用不同的算法对不同群体的离网客户的信息进行分析,探索离网规律;

(4)根据离网规律对当前客户的离网倾向进行预测,分析客户离网倾向,同时根据客户的离网倾向程度进行打分;

(5)根据离网倾向从高到低给出客户清单信息。

3.应用方案

(1)离网原因分析,采用聚类的方法来分析客户的消费行为,即根据客户的通话等消费情况、离网特征信息将客户分成多个群,同一群客户的消费行为具有较高的相似度,而不同群的客户间消费行为差异较大。分析每群客户的离网原因,有针对性地提出挽留建议。

(2)依据客户属性分组,制定相应的营销政策与客户进行沟通,在沟通的过程中,确认客户是否具有流失倾向,以及有流失倾向的客户真正流失原因。

(3)挽留任务分解,根据提取具有离网倾向的客户按归属客户经理进行分配,对没有归属客户经理,安排电话经理进行外呼,根据相应的挽留策略实施离网挽留。

(4)客户经理根据外呼挽留实际情况进行反馈。

5.应用效果

某省电信运营商的离网模型效果如下:

目前离网分析的命中率为30%左右,查全率为70%,其中离网率为2.1%,预测结果中的命中率为31%,LIFT提高了14.8倍。通过LIFT指标可以看到,离网模型帮助缩小了挽留客户群,减少了挽留工作量和降低了挽留成本。

命中率:被准确预测为离网(预测离网并且真正离网)的客户占客户总数的百分比。查全率:被准确预测为离网的客户占实际离网客户总数的百分比。

Lift=客户的命中率/不使用模型时的离网率。

电信行业数据仓库应用发展展望

随着数据仓库系统功能的不断丰富,涵盖的数据源范围也会越来越多,数据仓库将发展成为企业的信息中心,是企业内部、外部数据的汇集之地。最终,数据仓库将发展成为企业内部的神经中枢系统,是企业进行各项活动的判断依据,成为企业管理的核心。

在针对企业各方面的管理内容之外,也可以发展成为电信企业的重要赢利手段。随着竞争的激活,价格会越来越低,电信企业传统的提供通信通道方面的价值会越来越低,利润也会越来越低,电信企业必然面临转型问题。

如果建立了比较全面的数据仓库系统,电信企业可以获取用户在各个方面的数据信息,围绕这些信息,可以发展成为“客户需求”的管理门户,及时发现客户的需求,然后根据客户的需求,联系零售等领域的供货商,为客户提供满意、低廉的产品服务。

数据仓库应用 篇3

关键词:DTS;数据仓库;数据转换;ActiveX

中图分类号:TP311文献标识码:A文章编号:1009-3044(2007)12-21514-02

Application of DTS Component in Data Warehouse Data Transformation

ZHENG Dan, WANG Yao

(School of Polytechnic, East China Jiaotong University, Nanchang 330013, China)

Abstract:DTS is a very powerful and flexible data transfer tool. It can realize the transformation of data source with different construct. This paper by using a practical application in data warehouse, illuminates how to use DTS for loading original operation data into data warehouse, and emphasizes on how to use ActiveX script language in data transformation.

Key words:DTS; Data Warehouse; Data Transformation; ActiveX

1 引言

在建立數据仓库时,数据的抽取、转换和装载是一个重要的环节,它所完成的工作就是将数据迁移到数据仓库系统。在一个数据仓库项目中,大部分的工作都花费在此。但是,不同的事务处理系统可能用到不同的数据库系统,使数据转换的工作变得异常复杂。期间容易产生许多异构数据源,有的是文本文件,有的虽具有表结构但不属于同一种数据源,如EXCEL、FOXPRO、ACCESS,这些情况极大地妨碍着数据的集中处理。因此由原有异构环境向OLAP环境转换就成为数据仓库构建过程中最重要的一步。SQL Server提供数据转换服务(Data Transformation Services,DTS)很好地解决了这个问题。DTS提供了例如引入、引出以及在微软的SQL Server和任何OLE DB、ODBC或者文本格式之间转换数据的功能,使这一工作变得简单高效。

2 设计学生成绩分析系统的星型模式

对一个学校来说,学生成绩无疑是很有价值的数据,它是评估教学质量的重要依据。本文以我院情况为例,计划设计数据仓库对学生成绩数据进行存储和处理,以便有效地挖掘利用这些数据所隐含的价值,帮助教育管理人员做出科学的决策。在构建数据仓库之前创建一个名为gzxy的数据集市,打算采用星型结构。主要结构如图1所示。

图1 星型数据模型

3 ActiveX脚本语言

DTS是一个强大而且灵活的数据库迁移工具,它能够实现各种异构数据源的数据转换。在数据迁移时,DTS 还可以使用ActiveX脚本语言,如VBScript 或JavaScript来转换数据。数据转换脚本可以简单地将一列的内部代码转换为外部系统使用的代码,也可完成复杂的功能。数据转换脚本可以执行能在脚本语言中执行的任何动作,这种灵活性使DTS 成了一个强大的数据迁移工具。

3.1 利用ActiveX脚本语言实现学生维表数据的导入

在SQL Server 2000中新建数据库gzxy,并且创建上图所示的事实表和维表。我院的学生信息和学生成绩信息都是以EXCEL文件的形式存储的。其中学生信息是按班级分别存放在每个表单中,表单名称就是班级名称,字段包括学号,姓名,性别,出生日期等,并没有班级代码。比方说,“网络1”表中,学号为20055120610101的学生:表示她是05网络1班,2005是她的入学年份,5120是院系代码,6101代表是网络专业1班,01表示是1号学生;“网络2”表中,学号为20055120610201的学生就是05网络2班的学生。05网络1班的班级代码是056101,05网络2班的班级代码是056102。根据这样的情况,我们就要考虑在将这张EXCEL表中学生信息导入SQL SERVER学生维表中,如何添加班级代码。当然我们不可能去为每个学生逐个填写班级代码,这是不现实的。在这里用SQL Server的DTS工具就能很轻松的完成这样的工作。

对于其他字段,在导入时直接进行复制就可以了。对于班级代码的建立,就需要编写ActiveX脚本语言。ActiveX脚本可以验证信息的正确性,不正确的数据可以存储在异常日志的文件中,可以随后分析这些数据。

具体的实现过程如下:先运行SQL Server企业管理器,选中“工具”菜单中的“数据转换服务”→导入数据,在“数据源”对话框中选Microsoft Excel 97-2000,文件名选“E:data5学生名单.xls”,目的选“用于SQL Server 的Microsoft OLE DB 提供程序”,数据库选gzxy,在“选择数据源表和视图”对话框中,“源”选择以班级名称命名的某张表单,比如“网络1”,在“目的”中选择“[gzxy].[dbo].[xs]”,单击随后的“转换”,弹出“列映射和转换”对话框,单击“转换”选项卡,单击“在将信息复制到目的时对其进行转换”选项,在下面的区域编写我们的脚本语言。

Function Main()

DTSDestination("xh") = DTSSource("学号")

DTSDestination("xm") = DTSSource("姓名")

DTSDestination("xb") = DTSSource("性别")

DTSDestination("csrq") = DTSSource("出生日期")

DTSDestination("bjdm") =mid(DTSSource("学号"),3,2)+mid(DTSSource("学号"),9,4)

Main = DTSTransformStat_OK

End Function

这里编写的ActiveX脚本采用的是VB Script的语法。这里主要是对“班级代码”的一个处理,我们发现班级代码实际上隐含在每个学生的学号里。比方说学号为“20055120610101”,班级代码就是由学号第3位开始的后2位“05”组合上学号第9位开始的后4位“6101”而成的“056101”。有了这样的规律,我们就可以借助脚本语言方便的生成每个学生的班级代码。

写好代码单击“下一步”,在“保存、调度和复制包”对话框中勾选“立即运行”,并且勾选保存DTS包,存为SQL Server,名称为“xs_resource”单击“完成”后,可以看到成功执行“包”的提示。

创建好的包在企业管理器的数据转换服务列表可以中看到,如果还要导入其他班的学生信息,我们只需要择其他的表单名称,重新执行一边包,就不用反复书写代码了。

3.2 利用ActiveX脚本语言实现事实表数据的导入

学生成绩信息按每学期的考试结果保存为一张EXCEL表,其中按班级分别创建多个表单。如表1所示就是05网络1班2005~2006上学期的考试成绩的情况:

表1 05网络1

在导入数据时,主要是对成绩的处理,其他信息可以根据具体情况填入。我们将每门课程分别导入,这里以“英语”课程为例。具体的实现过程如下:

第一步:在当前服务器下的“数据转换服务”,选择“本地包”,单击右键“新建包”,弹出“新建包”界面。向DTS包设计器工作区中添加一个连接,即Microsoft Excel连接,该连接的数据库文件名指向“E:data5061_05高职成绩.xls”;再向工作区中添加一个Microsoft OLE DB Provider for SQL Server图标,选择目标数据库为gzxy。

第二步:从任务工具箱中选择“转换数据任务”,为其设置属性。在“源”选项卡选择某个表单,这里选择“网络1”,“目的”选项卡选择“[gzxy].[dbo].[cj]”,在“转换“选项卡中,默认情况下系统会按照先后顺序自动建立源字段到目标字段的一一映射,但这并不是我们想要的,将其全部删除,然后重新建立。

第三步:选中源列表框中的“學号”字段,再选中目的列表框中的“xh”字段,单击“新建”按钮,在“创建新转换”中,选择“Copy Column”,对于学号,只需要直接复制就可以了。

第四步:选中源列表框中的“英语”字段,然后选中目的列表框中的“kch”字段,单击“新建”按钮,在“创建新转换”中,选择“ActiveX Script”,在弹出的“ActiveX脚本转换属性”窗口,“语言”选择“VB Script Language”,在右侧的脚本代码输入窗口中输入如下代码:

Function Main()

DTSDestination("kch") = "0051G057"//英语课程的课程编号

Main = DTSTransformStat_OK

End Function

第五步:选中源列表框的“英语”字段,再选中目的列表框的“cj”字段,对英语成绩的导入我们直接进行列的复制就可以了,选择“Copy Column”。

“cj”表中的其他字段,如“学分”,“教师编号”等按照步骤四的方法填入相应代码就可以了。在所有的字段映射都设置好后,DTS将会把源和目的的映射关系以图形化界面的方式显示出来,如图2所示。

图2 映射关系

第六步:保存创建好的包,并执行包。之后就可以看到EXCEL表中的英语成绩导入了SQL Server的学生成绩事实表中。

其他课程成绩的导入只需要重新打开包,按照具体情况重新设定就可以了。

对于考查科目,我们在导入事实表中的时候,为了成绩分析统计的方便,我们希望将“优秀”,“良好”这样的文字也转换成数字,用“考核方式”字段可以说明这门课程是考试还是考查。如何使其能自动进行转换呢,在转换的时候我们就需要编写脚本。

在上例中的第五步,对成绩字段我们就不能直接进行复制了,而要选择“ActiveX Script”,在右侧的脚本代码输入窗口中输入如下代码:

Function Main()

if DTSSource("组网与综合布线实践")="优" then

DTSDestination("cj") = 90

elseif DTSSource("组网与综合布线实践")="良" then

DTSDestination("cj") = 80

elseif DTSSource("组网与综合布线实践")="中" then

DTSDestination("cj") = 70

elseif DTSSource("组网与综合布线实践")="及格" then

DTSDestination("cj") = 60

elseif DTSSource("组网与综合布线实践")="不及格" then

DTSDestination("cj") = 50

end if

Main = DTSTransformStat_OK

End Function

上面的代码把成绩等级相应地转化为分数导入数据库中,这样考查科目就可以和考试科目一起参与计算学生总成绩,平均分等等。

4 结束语

本文根据构建我院学生成绩分析数据仓库中涉及到的异构数据源转换的问题,主要介绍了通过编写脚本语言实现将大量的EXCEL数据表导入SQL Server数据库中的技巧,实现了数据的快速转换,展现了DTS组件在实现数据仓库中数据导入导出的强大功能,相信对其他院校也具有一定的借鉴作用。

参考文献:

[1]飞思科技产品研发中心. SQL SERVER 2000 OLAP服务设计与应用[M]. 北京:电子工业出版社,2002.

[2]周之昕. 基于DTS的异构数据源格式转换[J]. 电脑知识与技术,2006(8):20-21.

[3]王胜德, 杨学强. 利用DTS实现异构数据库的数据交换[J]. 计算机应用,2003(23):132-134.

[4]崔彬. 利用DTS包进行多维数据集的自动处理[J]. 软件导刊,2006(8):49-50.

港口数据仓库设计及其应用研究 篇4

数据仓库是信息技术领域的一个新概念[1]。它是为分析任务主题而设计, 提供全港一级综合而完整的数据概括;数据可靠, 按时进行数据追加与更新, 并保持数据的一致性;能对当前的和历史的数据进行报表处理和联机分析处理;可以从不同角度按不同主题进行数据分析;还可以在数据仓库数据基础上进行进一步的数据挖掘, 挖掘出隐藏在数据中的隐性知识, 为港口管理层提供决策依据。但是数据仓库在港口中的运用还比较少, 文献[2]提出了建立港口数据仓库的思想。本文在分析港口生产业务和港口数据的基础上, 确定数据仓库主题, 采用信息打包的方法构建了数据仓库, 最后在构建好的数据仓库上进行了数据展示。

1 港口业务和数据分析

与传统数据库面向应用进行数据组织的特点相对应, 数据仓库的一个典型特征是要求数据按照其自然属性来组织, 即面向主题, 因此, 在构建数据仓库之前, 必须确定主题。分析港口业务流程和港口数据是为了明确界定港口数据仓库的概念模型, 确定主题, 它决定着数据仓库建设的成败和质量的好坏。

1.1 生产业务分析

港口生产的目的就是要充分利用港口的人力和设备, 安全、优质、高效地完成水陆和水运网络中货物及旅客的转运服务。其业务模型可以由图1表示, 由集团业务部和集团各生产公司共同完成。

1.2 数据分析

根据以上港口业务分析, 港口的生产涉及多个部门, 各个部门有着各自的数据库, 随着港口信息化的建设, 这些数据库中的数据越来越多, 面对大量纷繁复杂的数据, 如果不加以有效利用, 就会导致信息资源的浪费, 引发数据灾难。为了合理利用港口中现有的数据资源, 针对港口实际情况, 建立了港口数据仓库的体系结构, 如图2所示。它是多种技术的综合体, 包括数据获取、数据存储和数据输出3部分。港口原始数据包含现有业务数据、遗留数据、外部数据, 它们保存于港口管理信息系统的事务数据库或相关文件中, 港口数据的获取就是指从事务数据库和文件中抽取数据;数据的清洗、抽取、转换和综合是数据仓库设计的关键技术之一, 直接关系到数据仓库的数据质量, 负责港口数据的清理到结构化存储;中心港口生产数据仓库是将要关注的目标, 最终数据以多维数据模型存储来辅助高层决策。

2 港口数据仓库设计

2.1 主题确定

针对港口业务和数据的分析, 可以看出港口高层管理人员关心的主要指标有3个, 即货物重量、交易次数和合同金额, 在分析数据仓库的主题以及建模过程中, 就要围绕这3个方面进行。通过对管理人员决策需求的详细了解和对港口业务流程的详细分析, 可以得出港口数据仓库的运营分析、货物进出港分析、客户分析、船舶进出港分析、泊位能力分析、堆场空置率分析、设备资产管理等几个主题, 表1对主要的主题进行了描述。其中, 港口的运营是港口最基本的活动, 是一切数据分析的基础, 因此, 本文主要是针对港口运营分析这个主题进行数据仓库的构建。

2.2 数据模型建立

数据仓库设计中采用3级数据模型的方法, 即概念模型、逻辑模型和物理模型。对于数据仓库, 这3级数据模型分别对应于数据仓库中的信息包图设计、星形图设计及物理数据模型设计。

2.2.1 概念模型设计

概念模型设计也就是通常所说的需求分析, 在与用户交流的过程中, 确定数据仓库建立所需的数据源, 建立容易理解的数据模型, 有效地完成查询和数据之间的映射, 涉及到数据仓库使用者所提出的决策问题。针对目前港口生产的实际情况, 根据业务分析, 要求数据仓库能提供以下的功能:

1) 不同时期、地点、货主生产情况的分析与比较。

2) 哪些货物、货主的交易量大, 港口获得的利润多。

3) 货主一般采用什么类型的船, 一般运什么样的货物以及存放地在哪里。

4) 其他。

由于数据仓库的多维性, 利用原始的数据流程图分析已经不能满足需求, 超立方体可以表示多维数据, 但是其直观性比较差, 尤其当超过三维时, 数据的采集和表示都比较困难。因此本文用信息包表的方法来表示多维数据, 如表2所列。信息包表是基于用户要求所建立的相关信息包, 采用二维表格的形式来表示信息需求的多维特型, 它有3个重要的对象:维度、粒度和指标对象[3,4]。

2.2.2 逻辑模型设计

建立了完整的信息包表后, 就需要将信息包表转换成星形图。按照转换的原则, 首先定义指标实体, 指标实体是由数据指标和逻辑指标构成, 信息包图的指标对象对应着星形图中的数据指标, 而信息包表中的每个维度的最低级类别可以纳入到逻辑指标中, 这样得到的数据指标和逻辑指标共同构成了星形图中的指标实体, 该指标实体位于星形图的中央, 用矩形表示。接下来, 定义维度实体, 维度实体对应信息包图中的维度对象, 它位于星形图的角上, 是用菱形表示的。指标实体和维度实体设计好后, 接着就设计两者之间的关系, 它们之间的关系是通过逻辑模型中的粒度定义的, 是一对多的关系。在星形图中, 每个维度实体通过最底层的粒度实体和指标实体进行连接, 粒度实体用结束符表示。有了各种实体后, 就可以建立完整的港口运营星形图。图3展示了从信息包表转换而来的星形图。

如图3所示, 在港口生产数据仓库中, 包含了一个事实表, 即货物运输表和6个维度表:即时间、地点、货主、船舶、货物及库场。事实表的各个属性列分别与星形图指标实体的数据指标和逻辑指标相对应, 各维度表也含有若干属性列分别与维度实体的各粒度相对应, 其中与详细粒度实体对应的列为该维表的主键列, 如地点维划分了地区、省份和城市3个类别, 则在对应的地点维度表中, “地区”、“省份”和“城市”分别与该维的3个粒度对应, 其中与粒度“市”对应的属性列为地点维的主键列。

2.2.3 物理模型设计

针对港口运营主题建立好了星形图后, 要在综合考虑该星形图的指标实体、维度实体和粒度实体的基础上, 确定数据仓库中事实表和维度表的物理结构以及它们之间的相互约束关系。

根据逻辑设计得到的星形图能方便地定义物理数据结构。将指标实体转化为事实表, 将维度实体转化为维度表, 事实表不仅包括星形图中心的指标量, 而且还包括星形图角上的维度实体中的主码值, 维表和事实表通过维度表的主码和事实表的外码进行连接。

除了建立物理数据结构外, 物理模型设计还应该包括:

1) 定义数据标准。在定义的物理实体、关系和字段之前, 首先应该明确命名约定, 包括数据类型、约束条件、设备、索引、缺省等。

2) 定义实体。星形图可以很方便地确定面向主题的数据仓库共享实体, 完整定义其属性, 包括主码、外码、空值等。

3) 确定实体特征:包括值的类型、长度等;以下是事实表和维表的设计和实现。

(1) 事实表的设计和实现。

在星形模型中, 事实表包含于星形的中心, 是高度非规范化的, 它由2部分组成, 一部分是其周围的表-维度表的主码, 分别为时间码、地点码、货物码、货主码、船舶码和库场码, 它们共同构成事实表的组合主码;另一部分是数据仓库的度量包括交易次数、货物重量和交易金额等。设计港口生产事实表的表结构如表3。

(2) 维度表的设计和实现。

在星形模型中, 维度表用星形图的角表示, 维度表是非规范化的, 每个维度都有其对应的维度表, 它显示了维度所对应的粒度级别。由于篇幅有限, 只列举了地点维度表的表结构, 如表4列。

2.3 数据仓库生成

数据仓库数据模型建立后, 基本确定了数据仓库的事实表和维度表的结构。下面的工作就是将原有信息系统数据库中的相关业务数据导入到数据仓库中的事实表和维度表中。Microsoft的数据仓库解决方案提供了一系列的工具, 其中数据转换服务 (DTS) 就能实现异种数据源之间的数据转换。可以在DTS图形界面中定义数据源、转换目标以及相互之间的转换规则, 从而可以将业务数据库中的业务数据转换到数据仓库中去。这主要包括以下几步:①数据抽取, 根据主题, 从原始操作型数据库中抽取出与分析主题相适应数据;②数据处理, 将含有噪声的不一致的数据转换成清洁、一致的数据, 达到数据仓库统一规范的要求, 主要包括数据有效性检查、数据转换、离散化和概念分层等步骤;③数据装载, 将处理过的数据最后按照数据仓库的格式要求载入到数据仓库中。

3 港口数据仓库展示

建立了数据仓库后, 就需要将数据仓库中的数据以多维视图的形式展现在用户面前, 实现数据与用户的交互, 这也是建立数据仓库的目的。本文基于构建好的数据仓库事实表和维表, 利用SQL Server 2000的OLAP Services组件建立了面向港口生产交易的OLAP (on-line analylical processing, 联机分析处理) 立方体。然后, 采用Hyperion Intelligence Explorer作为工具, 来初步展示各地区的货物重量和货物利润的关系。如图4所示, 东北地区的货物交易重量最大, 获得的利润最多, 这和港口处于东北地区相符合。但是, 港口应该在确保货源的基础上, 采取措施提高其他地区的交易量, 挖掘出潜在的货源。

数据展示可以依据用户的需求而定, 港口在建好数据仓库之后, 应该把重点放在应用数据仓库为港口挖掘出有价值的信息上, 以便提高港口的竞争力, 获得更多的货源和利润。

4 结束语

港口在信息化辅助作业过程中积累了丰富的数据, 如何对将这些数据转化成有用的知识, 来辅助管理人员的决策是亟待解决的问题。本文在分析港口生产业务流程和数据仓库体系的基础上, 采用了数据仓库3级数据建模方法, 构建了港口运营数据仓库。数据仓库的建立为港口企业搭建了一个面向分析的环境, 在此基础上可以运用联机分析处理工具来支持多维分析, 也可以进行企业级的数据挖掘以获得潜在的知识。随着计算机技术的快速发展, 数据仓库技术将在港口得到广泛的应用。

摘要:从港口企业面临的决策需求出发, 对港口生产业务和数据进行了分析, 确定了港口数据仓库的体系结构。针对业务需求分析和港口数据确定的主题, 采用信息打包的方法进行数据模型设计, 得出星形模型, 进而生成港口运营分析数据仓库, 最后对生成的数据进行了展示。

关键词:数据仓库,港口,多维数据模型

参考文献

[1]Inmon W H.Building the data warehouse[M].John Wiley&Sons, Inc, 1993

[2]施思明, 杨红霞.数据仓库在港口企业的应用设想[J].中国港口, 2004 (10) :39-40

[3]张玉芳.数据仓库数据模型的设计[J].计算机应用, 1999, 19 (9) :10-12

数据仓库与数据挖掘论文 篇5

摘 要 决策树学习是人们广泛使用的一种归纳推理形式。先就决策树和决策树学习算法进行介绍,然后用实例阐述决策树在教育信息处理中的应用,主要以在教学评价中的应用为例来加以介绍。

关键词 决策树;数据挖掘;教育信息处理;教学评价

当今社会处于一个信息爆炸的时代,海量的数据可以用来选择和发掘信息,然而有时却让人无从下手,因此数据挖掘技术受到人们的高度关注。数据挖掘是从大量的、不完全的、有噪声的、模糊的或者随机的数据中提取人们事先不知道的但又是有用的信息和知识的过程。它的方法很多,其中决策树是一种解决实际应用分类问题的数据挖掘方法。在教育教学中,根据决策树算法的实际特点,它可以在教育信息处理中的信息采集上发挥很大的作用。决策树介绍

决策树学习是人们广泛使用的一种归纳推理形式。决策树起源于概念学习系统,其思路是找出最有分辨能力的属性,把数据库划分为许多子集(对应树的一个分枝),构成一个分枝过程,然后对每一个子集递归调用分支过程,直到所有子集包含同一类的数据。最后得到的决策树能对新的例子进行分类。它一般是从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它一般需要给定一组训练例子,训练例子一般被看成用于创建模型的数据集。由此可以看出,决策树是一个类似于流程图的树结构,其中每一个内部结点表示对一个属性的测试,每一个分支代表一个决策输出,而每个叶节点代表一个目标分类。决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子结点即为实例所属的分类,树上每个节点说明对实例的某个属性的测试,节点的每个后继分支对应于该属性的一个可能值。假如需要根据人员的外貌特征对人员进行分类,用于人员的外貌特征有3个,外貌列表={高度,发色,眼睛};各属性的值域分别为:高度={高,矮},发色={黑色,红色,金色},眼睛={黑色,棕色}。分类结果有两种:种类={+,-}。提供的训练例子集为:T={<(矮,金色,黑色),+>,<(高,金色,棕色),->,<(高,红色,黑色),+>,<(矮,黑色,黑色),->,<(高,黑色,黑色),->,<(高,金色,黑色),+>,<(高,黑色,棕色),->,<(矮,金色,棕色),->}。上述文字可构造图1所示决策树。决策树学习算法

决策树算法有几种,如ID3、C4.5、CA RT等。其中ID3算法是最经典的算法,该算法从根节点开始,这个根结点被赋予一个最好的属性。随后对该属性的每个取值都生成相应的分支,在每个分支的终点上又生成新的节点。然后按照该属性的取值将每个训练例子都分别赋给一个相应的新节点。如果没有任何训练例子能赋给某个节点,那么该节点连同相应的分支都将被删除。这时,将每一个新节点都视作一个新的根节点,重复执行整个过程。这里,最好属性的选择要基于信息增益这个统计特性。在定义信息增益前,先要了解另一统计特性:熵。

给定一组有c个分类的训练例子,对属性a来说,它有值v,其中pi是在第i类中属性a取值为v的概率。为了能选出最好的属性,需要使用度量信息增益。一属性的信息增益就是按照该属性对训练例子进行划分所带来的熵的减少量。其中,T是训练例子的集合,Tj是属性A取值为j的训练例子集合,为T的一个子集。决策树在教育中的应用

在教育教学中,尤其是在高等教育体系中,学校的数据库中存贮着大量的教育教学信息,其中一部分和教学有关,如学校的开课排课情况、教师情况;一部分和学生有关,如学生历年的考试、测验成绩等。这些大量的数据后面隐藏着大量的信息,只要加以分析,就能得到许多有用的信息,如教育规律、学生的培养模式、学生学科间的差异性和相关性的一些规律。这些规律对教育管理决策来说是相当重要的,对教育教学改革有指导性的意义。

3.1 决策树在教育信息处理中的应用

决策树表示的是一个离散值函数,树中每一个节点表示一个属性,同时目标分类具有离散的输出值信息。教育中的大量信息,一般都是对一些离散的数据进行分析,比如学习成绩一般分成优、良、中、差,外语六级成绩分成过与未过,这些信息都可以用决策树来加以分类归纳,对于连续的属性值,也可以进行离散化处理后再利用决策树来加以分析。

3.2 决策树在教学评价中的应用案例

决策树在教育信息处理中的应用很广泛,下面以决策树在教学评价中的应用为例,来说明在教育信息处理中是如何使用决策树来分析的。教学评价在教育中是一个重要的问题,它是指依据一定的教学目标与教学规范标准,通过对学校教与学等教育情况的系统检测与考核,评定其教学效果与教学目标的实现程度。教学评价具有复杂性、多因素性和模糊性等特点。如何客观、科学、全面地对教学进行评价,是教学评价中一个重要的课题,下面尝试将决策树应用于教学评价。

在评价之初要有一个数据采集的过程,之后可以用决策树来加以分析。课堂教学评价指标体系分为若干项,从教师的角度可以分为授课态度A1、授课方法A2、授课内容A3、授课效果A4、教学评价A5,可以取训练例子如表1所示。

对给定的训练例子数据是把连续的数据离散化的结果,A为评分90~100,B为评分80~89,C为评分70~79,D为评分60~69,E为评分<60,N1为教师编号,表中的A5为目标分类。

如果利用前面的ID3算法建立决策树,先检验所有信息增益的特征属性,选择信息增益最大的属性作为决策树的结点,由该特征的不同取值建立分支,对此分支的实例子集递归该方法建立决策树的结点和分支,直到某一子集中的例子属于同一类。

对给定训练例子的熵为:E(T)= 1.295 46。

表1 训练例子

N1 A1 A2 A3 A4 A5 1 B B B B 良 2 B B B B 良 3 B B B C 良 4 A A A A 优 5 B C C C 中 6 C C C C 中 7 B C B B 良 8 B B C C 良 9 C B C C 中 A A B B 良

以属性A1为例,A1的值={A,B,C},由表中可以看出A3的信息增益最大,所以选A3属性作为根节点的测试属性,并根据其值向下分支,利用ID3算法进一步划分,当根节点到当前节点的路径上包括所有属性或当前节点的训练样本同属一类时,算法结束。根据以上分析给出图2所示决策树。

图2 决策树

可以根据生成的决策树,方便地提取其描述的知识,比如授课内容A3在这里产生的信息增益最大等信息。小结

在教育信息中存在隐藏在数据中的规则,这些规则可以用不同的方法被挖掘。本文只是对决策树中的分类ID3算法在数据处理中的应用进行研究,目的是得到教育教学中存在的规则,利用发现的规则对教育管理决策提供有参考意义的信息。

参 考 文 献

数据仓库应用 篇6

关键词:数据仓库;图书;存储

中图分类号:TP393 文献标识码:A文章编号:1007-9599 (2011) 08-0000-01

Books Association Application Analysis Based on Data Warehouse

Duyu Junlong

(Information Technology Institute,Hangzhou310015,China)

Abstract:The data warehouse is a new storage management technologies,can well be necessary for a large number of scattered historical data and detailed operational data,after processing into a centralized,readily available information[1].Therefore,the use of data warehouse technology organization,processing,analysis and storage of information,library information technology development is a trend in information services will play an important role.Library how to use the new technology of data mining a rich collection of data mining resources for readers,the decision makers for the department to provide a reliable basis for decision making will become an important part of library construction.

Keywords:Data warehouse;Books;Store

一、数据仓库技术研究

(一)数据仓库的概述

数据仓库创始人WH.Inmon在他所著的《建立数据仓库》一书中对数据仓库所下的定义为:数据仓库就是用于管理决策支持的面向主题、集成、稳定、随时间变化的数据集合[5]。

1.面向主题。2.数据的集成性。3.数据的稳定性。4.数据随时间变化的特点

(二)数据仓库的体系结构

一个完整的DW应当具备建立、管理和使用的全部成分,DW结构上可分为:数据源、后端加工、前端服务以及数据仓库的管理。

二、基于数据仓库的数据挖掘技术研究

(一)数据挖掘概述。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、新颖的、可被人理解的、但又是潜在有用的模式的过程。模式也就是所挖掘出的信息和知识。

(二)数据挖掘的过程、典型方法。数据挖掘的过程,包括数据预处理、数据变换、数据挖掘、模式评价与知识表示。1.数据预处理,数据预处理包括数据清理和数据集成。2.数据变换和选择。3.数据挖掘,即利用各种挖掘算法对数据进行处理,从而获得一些模式。4.模式评估和表示

三、数据仓库和数据挖掘技术对高校图书馆提供决策支持的图书关联分析系统的架构研究

(一)决策支持技术。高校图书馆决策支持系统(Decision Support System,DSS)是基于数据仓库、联机分析处理和数据挖掘技术的商业智能系统,通过数据采集、转换、分析和挖掘的一整套解决方案,来为图书馆管理人员提供决策支持。

(二)高校图书馆提供决策支持的图书关联分析系统的数据仓库建模。在数据仓库中,怎样设计一个简单的数据模式?信息打包方法是一种比较流行且行之有效的方法。信息打包方法具有三个不同层次的数据模型,而这三个数据模型是在数据仓库的开发过程中建立的。

1.创建信息包图。信息包图是信息包分析方法的第一层和最高层。信息打包图的目标是用简单明了的方法表达用户对信息分析系统的需求。利用信息包图,设计人员可以避免使用普通用户很难理解的专业术语,从而很容易的实现和用户之间的交流。2.将信息包图转换成星型图。建立了良好的信息包图,只能说为建立数据仓库的核心数据库打了一个较好的基础,为数据仓库建立了一个概念模型。此后,根据数据模型的精炼层次,需要将概念模型细化为逻辑模型,即建立星型模型。利用星型建模技术可以为数据仓库建立完善的逻辑模型。它与传统的实体关系建模技术相比,星型图最适合以查询为基础的情况。3.进一步将星型图转化为雪花图。星型图模型通过一种优化的方式将数据实体组织成适于分析处理的形式,而简化了逻辑数据模型。在一个简单的星型图中,中心实体被用于访问的维度实体所包围。但更多情况下,星型图还会向外延伸形成附加的关系。这些样的图也被称为雪花图。4.数据仓库实体的定义。在数据仓库的信息包定义过程中,不难发现各个包的维度之间有一定的交错现象。例如上面星型图中的时间维实体,读者维实体,书目维实体等,这些实体都不仅存在于一个信息包中。对于这样的情况,在数据仓库的开发过程中应该统一的定义这些实体,而不是对于每一个信息包中的维都定义成一个单独的实体。5.实现数据库设计。当信息包图和星型图建好以后,最后是在数据库管理系统如Oracle中物理地实现数据库。使用Oracle Warehouse Builder(OWB)这个工具帮助设计、部署与管理数据仓库。OWB依靠开放标准的通用数据仓库模型(CWM),将各种数据库,客户关系管理(CRM)与企业资源规划(ERP)应用、商业智能管理工具、联机分析处理技术等集成在一起。6.源数据的清洗、转换与加载(1)源数据的清洗。进入数据仓库的数据必须是完整的、正确的,才能得出正确的决策,但是数据仓库通常需要涉及到多个数据源的大量数据,数据中极有可能出现错误和异常。因此检测并纠正数据异常就具有很高的价值。(2)源数据的转换。主要是进行数据类型转换以及数据格式转换,这都跟具体的图书馆的数据源类型及格式相关联。(3)源数据的加载。一般情况下,可以采用以下几种方法来加载数据:①对于数据结构相匹配的关系表,用SQL insert语句加载。②对于少量数据,利用手工录入。

参考文献:

[1]周军.基于数据挖掘的数字图书馆个性化服务系统的构建[J].图书馆学研究,2007,3:106

[2]邓慧,李明东.关联规则在CRM中的应用[J].内江师范学院学报,2005,20(4):205

[3]Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large database[J].IEEE Transactions on Knowledge and Data Engineering,1996,8(6):962-969

[4]Jiawei Han,Micheline Kamber,范明,孟小峰等.Data Mining Concepts and Techniques[M].北京:机械工业出版社,2001

基于数据仓库技术的应用研究 篇7

1.1 医药销售领域对决策支持的迫切需求

在日益激烈的市场竞争中, 信息对企业的生存和发展起着至关重要的作用。企业数据随着时间和业务的发展不断膨胀, “知识爆炸”和“信息爆炸”成了信息社会的常用词汇。各企业建立的用来收集、存储、管理业务数据的数据库系统, 在相当程度上提高了工作效率。然而, 传统的数据库应用只是对数据进行简单的处理, 越来越不能满足企业发展的对信息更深层次的需要。以我国医药流通行业为例, 随着该行业对外开放, 医药企业将面临来自美国、英国等发达国家同行的严峻挑战。为此, 企业必须改变自己原有的经营模式, 来面对来自各个方面的竞争和挑战。因此, 必须有支撑经营模式转变的新型信息系统, 为企业提供客户分析、市场分析、产品销售分析和决策分析的支撑, 为提升企业的竞争力服务, 为客户提供优质服务。

然而, 目前大部分医药生产销售企业的信息系统, 都是基于传统数据库的业务管理系统, 这些系统存在着以下不足:

(1) 各个业务系统能够处理的信息量有限, 各部门之间能共享信息, 企业决策者希望能够以多种形式、多种角度来展现和分析销售数据, 但目前的业务系统对此却无能为力。

(2) 各个业务系统虽然能够记录每天的业务数据, 但不能给出决策者更关心的诸如下一年的销量、生产计划等预测性数据, 以支持决策。

传统数据库系统不能很好地支持决策, 是因为它是面向业务操作设计的, 虽然能简化具体操作人员的劳动强度, 但不能对这些数据所包含的内在信息进行提取。因此, 同其他行业一样, 在医药生产销售领域, 各个企业渴望建立一种新的系统, 以满足该领域对决策支持的需求。

1.2 数据仓库满足决策支持的需求

为了满足各个行业对决策支持的需求, 需要用新的技术或工程化方案来弥补原有数据库系统的不足, 把企业各个部门现有业务数据集成到新的系统中, 以便提取有用的信息, 帮助他们在业务管理和发展上做出及时、正确的判断, 数据仓库技术就是因此产生的。

数据仓库是计算机和数据库应用发展到一定阶段的必然产物。如今信息处理部门的工作重点已经不限于简单的数据收集和管理。在大量生产业务数据积累的基础上, 企业内部各级人员都希望能够快速、交互并方便有效地从这些大量杂乱的数据中提取有意义的信息, 决策者更希望能利用现有数据指导企业决策和发掘企业竞争优势。由此可以看出, 构建数据仓库的目的是建立一种体系化的数据存储环境, 将分析决策所需的大量数据从传统的操作环境中分离出来, 使分散、不一致的操作数据转换成集成、统一的信息。企业内部不同单位、不同角色的人员都可以在此单一的环境之下, 通过运用其中的数据与信息, 发现全新的视野和新的问题、新的分析与想法, 进而发展出制度化的决策系统, 并获取更多经营效益。

数据仓库也是适应决策支持系统的需要而产生的。所采用的软件产品应该能够支持决策过程的全部工作内容。完整的数据仓库是个十分庞大的系统, 主要包括3个方面的内容:数据仓库技术、联机分析处理技术 (OLAP) 和数据挖掘 (Data Mining) 技术。

1.3 医药销售领域决策支持需求的解决方案

随着市场竞争的日益激烈, 医药生产销售行业对决策支持系统的需求越来越迫切, 不少医药生产销售企业包括全球制药巨头也采用数据仓库技术, 纷纷建立了自己的数据仓库系统, 用来支持企业的日常决策乃至战略发展决策。可以说, 数据仓库系统是为了决策支持而产生的, 它既然能够满足不同行业的决策支持需求, 当然也能满足医药销售领域的需求。

笔者通过给一家全球知名的医药生产销售企业成功实施数据仓库系统-“医药销售数据分析系统”, 可以得出结论:数据仓库技术能够成功很好地满足医药生产销售企业业务发展的需要, 能够满足企业对决策支持的需求。

医药生产销售企业建立数据仓库系统是为了改善公司现有计算机应用系统现状, 以满足企业内部用户对药品销售、流通情况越来越多、越来越复杂的统计、分析、预测需求。它在保持现有应用系统功能的基础上, 充分利用医药企业的各种数据源, 包括药品生产、销售等业务数据、财务数据、和计划数据等, 对其进行面向决策的数据重组, 将其转移到数据仓库中, 并在该数据仓库的基础上建立面向最终用户的基于决策支持的统计分析应用系统和灵活的查询系统。通过该数据仓库系统, 用户可以从各种不同的角度对药品销售计划、完成情况和收益情况进行深层次的统计和分析, 使得企业对医药销售分析与预测更快捷、更准确和更科学, 以帮助管理者和经营者正确决策。

1.4 数据仓库基本概念介绍

“数据仓库 (Data Warehouse) ”这个名词首次由号称“数据仓库之父”的William H-Inmon提出。他在《构建数据仓库》一书中指出, “数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合, 用以支持经营管理中的决策制定过程。”随着人们对数据系统研究管理和维护的不但深入, 对数据仓库有如下几个特点达成了共识:数据仓库中的数据是面向主题的、集成的、不可更新的、随时间增加的, 建立数据仓库的目的是为了更好地支持决策分析。

提起数据仓库技术, 一定要了解一些基本概念, 在此做以下简单的介绍。如果想了解更多信息, 请参见关于数据仓库方面的专著。

元数据 (Meta Data) , 是关于数据的数据, 类似数据库系统中的数据字典, 是以概念、主题、集团或层次等形式建立的信息结构并记录数据对象的位置。

数据集市 (Data Mart) , 也被称做“小型数据仓库”。如果说数据仓库是建立在企业级的数据模型之上的话, 那么数据集市就是企业级数据仓库的一个子集, 他主要面向部门级业务, 并且只面向某个特定的主题。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

维度 (Dimension) , 是多维数据集的结构性特征, 是事实数据表中用来描述数据分门别类的有组织的层次结构。

多维数据集 (Multi-Dimensional Data Set) , 也叫数据立方体, 是一个包含维度和度量值的等结构的数据集合, 通常从数据仓库的子集构造, 通过多维数据集, 可实现对数据仓库中的数据进行快速访问。

OLAP, 联机分析处理, 对多维数据集进行快速、稳定一致和交互性的存取, 允许管理决策人员对数据进行深入观察的技术, 我们平常经常听到的诸如对数据的“钻取 (Drill) ”和“切片 (Slide) ”就是OLAP通过技术实现的。根据数据存储的方式, OLAP可分为基于多为数据库的MOLAP和基于关系型数据库的ROLAP两种类型。

ETL, 抽取 (Extract) 、转换 (Transform) 和装载 (Load) , 是实现数据从业务系统向数据仓库转化的必要过程以及完成转化需要使用的工具和策略。这个过程往往根据系统定义好的元数据, 根据原有业务系统和数据仓库的特点, 一次性或者增量地把数据转化到数据仓库中。目前, 好多数据仓库提供商提供了比较完善的ETL工具。

1.5 从数据库到数据仓库的转换

数据仓库是由数据库进化而来, 是以大型数据库系统作为基础, 附加在原有系统之上并存储了从企业所有业务数据库中获取的综合数据并能利用这些综合数据为用户提供处理过的有用的信息的应用系统。

原有传统型数据库提供联机业务处理功能 (OLTP) , 主要按用户的要求对业务数据进行查询和处理。由于用户需求的不断提升, 将它用于决策支持在功能和性能上都是不够的, 必须进行改进和更新, 数据库到数据仓库的转换是必须的。数据库到数据仓库的转换, 除了指系统功能的转换之外, 还包括数据的抽取和转换。数据的转换有时会很复杂, 为了提高数据转换的效率和性能, 往往在数据仓库和业务系统之间增加一个中间数据库 (Staging Tables) , 用以临时存储从业务系统中导出的数据, 然后再根据导入策略定时或一次性将数据导入到数据仓库中。

1.6 数据仓库的体系化环境和数据组织

传统的数据库技术是以单一的数据资源为中心, 进行业务处理、批处理等工作。而数据仓库技术具有分析处理等特点, 它既是一种结构和富有哲理性的方法, 也是一种技术, 也是存储数据的一种形式。数据仓库弥补了传统操作型数据库以单一的数据资源为中心的缺点, 发展出了一种新的体系化环境。

2、辉瑞制药公司数据仓库解决方案

辉瑞公司是目前全球名列前茅的医药和保健品生产销售企业。该公司的产品行销全球150多个国家和地区。根据2011年福布斯全球200强企业统计表名, 2011年辉瑞的全球总销售额突破600亿美元, 利润150亿美元。

这样一个遍布全球的药品生产和销售企业, 每天产生的生产和销售数据的数量巨大可想而知。同时, 由于这些数据散布在不同区域中功能各异的业务系统中, 数据分散, 不利于统计和数据共享, 因此, 如果没有集成的数据仓库管理统一管理, 很难从业务数据中发现能供决策分析使用的数据。

为了解决上述问题, 早在1996年, 辉瑞就开始着手实施数据仓库。当时, 辉瑞建立数据仓库的总体目标是:

实现药品生产、流通环节的数据分析、挖掘和知识发现。

数据仓库不仅要存储药品生产和销售数据, 同时还要存储与制药相关的诸如生物、政策上的以及仓储方面的信息。

为了达到以上目标, 辉瑞制药公司建立数据仓库、集成异构数据时必须要解决以下问题:

先要建立一个或几个区域性的中央数据仓库系统, 也称基础数据仓库。由于辉瑞公司业务遍布全球, 不适合建立大集中式的、统一的中央数据仓库, 否则非常难以实施。

依据区域性数据仓库, 要建立统一、标准的数据视图, 以保证不同区域数据分析的角度和层次是一致的。

依据区域性数据仓库, 要建立一个辉瑞和第三方数据抽取的知识库。

数据仓库建设的重点应放在数据集成的方案上, 并非前端的展现工具。

在数据的使用上, 集成的数据应该更容易获取、比较、交换和操纵。

1996年, 全球知名数据库 (数据仓库) 提供商ORACLE公司根据辉瑞公司的业务运行特点和数据整合的需求, 为其提供了一个完整的数据仓库解决方案, 简单介绍如下:

辉瑞制药公司不仅要集成本公司内部的生产、销售数据, 而且还要继承与行业相关的外部数据。因此, 在数据仓库建设过程中, 必须考虑内部数据与外部数据的融合。

辉瑞数据仓库的体系ETL层抽取来自辉瑞内部、外部以及第三方的数据。将数据暂存在在临时数据库 (Staging Tables) 中。然后再进入中央数据仓库中。根据数据使用者的需求, 数据仓库里的数据经过整理进入不同的数据集市 (Data Mart) 中, 以便通过OLAP工具展现出来。与此类似, 我国的西安杨森公司也使用了国内一家IT公司为其开发的基于OLAP的销售数据分析系统, 致力于此方面研究和利用, 这里不再祥述。

经过以上介绍, 我们可以知道, 大多数医药公司已经或正在建设自己的销售分析系统。使用的技术也是多种多样。有的企业建立在大型中央数据仓库之上, 有的直接利用关系数据库系统加上BI工具。有的则找专业IT公司为自己开发。每种方案都有各自的优势, 也有各自的缺点。建立一套数据分析系统, 除了满足企业的功能需求外, 还要考虑公司的资源投入、信息化策略等问题, 结合B I前端OLAP展现工具, 很好地将业务数据整合到数据仓库中, 并根据数据分析的需要, 通过定制数据立方体, 以丰富的表现形式展现分析数据。系统除了满足企业对销售数据分析的功能需求外, 还满足了公司信息化整体策略和风格。

摘要:作为近年来发展迅速的一种新兴技术, 数据仓库能把收集来的数据转变成有意义的可用在分析和报表等应用程序的信息。目前数据仓库技术已经在社会各个行业中成功应用, 为决策支持提供服务。本文以一个建立在医药销售领域的数据仓库实际应用为例, 阐述了数据仓库技术的原理、数据仓库工具及其关键技术以及未来的发展方向。

关键词:数据仓库,元数据,多维数据集,OLAP,ETL,销售达成率

参考文献

[1]W.H.Inm on.构建数据仓库.机械工业出版社, 2000年5月.

[2]彭木根.数据仓库技术与实现.电子工业出版社, 2002年6月.

[3]李子木, 莫倩, 周兴铭.数据库技术的研究现状及未来方向.计算机科学, 1998年Vol.25 No.4.

[4]许向东, 张全寿.数据仓库与数据发掘的应用, 计算机系统应用, 19 9 8年4月.

[5]练慧萍, 杨明福.数据仓库技术及其在电子商务中的应用.微型电脑应用, 1998年5月.

企业数据仓库技术应用探讨 篇8

企业数据仓库的建设, 是以现有企业业务系统和大量业务数据的积累为基础的。数据仓库不是静态的概念, 只有把信息及时交给需要这些信息的使用者, 供他们做出改善其业务经营的决策, 信息才能发挥作用, 信息才有意义。

二、数据仓库在企业中的应用

1、数据仓库在企业中的作用。

数据仓库在企业中主要有三方面的作用:首先, 数据仓库提供了标准的报表和图表功能, 其中的数据来源于不同的多个事务处理系统, 因此, 数据仓库的报表和图表是关于整个企业集成信息的报表和图表;其次, 数据仓库支持多维分析, 多维分析是通过把一个实体的多项重要的属性定义为多个维度, 使用户能方便地汇总数据集, 简化了数据的分析处理逻辑, 并能对不同维度值的数据进行比较, 而维度则表示了对信息的不同理解角度。应用多维分析可以在一个查询中对不同阶段的数据进行纵向或横向比较, 这在决策过程中非常有用;第三, 数据仓库是数据挖掘技术的关键基础, 数据挖掘技术要在已有数据中识别数据的模式, 以帮助用户理解现有的信息, 并在已有信息的基础上, 对未来的状况作出预测。对数据仓库中信息的使用, 不同层次的用户有不同的使用风格。

2、现代企业建立数据仓库的需求。

信息作为现代企业的宝贵资源, 占据着越来越重要的地位, 已经成为现代企业科学管理的基础、正确决策的前提和有效调控的手段。能否拥有及时、准确、全面的信息已经成为衡量一个企业是否具有发展潜力的重要指标。这些业务信息系统为提高企业的工作效率, 减少重复性的工作起到了积极的作用, 为企业的发展做出了巨大贡献。

3、现代企业建立数据仓库的步骤。

数据仓库系统是一种解决问题的过程, 而不是一个可以买到的现成产品。企业人员往往不懂如何建立和利用数据仓库, 发挥其决策支持的作用, 而数据仓库公司人员又不懂业务, 不知道建立哪些决策主题, 从数据源中抽取哪些数据。这需要双方互相沟通, 共同协商开发数据仓库, 因此是一个不断往复前进的过程。

三、几种数据仓库的解决方案

数据仓库的市场巨大, 数据仓库产品很多, 其中比较有代表性的产品有:Business Objects和Sybase、Platinum Technology等解决方案。1、Business Objects。这是集查询、报表和OLAP技术为一身的智能决策支持系统, 它使用独特的“语义层”技术和“动态微立方”技术来表示数据库中的多维数据, 具有较好的查询和报表功能, 提供钻取 (Drill) 等多维分析技术, 支持多种平台和多种数据库, 同时它还支持Internet/Intranet, 可以通过www进行查询、报表和分析决策。2、Sybase的数据仓库解决方案Quickstart Data Mart, 包括Sybase Caleton PASSPOR、Brio Query、Conos Powerplay等一系列软件。支持DB2、MS、VSAM、Sybase、Oracle、Informix等关系型数据库, 还有文本格式的数据。它能够同时处理几十个即席查询, 其Bit Wise技术和垂直数据存储技术使系统只访问特定的少量数据, 使得查询速度比传统的关系型数据库管理系统快100倍。3、Platinum technology, 公司的数据仓库解决方案。它能够为企业提供完整、一致的数据, 以保持商业决策的及时、正确性。Platinum technology的数据仓库解决方案包括数据抽取和提炼、数据分布、源数据管理、数据存取和分析 (OLAP、EIS、报表) 、保险、销售和营销决策支持等几个方面。它提供的数据仓库工具包括异构数据库之间数据双向复制的应用系统开发工具In-forump和功能强大灵活的关系型OLAP工具Info Beacon等;提供的数据仓库前端业务智能解决方案工具包括使用户能够快速建立和使用的图形化企业信息系统应用的基于Windows的查询和报表工具Forest&Tress, 可以利用多个大型数据库在桌面机或服务器上生成报表的企业级报表工具Info Reports, 使用户在服务器上生成在用户端制作的企业报表工具Info Reports Server。这些工具使用户不需编程即可查询关系数据库、数据仓库或数据文件的数据, 具有很强的实用性。

摘要:当今世界, 随着科学技术的发展, 数据的迅速增长, 信息量的急剧增加, 给人类提出了一个亟待解决的课题, 即如何有效地使用这些数据。目前还处于数据丰富而知识贫乏阶段, 利用当前的数据库技术并不能充分发挥这些数据的作用。本文介绍了数据仓库技术, 分析了数据仓库技术对于现代企业的作用, 给出了在企业中建立数据仓库的方法和实施步骤, 同时介绍了市场上一些成熟的数据仓库解决方案。

关键词:数据库,数据仓库,联机分析

参考文献

[1]刘军, 叶钒:基于数据仓库和数据挖掘的应用研究[J].福建电脑, 2007 (3) .

数据仓库在航空气象上应用探讨 篇9

随着民航气象事业的不断发展, 针对机场的气象资料也不断地完善, 也呈现出复杂化和多样化的趋势。机场气象台每天可获得民航气象数据库的多种气象图形资料和报文, 接收卫星云图数据, 接收地方气象台提供的MICAPS原始数据、填图资料以及省台天气雷达资料, 本场探测设备还可提供自动气象观测系统数据和多普勒天气雷达数据等资料。建立数据仓库可以有效地管理和高效地利用这些气象资料, 对这些分散的气象资料进行集成、加工和分析, 为气象预报的决策提供重要的帮助。

2 数据仓库的含义[1]

对数据仓库可以这样理解, 它是对多个异构的数据源的有效集成, 集成后再按照不同的主题进行重组, 不断增添新的数据变成历史数据, 存放在仓库中的数据不再修改, 用来支持管理和决策。数据仓库具有以下特点:首先, 它是面向主题的, 主题是指用户进行决策时所关心的重点方面, 而数据仓库中的数据是按照一定的主题域进行组织;其次, 它里面的数据是集成的, 数据仓库中的数据是对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理而得到的;第三, 它里面的数据是相对稳定的, 数据仓库中的数据主要供决策分析之用, 如果某个数据进入到数据仓库后, 将被长期保留而不被删除;第四, 它可以反映历史变化, 数据仓库中的数据通常包含历史信息, 系统记录了某一主题从过去的某一时刻到目前各个阶段的信息, 通过这些信息可以对该主题的发展历程和未来趋势做出分析和预测。

3 民航气象数据仓库系统的组成

建立一个气象数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用4个部分。数据仓库环境最重要的3个环节包括抽取 (extract) 、转换 (transform) 及加载 (load, 把数据从源数据系统中加载到数据仓库) , 即ETL过程。根据民航气象业务的特点和需求我们建立独立数据集市的数据仓库体系结构, 数据集市是范围受限的小型数据仓库, 常用于特定终端用户群制定决策应用。在这种情况下, 每个独立的数据集市内容都来自于独立的ETL处理过程。民航气象数据仓库体系结构如图1所示:

3.1 数据源

数据源是数据仓库系统的基础, 即系统的数据来源。民航气象数据仓库的数据源通常是本场所获得的各种气象资料和数据, 主要包括本场的自动气象观测系统数据、本场的多普勒天气雷达数据、本场接收的卫星云图数据、本场接收的民航气象数据库数据和地方气象台向本场传送的MI-CAPS资料原始数据等。

3.2 主题确定与分析

数据仓库中所含的数据是按照若干特定的主题来组织的, 主题是指在高层次上将业务数据进行综合、归类和分析利用的一个抽象概念, 每个主题基本对应业务的一个分析领域, 主题的确定与分析是数据仓库建立的重要过程。

民航气象数据仓库的主题可以针对民航气象的特点来确定, 例如:根据对航班起降影响很大的因素 (如能见度、风切变、降雪等) 来确定主题, 根据对航路影响很大的因素 (如雷暴、强对流云团等) 确定主题。在提出主题后还需要对数据进行分析, 以确定数据流对主题支持的力度和强度, 并在此基础上调整主题。

3.3 数据存储与管理

数据的存储与管理是整个数据仓库系统的核心。数据存储系统首先从本场的自动观测系统数据、本场多普勒天气雷达数据、卫星云图数据、MICAPS原始数据中抽取数据, 然后对抽取后的原始数据进行整合集成, 使同样的数据在量纲、精度和意义等方面达到一致, 使之从原始数据转化成分析型数据, 以便于分析。

集成后得到的数据要按照主题进行重新组织, 将一个数据仓库划分成若干个主题域, 并在数据仓库的数据库中存储起来, 通过元数据对数据仓库中的数据进行管理。元数据是描述数据的数据, 它对数据仓库所有数据的进行全面描述, 如数据来源、时空特征、质量、精度、经过哪些变换和存储位置等, 就像数据的目录一样。数据仓库的元数据除包含数据的信息外, 还包含许多系统结构信息, 如数据源和数据存储服务器的IP地址、数据具体位置 (目录、文件名定义、数据格式或数据库的库名、表名、属性列表等) 。通过这些参数, 用户和应用程序可以快速地了解数据仓库中的海量数据情况, 准确地定位数据, 并将数据正确地写入、读出和使用。目前, WMO已经提出了WMO核心元数据标准[2]和气候数据的元数据标准[3]。

3.4 联机分析处理系统 (OLAP)

数据的存储和处理后, 通过建立联机分析处理系统将数据仓库中所存储的数据进行分析, 来揭示多种数据之间的必然联系, 从而找某种事物发展变化的客观规律, 并生成相应的图形或图像来直观地展示给用户。由于高维空间的数据是无法直接显示的, 可以通过联机分析处理系统的切片和切块操作进行降维处理。切片就是在多维数组中在其它维取固定值的情况下取一个二维子集, 切块就是在多维数组中其它维取固定值的情况下取一个三维子集;还可以根据用户的需要进行旋转和钻取操作, 钻取可以看成是交换多维数组中各维的顺序, 使朝向用户的二维坐标改变, 钻取是改变显示粒度大小。

联机分析处理系统可以对得到的数据进行多维分析[4]。多维分析中的维包括空间维和要素, 空间维一般是指要素存在的时空, 包括经纬度、高度、时间等, 是自变量, 而要素这里指的是各种气象要素的物理量数据, 是因变量。以雷暴主题为例, 对航路内多个观测站点的实时和历史的观测数据以及卫星云图资料的实时和历史数据等相关数据进行聚集, 获得分析型数据, 用户 (预报员) 对分析型数据进行多维分析, 获得随经纬度、高度及时间变化的天气系统变化结果, 来判断在航路上是否有雷暴生成以及发展的过程, 评估对航班的影响程度。

针对机场预报的特点, 可以在多维分析的基础上进行多元分析。多元分析是将空间的位置固定, 只随时间变化的要素值作为维的多维分析。以能见度主题为例, 自动气象观测系统可测量出的气象要素包括温度、湿度、气压、风向、风速、能见度、降水量、云高等, 将每个气象要素看做分析中的一维, 对本场的气象要素进行多元分析。将能见度视为因变量, 其它气象要素视为自变量, 通过切片、切块和旋转操作可以向用户展示能见度随一种或几种气象要素变化而变化的图形, 从而揭示能见度与其它气象要素之间的变化关系, 分析哪些气象要素与能见度的变化关系比较密切, 哪些次之。

4 结束语

数据仓库技术可以将离散的、毫无关联的原始数据和历史数据转化成分析型数据, 通过用户所需求的主题域进行重新划分, 用户针对主题利用联机分析处理系统对数据进行多维分析和多元分析, 以便对影响航班飞行的重要气象因素进行准确地预报。数据仓库技术很多时候与数据挖掘技术相结合, 通过各种数据挖掘算法 (关联规则、决策树、聚类算法、贝叶斯网络、神经网络以及遗传算法等) 自动寻找数据的发展趋势、数据中隐含的模型以及数据之间的关联关系, 使预报员快速积累经验, 对航空气象预报的决策提供有力的帮助。

参考文献

[1]陈志泊主编.数据仓库与数据挖掘[M].北京:清华大学出版社, 2009.

[2]Metadata Standard (incl ET-IDM Report) .ICT-ISS 2002/Doc.7 (1) , http://www.wmo.ch/web/www/TEM/ICT-ISS2002/7 (1) -metadata.doc, 2002.

[3]WMO Core Metadata Implementation for Climate Data.ETIDM-IV/DOC.3-1 (7) , http://www.wmo.int/web/www/WDM/ET-IDM-4/Doc-3-1 (7) .doc, 2004

数据仓库应用 篇10

关键词:刑侦数据仓库,模型设计,主题事实表,数据挖掘

1 引言 (Introduction)

目前, 随着社会政治、经济和科学技术的高速发展, 现代犯罪行为表现出了速度化、智能化、高科技化的特点[1], 国际上目前状况的安全信息化技术发展迅猛, 公安信息化技术的发展使公安刑侦数据仓库模型设计成为刑侦数据仓库研究的核心问题之一, 而与数据仓库技术发展相辅相成的数据挖掘技术, 虽然在很多领域的研究取得了进展, 但在我国公安刑侦工作的研究中尚处于初级阶段[2]。因此, 面对我国目前的这种情况, 将数据挖掘技术应用于刑侦工作, 及时发现新的规则, 以提高执法效率与快速反应能力、及时的预防与打击犯罪行为, 成为公安工作中急需解决的问题[3]。但是公安工作具有其自身的规律和特殊性, 当前在实际刑侦工作中针对公安刑侦数据仓库及其数据挖掘算法的应用较少, 需要加大对其的研究工作, 解决目前面临的诸多问题。本文首先针对公安刑侦数据信息复杂化多样性的特点, 提出利用当前公安现有计算机信息系统资源及其网络, 形成统一标准, 将公安各类档案数据信息有机结合起来, 构建具有统一标准, 覆盖范围广泛, 信息准确, 反应迅速, 各部门相互协调运行的跨地区、跨部门的信息交换和共享平台, 形成用于公安刑侦的数据仓库操作平台;接着, 针对数据挖掘技术在刑侦工作中存在的问题进行了分析研究, 并在此基础上建立一个基于数据挖掘技术的刑侦档案信息整合及综合查询/查证和分析系统, 帮助一线民警对跨地区、跨部门的刑侦档案数据进行检索和挖掘, 从已有的刑侦档案数据信息中找出相关的犯罪线索及规律, 为刑侦档案数据的信息处理提供科学依据, 提高整个公安系统的整体协调能力和工作效率, 有利于进一步的刑侦数据信息联机分析处理和有用信息挖掘以及为公安安全防范决策服务。

2 数据仓库与数据挖掘有关概念 (Relevant conceptson data warehouse and data mining)

我们知道, 数据库是用于事务处理的, 而数据仓库是由大量的相关数据集成而来的, 是用于决策分析的。数据仓库将大量的数据库的数据按决策需求进行统一、综合和重新组织, 然后以数据仓库的形式进行存储。目前, 用于刑侦数据仓库涉及到的数据量极为庞大, 并且根据案件的情节和后果, 如何查明案件性质、作案过程以及案件反映当事人和社会等相关更深层次的问题, 传统的数据库数据建模方法已经显得过于陈旧, 无法适应当前现状。传统数据库那种面向事务型分析处理工作的数据建模方法显得力不存心, 而数据仓库数据的建模是面向数据分析为决策提供服务的, 它包含大量的历史数据、当前细节数据以及综合数据, 因此, 其采用多维数据模型的数据建模方法, 完成对数据仓库中数据的建模和组织。数据挖掘是从大量数据中, 根据某种算法及规则, 提取出隐藏在数据中的有用及人们感兴趣的信息, 为人们的正确决策提供服务。用数据库管理系统来存储数据, 用机器学习方法来分析数据, 挖掘大量数据背后的知识, 这两者的结合促成了数据挖掘技术的产生[4,5]。

3 刑侦数据仓库模型设计 (Model design on Data warehouse of criminal investigation)

3.1 概念模型设计

3.1.1 确定主题域及其内容

面对目前刑侦数据信息的复杂化多样性, 构建刑侦数据仓库需要对刑侦数据信息特点及对刑侦数据仓库进行具体的研究和分析, 需要首先从目前刑侦档案数据的实际情况, 将其从现场实际进行具体抽象, 也就是将现实的决策分析环境抽象成一个概念数据模型的过程分析。然后, 将此概念模型逻辑化[6]。通过分析及研究, 刑侦数据仓库中的主题域定义如下, 如图1所示。

(1) 人员:指刑侦数据仓库中所有案件所涉及到的相关人员。

人员主题分析:在此处我们将人员分为数据仓库的所有全部人员和涉及到违法犯罪的有关人员。

(2) 物证:指在现场侦查过程中, 能够在依法情况下搜集到的各种客观存在的物品或痕迹, 其外部特征、物质属性、所处位置以及状态能够证明案件事实情况。

物证主题分析:在侦查破案中, 物证起着非常关键的作用, 对案件的侦破速度、案件性质和相关结果往往能起到决定的作用。以物证为主题, 能为查明案件事实提供线索和依据的同时, 发现许多相关隐藏的潜在关系, 对案件的串并、数据挖掘及刑侦研究提供支持和保障。

(3) 案件:指刑侦业务数据库内所有涉及到的案件。

案件主题分析:案件主题分为未破案件和已破案件两类, 在刑侦工作中案件的侦破是目的, 数据仓库中以案件做主题进行数据组织, 便于对案件进行特性分析统计及数据挖掘, 可以完成逻辑模型向数据仓库模型转化, 为数据仓库概念模型设计、逻辑模型设计和物理模型设计提供了可靠的设计方案。

(4) 组织:指刑侦数据仓库中违反犯罪涉案人员所在的组织。

组织主题分析:组织主题分为团伙犯罪, 同监舍关系和社会关系三种类型。组织主题发现许多相关隐藏的潜在关系, 有利于案件的串并、数据挖掘及刑侦研究。

(5) 地域主题:指有关案件发生的地域。

地域主题分析:地域主题有利于实际工作中犯罪的预防、现有警力的合理配置和领导的安全防范决策。因为不同的地域违法犯罪具有不同的特性, 地域主题使地域性、区域性的犯罪特征和犯罪趋势等相关规则通过数据挖掘得以实现。

3.1.2 确定系统边界

对于当前刑侦数据仓库的模型设计, 必须根据现实情况, 在明确需求分析的情况下, 首先要下大工夫实地考察调研等, 确切刑侦案件办案的整个具体流程, 通过流程显示系统所实现的功能, 然后确定系统边界, 如图2所示。

其次通过系统需求分析, 明确系统相关业务部分的业务流程和功能需求情况, 将刑侦案件办案流程中所需信息资源和整个案件的所有数据信息进行定义, 进行数据的抽取、转换和装载, 通过E-R模型来实现本刑侦数据仓库的概念模型。数据仓库为不同的用户随时提供各种辅助决策的随机查询、综合数据或趋势分析等信息, 以数据仓库为基础, 结合联机分析处理和数据挖掘为不同目的的决策提供支持。综合刑侦数据仓库数据的多维特性及联机分析处理, 传统的数据流图描述已经不能满足需要, 因此系统采用多维立方体模型来描述[7]。

3.2 逻辑模型设计

对于刑侦数据仓库的数据信息来说, 针对其信息组织特点和概念模型的多维特性, 一般采取星型模式来实现刑侦案件数据集市和刑侦案件数据仓库逻辑模型设计[8], 如图3所示。

星型模型是由“事实表” (大表) 以及多个“维表” (小表) 所组成。在该模式中, 中间是事实表, 周围是维表。星型模型逻辑模型设计阶段, 主要进行的工作是针对刑侦数据仓库的事实数据进行主题域分析、确定当前要装载的主题、粒度层次划分、关系模式、数据分割策略、定义记录系统等。通过确定决策分析需求, 从需求中识别出事实, 确定维表等, 就可以用包含主题的事实表和多个维表来执行侦查、分析及安全防范等决策支持的相关查询。具体内容如下:

比如针对报警人、受害人及案件操作等的维表:

报警人信息维:报警人身份证号、报警人姓名、报警人性别、报警人电话号码、报警人年龄、报警人职业、报警人地址、报警人报警时间等。

受害人信息维:受害人唯一编号、受害人身份证号、受害人姓名、受害人性别、受害人电话号码、受害人年龄、受害人职业、受害人地址、受害人物品等。

案件操作历史维:操作权限、系统操作序号、案件编号、操作时间、操作记录、操作人编号或姓名等。

同理也可描述事实信息维表:

案件基本信息维:案件负责人编号、案件编号、报警人姓名、受害人编号、案件登记时间、案件操作号、案件操作记录等。

案件流程信息表:案件编号、案件当前状态、案件操作号、案件操作记录等。

针对完成的刑侦案件各部分概念结构模块, 需要进一步分析各模块对刑侦数据仓库总体框架的匹配及功能服务, 符合需求分析后就可以进行数据仓库的设计及实现, 当然, 也可以相对独立的开发其相关独立的或从属的数据集市。众所周知, 就当前的绝大多数的刑侦数据仓库, 其数据来源不一而足, 有针对一个省或市的信息, 也有来自不同的区域或部门的, 更有来自不同平台或不同系统的。因此, 要构建数据集市或数据仓库, 首先要对这些数据进行统一的规格化处理, 经过统一的格式对数据进行抽取、清洗、转换及装载等过程, 才能构成数据集市;而相关独立的或从属的数据集市的完成, 可升级到完整的刑侦数据仓库。

3.3 物理模型设计

从逻辑模型即星型模型到物理模型设计的转换完全遵循传统的数据库设计方法。针对刑侦数据仓库的数据, 其物理模型设计需要确定一个最适合应用要求的物理结构, 即估计存储容量、确定数据的存储计划、确定索引策略、确定数据存放位置及确定存储分配等。在星型模型中, 不管是其综合事实表还是其维表, 一般情况下都是转变为对应的物理数据库表进行存储, 但由于刑侦数据仓库的综合事实表包含涉案案件的众多基本信息, 其数据量庞大, 而其维表虽然包含各方面的具体细节信息 (如受害人信息) , 但其数据量相对来说不是很大, 因此在物理模型设计过程中, 完成前面描述有关内容外, 还需要认真解决多维数据库管理系统对数据的访问的效率及灵活程度, 所以要用多种数据挖掘方法对数据进行切片、分割、钻取和旋转等, 以便动态地考察汇总数据和细节数据的关系, 为安全防范决策提供技术支持。

目前, 高速存储设备 (如硬盘) 已成为主要存储媒介, 其存取速度不但与数据存放的位置有关, 而且还与存储设备本身的存取速度有关。因此, 对于刑侦数据仓库中其记录庞大的事实表, 其涉案案件的基本数据信息按其多维性可以考虑分区存放, 而反映其细节数据的各种维表, 则可以比较集中的存放于相对独立的某个表空间。一般情况下还必须建立相关表的索引, 但索引也是在消耗大量的磁盘空间的基础上, 提高数据的读取速度, 同时, 索引也会带来数据更新速度降低的问题。因此不同系统物理模型设计应根据具体的硬件环境和决策需求合理地进行选择, 在首先要保证数据仓库稳定性及有效满足仓库应用者需求的基础上, 尽量减少有用信息获取时间, 提高数据仓库的应用效率, 为进一步的刑侦数据挖掘或相关决策指挥服务。综上所述, 针对公安数据信息分布性共享的特点, 刑侦数据仓库物理模型一般采取分布存储方式。

4 刑侦数据仓库的数据挖掘 (Data mining on Data warehouse of criminal investigation)

对于刑事案件信息数据仓库的数据挖掘, 首先要明确数据挖掘的任务或目的, 如要进行数据的分类、聚类、关联规则发现或序列模式发现等达到什么样的目的。目前, 我们可以分别进行犯罪嫌疑人基本信息、作案规律特点有关信息、损失物品信息、现场痕迹物证信息等的数据挖掘, 同时, 如果与被盗抢机动车信息和CCIC (中国国家犯罪信息中心) 连接的话, 将可以进行更深层次的数据挖掘。有了确定的数据挖掘目的, 才能针对其挖掘任务有选择性地决定使用什么样的挖掘算法才能达到更好的目的。比如对于犯罪嫌疑人信息的数据挖掘, 我们可以对数据进行切片、分割、钻取和旋转等操作, 进行作案规律特点库和现场痕迹物证库等的信息分析比对, 实施相应的数据挖掘算法, 获取有用的模式, 为打击违反犯罪及公安安全防范提供决策服务。刑侦数据仓库的数据挖掘方法如图4所示。

5 结论 (Conclusion)

随着犯罪信息的数字化和网络化, 在现代刑事侦查及公安工作中, 利用数据仓库与数据挖掘技术进行侦查破案, 运用系统科学优化数据仓库以及多层多目标交互式决策建立和优化数据仓库等, 显得越来越重要;而将数据挖掘技术这门新兴科学有效地应用于刑侦工作不但是顺应潮流, 而且是目前公安工作现实斗争的迫切需要。在我们实际的刑事侦查工作中, 各地区一线的刑侦部门已经积累了大量的刑侦档案文件, 这些数据通过刑侦数据仓库的模型设计, 实施其跨平台的海量数据的信息整合和数据挖掘, 然后就可以获取大量的有用知识, 这些知识不仅对于刑侦研究还是对于一线的刑侦工作, 具有非常深刻的科学理论意义和重要的实用价值。本文针对刑侦档案数据, 对刑侦数据仓库模型设计和数据挖掘进行了初步的探讨, 同时, 面向刑侦数据仓库, 给出了刑侦数据挖掘的系统框架及挖掘方法。我们将针对刑事侦查研究与实际工作中的一些实际问题, 在未来的研究中, 逐步完善试验平台, 结合科学技术的发展, 尝试给出不同的解决方案, 进一步深入研究相关算法在实际中的应用。

参考文献

[1]李小青.论公安刑侦数据仓库建模[J].广州市公安管理干部学院学报, 2008, 67 (1) :18-24.

[2]黄维金, 顾益军.刑侦档案文本挖掘系统平台中的文本精炼初探[J].中国人民公安大学学报 (自然科学版) , 2006, 48 (2) :75-77.

[3]张辉.数据挖掘技术及其在刑侦工作中的应用[J].信息技术与信息化开发与应用, 2005, 4:111-113.

[4]麦永浩.数据仓库和数据挖掘方法研究及其在公安信息建设中的应用[D].华东理工大学博士学位论文.2000:102-105.

[5]李敬社, 张小木, 黄泽贵.数据挖掘技术的方法和最新进展[J].现代电子技术, 2004, (6) :54-56.

[6]陈海燕.基于HIS的数据仓库的建设及数据挖掘[D].2004.6-10.

[7]金光, 等.基于数据挖掘决策树的犯罪风险预测模型[J].计算机工程与应用, 2003, 2:112-114.

上一篇:小学科学教学方式研究下一篇:移动通信