数据仓库与数据挖掘论文

2024-07-25

数据仓库与数据挖掘论文(通用9篇)

篇1:数据仓库与数据挖掘论文

决策树在教学评价中的应用研究

摘 要 决策树学习是人们广泛使用的一种归纳推理形式。先就决策树和决策树学习算法进行介绍,然后用实例阐述决策树在教育信息处理中的应用,主要以在教学评价中的应用为例来加以介绍。

关键词 决策树;数据挖掘;教育信息处理;教学评价

当今社会处于一个信息爆炸的时代,海量的数据可以用来选择和发掘信息,然而有时却让人无从下手,因此数据挖掘技术受到人们的高度关注。数据挖掘是从大量的、不完全的、有噪声的、模糊的或者随机的数据中提取人们事先不知道的但又是有用的信息和知识的过程。它的方法很多,其中决策树是一种解决实际应用分类问题的数据挖掘方法。在教育教学中,根据决策树算法的实际特点,它可以在教育信息处理中的信息采集上发挥很大的作用。决策树介绍

决策树学习是人们广泛使用的一种归纳推理形式。决策树起源于概念学习系统,其思路是找出最有分辨能力的属性,把数据库划分为许多子集(对应树的一个分枝),构成一个分枝过程,然后对每一个子集递归调用分支过程,直到所有子集包含同一类的数据。最后得到的决策树能对新的例子进行分类。它一般是从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它一般需要给定一组训练例子,训练例子一般被看成用于创建模型的数据集。由此可以看出,决策树是一个类似于流程图的树结构,其中每一个内部结点表示对一个属性的测试,每一个分支代表一个决策输出,而每个叶节点代表一个目标分类。决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子结点即为实例所属的分类,树上每个节点说明对实例的某个属性的测试,节点的每个后继分支对应于该属性的一个可能值。假如需要根据人员的外貌特征对人员进行分类,用于人员的外貌特征有3个,外貌列表={高度,发色,眼睛};各属性的值域分别为:高度={高,矮},发色={黑色,红色,金色},眼睛={黑色,棕色}。分类结果有两种:种类={+,-}。提供的训练例子集为:T={<(矮,金色,黑色),+>,<(高,金色,棕色),->,<(高,红色,黑色),+>,<(矮,黑色,黑色),->,<(高,黑色,黑色),->,<(高,金色,黑色),+>,<(高,黑色,棕色),->,<(矮,金色,棕色),->}。上述文字可构造图1所示决策树。决策树学习算法

决策树算法有几种,如ID3、C4.5、CA RT等。其中ID3算法是最经典的算法,该算法从根节点开始,这个根结点被赋予一个最好的属性。随后对该属性的每个取值都生成相应的分支,在每个分支的终点上又生成新的节点。然后按照该属性的取值将每个训练例子都分别赋给一个相应的新节点。如果没有任何训练例子能赋给某个节点,那么该节点连同相应的分支都将被删除。这时,将每一个新节点都视作一个新的根节点,重复执行整个过程。这里,最好属性的选择要基于信息增益这个统计特性。在定义信息增益前,先要了解另一统计特性:熵。

给定一组有c个分类的训练例子,对属性a来说,它有值v,其中pi是在第i类中属性a取值为v的概率。为了能选出最好的属性,需要使用度量信息增益。一属性的信息增益就是按照该属性对训练例子进行划分所带来的熵的减少量。其中,T是训练例子的集合,Tj是属性A取值为j的训练例子集合,为T的一个子集。决策树在教育中的应用

在教育教学中,尤其是在高等教育体系中,学校的数据库中存贮着大量的教育教学信息,其中一部分和教学有关,如学校的开课排课情况、教师情况;一部分和学生有关,如学生历年的考试、测验成绩等。这些大量的数据后面隐藏着大量的信息,只要加以分析,就能得到许多有用的信息,如教育规律、学生的培养模式、学生学科间的差异性和相关性的一些规律。这些规律对教育管理决策来说是相当重要的,对教育教学改革有指导性的意义。

3.1 决策树在教育信息处理中的应用

决策树表示的是一个离散值函数,树中每一个节点表示一个属性,同时目标分类具有离散的输出值信息。教育中的大量信息,一般都是对一些离散的数据进行分析,比如学习成绩一般分成优、良、中、差,外语六级成绩分成过与未过,这些信息都可以用决策树来加以分类归纳,对于连续的属性值,也可以进行离散化处理后再利用决策树来加以分析。

3.2 决策树在教学评价中的应用案例

决策树在教育信息处理中的应用很广泛,下面以决策树在教学评价中的应用为例,来说明在教育信息处理中是如何使用决策树来分析的。教学评价在教育中是一个重要的问题,它是指依据一定的教学目标与教学规范标准,通过对学校教与学等教育情况的系统检测与考核,评定其教学效果与教学目标的实现程度。教学评价具有复杂性、多因素性和模糊性等特点。如何客观、科学、全面地对教学进行评价,是教学评价中一个重要的课题,下面尝试将决策树应用于教学评价。

在评价之初要有一个数据采集的过程,之后可以用决策树来加以分析。课堂教学评价指标体系分为若干项,从教师的角度可以分为授课态度A1、授课方法A2、授课内容A3、授课效果A4、教学评价A5,可以取训练例子如表1所示。

对给定的训练例子数据是把连续的数据离散化的结果,A为评分90~100,B为评分80~89,C为评分70~79,D为评分60~69,E为评分<60,N1为教师编号,表中的A5为目标分类。

如果利用前面的ID3算法建立决策树,先检验所有信息增益的特征属性,选择信息增益最大的属性作为决策树的结点,由该特征的不同取值建立分支,对此分支的实例子集递归该方法建立决策树的结点和分支,直到某一子集中的例子属于同一类。

对给定训练例子的熵为:E(T)= 1.295 46。

表1 训练例子

N1 A1 A2 A3 A4 A5 1 B B B B 良 2 B B B B 良 3 B B B C 良 4 A A A A 优 5 B C C C 中 6 C C C C 中 7 B C B B 良 8 B B C C 良 9 C B C C 中 A A B B 良

以属性A1为例,A1的值={A,B,C},由表中可以看出A3的信息增益最大,所以选A3属性作为根节点的测试属性,并根据其值向下分支,利用ID3算法进一步划分,当根节点到当前节点的路径上包括所有属性或当前节点的训练样本同属一类时,算法结束。根据以上分析给出图2所示决策树。

图2 决策树

可以根据生成的决策树,方便地提取其描述的知识,比如授课内容A3在这里产生的信息增益最大等信息。小结

在教育信息中存在隐藏在数据中的规则,这些规则可以用不同的方法被挖掘。本文只是对决策树中的分类ID3算法在数据处理中的应用进行研究,目的是得到教育教学中存在的规则,利用发现的规则对教育管理决策提供有参考意义的信息。

参 考 文 献

[1]Callan R.人工智能[M].北京:电子工业出版社,2004 [2]尹朝庆.人工智能与专家系统[M].北京:中国水利水电出版社,2003 [3]朱福喜,等.人工智能原理[M].武汉:武汉大学出版社,2002 [4]陈翔,刘军丽.应用决策树方法构建评价指标体系[J].计算机应用,2006,26(2):368-370 [5]谷琼,等.基于决策树技术的高校研究生信息库数据挖掘研究[J].电子技术应用,2006,32(1):20-22 [6]王中辉,等.决策树在教学评价中的应用[J]甘肃科技,2006,22(3):125-126,106

篇2:数据仓库与数据挖掘论文

通过数据仓库与数据挖掘的这门课的学习,掌握了数据仓库与数据挖掘的一些基础知识和基本概念,了解了数据仓库与数据库的区别。下面谈谈我对数据仓库与数据挖掘学习心得以及阅读相关方面的论文的学习体会。

《浅谈数据仓库与数据挖掘》这篇论文主要是介绍数据仓库与数据挖掘的的一些基本概念。数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。主题是数据数据归类的标准,每个主题对应一个客观分析的领域,他可为辅助决策集成多个部门不同系统的大量数据。数据仓库包含了大量的历史数据,经集成后进入数据仓库的数据极少更新的。数据仓库内的数据时间一般为5年至10年,主要用于进行时间趋势分析。数据仓库的数据量很大。

数据仓库的特点如下:

1、数据仓库是面向主题的;

2、数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;

3、数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;

4、数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求,它在商业领域取得了巨大的成功。

作为一个系统,数据仓库至少包括3个基本的功能部分:数据获取:数据存储和管理;信息访问。

数据挖掘的定义:数据挖掘从技术上来说是从大量的、不完全的、有噪音的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。

数据开采技术的目标是从大量数据中,发现隐藏于其后的规律或数据间的的关系,从而服务于决策。数据挖掘的主要任务有广义知识;分类和预测;关联分析;聚类。

《数据仓库与数据挖掘技术在金融信息化中的应用》论文主要通过介绍数据额仓库与数据挖掘的起源、定义以及特征的等方面的介绍引出其在金融信息化中的应用。在金融信息化的应用方面,金融机构利用信息技术从过去积累的、海量的、以不同形式存储的数据资料里提取隐藏着的许多

重要信息,并对它们进行高层次的分析,发现和挖掘出这些数据间的整体特征描述及发展趋势预测,找出对决策有价值的信息,以防范银行的经营风险、实现银行科技管理及银行科学决策。

篇3:浅谈数据挖掘与数据仓库

1.1 数据挖掘与传统数据分析的区别

数据挖掘与传统的数据分析, 如查询、报表、联机应用分析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。即数据挖掘是要发现那些不能靠直觉发现的信息或知识, 甚至是违背直觉的信息或知识, 挖掘出的信息越出乎意料就可能越有价值。而传统的数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件。因此数据挖掘与传统分析方法有很大的不同。

1.2 数据挖掘的应用价值

(1) 分类:首先从数据中选出已经分好类的训练集, 在该训练集上运用数据挖掘分类的技术, 建立分类模型, 对于没有分类的数据进行分类。 (2) 估计:与分类类似, 不同之处在于, 分类描述的是离散型变量的输出, 而估值处理连续值的输出;分类是确定数目的, 估计是不确定的。 (3) 聚类:是对记录分组。聚类和分类的区别是聚集不依赖于预先定义好的类, 不需要训练集。中国移动采用先进的数据挖掘工具马克威分析系统, 对用户wap上网的行为进行聚类分析, 通过客户分群, 进行精确营销。 (4) 关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟, 比重有多大, 可以通过关联的支持度和可信度来描述。与关联不同, 序列是一种纵向的联系。例如:今天银行调整利率, 明天股市的变化。 (5) 预测:通过分类或估值得出模型, 该模型用于对未知变量的预言。 (6) 偏差的检测:对分析对象的少数的、极端的特例的描述, 揭示内在的原因。

除此之外, 在客户分析, 运筹和企业资源的优化, 异常检测, 企业分析模型的管理的方面都有广泛使用价值。

2 数据仓库

2.1 数据仓库的特征

(1) 面向主题 (Subject Oriented) 的数据集合。数据仓库围绕一些主题如顾客、供应商、产品和销售来组织。数据仓库关注决策者的数据建模与分析, 而不是组织机构的日常操作和事务处理。 (2) 集成 (Integrated) 的数据集合。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的, 必须消除源数据中的不一致性, 以保证数据仓库内的信息是关于整个企业的一致的全局信息。 (3) 时变 (Time Variant) 的数据集合。数据存储从历史的角度提供信息。数据仓库中的数据通常包含历史信息, 通过这些信息, 可以对企业的发展历程和未来趋势做出定量分析和预测。 (4) 非易失 (Nonvolatile) 的数据集合。数据仓库的数据主要供企业决策分析之用, 所涉及的数据操作主要是数据查询, 修改和删除操作很少, 通常只需要定期的加载、刷新。数据仓库里的数据通常只需要两种操作:初始化载入和数据访问, 因此其数据相对稳定, 极少或根本不更新。

2.2 数据仓库的类型

数据仓库的类型根据数据仓库所管理的数据类型和它们所解决的企业问题范围, 一般可将数据仓库分为下列3种类型:企业数据仓库 (EDW) 、操作型数据库 (ODS) 和数据集市 (Data Marts) 。 (1) 企业数据仓库为通用数据仓库, 它既含有大量详细的数据, 也含有大量累赘的或聚集的数据, 这些数据具有不易改变性和面向历史性。此种数据仓库被用来进行涵盖多种企业领域上的战略或战术上的决策。 (2) 操作型数据库既可以被用来针对工作数据做决策支持, 又可用做将数据加载到数据仓库时的过渡区域。与EDW相比, ODS是面向主题和面向综合的, 易变的, 仅含有目前的、详细的数据, 不含有累计的、历史性的数据。 (3) 数据集市是为了特定的应用目的或应用范围, 而从数据仓库中独立出来的一部分数据, 也可称为部门数据或主题数据。几组数据集市可以组成一个EDW。

2.3 数据仓库与传统数据库的比较

二者的联系既有联系又有区别。数据仓库的出现, 并不是要取代数据库。目前, 大部分数据仓库还是用关系数据库管理系统来管理的。可以说, 数据库、数据仓库相辅相成、各有千秋。二者的区别可以从以下几个方面进行比较:

(1) 出发点不同:数据库是面向事务的设计;数据仓库是面向主题设计的。 (2) 存储的数据不同:数据库一般存储在线交易数据;数据仓库存储的一般是历史数据。 (3) 设计规则不同:数据库设计是尽量避免冗余, 一般采用符合范式的规则来设计;数据仓库在设计是有意引入冗余, 采用反范式的方式来设计。 (4) 提供的功能不同:数据库是为捕获数据而设计, 数据仓库是为分析数据而设计。 (5) 基本元素不同:数据库的基本元素是事实表, 数据仓库的基本元素是维度表。 (6) 容量不同:数据库在基本容量上要比数据仓库小的多。 (7) 服务对象不同:数据库是为了高效的事务处理而设计的, 服务对象为企业业务处理方面的工作人员;数据仓库是为了分析数据进行决策而设计的, 服务对象为企业高层决策人员。

3 数据仓库与数据挖掘的关系

当然为了数据挖掘你也不必非得建立一个数据仓库, 数据仓库不是必需的。建立一个巨大的数据仓库, 把各个不同源的数据统一在一起, 解决所有的数据冲突问题, 然后把所有的数据导到一个数据仓库内, 是一项巨大的工程, 可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘, 你可以把一个或几个事务数据库导到一个只读的数据库中, 就把它当作数据集市, 然后在他上面进行数据挖掘。

摘要:数据挖掘与数据仓库是当今新的技术热点, 数据仓库是一种解决数据使用的高效技术, 数据挖掘为之提供了更好的决策支持和服务, 同时促进了数据仓库技术的发展。本文简单介绍了这两者的概念和应用。

篇4:数据仓库与数据挖掘技术

关键词:数据仓库;数据挖掘

中图分类号:TP392文献标识码:A文章编号:1009-3044(2007)15-30631-02

On Data Warehouse and Data Mine

SHENG Wei-xiang1,LONG Jia-li2

(1.Department of Science & Law,Jiangxi Vocational College of Politics and Law,Nanchang 330013,China;2.College of Automation, Nanchang Hangkong University,Nanchang 330036,China)

Abstract:The Data Mine is a burgeoning technology,the research about it is developing flourishly.In this paper,it expatiates and analyses the concepts of Data Warehouse andData Mine.Together,discussing the connections of how to expand the two technologies,and combining the two technologies with prospect.

Key words:Data Warehouse;Data Mine

随着信息时代的不断进步,社会正处于数据技术飞速发展的良好状态。但是,在数据信息极度膨胀的同时,并非所有的数据都可被利用,大量的数据浪费,造成各种损失,所以有必要将这些数据转化为有用的信息。而传统的数据处理方法越来越不能满足使用要求,迫切需要一种从大量数据中搜索集中并去伪存真的技术。20世纪80年代后期至今,高级数据分析——数据挖掘(Data Mining,简称DM)发展起来,是开发信息资源的一套科学方法、算法以及软件工具和环境,是集统计学、人工智能、模式识别、并行运算、机器学习、数据库等技术为一体的一个交叉性的研究领域[1]。

1 数据挖掘

1.1数据挖掘定义及实现过程

数据挖掘就是用来发现隐含的、事先未知的、潜在的有用知识,提取的知识可以表示成概念、规律、模式等形式。其挖掘对象不仅可以是数据库,也可以是文件系统或组织在一起的数据集合,更主要的是数据仓库[2]。简单的说,数据挖掘是提取或“挖掘”知识。目前,数据挖掘是可以从统计学、数据库和机器学习等三个方面进行定义。从统计学的角度,数据挖掘是指分析所观察的数据集以发现可信的数据间的未知关系并提供给数据拥有者可理解的、新颖的和有用的归纳数据[1]。从数据库的角度来看,数据挖掘是指从存储在数据库、数据仓库或其他信息仓库中的大量数据中发现有趣的知识的过程[1]。从机器学习的角度,数据挖掘定义为从数据中抽取隐含的、明显未知的和潜在的有用的信息[1]。可以理解为,数据挖掘是一个从已知数据集合中发现各种模型、概要和导出值的过程。图1表示的是典型的数据挖掘系统的结构。

过程表述如下:从数据库或数据仓库等资源库中收集数据,并进行信息的初步筛选;根据用户对数据信息的要求,由服务器提取并传输有用的数据;为了对已经采集到的数据进行更有效的分配,数据挖掘引擎对数据进行特征化、关联、分类等操作;然后将精确划分的数据信息进行模式评估,从而使搜索仅限制在感兴趣的模式上,通过图形用户界面,用户可以方便的与数据挖掘系统之间通信,实现对数据的使用。

1.2数据挖掘分类

数据挖掘是一个交叉性的学科领域,涉及数据库技术、统计学理论、机器学习技术、模式识别技术、克视化理论和技术等。由于所用的数据挖掘方法不同、所挖掘的数据类型与知识类型不同、数据挖掘应用的不同,从而产生了大量的、各种不同类型的数据挖掘系统。掌握数据挖掘系统的不同非类,可以帮助用户确定最适合的数据挖掘系统[1]。

图1 典型的数据挖掘系统的结构

(1)根据所挖掘数据库类型的不同来分类:有关系型数据挖掘系统、对象型数据挖掘系统、对象-关系型数据挖掘系统、事务型数据挖掘系统、数据仓库的数据挖掘系统,等等。

(2)根据所挖掘的知识类型来分类:分为特征化、区分、关联、分类、聚类、孤立点分析(异常数据)和演变分析、偏差分析、相似性分析等分类。

(3)根据所采用技术的分类:有自动数据挖掘系统、证实驱动挖掘系统、发现挖掘系统和交互式数据挖掘系统。

(4)根据数据挖掘方法来分类:如面向数据库的方法、面向数据仓库的方法、机器学习方法、统计学方法、模式识别方法、神经网络方法等。

(5)根据数据挖掘应用的分类:有金融数据的数据挖掘系统、电信行业的数据挖掘系统、DNA序列数据挖掘系统、股票市场数据挖掘系统、WWW数据挖掘系统等等,不同的应用通常需要集成对于该应用特别有效果的方法。因此,普通的、全功能的数据挖掘系统并不一定适合特定领域的数据挖掘任务。

1.3数据挖掘任务

数据挖掘任务有6项:关联分析、时序模式、聚类、分类、偏差检测、预测[3]。

关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的取值之间重复出现并且概率很高的时候,就存在某种管理,可以建立起这些数据项的关联准则。

通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。

数据库中的数据可以划分为一系列有意义的子集,即类。在同一类别中,个体之间的距离较小,而不同类别的个体之间的距离偏大。聚类增强了人们对客观现实的认识,即通过聚类建立宏观概念。

分类是数据挖掘中应用最多的任务。分类是找出一个类别的概念描述,它代表了这类信息的整体,即该类的内涵描述。一般用规则或决策树模式表示。该模式能把数据库中的元组影射到给定类别中的某一个。

数据库中的数据存在很多异常情况。从数据分析中发现这些异常情况也是很重要的,应该引起足够的重视。偏差检测的基本方法是寻找观察结果与参照之间的差别。观察常常是某一个领域的值或多个域值的总汇。参照是给定模型的预测、外界提供的标准或另一个观察。

预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。近年来,发展起来的神经网络方法,如BP模型,实现了非线性样本的学习,能进行非线性函数的判别。分类也能进行预测,但是分类一般用于离散数值;回归预测用于连续数值;神经网络方法预测两者都可用。

2 数据仓库概述

数据仓库对不同的使用者、不同的操作范围,它有不同的意义。被誉为数据仓库之父的W.H.Inmom将数据仓库(Data Warehouse)定义为[4]:是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。对于数据仓库的概念可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

数据仓库具有以下特征:

(1)数据是面向主题的

传统的数据仓库只是单纯的数据的集中,在处理不同事务时执行不同的操作。而现今的数据仓库是有较强主题组织性的,高层次地将数据归类,去除无用的数据。

(2)数据的集成性

因为数据的来源是多方面的,必须根据一定的规则将所有的数据进行重新构造,即数据的集成。

(3)数据的相对稳定性

数据仓库中的数据是历史数据,具有一定的借鉴性,不会有大的变动。

(4)数据的不易失性(长期性)

数据仓库只是物理式的、筛选式的存放数据,不会改变数据本身的性质,那么其数据结构必定包含有时间效果,这样才能更好的体现历史数据的趋势预测性。

3 数据仓库与数据挖掘的关系

既然数据仓库的唯一功能是向终端用户提供信息以支持决策者,数据挖掘体现了数据仓库的一个最重要的应用。与其他查询工具和应用系统不同,数据挖掘过程向终端用户提供提取隐藏的、非同等常的信息的能力。这种信息虽然很难提取,但能提供更大的商业和科学利益,也能使对“数据仓库和数据挖掘”的投资产出更高的利润[5]。

从数据仓库的观点,数据挖掘可以看作是联机分析处理的高级阶段。但是作为更高级的数据分析技术,数据挖掘比数据仓库的汇总分析要详细和深入的多。数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数据挖掘越来越热门的原因之一。但是,数据挖掘并不一定要有数据仓库的支持,即数据仓库并不是数据挖掘的必要条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息,同时,数据挖掘仍然经常被看做是数据仓库的后期市场产品,因为那些努力建立起来的数据仓库有最丰富的数据资源可供挖掘。显然,数据仓库被更为广泛地接受将使人们对数据挖掘更感兴趣。

从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,很可能在做数据挖掘时就没必要再清理一次了,而且所有的数据不一致的问题都已经得到解决了。

数据挖掘库可能是数据仓库的一个逻辑子集,而不一定非得是物理上单独的数据库。但如果数据仓库的集中资源已经很紧张,那最好还是建立一个单独的数据挖掘库。

为了数据挖掘库,也不是一定要建立一个数据库。因为建立一个巨大的数据仓库,要把各个不同资源的数据集中在一起,并解决所有的数据冲突问题,然后把所有的数据导入一个数据仓库内,是一项非常巨大的工程,比较麻烦,需要时间和金钱的花费。如果只是为了数据挖掘,可以把一个或几个数据库导到一个只读的数据库中,就把它当作数据集合,然后在这上面进行数据挖掘。其中如何抽取、集成、筛选并准备数据以解决其最为紧迫的业务问题,将是分析人员在进行数据挖掘时所面临的最大挑战。解决这些问题,不仅是数据挖掘过程中的一个艰巨任务,而且需要耗费大量的时间。尽管在数据挖掘中并非一定要有数据仓库的支持,但数据仓库的确为数据集成和准备提供了一个好办法。

4 总结

构造在数据仓库平台的数据挖掘具有很强的实用性,效率很高,节省资源。目前,数据仓库和数据挖掘技术在科学研究、市场流通、企业管理等应用方面已经达到了一定的水平。随着信息化的加强,数据仓库的多维化和数据挖掘的效率化将更有效的结合起来,促进整个信息产业的发展。

参考文献:

[1]焦李成.等.智能数据挖掘与知识发现[M].西安:西安电子科技大学出版社.2006.8:1-7.

[2]Dustin R Callaway.精通Servlets[M].北京:清华大学出版社.2002:20-45.

[3]陈文伟.等.数据挖掘技术[M].北京:北京工业大学出版社.2002.12:1-6.

[4]钟飙等.数据仓库与数据挖掘技术概述[J].计算机与网络.2003.2:11-15.

[5]夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社.2004.:26-29.

篇5:数据挖掘与数据仓库--教学大纲

Data mining and data warehouse

课程编码:05405140 学分: 2.5 课程类别: 专业方向课 计划学时: 48 其中讲课:32 实验或实践: 上机:16 适用专业:信息管理与信息系统、电子商务 推荐教材:

陈文伟,数据仓库与数据挖掘教程,清华大学出版社,2008 参考书目:

1.Richard J.Roiger, Michael W.Geatz.Data Mining: A Tutorial-Based Primer.2003.2.Ian H.Witten, Eibe Frank.Data Mining: Practical Machine Learning Tools and Techniques(第二版).机械工业出版社(影印版),2005.3.Jiawei Han, Micheline Kamber.Data Mining: Concepts and Techniques.2001.5.4.数据仓库与数据挖掘技术(第2版),陈京民 编著,电子工业出版社,2007.11 5.数据仓库和数据挖掘,苏新宁 等编著,清华大学出版社,2006.4 6.数据挖掘Clementine应用实务,谢邦昌 主编,机械工业出版社,2008.4

课程的教学目的与任务

本课程将系统介绍数据挖掘的基本概念、基本原理和应用基础,通过课堂讲授、实例分析,提高学生数据挖掘技术的认识,熟悉基本工具应用,并掌握设计和开发数据挖掘算法和系统的初步能力。

课程的基本要求

1、了解数据仓库及数据挖掘的概念、特征、应用范围,以及主要数据挖掘工具

2、了解OLTP 和 OLAP的区别;熟悉OLAP 的体系结构,以及如何评价OLAP工具;掌握多维分析的基本分析动作。

3、了解数据质量,掌握数据预处理方法,4、掌握数据挖掘的定性归纳技术、关联挖掘、聚类分析、分类方法、预测方法、文本挖掘、WEB挖掘

5、熟练掌握数据挖掘软件Clementine在各类挖掘任务中的应用。各章节授课内容、教学方法及学时分配建议(含课内实验)

第一章.数据仓库与数据挖掘概述 建议学时:2 [教学目的与要求] 了解数据仓库及数据挖掘的概念、特征、应用范围,以及主要数据挖掘工具。[教学重点与难点] 数据仓库及数据挖掘的概念

[授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 1.1 为什么要数据挖掘 1.2 数据挖掘的应用示例 1.3 数据挖掘方法简介

1.4 数据挖掘与其他学科的关系 1.5 商务智能的三大块 1.6 常用数据挖掘工具简介

第二章 数据仓库技术

建议学时:4 [教学目的与要求] 了解数据仓库的概念,区分与传统数据库技术的不同;掌握数据仓库存储的抽取、转换和装载

[教学重点与难点] 数据仓库存储的抽取、转换和装载;数据仓库存储的数据模型 [授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 2.1 数据仓库的概念

2.2 数据仓库存储的数据模型 2.3 数据仓库的体系结构

2.4 数据仓库应用的抽取、转换和装载

第三章 数据仓库开发模型

建议学时:4 [教学目的与要求] 了解数据仓库开发模型的概念,了解数据仓库开发过程,掌握数据仓库三种概念模型:星型模式、雪花模式、或事实星座模式,掌握数据粒度概念,元数据概念。

[教学重点与难点] 数据仓库三种概念模型,数据粒度概念,元数据概念 [授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 3.1 数据仓库开发模型的概念

3.2 数据仓库的概念模型 3.3 数据仓库的逻辑模型 3.4 数据仓库的物理模型 3.5 数据仓库的生成

3.6 数据仓库的使用和维护

3.7 数据仓库的粒度、聚集和分割 3.8 元数据

第四章 联机分析处理(OLAP)技术 建议学时:4 [教学目的与要求] 了解OLTP 和 OLAP的区别;熟悉OLAP 的体系结构,以及如何评价OLAP工具;掌握多维分析的基本分析动作。[教学重点与难点] OLAP 的体系结构;多维分析的基本分析动作 [授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 4.1 从OLTP 到 OLAP 4.2 OLAP 的基本概念

4.3 多维分析的基本分析动作 4.4 OLAP 的数据组织 4.5 OLAP 的体系结构 4.6 OLAP 工具及评价

4.7 Codd 关于 OLAP 产品的十二条评价准则

第五章 数据挖掘的原理与技术 建议学时:4 [教学目的与要求] 了解为什么要数据挖掘、数据挖掘与其他学科的关系,熟悉常用数据挖掘方法和工具,掌握数据挖掘的原理与技术。

[教学重点与难点] 数据挖掘的原理与技术,数据挖掘与其他学科的关系 [授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 5.1 知识发现的过程

5.2 数据挖掘的方法和技术 5.3 数据挖掘的知识表示

第六章 数据的获取和管理 建议学时:4 [教学目的与要求] 了解数据的数据获取和管理,掌握数据质量的多维度量,掌握数据预处理方法 [教学重点与难点] 数据质量,数据预处理方法

[授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 6.1 数据仓库的数据获取 6.2 数据管理 6.3 系统管理 6.4 数据的预处理

6.5 数据质量的多维度量 6.6 数据预处理的主要方法

第七章 定性归纳

建议学时:2 [教学目的与要求] 了解数据挖掘的定性归纳技术,掌握ID3算法、C5.0算法。[教学重点与难点] ID3算法、C5.0算法

[授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 7.1 基本概念 7.2 数据泛化 7.3 属性相关分析 7.4 挖掘概念对比描述

7.5 挖掘大数据库的描述型统计信息

第八章 关联挖掘

建议学时:2 [教学目的与要求] 了解关联挖掘和的方法,掌握Apriori算法 [教学重点与难点] Apriori算法

[授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 8.1 基本概念

8.2 单维布尔逻辑关联规则挖掘 8.3 多层关联规则挖掘 8.4 多维关联规则挖掘

8.5 关联规则聚类系统(ARCS)8.6 关联规则其它内容

第九章

聚类分析

建议学时:2 [教学目的与要求] 了解什么是聚类分析、聚类和分类的区别,掌握聚类分析的算法。[教学重点与难点] 聚类分析的算法

[授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 9.1 什么是聚类分析

9.2 聚类分析中的数据类型 9.3 主要聚类算法的分类

第十章 分类 建议学时:2 [教学目的与要求] 了解什么是数据挖掘的分类,掌握KNN(K-Nearest Neighbor)分类和Bayes分类 [教学重点与难点] KNN(K-Nearest Neighbor)分类和Bayes分类 [授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 10.1 10.2 10.3 10.4 10.5

第十一章 预测 建议学时:2 [教学目的与要求] 了解预测算法,掌握回归预测、广义线性GenLin模型预测、支持向量机预测 [教学重点与难点] 回归预测、广义线性GenLin模型预测、支持向量机预测 [授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 11.1 11.2 预测的基本知识 预测的数据准备 分类的基本知识 决策树分类 支持向量机分类

KNN(K-Nearest Neighbor)分类 Bayes分类 11.3 11.4 11.5 11.6

预测的主要方法 回归预测

广义线性GenLin模型预测 支持向量机预测

篇6:数据仓库与数据挖掘论文

术研究

【中文摘要】本文研究了渤海海洋防灾减灾数据仓库构建过程中涉及到的一些关键技术,包括数据仓库设计,OLAP快速访问策略,以及序列OLAP系统设计。关于渤海海洋防灾减灾数据仓库的设计,分别进行了体系结构设计和数据模型设计。(1)数据仓库的体系结构设计:采用分层的思想,以及数据仓库和数据集市相结合的方式,设计数据仓库的体系结构,提高了大数据量数据仓库的访问速度。(2)数据仓库的数据模型设计:以防灾减灾数据仓库中的赤潮数据集市为例,从需求分析、主题提取,到概念、逻辑和物理模型设计,探讨了数据仓库的建立过程。关于OLAP快速访问策略,采用OLAP查询结果缓存技术,对内存中有限的Cache空间进行优化利用,尽量保留用户最感兴趣的临时结果,在用户下次访问相同结果时,不必要重新去数据仓库中查询,而是直接把临时结果返回,提高了数据仓库的访问速度。关于序列OLAP技术研究,针对实际应用中存在的序列数据,开展了序列OLAP系统的形式化描述、系统架构以及系统实现等方面的研究。

【英文摘要】This paper study many key technologies involved in the process of building Bohai marine disaster prevention and mitigation data warehouse, including design the Data Warehouse, OLAP quick access policy and sequence OLAP system design.Bohai marine disaster prevention and mitigation Data warehouse

design including two aspects, one is the architecture design and the other is data model design.(1)Design the architecture of Data warehouse:Adopted the idea of stratified as well as combination data warehouse with data mart to design the data warehouse architecture, and improved the access speed of the data warehouse with a large amount of data.(2)Dign the data model of Data warehouse:take the red tide data mart design as an example to illustrate the needs analysis, theme extraction, concept, logical and physical model design to discuss the process of building the Data warehouse.On the aspect of quick access policies for OLAP, which adopt OLAP query results cache technology to optimize the capacity use in a limited memory space and preserve the most interest results for the user, when the user access to the same results next time it is not to re-query the data warehouse, but returned the provisional results for the user directly, so as to save the time of accessing data warehouse.On the research of sequence OLAP technology, for the sequence data in practical application to carry out the several aspects research includes formal description of sequences OLAP systems, system architecture design and other aspects of system implementation.【关键词】数据仓库 数据集市 OLAP 序列OLAP 防灾减灾

【英文关键词】Data Warehouse Data Mart OLAP Sequence OLAP Disaster Prevention 【备注】索购全文在线加我:139938848

....同时提供论文一对一写作指导和论文发表委托服务

【目录】渤海海洋防灾减灾数据仓库的构建与快速访问技术研究摘要2-3论文选题6-8义6-78-12

Abstract3

第一章 绪论6-17

1.1

1.1.1 支撑课题61.1.2 研究目的和意1.2 相关概念和技术8-10

1.2.2 联机分

1.3.1 1.1.3 研究内容7-81.2.1 数据集市与数据仓库析处理(OLAP)10-121.3 国内外研究现状12-16海洋数据仓库研究现状12-14研究现状和发展14-1515-16

1.3.2 OLAP查询结果缓存技术

1.3.3 序列OLAP系统研究现状和发展

第二章 数据仓库体

2.2 体2.4 本章

3.1 3.1.2 1.4 论文的结构安排16-17系结构设计17-21系结构设计17-19小结20-21

2.1 防灾减灾主题域设计172.3 访问方式设计19-20

第三章 数据仓库数据模型设计21-3621-24

3.1.1 数据源21-23数据源与需求分析需求分析23-2424-35计25-3435-36

3.2 数据集市数据模型设计

3.2.2 逻辑模型设3.3 本章小结3.2.1 概念模型设计24-253.2.3 物理模型设计34-35第四章 基于缓冲技术的OLAP快速访问策略研究

36-39策略37-384.1 数据结构设计36-37

4.3 本章小结38-39

4.2 CACHE数据的替换第五章 序列OLAP系

5.2 序

5.4 6.1 全参考统研究39-485.1 序列OLAP形式化描述40-42

5.3 序列OLAP系统实现42-47第六章 全文总结与展望48-496.2 存在的问题与今后展望48-49攻读学位期间的研究成果52-53列OLAP系统架构42本章小结47-48文工作总结48文献49-5253-54

篇7:什么是数据仓库数据库教程

目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作《Building the Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策,

什么是数据仓库数据库教程

。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

根据数据仓库概念的含义,数据仓库拥有以下四个特点:

1、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。

2、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

3、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

4、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测,

企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。

整个数据仓库系统是一个包含四个层次的体系结构,具体由下图表示。

数据仓库系统体系结构

·数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等;

·数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。

·OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。

篇8:数据仓库与数据挖掘论文

关系数据库是20世纪70年代初提出来, 经过数据库专家几十年的努力, 理论和实践都取得了显著成果, 标志着数据库技术的日益成熟。但它仍然难以实现对关系数据库中数据的分析, 不能很好地支持决策, 因此在80年代, 产生了数据仓库的思想, 90年代, 数据仓库的基本原理、架构形式和使用原则都已确定。主要技术包括对数据库中数据访问、网络、C/S结构和图形界面, 一些大公司已经开始构建数据仓库。针对数据仓库中迅速增长的海量数据的收集、存放, 用人力已经不能解决, 那么数据仓库中有用的知识的提取就需要数据挖掘来实现。数据挖掘与统计学子领域“试探性数据分析”及人工智能子领域“知识发现”和机器学有关, 是一门综合性的技术学科。了解关系数据库、数据仓库与数据挖掘三者之间的区别与联系, 使之更好的使用这3种技术, 处理各种信息需求是非常必要和重要的。

1 关系数据库、数据仓库和数据挖掘之间的关系

1.1 关系数据库和数据仓库之间的联系与区别

关系数据库是面向事务的设计, 数据仓库是一个面向主题的设计;关系数据库存储在线事务数据, 数据仓库通常存储历史数据, 关系数据库的设计将尽量避免冗余, 但数据仓库是倾向于引入冗余;关系数据库设计用于捕获数据, 数据仓库设计用于分析数据。传统的关系数据库面向以事务处理为主的系统应用, 所以它无法满足决策支持系统的分析要求。事务处理和分析处理有非常不同的性质, 他们有不同的需求数据。

1.2 数据仓库与数据挖掘之间的联系与区别

数据挖掘是基于数据仓库和多维数据库中的数据, 找到数据的潜在模式进行预测, 它可以对数据进行复杂处理。大多数情况下, 数据挖掘是让数据从数据仓库到数据挖掘数据库中。从数据仓库中直接得到进行数据挖掘的数据有许多优点, 因为数据仓库中数据的清理和数据挖掘中几乎是相同的, 如果数据在数据仓库中已被清除, 数据挖掘中不再被清除, 并且数据不一致也得到了解决。数据仓库是数据挖掘的先期步骤, 通过数据仓库的构建, 提高了数据挖掘的效率和能力, 保证了数据挖掘中的数据的宽广性和完整性。

1.3 关系数据库与数据挖掘之间的联系与区别

数据挖掘的数据源不一定是数据仓库。也可以是一个关系数据库中的数据, 但要事先进行数据预处理, 才能用于数据挖掘。数据预处理是数据挖掘的关键步骤, 并且是数据挖掘过程中的主要工作部分。因此, 数据仓库和数据挖掘没有必然的联系, 有些人简单地认为, 数据仓库是数据挖掘的准备, 这种理解是不全面的, 也可以使用关系数据库中的数据作为数据挖掘的数据源。

2 三种技术的应用

2.1 应用价值

2.1.1 关系数据库

关系数据库的主要价值体现在事务处理。关系数据库已经渗透到各行各业的日常事务, 该事务管理离不开关系数据库的应用系统, 这是对传统事务管理的一个重大突破, 是社会甚至家庭不可或缺的工具, 它对社会的应用价值是100%。

2.1.2 数据仓库

数据仓库的主要价值体现在为决策分析提供数据源。一方面, 在一个事务中, 用户要求高效的访问系统和数据库, 操作时间应该短。在一个决策分析中, 决策问题的一些请求可能会导致系统的操作, 解决这一问题的决策分析需要遍历大多数数据库中的数据, 这对一般日常事务处理系统是困难的, 所以操作数据和决策分析数据应该分开。另一方面, 决策数据需求问题。在决策分析时, 由于不同的应用系统中, 实体、字段存在数据类型、名称和格式的不符, 需要在集成时进行转换, 这个转换必须在决策之前完成;一些决策数据需要动态更新, 需要经常进行汇总和总结, 这些需求用事务处理系统解决比较繁琐。三是数据的操作模式问题。决策分析人员要以专业用户身份, 使用各种工具以各种形式来操作数据, 对数据操作的结果以商业智能的方式表达出来。事务处理系统不能满足这一要求, 只有数据仓库系统能够满足数据挖掘技术对数据环境的要求, 所以使用数据仓库中的数据省去了对数据预处理的步骤。

2.1.3 数据挖掘

面对日益激烈的市场竞争, 客户对迅速应答各种业务问题的能力要求越来越高, 对过量数据的及时处理要求越来越高, 带来的挑战一方面大规模、复杂数据系统让用户感觉漫无头绪, 无法开始;另一方面, 这些大量数据背后隐藏很多有意义的有价值的决策信息。如计算机界都熟知的“啤酒与尿布”的故事, 就是零售业巨头“沃尔玛”从大量销售数据中分析出来的规律:美国的男士在下班要去超市买婴儿尿布, 同时他们还会买啤酒。“沃尔玛”就把这两种“毫不相干”的商品摆放在靠近的货架上, 并且还摆放一些下洒小菜, 使这些商品销量大增。所以应用数据挖掘从大量数据中发现规律, 具有具体的指导意义。

2.2 应用领域

2.2.1 关系数据库

关系数据库应用领域非常广泛, 如:证券行业、医院、银行、销售部门、公司或企业, 以及政府、国防工业, 科学和技术发展领域等等, 这些领域都需要使用数据库来存储数据。例如:人事管理系统、工资管理系统, xxx部门信息管理系统, 手机话费管理系统等, 都需要关系数据库作为后台提供数据源。

2.2.2 数据仓库

数据仓库应用领域主要有两个方面:一是全局应用。因为数据仓库获得来自多方面的数据, 所以在把数据向数据仓库输入时, 要进行转换、计算和综合等集成处理。通过处理把来自不同地方的数据源转换成统一的格式, 以促进全局应用。二是复杂系统。信息处理的要求越来越复杂, 除了数据处理操作, 如添加、删除、修改、和统计汇总, 高级管理层也希望对历史的和现在的数据进行各种复杂性分析, 以支持决策。数据仓库中就是存储了旧的历史数据, 方便复杂分析、应用, 为高层决策服务。

2.2.3 数据挖掘

数据挖掘的应用领域主要表现在特定应用问题和应用背景。数据挖掘技术已经应用于各行各业, 如电信, 保险, 交通, 学校、银行、超级市场等。例如:数据挖掘技术应用在大学。高校扩招, 学生增加到几万人, 但是学生的学习积极性不高, 成绩不好, 因此引入数据挖掘技术找出影响学生学习积极性和学习成绩的原因, 制定措施, 提高教育和教学质量。分析的数据源是考试成绩和成绩之外的影响因素, 分析的方法是采用关联规则、模型库、去“噪”处理、粗糙集等进行数据挖掘, 得出的结论是:传统的学习方法不能完全满足需要, 改进教学方法和教学模式, 从而调动学生学习的积极性, 提高教学质量。

3 关系数据库、数据仓库与数据挖掘的融合

日常事务处理需要关系数据库, 构建分析处理环境需要数据仓库, 帮助决策者寻找数据之间的潜在的关联需要数据挖掘。他们之间是相互联系又有区别的, 不能互相取代的, 又需要相互融合。数据仓库中的数据并不是最新的, 专有的, 而是来源于其他关系数据库, 它是建立在一个更全面和完善的信息应用的基础上, 用于支持高层决策分析的数据基地。数据仓库是数据库新技术, 到目前为止, 数据仓库仍用关系数据库管理系统管理数据。数据挖掘是从大量存储在数据库、数据仓库或其他信息库中发现有趣知识的过程。只有这三个数据库技术互相融合, 取长补短, 各尽其责, 才能更好的为广大用户所使用, 为社会各个领域所应用。

参考文献

[1]华冠萍.数据仓库、数据挖掘及OLAP之两两关系[J].福建电脑, 2007, 8.

[2]牛承珍.马季兰.浅谈数据挖掘应用[J].山西科, 2008.5.20.

篇9:谈数据仓库与数据挖掘教学研究

关键词:数据仓库 数据挖掘 进展

中图分类号:TP311.13文献标识码:A文章编号:1673-9795(2012)10(a)-0179-01

随着社会的发展,数据仓库与数据挖掘研究行业也越来越成熟,数据库技术的应用也得到不断推广和深入,该行业的中心点已由原来的事务处理逐渐转换、趋向现在的分析处理,以数据仓库为基础,在形成的一系列新技术里,其核心就是联机分析系统的研发和数据挖掘技术的深入。这些技术目前已经逐步投入到实际使用中。关于这些技术的研发与探讨工作也成为该领域研究的热门话题。

1 数据仓库系统

各种数据源的类型多种多样,其中包括各种关系数据库的管理系统、文件系统等,当然,有事也含有WEB上数据,这些数据在质量上、各有各的特点,多种多样,在数据模式的设计上也是千差万别,在各自专一的项目上也是独树一帜,各领风骚,导致这些不同原因主要是数据来源的不统一。这就给在数据集成过程中造成很多不便,所以,现在在数据集成过程中是主要难点就体现在数据模式设计、数据的清洗、数据转换、导人、更新等方法,截止目前數据仓库系统的研究工作也重点关注和投入在这些方面。

现在我们再来谈一下数据清洗的问题。在数据清洗工作中,是否能够准确、高效的发现重复数据并予以删除是该项工作的重要问题。因为数据源的多种多样,这就不可避免的出现很多相同重复的数据,也就是复本,同时,各个数据源的质量也是千差万别,由于录入的的方法不同,如拼写错误,活着录入者的一些不一致的微小习惯造成的细微差别,被人客观的误认为是不同的数据。为了提高整个数据库的质量,就需要将这些重复的数据找出来并进行逐个删除,以保证数据的可靠性。寻找数据库中的重复数据需要合理高效的方法,当前主要参考采用一些标准文本相似性的匹配方法及,就像编辑距离等。但这些方法却不能解决一些特殊的问题,如语义上的相似性判定问题等。为了寻找解决这个问题的办法,经过努力,相关学者就数据仓库中的唯表方面研究并提出了一种高效、新型的寻找方法,这种除了通过参考数据间字符串后呈现出的相似程度来判断这两个元组对象是否有相同的特点,还利用维表中提供的数据含有的的层次关系,再从语义上对比出所要判断数据的相似程度。

在数据集成中,数据源的数据是多种多样的,一般分为:关系数据库、XML半结构化数据等,因此,这些不同的数据源中的数据在在访问方式是也不尽相同,也有些数据访问应用系统接口,数据模式在设计中也显得不同。要将这些不同的数据装入数据库,且保证数据中所含有的信息不丢失,即保证模式的匹配、模式中语义的一致,就成了一项重要的研究目标。目前我们大多数使用的方式为把要用到的数据源中的数据转换成特定的中间形式,就像统一模式的XML文本那样,然后再将数据装入数据仓库。

2 联机分析技术

数据仓库与数据挖掘研究行业要想得到更深入的发展联机分析技术是非常关键的一项。在数据仓库映众中,出现越来越多的大量的聚集操作,联机分析就是在这样的条件下诞生的一项新技术。联机分析技术分为两个类型:一类是根据关系数据库系统形成的练级分析系,俗称ROLAP,它的基本原理就是使数据仓库里面的数据能够进行合理组合,可以直接迅速的通过关系条件查询信息,使联机分析系统能够拥有下钻、上翻、分片、分块等功能。当前我们所用到的关系数据库管理系统均拥有信息查询功能。另一类是根据多维模型形成的联机分析系统,俗称MOLAP,它的基本原理是多维数组宴珊联机分析系统,常用于怎样减少存储空间等方面的问题研究,以此来提高该系统在查询方面的性能。这两类联机分析系统这些年都有独特的论述见解以论文方式出现在各种刊物上。与之同步进行的是OLAP系统在应用方面的大力推广,使相关学者对在OLAP系统中的体系结构一类问题的探讨也发生了的兴趣,还有一些学者就集群结构方面的OLAP系统研发了一种对数据在实时过程中敏感的中间件的系统。能够使系统查询更加准确、一致,也能够全面提高集群系统的性能发挥的效率。

截止目前,我们队ROLAP实现的技术方面已经研究了很长一段时间,通常在增强ROLAP的执行效率的手段主要表现在两方面:一个是使用物化视图效果的原理,它的做法是把用户可能用到的信息查询提前总结好,这样我们的用户在实施查询时,从已经完成的数据、视图来入手,就能够很快的得到需要查询的最终结果。在这里面,最重要的问题就是如何选择物化视图和实现的查询。另一个方面就是以OLAP查询种用到的的索引结构为研究参考对象,我们常用的是利用位图的索引等。现在,查询优化技术方面与现有方法的改进和进行新研究、为该行业力求突破的研发方向。

等联机分析系统里含有的数据立方体能够建立之后,我们有了根据这种结构系统回答各类OLAP的查询条件。近年来我们的研究人员对研究怎样根据数据立方体能够解决那些更加有深度的查询帮助做出了很大的努力。数据立方体里面通常都含有无数的数据信息,怎样让我们的用户全面的认识立方体中含有的信息是需要继续探讨的一个关键问题。

3 数据挖掘

数据挖掘、数据分析主要表现为分析与挖掘流数据。流数据不同于一般数据,它的特点往往表现为数据量巨大,无法完整的将它存储在某种中间介质中,也就无法对这些数据进行分析和计算。流数据在实际应用中发挥的作用又大,实际应用背景广泛,在电信、传感器等数据量出现的快且量大的行业中有很重要的作用。由于当前使用手段较多,这里不做一一介绍。

4 结语

随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将为公司创造很多潜在的利润,对企业和团队的下一步计划有很大的帮助,因此,做好该方面的研究工作,对社会及企业都有很大的影响。

参考文献

[1]王玉芬.基于数据仓库的决策支持研究[J].商场现代化,2007(3):15.

上一篇:《温暖得手套》教学设计下一篇:2010年煤矿安全生产演讲稿