BW数据仓库

2024-08-26

BW数据仓库(精选四篇)

BW数据仓库 篇1

唐山钢铁集团有限责任公司是国有特大型钢铁企业, 河北钢铁集团的骨干企业, 于1943年建厂, 是我国碱性侧吹转炉炼钢的发祥地, 于2005年跨入千万吨级大钢行列, 2008年以来, 面对严峻的市场形势, 唐钢变危为机, 不断提升理念、强化管理, 实现了城区老钢铁企业向生态、科技、效益、和谐的现代化一流企业的全新蜕变。

为了更进一步深化管理, 加快对市场的反应速度, 提高客户满意度, 提升公司核心竞争力, 使公司在激烈的市场竞争中立于不败之地, 公司于2007年在现有的信息化建设的基础之上, 实施公司级企业资源计划ERP (Enterprise Resource Planning) 系统建设及数据仓库和商务智能BI (Business Intelligence) 系统的建设。

唐钢通过信息化建设的实施, 在公司范围内实现物流、资金流和信息流的有效管理和控制, 做到“三流”同步, 产销一体, 管控衔接。提高了公司的整体管理水平和效益水平, 使公司的市场竞争力得到提高;加快面对市场的响应速度;客户满意度显著改善。

随着唐钢ERP系统的上线运行, 数据量与日剧增, 系统压力成倍增长, A B A P报表的数据读取时间越来越长;如何快速的读取唐钢几年内的业务数据而进行分析、展示, 便成为B W系统实施的必要原因。唐钢B W系统可以通过对E R P系统做定期的数据抽取、加载、清洗、转换, 提供多维报表, 能够从多个维度来分析数据, 通过不同的自由特性来生成不同的报表, 它可以智能化的管理整个企业系统的海量数据信息并从中挖掘出最有价值的信息, 为公司领导提供有数据基础的决策信息。

2、B W系统功能简介

BW系统, 管理数据仓库任务的核心工具, 即数据仓库工作台。它可以为ERP数据采集、存储、分析和管理提供一个集成的面向商务的平台, 可以提供多维报表, 能够从多个维度来分析数据, 通过不同的自由特性来生成不同的报表, 还可以智能化、快速的管理整个企业系统的海量数据信息。

一期信息化建设共设计完成销售管理、采购管理、生产管理、库存管理、财务会计管理、费用管理六大功能。唐钢BW系统可以将预先定义的数据通过处理链自动提取出来并加以存储, 使用户可以随时根据自己的需求作在线分析与查询。该项目一期共制作完成信息对象百余个, 信息立方体24个, 数据存储对象19个, 多信息立方体9个, 实现了跨模块、跨系统的海量、历史性数据分析功能。

3、数据抽取策略的设计

3.1 ERP作业计划设计

设计和制定了库存、生产、发票校验、销售订单、销售发票等5个数据源的增量提取计划, 实现了对ERP系统数据源增量队列表的填充。

3.2 BW处理链设计

处理链 (Process Chain) , 又称进程链, 是SAP BI提供的一个用于在后台完成批量工作的工具。处理链使系统管理员可以容易的定义日常的管理工作, 并对这些工作进行集中管理。

3.2.1 处理链的设计原则

>开放性。一个进程是一个具有明确的开始和结束的处理进程。

>安全性。基于后台管理的设计理念, 使用处理链提供了高度的处理安全性。基于事先的规划运行机制, 过程使用批量监控功能进行监控, 不同进程之间可以定义依赖关系。系统可以识别不同节点处理结果。

>灵活性。后续的处理进程要正确的运行, 需要从前一个节点得到它需要的所有信息。

3.2.2 处理链的特点

>自动化。在SAP BI系统事件驱动机制的帮助下, 实现灵活的计划工作。

>可视化。管理员可以通过使用网络图, 使用拖放方式定义不同系统操作的先后顺序及其依存关系, 完成对处理链过程的定义。

>集中管理和监控。处理链集成了各种操作动作的监控、日志及分析和错误修复功能, 管理员在同一的管理界面中即可完成所有管理及监控操作。

唐钢一期信息化共制作完成现金流量、采购发票、应付行项目、应收行项目、总账余额、主数据日更新等20个处理链的设计和数据抽取策略的指定, 实现了对E R P数据到B W系统的定时抽取。

4、唐钢B W系统上线后实现的效果

唐钢SAP BW系统具有完善、全面的报表功能, 涉及SAP系统内除Q M模块以外的所有相关报表。该系统将预先定义的数据从ERP系统中定期提取出来并加以存储, 使用户可以随时根据自己的需求作动态查询, 多维度分析, 由于分析的过程不影响ERP系统中其他事务操作, 使报表的展示更加快速、准确。此外, B W系统数据结构的多维性也使报表的内容更丰富, 用户可以根据预先定义的多个数据自由特性进行灵活操作、深度钻取, 从而使得报表的覆盖面更广, 参考价值更高, 同时, 唐钢B W系统的成功运用, 将会成倍提高企业数据分析能力、决策能力, 以及自动化处理能力。

5、B W系统实施技术方案

B W系统采用源系统层、B W服务器层、数据展示层三层架构。源系统在一期开发中是指SAP R/3系统。

数据加载过程:BW服务器把需要从R/3系统中抽取的数据, 采用BAPI或XML等技术, 通过数据源或信息源, 定期抽取到BW服务器。在B W服务器端, 通过规则和转换, 将数据定期加载到数据模型, 以数据模型为基础, 通过数据展示层, 最终实现报表的展示。

6、小结

唐钢信息化一期BW系统成功上线至今, 数据较上线初期更加精准, 系统运行更为稳定, 系统内部的数据可以真实的反应唐钢现有业务的发生;系统内各模型维度日益完善、充实, BW系统的成功上线, 使得唐钢信息化架构更加清晰、完整, 数据更加统一、完善。

摘要:唐钢通过BW系统的应用, 实现了对ERP系统数据的深度挖掘。通过对ERP系统各模块的信息进行抽取、加工和分析, 将海量的数据变成有组织、有条理的可用信息, 为ERP数据采集、存储、分析和管理提供一个集成的面向商务的平台, 可以提供多维报表, 能够让使用者从多个维度来分析数据。

数据仓库与数据挖掘论文 篇2

摘 要 决策树学习是人们广泛使用的一种归纳推理形式。先就决策树和决策树学习算法进行介绍,然后用实例阐述决策树在教育信息处理中的应用,主要以在教学评价中的应用为例来加以介绍。

关键词 决策树;数据挖掘;教育信息处理;教学评价

当今社会处于一个信息爆炸的时代,海量的数据可以用来选择和发掘信息,然而有时却让人无从下手,因此数据挖掘技术受到人们的高度关注。数据挖掘是从大量的、不完全的、有噪声的、模糊的或者随机的数据中提取人们事先不知道的但又是有用的信息和知识的过程。它的方法很多,其中决策树是一种解决实际应用分类问题的数据挖掘方法。在教育教学中,根据决策树算法的实际特点,它可以在教育信息处理中的信息采集上发挥很大的作用。决策树介绍

决策树学习是人们广泛使用的一种归纳推理形式。决策树起源于概念学习系统,其思路是找出最有分辨能力的属性,把数据库划分为许多子集(对应树的一个分枝),构成一个分枝过程,然后对每一个子集递归调用分支过程,直到所有子集包含同一类的数据。最后得到的决策树能对新的例子进行分类。它一般是从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它一般需要给定一组训练例子,训练例子一般被看成用于创建模型的数据集。由此可以看出,决策树是一个类似于流程图的树结构,其中每一个内部结点表示对一个属性的测试,每一个分支代表一个决策输出,而每个叶节点代表一个目标分类。决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子结点即为实例所属的分类,树上每个节点说明对实例的某个属性的测试,节点的每个后继分支对应于该属性的一个可能值。假如需要根据人员的外貌特征对人员进行分类,用于人员的外貌特征有3个,外貌列表={高度,发色,眼睛};各属性的值域分别为:高度={高,矮},发色={黑色,红色,金色},眼睛={黑色,棕色}。分类结果有两种:种类={+,-}。提供的训练例子集为:T={<(矮,金色,黑色),+>,<(高,金色,棕色),->,<(高,红色,黑色),+>,<(矮,黑色,黑色),->,<(高,黑色,黑色),->,<(高,金色,黑色),+>,<(高,黑色,棕色),->,<(矮,金色,棕色),->}。上述文字可构造图1所示决策树。决策树学习算法

决策树算法有几种,如ID3、C4.5、CA RT等。其中ID3算法是最经典的算法,该算法从根节点开始,这个根结点被赋予一个最好的属性。随后对该属性的每个取值都生成相应的分支,在每个分支的终点上又生成新的节点。然后按照该属性的取值将每个训练例子都分别赋给一个相应的新节点。如果没有任何训练例子能赋给某个节点,那么该节点连同相应的分支都将被删除。这时,将每一个新节点都视作一个新的根节点,重复执行整个过程。这里,最好属性的选择要基于信息增益这个统计特性。在定义信息增益前,先要了解另一统计特性:熵。

给定一组有c个分类的训练例子,对属性a来说,它有值v,其中pi是在第i类中属性a取值为v的概率。为了能选出最好的属性,需要使用度量信息增益。一属性的信息增益就是按照该属性对训练例子进行划分所带来的熵的减少量。其中,T是训练例子的集合,Tj是属性A取值为j的训练例子集合,为T的一个子集。决策树在教育中的应用

在教育教学中,尤其是在高等教育体系中,学校的数据库中存贮着大量的教育教学信息,其中一部分和教学有关,如学校的开课排课情况、教师情况;一部分和学生有关,如学生历年的考试、测验成绩等。这些大量的数据后面隐藏着大量的信息,只要加以分析,就能得到许多有用的信息,如教育规律、学生的培养模式、学生学科间的差异性和相关性的一些规律。这些规律对教育管理决策来说是相当重要的,对教育教学改革有指导性的意义。

3.1 决策树在教育信息处理中的应用

决策树表示的是一个离散值函数,树中每一个节点表示一个属性,同时目标分类具有离散的输出值信息。教育中的大量信息,一般都是对一些离散的数据进行分析,比如学习成绩一般分成优、良、中、差,外语六级成绩分成过与未过,这些信息都可以用决策树来加以分类归纳,对于连续的属性值,也可以进行离散化处理后再利用决策树来加以分析。

3.2 决策树在教学评价中的应用案例

决策树在教育信息处理中的应用很广泛,下面以决策树在教学评价中的应用为例,来说明在教育信息处理中是如何使用决策树来分析的。教学评价在教育中是一个重要的问题,它是指依据一定的教学目标与教学规范标准,通过对学校教与学等教育情况的系统检测与考核,评定其教学效果与教学目标的实现程度。教学评价具有复杂性、多因素性和模糊性等特点。如何客观、科学、全面地对教学进行评价,是教学评价中一个重要的课题,下面尝试将决策树应用于教学评价。

在评价之初要有一个数据采集的过程,之后可以用决策树来加以分析。课堂教学评价指标体系分为若干项,从教师的角度可以分为授课态度A1、授课方法A2、授课内容A3、授课效果A4、教学评价A5,可以取训练例子如表1所示。

对给定的训练例子数据是把连续的数据离散化的结果,A为评分90~100,B为评分80~89,C为评分70~79,D为评分60~69,E为评分<60,N1为教师编号,表中的A5为目标分类。

如果利用前面的ID3算法建立决策树,先检验所有信息增益的特征属性,选择信息增益最大的属性作为决策树的结点,由该特征的不同取值建立分支,对此分支的实例子集递归该方法建立决策树的结点和分支,直到某一子集中的例子属于同一类。

对给定训练例子的熵为:E(T)= 1.295 46。

表1 训练例子

N1 A1 A2 A3 A4 A5 1 B B B B 良 2 B B B B 良 3 B B B C 良 4 A A A A 优 5 B C C C 中 6 C C C C 中 7 B C B B 良 8 B B C C 良 9 C B C C 中 A A B B 良

以属性A1为例,A1的值={A,B,C},由表中可以看出A3的信息增益最大,所以选A3属性作为根节点的测试属性,并根据其值向下分支,利用ID3算法进一步划分,当根节点到当前节点的路径上包括所有属性或当前节点的训练样本同属一类时,算法结束。根据以上分析给出图2所示决策树。

图2 决策树

可以根据生成的决策树,方便地提取其描述的知识,比如授课内容A3在这里产生的信息增益最大等信息。小结

在教育信息中存在隐藏在数据中的规则,这些规则可以用不同的方法被挖掘。本文只是对决策树中的分类ID3算法在数据处理中的应用进行研究,目的是得到教育教学中存在的规则,利用发现的规则对教育管理决策提供有参考意义的信息。

参 考 文 献

大数据让数据仓库更具价值 篇3

谈到大数据,首先想到的是数据管理,在数据管理方面,人们想到的是Hadoop和MapReduce等新兴技术,但是这些新兴技术并不能解决所有的数据管理问题。数据仓库作为一种传统的数据技术在大数据时代依然焕发着自己的活力。

数据仓库:从技术角度看问题

说到数据仓库,就要从数据仓库的概念提出说起。数据仓库概念最早诞生于1983年,然后就出现了商务智能,直到20世纪90年代开始成熟,并出现了提取、转换和加载(ETL),ETL的出现大大促进了商务智能(BI)的发展。以后,数据仓库出现了各种扩展,出现了多维的联机分析处理(OLAP)、数据集市、探查型数据仓库和ODS。

有了ODS即便更新和业务处理遇到集成数据问题,系统还是能够进行处理。其后,星型模型和事实表等都有了容身之地。有了探索型数据仓库,统计学家有了一个数据基础,可以支撑从数据管理员到统计分析员等不同角色的数据挖掘分析需求。一直到后来,数据仓库变成了企业的信息工厂,进而数据仓库也被称为企业数据仓库(EDW)。

随着EDW环境复杂性的增加,企业越来越认为需要一种监控机制来管理数据仓库,而这种监控机制与事务处理的监控机制本质上存在着各种差异。与此同时,商务智能的发展也随着数据仓库技术的发展而不断演进,商务智能的发展要求其不仅仅为决策层提供支持,同时,也要给普通的业务人员提供支持。不仅要能从整个战略层面进行综合分析,还能够在具体的战术层面进行详细指导,这些是商务智能未来的发展趋势。随着信息量的快速增长,产生了如网页文本等信息数据分析的需求。进而衍生了对大数据的分析技术。

事实上,大数据和数据仓库是同一个问题的两个方面,大数据是业务视角,需要汇聚各类数据,建立客户全景视图,实现客户深度洞察,而数据仓库是技术视角,需要汇聚各类数据,全景实现数据全生命周期管理、元数据管理和数据监视管理。

数据仓库和大数据的结合就是通过技术手段来解决业务问题。随着大数据时代的发展,数据仓库对于企业决策的支持作用将会越来越大。由此,数据仓库也成为了各大数据解决方案厂商着力开展的业务领域。IBM、甲骨文,惠普、Teradata等厂商纷纷部署了自己的数据仓库技术和产品。绝大多数的数据仓库厂商能够利用网格或者云架构将他们的产品扩展到PB级别,而且他们能够完成数据库内分析,即在大规模并行数据仓库网格或者云环境中实现。他们还可以在企业数据仓库之内来支持数据转化和数据清洗功能。

数据仓库发展迎挑战

目前,大量的数据运行的企业中,新兴的数据类型层出不穷,数据量增加的速度越来越快,越来越多的业务提出实时的需求,所有这些都让数据仓库在企业运营和领导决策支持中显现出“疲态”。

数据仓库遇到的第一个挑战是对大量数据的存储和管理。现在的数据量已经大大超越了传统事物处理的数据量,而且随着时间的推移,数据量还将不断增加,数据类型还将更加多元化。

第二是数据仓库要解决并行处理的问题。在传统联机事务处理应用中,用户访问系统的特点是短小而密集。对于一个多处理机系统来说,能够将用户的请求进行均衡分担进行并行操作是非常关键的。在数据仓库系统中,用户访问的特点是庞大而稀疏,每一个查询和统计都很复杂,但是访问频率很低。

最后,对于企业级数据仓库而言,数据源的 ETL操作是另一个挑战,特别是实时的ETL操作。传统的数据工具不能解决高容量和低延迟的需求,而能够满足这些需求的技术正是企业需要的。要解决这项需求所面临的主要挑战是,是否可以在给定的时间内移动必要的数据量。传统的批量处理过程需要几个小时甚至几天的时间才能够完成这样的操作,这就不能满足业务实时决策的要求。其他相关的挑战在加载到数据仓库时要减少操作系统上的影响,因为在数据仓库中运行大的查询会降低操作系统对使用者和客户的服务。

另外,从各种各样用户设备上访问数据仓库中的业务信息,也影响到了数据仓库的工作量以及它所支持的信息。从工作量的角度来看,用户设备需要大量的小查询,就需要在很低的延迟下跨越地域进行回答。从信息的角度来看,用户使用移动设备希望实现随时随地的即时访问,用户需要的是最新的信息。而且需要很快地加载信息,以便用户可以和历史内容一起访问数据。

三把利剑破解数据难题

Forrester高级数据管理分析师James Kobielus曾表示,数据仓库可以通过三种方式帮助企业处理好数据问题:第一,在企业数据仓库中,给不同的数据一个比较稳定的主题划分,按照主题来组织企业数据,比如,数据仓库架构中的OLAP cube,客户数据是一个分区,财务数据是一个分区,人力资源数据是一个分区。不管是物理上的实现还是逻辑上划分,这些数据主题都会比较稳定。这样有利于根据数据的关联性来匹配下游的应用和用户。这是数据仓库管理的核心所在,也是通过数据仓库处理大数据的重要方式。

第二种方式是通过数据库内分析,也就是在数据仓库内部执行数据挖掘。利用数据仓库执行数据清洗、数据挖掘和回归分析。因为使用数据挖掘或者回归分析可以从根本上了解数据建模式,所以这种方式可以很好地处理数据。然后使用数据库内挖掘来填充下游的分析数据集市,数据挖掘和统计模型专业人士可以利用它将复杂的模式实现可视化。

第三种方式就是将数据仓库作为数据治理的核心,可以合理地在数据仓库中维护主数据。当数据仓库作为数据治理与数据清洗的核心时,它将有助于搞清楚所有的信息。在整个企业架构中,数据就像是洪水一般涌入数据仓库,数据仓库作为数据的枢纽,可以确保大数据在下游的应用。

有了这三种方式,然后结合Hadoop、MapReduce等大数据新兴技术,企业就可以处理好大数据难题。

总之,数据仓库是一项基于数据管理的综合性技术和解决方案,数据仓库是企业不可或缺的关键性组成部分,它将成为数据库市场的新一轮增长点。作为下一代应用系统的重要组成部分,数据仓库可以把企业方方面面产生的数据汇集起来,然后分门别类,并最终对这些繁复复杂的信息进行分析处理,让其成为了解企业运营、进行企业决策的宝贵资料。

数据仓库总结 篇4

数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。

数据挖掘与传统分析工具不同的是数据挖掘使用的是基于发现的方法,运用模式匹配和其它算法决定数据之间的重要联系。

数据挖掘的步骤

1.描述数据---计算统计变量(比如平均值、均方差等),再用图表或图片直观的表示出来,进而可以看出一些变量之间的相关性。

2.历史数据建立一个预言模型,然后再用另外一些数据对这个模型进行测试。

3.验证你的模型

数据挖掘与传统数据分析方法区别

(1)数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。

在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”-里面的数据几乎不再被访问。也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。

数据挖掘方法与过程

   方法:决策树 关联规则 人工神经网络

粗糙集理论

遗传算法

过程:1.对数据库数据整理,抽取出用来完成特定挖掘目标的数据集。2.选择合适的挖掘方法和工具,在领域专家指导下进行知识获取研究3.对事物的发展进行预测

数据采集与处理:从数据仓库中选取相关的数据集合。知识库:指导数据挖掘和评价挖掘结果。

数据挖掘:对数据仓库中提取的数据进行分析处理。

知识评价:是以兴趣度作为衡量标准来查找和选择对最终决策活动友有益的的知识。

OLAP与数据挖掘(DM)的比较 相同之处:OLAP与DM都是数据库(数据仓库)上的分析工具;不同之处:(1)前者是验证型的,后者是挖掘型的;(2)前者建立在多维视图的基础之上,强调执行效率和对用户请求命令的及时响应,而且其直接数据源一般是数据仓库;后者建立在各种数据源的基础上,重在发现隐藏在数据深层次的对人们有用的模式,一般并不过多考虑执行效率和响应速度。

(3)数据挖掘与OLAP不同,主要体现在它分析数据的深入和分析过程的自动化,自动化的含义是其分析过程不需要客户的参与,这是它的优点,也正是其不足。因为在实际中,客户也希望参与到挖掘中来,例如只想对数据的某一子集进行挖掘,对不同抽取、集成水平的数据进行挖掘,或是根据自己的需要动态选择挖掘算法等等。因此,OLAP与数据挖掘各有所长。

OLAP与OLTP的区别(1)OLTP主要面向公司职员;OLAP则主要面向公司领导者。(2)OLTP应用主要是用来完成客户的事务处理,其数据基础是操作型数据库,如民航订票系统、银行储蓄系统等等,通常需要进行大量的更新操作,同时对响应时间要求较高;而OLAP是以数据仓库或数据多维视图为基础的数据分析处理,是针对特定问题的联机数据访问和分析,它一般不对仓库数据作修改处理,而只是查询,其应用主要是对客户当前及历史数据进行分析,辅助领导决策,其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操作,对时间的要求不太严格。

OLTP

OLAP 面向人群

业务系统的操作、维护人员

管理、决策者 功能

日常操作处理

分析、决策辅助 实现方式

基于交易的处理系统

基于查询的分析系统 应用场合 面向生产应用

面向特定主题 数据库设计

实体-联系模型

星形或雪花模型 数据

当前的、最新的细节数据

历史的、聚合的数据 响应时间

对响应时间要求非常高

查询时间长

数据仓库与数据集市的差别

(1)范围不同:数据仓库面向的是整个企业,为整个企业提供所需的数据;数据集市则面向各个部门。

(2)粒度不同:数据仓库中的数据粒度非常小;数据集市中的数据主要是概括级的数据。

(3)数据组织方式不同

数据集市中数据的结构通常被描述为星型结构或雪花结构。一个星型结构包含两个基本部分—一个事实表和各种支持维表。事实表描述数据集市中最密集的数据。在电话公司中,用于呼叫的数据是典型的最密集数据;在银行中,与账目核对和自动柜员机有关的数据是典型的最密集数据。对于零售业而言,销售和库存数据是最密集的数据等等。

数据仓库:是一个面向主题的、集成的、不可更新的且随时间不断变化的数据集合,用来支持管理人员的决策。数据仓库的根本任务:把信息加以整理归纳并及时提供给管理决策人员。主要作用:提供报表和图表、支持多维分析、数据挖掘的基础。

数据挖掘:(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

聚类分析:聚类(clustering)就是将数据对象集合进行分析,将数据集划分为多个类或簇,使得同一类中的数据对象之间具有较高的相似度,而不同类之间的数据对象具有较大的差异度。将上述分析过程称为„„

粒度是指数据仓库中记录数据或对数据进行综合时所使用的时间参数,它决定了数据仓库中所存储的数据单元在时间上的详细程度和级别。分割是指将数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。

数据分割后的数据单元称为分片。

元数据:元数据是数据仓库数据本身信息的数据。不仅包括在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据,而且还包括关于数据含义的商业信息。

OLTP:是传统的关系型数据库的主要应用,主要面对基本的、日常的事务处理。

OLAP:是数据仓库上的分析展示工具,它建立在数据多维视图的基础上。联机分析处理。OLAM:OLAP与数据挖掘结合起来,发展出一种为数据挖掘服务的具有新型OLAP的数据仓库,将更能适应实际的需要。数据仓库系统的四个层次体系结构:数据源 数据的存储与管理 联机分析处理

前端工具 数据仓库设计需考虑的四种视图:自顶向下视图 数据源视图 数据仓库视图 商务查询视图 数据仓库设计

自上而下 自底而上

混合的方法

数据仓库建模

数据仓库通常采三层结构:底层:数据仓库服务器 中间层:OLAP服务器 顶层:前端工具 ETL:是数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

神经网络:神经网络是由许许多多的被称为神经元或网络节点的基本单元构成,而这些基本单元则模仿了人脑中的神经元。将多个基本单元以某种适当的方式连接起来,就构成了神经网络。

决策树:又称为判定树,是一个类似于流程图的树型结构。决策树是一种简单的知识表示方法,它将事例逐步分类成代表不同的类别。在决策树的图形表示中,矩形表示内部结点,椭圆表示叶子结点,短线表示分枝,分枝上的标注表示一次测试的输出结果。

关联规则:是数据挖掘的一个重要内容,它反映了一个变量与其他变量之间的相互依存性和关联性;其中,关联是指在两个或两个以上变量取值之间所存在的某种规律性。关联规则挖掘:是为了发现变量之间的这种依存性和关联性的规则,并利用令人感兴趣的规则来预测多个变量之间潜在的关联或是通过其他变量来预测一个变量的存在。

文本数据挖掘:也称文本挖掘,它是将文本信息源作为分析对象,利用智能算法,并结合文字处理技术,分析大量非结构化文本源,从中寻找信息的结构、模型、模式等各种隐含的知识。

遗传算法:是一种基于生物进化过程中自然选择与遗传机制的模拟算法,该算法是模拟达尔文主义“适者生存”思想的一种全局优化方法,实质是一种繁衍、检测和评价的迭代算法。

 数据分类的基本技术有:判定树归纳、贝叶斯分类、贝叶斯网络、神经网络等;  预测的方法主要有:线性的、非线性的、广义线性回归。

数据仓库中的不同综合级别,称为“粒度”。粒度越大,表示细节程度越低,综合程度越高。元数据(metadata):关于数据的数据。粗糙集:能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。

用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。

对数据立方体的典型操作包括:切片、切块以及旋转等。多维数据模型:是为了满足用户从多角度多层次进行数据查询和分析的需要而建立起来的基于事实和维的数据库模型,其基本的应用是为了实现OLAP(Online Analytical Processing)维(Dimension):是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。

维的层次(Level):人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。维的成员(Member):维的一个取值,是数据项在某维中位置的描述。度量(Measure):多维数组的取值。

星型模式:是最常见的模型范式。这种模式的数据仓库包含:一个大的事实表和一组小的维表。事实表:包含大批数据和不含冗余的中心表

维表:附属表,每维一个表

雪花模式:是星型模式的变种,其中某些维表是规范化的,因而数据被进一步分解到附加的表中。

多维数据模型上的OLAP操作:有钻取、切片和切块、以及旋转等。

钻取:是改变维的层次,变换分析的粒度。它包括向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)。Drill-up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill-down则相反,它从汇总数据深入到细节数据进行观察或增加新维。

切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。

旋转:是变换维的方向,即在表格中重新安排维的放置。

OLAM产生的原因

一方面,分析工具OLAP功能虽强大,能为客户端应用程序提供完善的查询和分析,但它也存在以下不足:

1)OLAP是一种验证型分析工具,是由用户驱动的。即在某个假设的前提下通过数据查询和分析来验证或否定这个假设,这很大程度上受到用户假设能力的限制。

2)OLAP分析事先需要对用户的需求有全面而深入的了解,然而用户的需求并不是确定的,难以把握。所以OLAP分析常常采用试凑法在大型数据库或仓库中搜索,不仅花时间,而且可能产生一些无用的结果。

3)即使搜索到了有用的信息,由于缺乏应有的维度,从不同的视图得到的结果可能并不相同,容易产生误导。

另一方面,数据挖掘虽然可以使用复杂算法来分析数据和创建模型表示有关数据的信息,用户也不必提出确切的要求,系统就能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过联想,建立新的业务模型以辅助决策。但它也存在一些缺点:

1)DM是挖掘型分析工具,是由数据驱动的。用户需要事先提出挖掘任务。但对于用户来讲,很多时候预先是不知道想挖掘什么样的知识的。

2)由于数据库或数据仓库中存有大量数据和信息,用户仅仅指出挖掘任务,而不提供其他搜索线索,这样DM工具就会遍历整个数据库,导致搜索空间太大。计算机将处于长时间的工作,而且结果中可能会生成很多无用信息。

3)即使挖掘出了潜在有价值的信息,但它究竟用来做什么分析用,用户也可能不清楚。

两种技术各存在不足,但同时也可以相辅相成。如果将OLAP同DM配合集成,一方面OLAP的分析结果给DM提供挖掘的依据,引导DM的进行;另一方面,在数据挖掘的结果中进行OLAP分析,则OLAP分析的深度就可拓展。这样用户就可以灵活选择所需的数据挖掘功能,并动态交换挖掘任务,在数据仓库的基础上提供更有效的决策支持。鉴于OLAP与DM技术在决策分析中的这种互补性,促成了OLAM技术的形成。

数据仓库、数据挖掘在电子商务中的应用

1.控制商品库存

对于零售业,库存销量比是一个重要的效率指标。通过使用数据仓库,企业可以随时跟踪库存,及时通过网上供货商补充,实现了库存商品的有效控制。比如美国沃玛特连锁店,数据仓库规模从最初的6 万亿字节增加到现在的100 万亿字节,实现了存货少效益高的良性循环,始终保持着行业领先。2.减少跳线率

对于航空、银行等服务性行业,由于行业竞争激烈,存在“跳线”的现象,即客户从A 公司跳到B 公司,几个月后又重新回到A 公司,导致企业资金浪费。采用数据仓库后,进行数据挖掘,预测客户跳线机率,在客户跳线之前尽可能挽留,减少跳线率。3.客户跟踪

目前在电子商务网站中,84%的在线交易没有跟踪客户;96%的在线交易不能提供符合客户的个性化服务;75%的在线交易无法辨别重复客户;导致电子商务企业不能抓住已有的客户,更不用谈潜在客户的发展,丧失了该部分重要的资源。随着客户个性化需求的逐步增加,电子商务企业更是无从招架。当启用数据仓库后,网站能够对客户的信息以及浏览页面进行整理并存储,当客户再次访问后,数据仓库就会为客户提出相应的扩展服务,使顾客能够更加信任该网站,进而提升了该企业的效益。4.聚类客户

在电子商务中,通过客户相似浏览行为和客户的共同特征进行分析,深层次挖掘和分析企业的客户、市场、销售、服务与支信息,可以帮助电子商务的组织者及时了解客户,尽可能满足客户需求,向客户提供更适合的服务。

5.提供优质个性化服务,提高客户忠诚度在电子商务活动中,网站的内容、标题、奖励方案、服务等方面都可能吸引客户。由于电子商务网站的众多,客户可以很方便的在网站间切换,因此电子商务网站应该能够对客户访问信息进行挖掘,通过客户的浏览行为,从而了解客户的忠诚度、喜好及需求,快速调整WEB 页面满足客户的需求。比如京东网,通过分析客户浏览的页面,运用数据挖掘中的序列模式发现技术进行挖掘,可以把客户需求的相关物品呈现出来,方便客户挑选,6.提高点击率,完善电子商务网站设计通过数据挖掘技术,分析客户的行为记录和反馈行为,电子商务企业可以更加有效地优化网站结构,提高网站的点击率。例如通过关联规则,针对客户需求,调整站点结构,把客户访问过的有关联的文件进行直接链接,从而使客户很容易访问想要的页面,增加客户再次访问的概率。

7.决策信息服务

数据仓库用于实现对决策主体数据的存储和综合,通过从源数据库中抽取、清理、集成和转换,提供标准的报表和图表;通过从多种角度构建多维数据模型,采用联机分析处理实现多维数据分析;进而挖掘出隐藏在数据背后的模式和信息,可以针对整个企业的状况和未来发展做出比较完整、合理、准确的分析和预测,从而为企业提供了多方位的决策支持。

本文来自 360文秘网(www.360wenmi.com),转载请保留网址和出处

【BW数据仓库】相关文章:

数据仓库07-12

数据仓库05-18

数据仓库技术05-02

数据仓库工具05-22

银行数据仓库06-09

建设数据仓库06-24

空间数据仓库08-13

数据仓库应用08-26

数据仓库及数据挖掘论文04-21

数据仓库与数据挖掘论文07-25

上一篇:中心型圆锥曲线下一篇:激发与整合