数据挖掘的应用研究

2024-08-16

数据挖掘的应用研究(精选十篇)

数据挖掘的应用研究 篇1

关键词:数据挖掘,SPSS Clementine

随着当代计算机硬件的发展,硬件功能越来越强大,价格越来越低,企业可以记录的数据也越来越多,这些因素就为数据挖掘的普及做了比较好的前提准备,数据挖掘是未来信息处理的重要技术,而且就目前而言已经取得了决定性成功并得到了比较广泛的应用。

1 数据挖掘概述

1.1 什么是数据挖掘

数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database,KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单地说,数据挖掘就是从大量数据中提取或“挖掘”知识。

1.2 数据挖掘的一般流程

1)定义问题:清晰地定义出业务问题,确定数据挖掘的目的。

2)数据准备:数据准备包括,选择数据———在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理———进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。

3)数据挖掘:根据数据功能的类型和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。

4)结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。

5)知识的运用:将分析所得到的知识集成到业务信息系统的组织结构中去。

1.3 数据挖掘的方法

数据挖掘的方法主要有:神经网络方法;遗传算法;决策树方法;粗集方法;覆盖正例排斥反例方法;统计分析方法;模糊集方法等。

2 数据挖掘功能介绍

2.1 分类

分类是用于识别什么样的事务属于哪一类的方法,可用于分类的算法有决策树、bayes分类、神经网络、支持向量机等等。

2.1.1 决策树

对于离散属性,该算法标识与可预测列相关的输入列。例如,在预测哪些客户可能购买自行车的方案中,假如在10名年轻客户中有9名购买了自行车,但在10名年龄较大的客户中只有2名购买了自行车,则该算法从中推断出年龄是自行车购买情况的最佳预测因子。决策树根据朝向特定结果发展的趋势进行预测。对于连续属性,该算法使用线性回归确定决策树的拆分位置。

2.1.2 神经网络

神经网络是一种模拟生物上神经元工作的机器学习方法。

图1是银行用来识别给申请信用卡的客户发放何种信用卡的神经网络:

图中每个椭圆型节点接受输入数据,将数据处理后输出。输入层节点接受客户信息的输入,然后将数据传递给隐藏层,隐藏层将数据传递给输出层,输出层输出客户属于哪类信用卡。这类似于人脑神经元受到刺激时,神经脉冲从一个神经元传递到另一个神经元。

每个神经元节点内部包含有一个组合函数∑和激活函数f(图2)。X1、X2是其他神经元的输出值,对此神经元来说是输入值,组合函数将输入值组合后传递给激活函数。激活函数经过特定的计算后得到输出值y,y有被传递给其他神经元。

输入边上的w1和w2是输入权值,用于在组合函数中对每个输入值进行加权。训练模型时,客户事例输入,神经网络计算出客户的类别,计算值与真实值比较后,模型会修正每个输入边上的权值。在大量客户事例输入后,模型会不断调整,使之更吻合真实情况,就像是人脑通过在同一脉冲反复刺激下改变神经键连接强度来进行学习。

2.2 回归

分类算法是建立事例特征对应到分类的方法。分类必须是离散的,像信用卡的种类只有三种,如果是要通过客户收入、婚姻状况、职业等特征预测客户会使用信用卡消费多少金额时,分类算法就无能为力了,因为消费金额可能是大于0的任意值。这时只能使用回归算法。

例如:服装销售公司要根据各地分销店面提交的计划预计实际销售量。(图3)

2.3 聚类

分类算法的目的是建立事例特征到类别的对应法则。但前提是类别是已存在的,如已知道动物可以分成哺乳类和非哺乳类,银行发行的信用卡有银卡、金卡、白金卡三种。

有时在分类不存在前,要将现有的事例分成几类。例如,银行刚开始信用卡业务时,没有将客户分类,所有的客户都使用同一种信用卡。在客户积累到一定的数量后,为了方便管理和制定市场策略,需要将客户分类,让不同类别的客户使用不同的信用卡。但问题是,银行该把客户分成几个类别,谁该属于哪一类。

假定银行仅仅要参照客户的收入和使用信用卡销售金额两个指标对客户分类。通常情况下,仅仅是衡量这些指标的高低来分类,如规定收入小于4000元,且消费小于2000元的客户分成第一类;收入在4000元至8000元,消费在2000元至4000元的客户分成第二类;收入在8000元至12000元,消费在4000元至6000元的客户分成第三类;收入在12000元以上,消费在6000元以上分成第四类。图5展示了这种分类。

图4中三角形的点代表客户,图中的红色线条是对客户的分类。可以看到这种不合理,第一类别没有包含任何事例,而第四类也只有少量事例,而第二和第三类分界处聚集着大量事例。观测图像,发现大部分客户事例聚集在一起形成了三个簇,图5中用三个椭圆标出了这些簇。同在一个簇中的客户有着类似的消费行为,黑色簇中的客户消费额与收入成正比;蓝色簇中的客户不习惯使用信用卡消费,可以对这类客户发放一种低手续费的信用卡,鼓励他们使用信用卡消费;绿色簇中的客户消费额相对收入来说比较高,应该为这类客户设计一种低透支额度的信用卡。

聚类模型就是这种可以识别有着相似特征事例,把这些事例聚集在一起形成一个类别的算法。

序列聚类:

超市里也需要识别顾客购物的顺序,比如发现一类购物顺序是:尿布—奶瓶—婴儿手推车—幼儿玩具,当一个顾客购买了尿布的时候,就可以陆续向顾客寄发奶瓶、婴儿手推车、幼儿玩具的传单。

序列聚类通过对一系列事件发生的顺序聚类,来预测当一个事件发生时,下一步会发生什么事件。

2.4 关联

在客户的一个订单中,包含了多种产品,这些产品是有关联的。比如购买了轮胎的外胎就会购买内胎;购买了羽毛球拍,就会购买羽毛球。

关联分析能够识别出相互关联的事件,预测一个事件发生时有多大的概率发生另一个事件。

3 S P S S Cle me ntine数据挖掘应用实例

下面使用Adventure Works数据库中的Target Mail作例子,建立分类树和神经网络模型,决策树用来预测哪些人会响应促销,神经网络用来预测年收入。

具体操作:软件环境为SPSS Clementine

3.1 定义数据源

将一个Datebase源组件加入到数据流设计区,双击组件,设置数据源为dbo.vTargetMail视图。在Types栏中点“Read Values”,会自动读取数据个字段的Type、Values等信息(图6)。

Values是字段包含的值,比如在数据集中NumberCardsOwn ed字段的值是从0到4的数,HouseOwnerFlag只有1和0两种值。Type是依据Values判断字段的类型,Flag类型只包含两种值,类似于boolean;Set是指包含有限个值,类似于enumeration;Ragnge是连续性数值,类似于float。通过了解字段的类型和值,我们可以确定哪些字段能用来作为预测因子,像AddressLine、Phone、Date First Purchase等字段是无用的,因为这些字段的值是无序和无意义的。

Direction表明字段的用法,“In”在SQL Server中叫做“Input”,“Out”在SQL Server中叫做“PredictOnly”,“Both”在SQL Server中叫做“Predict”,“Partition”用于对数据分组。

3.2 理解数据

在建模之前,我们需要了解数据集中都有哪些字段,这些字段如何分布,它们之间是否隐含着相关性等信息。只有了解这些信息后才能决定使用哪些字段,应用何种挖掘算法和算法参数据。

除了在建立数据源时Clementine能告诉我们值类型外,还能使用输出和图形组件对数据进行探索。

先将一个统计组件和一个条形图组件拖入数据流设计区,跟数据源组件连在一起,配置好这些组件后,点上方绿色的箭头(图7)。

等一会,然后这两个组件就会输出统计报告和条形图,这些输出会保存在管理区中(因为条形图是高级可视化组件,其输出不会出现在管理区),以后只要在管理区双击输出就可以看打开报告。

3.3 准备数据

将之前的输出和图形工具从数据流涉及区中删除。

将Field Ops中的Filter组件加入数据流,在Filter中可以去除不需要的字段。

我们只需要使用Marital Status、Gender、Yearly Income、Tatal Children、NumberChildrenAtHome、EnglishEducation、EnglishOccupation、HouseOwnerFlag、NumberCarsOwned、CommuteDistance、Region、Age、BikeBuyer这些字段。

加入Sample组件做随机抽样,从源数据中抽取70%的数据作为训练集,剩下30%作为检验集(图8)。

注意为种子指定一个值,只要种子不变,计算机产生的伪随机序列是不变的。因为要使用两个挖掘模型,模型的输入和预测字段是不同的,需要加入两个Type组件,将数据分流。

决策树模型用于预测什么人会响应促销而购买自行车,要将BikeBuyer字段作为预测列。

神经网络用于预测年收入,需要将Yearly Income设置为预测字段。

有时候用于预测的输入字段太多,会耗费大量训练时间,可以使用Feature Selection组件筛选对预测字段影响较大的字段。

从Modeling中将Feature Selection字段拖出来,连接到神经网络模型的组件后面,然后点击上方的Execute Selection。

Feature Selection模型训练后在管理区出现模型,右击模型,选Browse可查看模型内容。模型从12个字段中选出了11个字段,认为这11个字段对年收入的影响比较大,所以我们只要用这11个字段作为输入列即可。

将模型从管理区拖入数据流设计区,替换原来的Feature Selection组件。

3.4 建模

加入Nearal Net和CHAID模型组件,在CHAID组件设置中,将Mode项设为“Launch interactive session”。然后点上方的绿色箭头执行整个数据流。

Clementine在训练CHAID树时,会开启交互式会话窗口,在交互会话中可以控制树生长和对树剪枝,避免过拟合。

完成后,在管理区又多了两个模型。把它们拖入数据流设计区,开始评估模型。

3.5 模型评估

修改抽样组件,将Mode改成“Discard Sample”,意思是抛弃之前用于训练模型的那70%数据,将剩下30%数据用于检验。注意种子不要更改,如图9所示。这里只检验CHAID决策树模型。将各种组件跟CHAID模型关联。

执行后,得到提升图、预测准确率表……

3.6 部署模型

Export组件都可以使用Publish发布数据流,这里会产生两个文件,一个是pim文件,一个是par文件。pim文件保存流的所有信息,par文件保存参数。有了这两个文件就可以使用clemrun.exe来执行流。在SSIS中pim和par类似于一个dtsx文件,clemrun.exe就类似于dtexec.exe。

4 结束语

数据挖掘是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展.每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。尽管如此,数据挖掘技术仍然面临着许多问题和挑战:如数据挖掘方法的效率亟待提高;开发适应多数据类型、容噪的挖掘方法,以解决异质数据集的数据挖掘问题等。

参考文献

[1]韩家炜,坎伯著.数据挖掘概念与技术.机械工业出版社,2001.

[2](美)派尔著.业务建模与数据挖掘--数据库技术丛书.机械工业出版社,2005.

[3]Margarent H.Dunham著.数据挖掘教程.清华大学出版社,2005(5).

[4]Pang-Ning Tan,Michael Steinbach,Vipin Kumar著.数据挖掘导论.人民邮电出版社,2006(1).

[5]梁循著.数据挖掘算法与应用.北京大学出版社,2006(4).

[6]陈文伟著.数据仓库与数据挖掘教程.清华大学出版社,2006(8).

[7]Xue Li,Osmar R.Zaiane,Zhanhuai Li著.Advanced DataMining and Applications高级数据挖掘及应用.湖北辞书出版社,2006(9).

[8]李德仁,王树良,李德毅著.空间数据挖掘理论与应用.科学出版社,2006(10).

[9]马超群等.金融数据挖掘.科学出版社,2007(4).

[10]毛国君等.数据挖掘原理与算法(第二版).清华大学出版社,2007(12).

[11]胡可云,田凤占,黄厚宽著.数据挖掘——理论与应用.2008(4).

数据挖掘的应用研究 篇2

【中文摘要】高校教学系统作为大学数字化教学的一个重要组成部分,运行多年已经积累了大量的数据,但并没有得到很好的挖掘和研究。相反,数据挖掘在保险、电信、金融等领域却得到了广泛的应用,取得了良好的收益,而对教育信息的挖掘及知识发现方面研究及开发却很少。为了从大量的的教学数据中获取有用的知识,更好的为高校教学、管理及科研等提供服务,本文结合高校管理系统与数据挖掘技术对教学质量评估及学生成绩分析进行了研究,对相关算法做了相应的改进,并对结果进行分析,从而获得有用的信息。本文首先介绍了论文的,国内外的研究现状,然后介绍了数据仓库及数据挖掘的基本概念,主要的数据挖掘技术,数据挖掘的体系结构及运行过程。其次就其在教学系统中的应用进行了分析,提出了教学质量评估、学生成绩分析两个分析主题,介绍了教学数据仓库的构建,给出了基于SQL Server的数据挖掘解决方案,分别运用关联规则和决策树方法进行研究,介绍了相关算法,并进行了优化,接着是数据挖掘的实现。最后对相关数据进行挖掘,对实验结果做出了初步分析,所得出的结论对高校教学工作具有一定的指导意义。

【英文摘要】Higher education management system as an important part of the university digital teaching has accumulated a lot of data for years, but has not been good for

mining and research.In contrast, data mining in insurance, telecommunications, financial and other fields has been widely used and obtained a good income, while education information mining and knowledge discovery research and development is rarely.In order to obtain useful knowledge from a large number of the teaching data, and provide better services for the university teaching, management and scientific research, this paper combines higher education management system and data mining technology and study teaching quality assessments and student performance analysis, improves interrelated algorithm,analysises the results,acquires interesting information.The article proposes the research background,the domestic and abroad research status,the concepts of data warehouse and data mining, the main data mining technologies, data mining architecture and operation process.Second,analysises data mining application in higher education management system, proposes two analysis themes including teaching quality assessments and student performance analysis, then introduces the education data warehouse, gives based on the SQL Server data mining solution, researches them with association rules and decision tree respectively, introduces and optimize the related algorithms, data mining

implementation.Finally, mines the relevant data, and makes a preliminary analysis of experimental results, the conclusions of the work have some significance on university teaching.【关键词】数据挖掘 数据仓库 关联规则 决策树

【英文关键词】Data Mining Data Warehouse Association Rules Decision Tree 【目录】数据挖掘技术及其在高校教学系统应用的研究4-57-9ABSTRACT5

目录6-7

第一章 绪论

摘要1.1 课题研究背景7

7-8

1.2 数据挖掘技术在高校教

1.4 学中应用的研究现状论文的组织结构8-99-18

1.3 研究内容及方法8第二章 数据仓库及数据挖掘理论2.1 数据仓库的概念和基本特性92.2 数据仓库开发模型9-1111-12分类13-15

2.3 数据仓库系统的设计和实施

12-13

2.5 数据挖掘的2.7 数据2.4 数据挖掘基本概念

2.6 数据挖掘的体系结构15-16挖掘的常用技术16-18施18-31

第三章 教学系统数据仓库的设计与实

3.2 高校数据仓3.1 数据仓库的应用目标库的体系结构18-1919-20实现28-31用31-42的算法32-34

3.3 数据仓库的需求分析

3.5 ETL的3.4 数据仓库三层模型的建立20-28

第四章 关联规则方法及其在教学质量评估中的应4.1 关联规则挖掘31-32

4.2 关联规则挖掘

4.4

4.3 关联规则挖掘算法的改进34-36

关联规则在教学质量评估中的应用36-42及其在学生成绩分析中的应用42-5742-44类45-4646-5757-5860-61 5.2 决策树的改进44-45

第五章 决策树方法5.1 决策树方法5.3 决策树算法的分5.4 决策树方法在学生成绩分析中的应用第六章 总结与展望57-596.2 展望58-59

6.1 论文总结

参考文献

数据挖掘的应用研究 篇3

关键词:Excel2010;数据挖掘工具;功能与运用

中图分类号:G642 文献标识码:B 文章编号:1002-7661(2014)24-005-01

数据挖掘是指从海量的数据中搜寻有价值、有趣模式的过程,试图在随机的、无规律的、大量的、模糊的数据中提取人们所不知道的但存在潜在利用价值的数据信息。数据挖掘是知识发现的过程,能够帮助人们快速整理、寻找目的信息,提高数据信息利用效率。Excel作为Micrsoft Office应用办公软件中的常用组件,具有高效的计算功能和直管的图表界面,是当下最流行的办公应用软件。而Excel2010则是一款功能强大、应用广泛的数据挖掘工具,本文将对其功能和应用做详细阐述。

一、Excel2010数据挖掘工具

Excel2010数据挖掘工具具有创建、测试、管理数据挖掘结构和模型的功能,能够为用户提供快速直观的应用界面,同时SQL中数据自定义功能不会丧失,并能够对存储在Excel表格中的数据进行相关性分析和汇总,支持数据建模、图形展示结果的功能。使用Excel2010进行数据挖掘时,需要具备数据挖掘外接程序和Microsoft SQL两种技术支持,本文所介绍的Excel2010是在windows2007版本下的Microsoft SQL2012和Office2012数据挖掘外接程序[1]。Excel2010由用户界面、数据知识库(评估模式和数据挖掘搜索引擎)、数据库服务器以及数据清理、集成和选择组成,整个数据挖掘系统均可以与互联网和其他信息总库相连接。Excel2010采用外接程序实现数据挖掘功能,主要包括三个板块:一是Excel表格工具,用户可以通过简单的鼠标和键盘操作,对表格中的数据进行各种运算和相关性分析;二是Visio数据挖掘模板。用户可以通过Visio以图形方式呈现数据结果,方便用户更直观简洁地理解。三是Excel2010数据挖掘客户端,用户可以通过Analysis Services 访问其他数据库或互联网数据,从而扩大信息搜索范围。

二、Excel2010数据挖掘工具的功能应用

1、数据准备

Excel2010中具备浏览、查看、删除、标记、分类、整理等多种数据管理功能,方便用户在进行数据挖掘操作时做好数据准备[2]。浏览数据和查看数据是Excel2010中最基本的功能,能够明确判定单个行或列中数据的分布情况和数据性质。清除或删除数据是Excel2010一大主要功能之一,用户可以通过标记、修改或删除没有利用价值的数据以达到运用目的。分类数据是Excel2010中常见的功能之一,通过各种分类方法将不相关的、无规律的数据继续拧有规律、有计划的排列组合,方便后期数据挖掘。

2、数据建模

数据建模是指根据Excel2010表格数据库中数据进行关联性分析,预测数据趋势,方便后期查找和分类。数据建模是建立在Analysis Services 基础之上的,数据分析或数据分类过程中能够生成一个分类模型,系统根据模型中列和行的值来预测某一单位列中的值。预测模型,它通过提取数据模式中的关联模式来预测连续的数字或日期。聚类分析模型,它能够针对特征相同或相似的数据或行组进行归纳。关联模型能够检测多个事务中存在关联性的数据,比如学生信息系统模型中,将学生的姓名、班级、学号、成绩等进行关联性分类。

3、检测与评估模型

检测和评估模型是指创建用于分析数据挖掘方案的图表,以提升图或散点图的方式清楚直观地将分析结果展示出来,方面用户评估模型的性能。比如公司企业的年度利润收益状况图表就是医用走势图或柱状图展示出来的。

4、管理与连接

Excel2010数据挖掘客户端,用户可以通过Analysis Services 访问其他数据库或互联网数据,从而扩大信息搜索范围。

5、统计数据信息

Excel2010最基本的功能就是数据挖掘,而数据挖掘是数据统计最典型的功能,能够支持海量数据、多种性质数据的统计分析操作,帮助人们获取目的信息数据。

6、支持多种数据算法

Excel2010作为一种数据挖掘工具,它的数据模型功能是通过各种复杂的算法来实现的。以Microsoft SQL2012中的Office Excel2010为例,其中包括分类算法、回归算法、分段算法、关联算法、顺序分析算法等等,这些算法为实现数据建模中的分类模型、聚类分析、逻辑回归、统计学分析等等具有重要作用。

Excel2010作为一款永永快速直观工作界面和高效创建管理数据的数据挖掘模型,能够帮助人们从海量无规律的数据中提取有应用价值的数据,简化操作程序,提高工作效率。Excel2010数据挖掘工具主要具备数据准备、数据建模、检测与模型评估、模型用途以及管理和连接五大方面的作用,在快速高效统计数据信息和支持多种数据算法方面应用广泛。

参考文献:

[1] 吴 丹.Excel2007数据挖掘工具的研究与应用[J].数据库与信息管理,2013,9(8):1736-1738.

数据挖掘技术的应用研究 篇4

1.1 必要性分析

图书馆作为文化传播的重要渠道, 一直备受社会关注, 相应的, 图书馆的变化发展也应该与社会同步, 以满足人们不断增长的文化需求, 因此, 图书馆的服务水平和管理水平都应该是逐渐提高的。随着计算机技术在各行各业的广泛应用, 图书馆管理中计算机技术的使用也应该跟上时代的步伐, 把先进的信息技术用到图书馆的管理上来, 以提高图书馆管理质量。

(1) 图书馆的图书信息量大、知识面广, 简单的图书馆自动化管理可能造成数据多但信息少的情况, 因此, 必须加大对图书馆大量信息的分析整理, 即对内容繁多而杂乱无序的数据进行提取和分析整理, 再把这些数据以某种形式联系起来, 供读者查询和使用。

(2) 目前一些高校的图书馆管理系统具备简单的数据查询和信息检索功能, 但是不具备对信息进行深层次分析的能力, 要提取需要的数据, 需要做很多的重复劳动。例如在借阅明细统计中, 简单的管理系统只能统计图书借阅信息, 但是如何对这些信息进行加工整理, 统计分类哪些书是被经常借阅的就很难做到, 这就需要数据挖掘技术的应用。此外数据挖掘技术的应用还可以提高图书馆信息资源的管理利用、服务质量和决策者的判断决策能力。

1.2 可行性分析

图书馆的自动化系统建设和运行产生了很多数据信息, 如何对这些数据进行深入分析整理造就了数据挖掘技术的发展和应用。图书馆数据库中的数据是比较稳定的, 同时又是不断更新和增加的。图书馆的数据保存具有一定的时限性和价值性。虽然图书馆文献的信息量大, 但是对这些数据的初期管理的有序化为数据挖掘技术在图书馆的应用奠定了基础。

2 数据挖掘技术在图书馆应用的关键技术

2.1 B/S模式

B/S (Browser/Server, 浏览器/服务器) 模式又称B/S结构, 是相对C/S模式而言的。其随着互联网技术的发展而兴起, 是C/S结构的应用拓展。在这种应用模式下, 用户工作界面是通过浏览器来实现的。相对于C/S模式的应用系统, B/S模式最大优点在于其运行维护比较简单, 能实现不同人员、不同点点、以不同的网络接入方式访问共同操作数据, 但是其最大的缺点在于其依赖于企业的外部网络, 一旦外部的网络中断就将导致整个系统的瘫痪。基于B/S的应用系统, 用户可以通过WWW浏览器去访问Internet上的文本、数据、图像、动画、视频点播和声音信息, 这些信息都是由许许多多的Web服务器产生的, 而每一个Web服务器又可以通过各种方式与数据库服务器连接, 大量的数据实际存放在数据库服务器中。客户端除了WWW浏览器, 一般无须任何用户程序, 只需从Web服务器上下载程序到本地来执行, 在下载过程中若遇到与数据库有关的指令, 由Web服务器交给数据库服务器来解释执行, 并返回给Web服务器, Web服务器又返回给用户。在这种结构中, 将许许多多的网连接到一块形成一个巨大的网, 即全球网。而各个企业可以在此结构的基础上建立自己的Internet。作为最终用户, 只要通过Web浏览器, 就可以访问图书馆管理信息系统, 方便更多的用户使用图书馆管理信息系统, 避免了只有安装图书馆管理信息系统客户端才能访问系统的弊端, B/S模式开发系统可以减少运行成本和维护成本。

2.2 ASP.NET技术

ASP.NET开发框架是基于公共语言运行库的, 其开发是基于B/S模式, 分为服务器端和前端, 在服务器端生成Web应用程序, 前端通过向服务器端提交需求来获得相应, 其主要特点如下:

2.2.1 性能较高

ASP.NET最大的性能是在编写code前就较其他技术提高了性能。因为ASP.NET运行的code是已经在服务器端编译过的公共语言代码库。这样就大大缩短了服务器回应的时间, 从而提高了运行时间。

2.2.2 丰富的支持工具

ASP.NET的开发是使用Visual Studio工具, 而Visual Studio开发工具是一个集成的开发环境, 里面集成了很多的工具箱和设计器, 降低了ASP.NET开发的难。

2.2.3 灵活性高

ASP.NET是不依赖于特定的语言的, 是基于公共语言运行库的, 可以使用多种语言实现不同的应用程序, 这样其他的技术如.NETFramework类库和消息处理等的技术都可以扩展到其中。因此, ASP.NET的开发具有较高的平台灵活性和方便的移植性。

2.2.4 方便性

ASP.NET开发的系统在运行时相对比较简单, 如窗体简单, 一目了然, 提交的信息可以很方便的提交到服务器端并得到验证和回应。ASP.NET使用的公共语言库是使用代码托管的方式。

2.2.5 管理性高

ASP.NET开发的系统维护较方便, 由于其采用基于文本的配置方式, 不需要特殊的环境配置或者特殊的工具。由于其配置的信息是纯文本方式保存, 所以可以随时使用新的设置。

2.2.6 扩展性高

由于现在技术和需求更新换代较快, 因此, 开发程序的扩展性就非常重要。ASP.NET的开发框架设计比较成熟, 其他方案可以很方便的扩展到现有的应用程序上, 这满足了现有的应用程序的特点。

2.2.7 安全性高

ASP.NET是采用内置的身份验证, 再加上每个程序的相应安全配置, 增加了系统的安全性系数和稳固性。

3 结束语

数据挖掘技术作为新兴的信息处理和管理方法正在被广泛推广, 未来发展也必然更好, 但是目前数据挖掘技术在我国还不够成熟, 在图书馆中的应用中还存在一些问题, 随着图书馆管理改革, 急需信息技术的应用。对数据挖掘技术进行分析研究, 让它更好的应用在图书馆日常管理中, 提高图书馆的数据管理质量, 推进图书馆信息化管理。

摘要:现代社会是信息技术高速发展的时代, 数字化管理的快速发展使数据挖掘技术的应用也越来越广泛, 现在已经被应用于图书馆的日常管理中。但是这种技术的应用还不够成熟, 有待进一步探索和研究。本文从数据挖掘技术在图书馆管理中应用的必要性和可行性出发, 分析了数据挖掘技术在图书馆应用的关键技术。

关键词:数据挖掘,图书馆,技术

参考文献

[1]杨辉.基于数据挖掘技术提高图书馆服务质量[J].信息与电脑 (理论版) , 2012.

[2]王乃芹.数据挖掘技术对图书馆的影响分析[J].贵图学刊, 2011.

数据挖掘的应用研究 篇5

摘要:我国中等职业教育的学校规模、在校生人数等都有了很大的发展,高效的数据管理对学校发展起到越来越重要的作用。利用Hash树和Fp树对Apriori算法对学生信息、教学信息、后勤信息进行分析和研究,并进行优化和实施关联规则挖掘,用遗传算法对挖掘成果进行优化,以此来推动中等职业教育的发展。

关键词:数据挖掘;关联规则;遗传算法

1引言

信息时代的计算机数据存储技术等得到了飞速发展。大量的数据与数据分析处理方法相互结合产生了数据挖掘技术,目前数据挖掘是在许多领域和方面得到了广泛应用的技术。随着中等职业教育的发展,提高职业教育质量已成为一个系统工程。目前职业学校已存储了以学校教学实践为中心的大量数据,但是其背后所蕴含的大量有用信息并未得到发现和利用,主要是因为利用分析方法不适应职业学校的大量复杂数据。利用数据挖掘技术从中发现有价值的信息可以指导职业学校教学、就业、后勤等各方面的管理,提高管理效率,降低成本,推动职业教育更好的发展。

2关联规则挖掘算法

2.1Apriori算法及改进

Apriori算法是关联规则挖掘的基本算法,它利用项集的先验性知识和层次顺序的循环搜索方法来发现频繁项集,首先产生频繁1-项集L1;然后利用L1来产生频繁2-项集L2,不断循环下去直到无法发现更多的频繁K-项集为止。

从两个方面对Apriori算法进行改进。

2.1.1利用HASH树对支持度进行计数

HASH树根节点为空,用HASH函数来决定内部节点的分支走向,遍历HASH树可以对候选项集支持度进行计数,用HASH树对候选项集的支持度进行计数,避免了穷举法对事务中的每个项集与候选项集进行比较,而是进行了分类,降低了支持度计数的任务量。

2.1.2用FP树提取频繁项集

FP树(frequentpatterntree)实现了对数据的紧凑表示,可以从该结构中直接提取频繁项集。FP树之中的一条路径所表示的数据序列对应一条事务中的数据,对于不同事务中相同的数据项对应的FP树中的路径可以重叠,从而实现了事务数据的紧凑表示。FP树的节点包括数据项的标记和计数,计数表示经过该路经的事务个数。

(1)对各数据项的数据按照它们的支持度计数的递减顺序排序,从而调整数据集中各数据的次序。

(2)由数据集构造FP树,对第一个事务创建从根节点到事务中各数据的路径并进行支持度计数。

(3)继续读入事务,与创建过路径的事务进行比较将新事务加入FP树,如果与创建过的事务有相同的路径则合并相同的路径,相应节点支持度增加,不同路径增加不同的分支,进行支持度计数。

(4)继续该过程直到所有的事务都映射到FP树。

(5)由FP树依据不同的结尾进行划分,产生以其为后缀的路径。

(6)不同的.后缀产生相应的频繁项集。

2.2关联规则的发现

由频繁项集可以较为容易地产生相应的关联规则,可以通过计算置信度来获得强关联规则,关联规则的操作为:

2.2.1对于每个频繁项集L产生所有的非空子集。

2.2.2对于L的非空子集,如果c(L-)=≥min_s,则产生(L-)的关联规则,min_s为最小置信度阀值。

3学校信息的数据挖掘

3.1对学校信息进行关联挖掘

下边以有代表性的学生就业方面信息为例来进行分析。就业信息库中的数据项包括:学生的编号、成绩、学生干部、操行等级、实践动手能力、就业单位,其中编号为学生的唯一标识。为了便于数据存取现在对各数据项的内容进行编号,其中成绩项分为:优(a1),良(a2),一般(a3);学生干部分为:是(b1)、不是(b2);操行等级程度分为:良(c1)、优(c2)、一般(c3);实践动手能力分为:强(d1)、较强(d2)、一般(d3)。就业单位分为:大型公有企业(e1)、大型私企(e2)、一般公有企业(e3)、一般私企(e4)。

现有部分学生就业信息:

学生信息库中共有125条学生就业方面的信息,应用挖掘软件对其进行数据挖掘,最小支持度选定为0.3,最小置信度选定为0.5。其数据信息和挖掘结果如下所示:

在该就业数据库中就业信息处于最主要的地位,也最有分析价值和现实意义。为了挖掘就业方面的关联规则,发现影响就业情况的因素,从挖掘结果中提取“结论”含有就业数据项(e1,e2,e3)的规则,得到的规则表达式和可信度为:

(1)b1|c2e1confidence=0.84

(2)b1e1confidence=0.62

(3)b1|d2e1confidence=0.62

(4)c2|d2e1confidence=0.58

(5)b2e2confidence=0.52

(6)c2e2confidence=0.56

(7)b2|c2e2confidence=0.91

(8)a2e2confidence=0.64

由1至4式得:学生干部且操行达到优、学生干部、学生干部并且实践动手能力较强、操行达到优且实践动手能力较强到大型公有企业就业的可能性分别为0.84、0.62、0.62、0.58。

分析可以得到如下结果:学生干部和操行等级对进入大型公有企业就业有着重要影响,同时也应该提高实践动手能力。

由5到8式得:不是学生干部、操行达到优、不是学生干部且操行达到优、学习良好到大型私企的可能性分别是0.52、0.56、0.91、0.64。

分析得:操行等级和学习成绩对进入大型私企有较大的影响,同时是学生干部对进入大型私企没有进入大型公有企业的影响力大。

3.2遗传算法对挖掘结果的优化

遗传算法是模拟生物的遗传、变异、选择、淘汰等自然选择和遗传机制,以随机的形式将最适合目标的种群通过重组产生新的一代。该算法是一种全局优化算法,适合于较大空间的优化问题,具有并行性、纠错能力强和可操作性的特点。在数据挖掘中会遇到搜索寻求可行解或最优解,需要处理海的量数据要花费很长时间,遗传算法的启发式解决问题的方法可以应用到这一方面。

由上面得到把各种要素对就业的影响可以用数学函数来表示,影响作用的大小对应函数值的大小。下面利用遗传算法对挖掘结果的优化,流程图如下。

具体应用中就业情况受多个因素的影响,先抽取最有影响的两个因素建立模型函数,下边以函数y=(x1*x1-x2)*(x1*x2-x2)+(1-x1)*(1-x1)为例来分析,其中y为学生的就业情况好坏的量化表示,x1、x2分别是操行等级和动手实践能力。 程序中的类型定义为:

intpopsize;//种群大小

intmaxgeneration;//最大世代数

doublepc;//交叉率

doublepm;//变异率

doublefitness;//适应度

intgeneration;//世代数

structindividualbestindividual;//最佳个体

structindividualworstindividual;//最差个体

structindividualpopulation[POPSIZE];

各函数说明如下:

(1)voidgenerateinitialpopulation和voidinput()初始化种群和遗传算法参数。

input()函数输入种群大小,染色体长度,最大世代数,交叉率,变异率等参数。

(2)voidcalculateobjectvalue()计算适应度函数值。根据给定的变量用适应度函数计算然后返回适应度值。

(3)选择函数selectoperator(),在函数selectoperator()中首先用rand()函数产生0~1间的选择算子,当适度累计值不为零时,各个体适应度占总适应度的百分比与选择算子值比较,达到选择算子规定值的那个体被选出,即适应度为fi的个体以fi/∑fk的概率继续存在;显然,个体适应度愈高,被选中的概率愈大。但是,适应度小的个体也有可能被选中,以便增加下一代群体的多样性。

(4)染色体交叉函数crossoveroperator()是遗传算法中的最重要的函数之一,它是对个体两个变量所合成的染色体进行交叉,而不是变量染色体的交叉,这要搞清楚。首先用rand()函数产生随机概率,若小于交叉概率,则进行染色体交叉,同时交叉次数加1。这时又要用rand()函数随机产生一位交叉位,把染色体的交叉位的后面部分交叉即可;若大于交叉概率,则进行简单的染色体复制即可。

(5)染色体变异函数mutation(),变异是针对染色体字符而言的,而不是对个体而言,即个体变异的概率是一样。随机产生比较概率,若小于变异概率,则1变为0,0变为1,同时变异次数加1。

(6)longdecodechromosome(char*,int,int),本函数是染色体解码函数,它将以数组形式存储的二进制数转成十进制数,然后才能用适应度函数进行计算。

(7)voidfindbestandworstindividual(),本函数是求最大适应度个体的,每一代的所有个体的适应度都要和初始的最佳个体比较,如果大于就赋给最佳个体。

(8)voidoutputtextreport(),本函数输出种群统计结果。

运行结果如图3.4所示为:

设定种群大小为150,最大世代数为80,交叉率为0.5,变异率为0.05,运行结果如图3.4所示,由此得到y=(x1*x1-x2)*(x1*x2-x2)+(1-x1)*(1-x1)的最大值约为47.86,即:整体学生操行等级和动手实践能力对就业的影响程度为47.86。这为大量数据的最优求解问题提供一种参考方法,具有很大的借鉴意义。上述分析方法也有很大的局限性,主要是选择合适的评价函数即适应度函数问题。

4结论

目前,数据挖掘技术在职业学校信息管理中的应用还处于起步阶段,但是由于其在数据处理、分析、组织以及信息挖掘等方面所表现出来的巨大潜力,相信不久的将来,随着数据库的不断膨胀和数据挖据技术在职业学校信息管理中应用的不断深入,为我国职业学校的跨越式发展起到一个科学导向作用。

参考文献:

[1]陈安,陈宁,周龙骧.数据挖掘技术与应用.北京:科学出版社,2006

[2]Pang-NingTanMichaelSteinbachVipinKumar.数据挖掘导论.北京:人民邮电出版社,2006

[3]李本贵.数据挖掘在高校后勤中的应用.企业技术开发,2006(2):22~23

[4]钱能.C++程序设计教程.北京:清华大学出版社,1999

[5]张儒良,王翰虎.论数据挖掘优化教学管理.2004(2):133~155

数据挖掘的应用研究 篇6

关键词:数据挖掘;数据仓库;ERP;应用框架

中图分类号:TP311.13 文献标识码:A文章编号:1007-9599(2012)02-0000-02

The Application Research of Data Mining in the ERP Based on Data Warehouse

Li Zhi

(Hunan Mechanical&Electrical Polytechnic,Changsha410151,China)

Abstract:Abstract:This article embarked from ERP and data mining's basic concept,has analyzed in ERP the application data mining reason,proposed that based on data warehouse's data mining application frame, summarized its merit and the insufficiency,was in ERP the data mining application provides the reference.

Keywords:Data mining;Data warehouse;ERP;Application frame

ERP系統是一种基于现代管理理念的企业信息管理系统,建立ERP系统的重要目的之一是为管理层提供决策支持。企业在实施ERP时会产生大量的数据,因此,通过分析和利用ERP系统积累的数据,提高管理者特别是高层管理者的决策能力,是衡量ERP系统是否成功的关键。传统的ERP软件只提供报表功能,但报表功能对于处理海量数据显得无能为力,无法自动发现隐含在大量数据中的知识,要想弥补ERP的不足,引入数据挖掘技术是一种值得考虑的方法。

ERP系统的应用行业类型复杂,使用过程中包括的数据种类繁多,因此无法设计一种通用的数据挖掘算法来满足系统的应用需求。事实上,ERP实施过程中积累的数据有着各一定的相关性,通用的数据挖掘算法不可能适应不同行业的特点,总体而言,数据挖掘技术在ERP系统中的应用并不广泛。基于此,本文提出一种基于数据仓库的ERP数据挖掘应用框架,为数据挖掘技术在ERP系统中的有效应用提供思路。

一、基本概念介绍

(一)数据挖掘

数据挖掘(Data Mining,DM)是指一种数据分析和处理技术。DM技术是人工智能的一种应用,是高级的数据分析手段。

(二)数据仓库

数据仓库(Data Warehouse,DW)是在组织内部管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。数据仓库与数据库不同,它更像一种过程,对分布在组织内部各处的业务数据的整合、加工和分析的过程。

(三)ERP

ERP(Enterprise Resources Planning,企业资源计划)是建立在信息技术的基础上,利用现代企业的先进管理思想,全面地集成了企业的所有资源信息,并为企业提供决策、计划、控制与经营业绩评估的全方位和系统化的管理平台。

二、ERP中应用数据挖掘的原因

针对ERP系统中应用数据的原因,笔者从ERP系统自身的局限性和数据挖掘对ERP实施的重要性两个方面进行分析。

(一)常用ERP软件的局限性

当前的ERP系统仍然停留在MIS系统层面,企业所期望的决策支持功能还未能实现。ERP系统常采用联机事务处理机制,而不具有联机分析功能。在这种情况下,ERP在实施和运行过程中的局限性不断的暴露出来。

1.ERP系统是一种 “联机事务处理系统”。ERP由多个事务应用组成,它把事务处理的细节记录在相关数据库中,从而产生大量的目标数据。事实上,这些目标数据的利用率非常低下。根据IBM 的调查,一般ERP企业对存储的数据的利用率只有3%左右,决策者无法直接从海量数据中获信息。

2.ERP将数据转化成信息的能力有限。受ERP思想提出时的需求所限,ERP数据库中的数据无法上升到信息层面,而决策层所需的信息需要从ERP系统提取出来进行二次加工才能得到,这便降低了ERP的运行和使用效率。

3.ERP系统无法解决异构环境的查询问题。ERP企业中不同的业务数据存储在不同的环境中,在这种异构环境不易实现统一的查询。

4.ERP系统的开发和维护成本难以控制。由于管理与决策需求的不断变化,大大增加了ERP系统开发维护工作量。这样导致企业信息成本处于一种不可控状态。

(二)数据挖掘对ERP实施的重要性

数据挖掘技术在以下几个方面提升ERP的数据处理能力:

1.关联分析:通过数据挖掘相关算法发现关联规则,这些规则展示了某一属性频繁的在给定数据集中一起出现的条件。

2.分类分析:通过分类能够找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。

3.聚类分析:对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组。

4.演变分析:数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。

三、ERP系统中的数据挖掘应用框架

(一)基于数据仓库的数据挖掘应用框架

本文根据ERP的特点,结合典型的数据挖掘系统,提出一种基于数据仓库的ERP数据挖掘应用框架,如图1所示。

图1 基于数据仓库的ERP数据挖掘应用框架

ERP数据库主要负责处理联机事务,负责多事务处理、数据的一致性与完整性等,它负责的重点并不是进行大数据量的查询与分析。而ERP数据仓库是分析型数据库,数据往往被组织在一致的模式下存放,通常是历史数据的汇总,目的是为了支持决策。

(二)应用框架的特点分析

基于数据仓库的ERP数据挖掘应用框架的主要优点是:①分析型数据库与操作型数据库分离,使ERP数据挖掘系统的分析任务与操作事务互不干扰,这样保证了数据挖掘进行数据查询时不影响业务操作性能;②ERP中的数据仓库根据分析需要组织数据内容、结构与功能,基于数据仓库的数据挖掘有更强的针对性;③ERP中的数据仓库可以整合不同的数据源,避免数据挖掘局限于某个ERP系统,方便扩充。

基于数据仓库的ERP数据挖掘应用框架的主要缺点是:①利用ERP进行数据挖掘前需要建立数据仓库,需要进行数据清理和数据集成,这样增加了数据挖掘应用的成本与风险;②数据仓库存储的是历史数据,与最新的数据有一定差异,在数据更新频繁的情况下,有可能导致分析结果不准确。

四、结束语

数据挖掘技术是目前一种流行的数据分析和处理技术,特别适合基于数据仓库环境下的应用;ERP系统是是种现代企业管理信息系统,企业的大量数据可以通过ERP系统中的数据库得到存储。本文考虑建立一种基于数据仓库的ERP数据挖掘应用框架,通过将企业数据库中转换成数据仓库,为数据挖掘在ERP系统中的应用提供基础,从而增加了企业管理和决策人员从系统数据中获取有用信息的能力。

参考文献:

[1]安淑芝.数据仓库与数据挖掘[M].北京:清华大学出版社,2005

[2]荆巍巍.基于ERP系统的数据挖掘应用研究[J].信息化研究,2010(8):1-4

[3]李晶,陈骥.数据挖掘技术对ERP实施的重要性[J].福建电脑,2008(8):60-61

[4]陈德军,盛翊智,陈绵云.基于数据仓库的OLAP在DSS的应用研究,2003,01:30-31

基金项目:湖南省教育厅自然科学基金项目(编号:11C0480)资助。

[作者简介]

李治(1977-),汉族,男,湖南益阳人,硕士,讲师,研究方向为数据挖掘、管理信息系统与决策支持系统。

数据挖掘的应用研究 篇7

1数据挖掘的定义

数据挖掘(Data Mining)是指人们从大量的、模糊的、零碎的、随机的、不完整、含有噪声的应用数据中,提取出一些有潜在价值的信息和知识的一系列管理与分析过程。主要的工作流程主要包括:首先对原始数据的整理,选择数据并对数据进行预处理,然后对预数据的进行转换,最后抽取出有用的信息并获取知识。数据挖掘基于数据库对模式进行发现,可将模式划分预测型模式与描述型模式两种。

2数据挖掘的常用方法

2.1聚类分析方法

聚类分析的方法是目前数据挖掘技术中一个很常用的方法,主要源用于统计学、生物学及机器学习等学科。它是使用簇的集合,通过使用一个簇内的任意两个对象之间的相似性, 找出对象间的相异性的过程。

2.2决策树

决策树分为分类树和回归树两种,其中分类树是对离散型数据变量进行决策,而回归树主要应用于连接的数据变量进行决策。它的主要工作过程就类似于数据流程图中的树型结构, 把整个结构分为根结点、中间结点和叶结点,在进行数据分析的过程就是把数据进行切分,每个问题对应一个结点。

2.3关联规则

关联规则主要的思想是根据数据的出现的频率找到出现之间的相互关系,主要的目的是根据他们的关联信息找出其中的规律,并为之所利用。最核心的方法就是基本频集理论的递推方法。

2.4统计分析的方法

常用的统计分析立法有回归分析方法、判别分析方法和探索性分析方法三种,它主要是要从大量的数据中,使用科学的统计方法,推断出事物之间存在可能的规律。

3招生数据仓库的建模

本文在创建数据仓库的过程中,主要通过数据驱动的方法,从不同的数据源中获得的数据存储到数据仓库中,根据决策的主题,实现招生数据的更科学决策分析,本文主要选用SQL Server数据库,从概念建模、逻辑建模及物理建模的三级模式来构建数据仓库。

4数据挖掘流程

我校是国家级示范性高职院校,招生类型多,招生管理工作复杂繁琐,把数据挖掘技术应用于招生数据的管理中,有利于对考生志愿的合理选择,同时也让更多的学生及家长了解当前的专业模式,以及对录取的新生报到率的预测,为下一年的设定招生人数和专业设置提供有价值的参考资料。数据挖掘技术在本校的招生数据管理的主要工作流程如图1所示:

我们从最原始的学生填写的高考志愿信息表中,获取基础数据,从考生的高考成绩、学业水平成绩、高中毕业考试成绩、 考生类别、生源地、家族信息等信息中,通过前端处理工具,主要使用Clementin工具,设置字段选项、选择记录点、对数据进行抽样,汇总等建立数据仓库,基于数据挖掘所要实现的目标以及数据所具有的特点,确定合适模型,通过聚类模型实现挖掘分析。最后评价数据挖掘结果,确定最佳模型,将其应用到具体实际问题中,与招生工作进行结合从而解释数据挖掘结果。

5数据挖掘在招生平台的应用

建设招生数据管理平台主要是为了对所有的招生数据进行科学的分析,解决招生过程中专业的设置,冷热门专业分析, 录取分数线分析,考生第一志愿的分析以及招生计划的设置等。

5.1专业设置

招生平台中,可以以专业类别当成维度,采用关联分析,对各专业进行分析,与及对某一专业和其相关联的或相近专业, 使用多维数据集与EXCEL的数据透视表工具结合,能方便地进行OLAP操作及结果的报表、图形等多种方式的可视化展现。

5.2冷热门专业分析

以生源所在地的考生为基础,运用聚类算法进行分析,以发掘考生填写志愿的相关规律,确定哪些专业是热门,哪些专业是冷门专业,根据毕业生的就业情况以及对当前的市场变化趋势深入了解,持续地对热门专业进行支持与挖掘,对冷门专业进行控制。

5.3考生第一志愿分析

第一志愿是志愿填报中最重要的一环,目前我校在录取规则上优先录取第一志愿考生,这样可以有相应专业人才的稳定生源,这批生源在最大程度上有志于自己所填报的志愿,而且在录取第一志愿考生时,学校热门专业通过第一志愿录取即可招满相应的新生。本文通过关联分析的方法,结合统计分析和聚类分析,根据考生的专业兴趣,高考成绩,以及兴趣爱好等, 分析考生第一志愿的情况。

5.4招生计划安排

以考生的专业类别为基础数据,对某一类考生的信息进行分析,主要包括对考生的填写志愿的行为分析,有针对性地对考生性质,考生的志愿爱好,以及考生的高考成绩中的单科成绩情况进行分类分析及关联分析,采用决策树法,合理地安排专业招生计划。在系统平台的运用中,挖掘出隐含的规则与特征,把相关数据信息传递到各二级学院,让二级学院根据挖掘的结果做出合理的招生计划安排。

5.5挖掘结果展现

为了更好的展现考生的各种属性之间的联系,以“专业”、 “成绩等级”、“生源地等级”作为前项,“报到状态”为后项,进行关联规则挖掘。运行结果如图5所示:

6结束语

目前,很多高校都使用了各自的招生数据管理系统,也深入地掌握了数据挖掘技术对招生数据进行分析与干预,本文主要是使用关联规则法、决策树、统计分析等数据挖掘技术方法进行计算、分析、研究,构建了以考生类别、考生生源地、高考成绩、专业志愿等关系模型,结合Microsoft SQL Server 2005中的数据挖掘功能,通过这个模型找出了各个因素与考生专业选择、考生报到率以及对学校招生政策等的关联关系,提高学校的生源质量,促进学校的发展。

参考文献

[1]林宇.数据仓库原理与实践[M].北京:人民邮电出版社,2003.

[2]王光翔.数据仓库技术在招生决策系统中的应用[J].贵州大学学报:自然科学版,2006,23(4):359-391.

[3]陈文伟,黄金才.数据仓库与数据挖掘[M].北京:人邮电出版社,2004:16-19.

[4]谢秋丽.基于关联规则的教学质量评价数据挖掘[J].现代计算机:专业版.2008(6):25-27.

数据挖掘中关联规则的研究与应用 篇8

1.1问题描述

关联分析是寻找在同一个事件中出现的不同项的相关性。经典的问题是“尿布与啤酒”的故事。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:“跟尿布一起购买最多的商品竟是啤酒。经过大量实际调查和分析,揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式:一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘主要考虑支持度和置信度两个阈值。

设X是项集,T是数据库DB中的任意一个记录。X的支持度是指支持X的记录数与全体记录数的比,Support(X)=│邀T│T#61642;X,T∈DB妖│/│DB│。蕴涵关系X→Y在数据库DB中的置信度是指同时支持X和Y的记录数与支持X的记录数之比,即:置信度(X→Y,T∈DB妖│。支持度可理解为在数据库DB中随机抽取一个记录,该记录同时支持X和Y的概率。置信度可理解为在支持X的记录全体中随机抽取一个记录,该记录支持Y的概率。具有高置信度和强支持度的规则称为“强规则”,关联规则发现任务的本质就是要在数据库中发现强关联规则。

利用这些关联规则可以了解各种物资之间潜在的关系行为,这对于物资的二次销售有很大的决策帮助。

1.2算法分析

1.2.1 Apriori算法

算法的核心思想是使用候选项集找频繁项集。采用两阶段挖掘的思想,并且基于多次扫描事务数据库来执行的为了生成所有频集。其核心思想简要描述如下:

首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。

1.2.2基于划分的算法

先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对其生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。

1.2.3 FP-树频集算法

算法的核心思想是不产生侯选挖掘频繁项集的方法。在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。

1.3关联规则挖掘过程

首先,先从收集的数据集合中找出所有的高频项目组。既指某一项目组出现的频率相对于所有记录而言,必须达到某一水平;然后利用前一步骤的高频项目组来产生规则,在最小支持度的限制下,若一规则所求得的信赖度满足最小支持度,称此规则为关联规则。其中同层关联规则可以采用两种支持度策略:

(1)统一的最小支持度。对于不同的层,都使用同一个最小支持度。

(2)递减的最小支持度,不同层次的最小支持度也不同,较低层次的最小支持度相对较小。

2应用

关联分析的目的就是为了挖掘出隐藏在数据间的关联规则。对再生资源数据库中的数据进行关联分析就是找到已有的积压物资与现在销售的物资之间的相互联系,构建关联模型。可以更好地组织销售,实现物资的二次销售,把状态良好的积压物资,并非报废物资,再次利用,变“废”为“宝”,逐年减少积压物资总额,降低企业营销成本,从而增创企业效益。那么衡量规则是否构建的理想,有两个量可以进行衡量,即置信度和支持度。以销售订单为例,分析表1如下。根据表1中物资销售情况,整理后产生表2,横栏和纵栏的数字表示同时销售出这两种商品的交易条数。如购买有防爆灯的交易数为4,而同时购买防爆灯和接线盒的交易数为2。

置信度是通常计算的条件概率P(Y,X)。计算公式为:

关联规则X→Y的置信度

根据公式(1)可见置信度表示了这条规则有多大程度上值得可信。设条件的项的集合为A,结果的集合为B。置信度计算在A中,同时也含有B的概率。即置信度(A→B)=P(B|A)。例如计算“如果防爆灯则接线盒”的置信度。由于在含有防爆灯的4条交易中,仅有2条交易含有接线盒,其置信度为0.5。

支持度计算在所有的交易集中,既有A又有B的概率。例如在4记录中,既有防爆灯又有接线盒的记录有2条。则此条规则的支持度为2/4=0.5。这条规则可表述为,如果销售一个防爆灯,则有50%的可能销售出接线盒。而这样的情况会有50%的可能发生。因此一方面,在进行库房物资管理时,把这类物资放置同一库房或同一层货架上,也便于保管员发货;另一方面,在组织销售时,可以把新物资防爆灯销售出去的同时不直接销售待购物资接线盒,而是销售积压物资中相关的产品,不但满足了顾客的需要,同时也产生降压增效的作用;再者,利用这些关联规则,可以为企业制定市场营销策略,使营销能够有针对性进行,减低销售成本,增加销售额。

3结束语

关联规则分析是数据挖掘中的一个重要方法,用于发现存在于数据库中的项或属性间的联系,这些联系是不能通过传统的数据库逻辑操作或统计的方法得出。因此关联规则挖掘不是基于数据自身的固有属性,而是基于数据项的同时出现特征。利用关联规则分析实现大量的良好状态积压物资的二次利用,不但提高销售业绩,而且能够逐年减少维护积压物资的人力、物力和财力,减低企业的成本,从而提高企业的经济效益。

摘要:数据挖掘被称为数据库中的知识发现,是一个跨学科的研究领域。关联规则分析是数据挖掘中一个重要的课题,用于发现存在于数据库中的项或属性间的关联联系,这些联系是事先未知且隐藏的。关联规则的研究主要集中在生成频繁项集的挖掘算法,通过对几种主要关联规则的算法分析,利用Apriori算法研究再生资源系统中关联规则的确定,从而实现物资的二次销售。

关键词:关联规则,数据挖掘,频繁项集,支持度,置信度

参考文献

[1]R.Agrawal,T.Imielinski,A.Swami.Mining association rules between sets of items in large databases.Proceedings of the ACM SIGMOD Conference on Management of data,May1993.

[2]R.Agrawal,and R.Srikant.Fast algorithms for mining association rules in large database.Technical Report FJ9839,IBM Almaden Research Center,San Jose,CA,Jun.1994.

[3]铁治欣,陈奇俞,瑞钊.关联规则采掘综述[J].北京:计算机应用,2001(1).

[4]毛国君,殷立娟,王石.数据挖掘原理与算法[M].北京:清华大学出版社,2007.

[5]张银奎,廖丽,宋俊.数据挖掘原理[M].北京:机械工业出版社,2003.

网络营销中数据挖掘的应用研究 篇9

关键词:网络营销,数据挖掘,应用

在我国,网络营销还处于起步阶段,其总体发展水平普遍较低。对于大多数企业而言,其网络营销观念仅仅停留在建立一个网站,但对于网站、数据库中大量的数据却不能给予高度重视,使得大量的网络营销资源被浪费掉了,网络营销的效果也由此降低了。因此,在信息越来越密集的全球化商业环境中,如何从企业网络营销活动产生的大量业务数据中提取有用的数据,进行正确的决策分析,以获得有用的商业运作信息,就成为了营销者面临的一个非常重要的研究课题。

数据库技术的不断发展,以及数据库管理系统在各个领域中的广泛应用,大量的、隐藏着许多重要信息的数据不断在数据库中积累,使得其存储的数据量急剧增多,如果能从数据库中将这些信息抽取出来,并进行决策分析,将会给企业带来很大的潜在利润。基于这个原因,数据挖掘逐渐在网络营销中发展起来,并占据了非常重要的位置。

1 网络营销与数据挖掘

1.1 网络营销

网络营销是一种以Internet网络为载体,利用数字化电子方式结合营销理论开展的新型销售活动。与传统销售方式不同,网络营销方式更加激烈,优势更加突出,这主要有以下几方面原因。

(1) 网络营销是在网络技术上发展起来的销售模式,因此它具有了网络全天候、适时、覆盖范围大、互动性强的性质,符合当代用户个性化需求的特点。

(2) 网络营销大多都是以网站的形式呈现在用户面前的,网站上的内容、层次、用词、标题、奖励方案、服务等都有可能是吸引客户的因素。

(3) 网站的构建大都具有成本低、维护简单、能够快速适应市场环境变化的特性,而这些特性恰恰也是吸引着营销者选择该模式的主要原因。

(4) 网站每天的在线交易次数是非常大的,在大量的交易过程中就会有大量的记录文件和登记表产生。营销者通过对这些数据进行分析和挖掘,就可以充分了解客户需求和特点,从而可以针对不同客户群体需要设计出更加具有个性化的网站,提高市场竞争力水平。

目前,网络营销这种新型的营销方式对企业的经营战略产生的影响越来越大,已经引起人们广泛关注。

1.2 数据挖掘

数据挖掘 (Data Mining) 又称数据库中的知识发现 (Knowledge Discovery in Database, KDD) ,就是通过对模式识别、统计和数学等技术的运用,从存储着大量数据的数据库中发掘出新的、有意义的关系、模式和趋势,并对其中隐藏着的有价值的事件进行提取,然后分析,归纳成对企业有帮助的科学化的决策。

数据挖掘在网络营销中的挖掘过程可以分为五个阶段:

(1) 确定营销目标。从市场角度理解数据挖掘的目标和要求,为营销者建立一个明确的营销目标。

(2) 制定营销计划,了解客户消费规律。

(3) 开展有针对性的一对一客户服务。

(4) 实施交叉营销。利用关联分析技术分析用户感兴趣的商品,并主动推荐给用户。

(5) 营销模式评估。在对大量数据进行分析的基础上,对目前正在应用的营销模式进行分析,并将其应用到业务活动中。

在网络营销活动的早期,各种商业运作信息均被存储于数据库中,人们通过查询的方式来获取有用的信息。随着数据挖掘的产生和发展,信息的获取开始向更高级的阶段转变,除了可以对数据进行查询和遍历外,还能够利用各种技术发掘数据之间存在的潜在关系,使信息的传递速度更为快捷,更好地为企业的管理人员提供决策支持。

2 网络营销中数据挖掘的应用过程

在前面内容中,我们对数据挖掘的过程有所了解,这里则针对具体的网络营销过程,对数据挖掘的应用过程进行阐述。

2.1 确定网络营销目标

明确的营销目标是构建数据挖掘目标的第一步,也是其中最重要的一步。一般而言,要确定一个明确的网络营销目标,首先需要对市场进行细分。对于细分的市场,评估时需要营销者重点考虑市场的吸引力,以及公司的目标和资源两方面;其次就是目标选定,从所划分的市场中选出有针对性的某一个市场;最后则是对目标市场的定位。

在确定网络营销目标的过程中,采用数据挖掘不仅可以从数据中发现对营销决策起关键作用的、新的、有价值的知识,还可以验证假设的成功与否,即数据挖掘能从客户数据中分析出各个层次的细分市场,为企业营销者确定网络营销目标提供最大的帮助。

2.2 制定网络营销计划

企业营销者在制定其营销计划时,首先需要对消费者市场及其行为有充分的了解和研究。将数据挖掘应用于网络营销计划的制定过程中,可以充分利用数据挖掘中提供的相关技术,对客户的消费数据进行分析,从而帮助网络营销者更好地掌握客户的消费规律,以便在此基础上制定有效的营销计划,更大范围地赢得客户,创造尽可能大的利润。

2.3 开展一对一营销

一对一营销是网络营销的主要特色之一,它能够最大限度地针对各个客户的特色提供个性化服务。当然,要实现这种一对一的营销也离不开数据挖掘的支持。利用数据挖掘中分类和聚类技术,企业就可以把客户划分为许多不同的类。由于被划分的每一类客户具有非常相似的属性,针对这些属性,企业就可以为其提供不同的服务,进而最大限度地提高了客户的满意度。

2.4 实现交叉营销

交叉营销可以认为是一种主动营销方式。它通过对当前客户需求的把握情况,来挖掘消费者的新需求,从而实现对其他多种服务或商品销售的目的。交叉营销充分利用了数据挖掘中的关联分析技术,根据客户购买的商品来发现客户可能感兴趣的其他信息,并将其主动推荐给客户,提高企业销售额。

2.5 使用模式评估

基于数据挖掘的最终目标是提供一个有深度、有价值的挖掘知识的前提下,这里进行模式评估则主要是为了将一个所发现的模式转化为有用的知识。

在电子商务网络营销中应用数据挖掘,可以对大量的相关数据进行分析,从中挖掘出商品的相关消费规律,分析出客户不同的访问模式,进而对其提供个性化的服务,帮助企业制定有效的营销策略,提高企业的竞争力。

3 网络营销中数据挖掘的应用实例

与传统销售一样,网络营销也是为实现企业的营销目标服务的。在当前网络营销活动中,数据量的急剧增长,迫使企业必须借助于有效的挖掘和分析工具,发现信息中隐藏的规律或模式,并根据此规律进行分析决策。

网络营销中数据挖掘的应用主要体现在以下几个方面。

3.1 客户关系管理

客户关系管理 (CRM) 是企业与客户之间为管理双方接触活动而建立起来的信息系统。企业的网络营销竞争的主要资源就是客户,其涉及的关键营销课题包括客户的争取、客户的保持、客户群的扩大、与客户亲密关系的建立、对客户需求的分析、为客户创造需求等。处于网络时代,营销活动过程中的目标市场、客户形态、产品种类较以前存在着极大的不同,如何掌握散布在全球各地的客户群的特性,并建立不同地域、有着极大文化差异和时空差距客户之间关系,发掘新的网络客户,掌握网络客户需求就成为了众多企业首先需要考虑的问题。

3.2 企业经营定位

将数据挖掘应用到网络营销中,对消费者的相关购买数据进行分析,并通过所反映出的共性和个性对消费者进行分类,能够更好地帮助企业进行准确的市场定位。同时,在利用数据挖掘发现客户需要的基础上,利用网络的优势,企业与客户之间还可以进行积极有效的信息交流,利用获取的信息,有针对性地提供大量客户急需的产品与服务。

利用数据挖掘中的关联分析法,还可以发现商品销售过程中部分客户在购买某种商品的同时可能会购买的产品。针对这种需求,作为企业营销者就应当积极地改变营销策略,为其提供相关的服务,以此来吸引更多的客户。例如,某大型超市曾利用关联分析来发现一部分男性顾客在购买尿不湿的同时还会购买啤酒,因此就将这两种毫不相干的商品摆放在了相邻的柜台旁,从而大大提高了啤酒的销售数量。

此外,客户群体也是网络营销中重要的潜在消费群体。通过数据挖掘对客户的一些个人消费特征及其数据进行相关分析,然后根据这些分析结果,将具有相同特性的客户细分为一个群体,为其提供有目的的、个性的、多样的、富有成效的网络营销方案,从而帮助企业实施准确的营销定位。

3.3 客户信用风险控制

信用风险管理是当前网络营销中一个非常尖锐的问题,企业在实施网络营销过程中经常受到来自买方的信用风险,如客户下订单后能否付款,将采用何种方式付款,付款是否及时,是否存在拖延货款的现象,个人消费者支付时是否存在恶意透支,或使用仿造的信用卡骗取卖方的货物等。

针对上述一系列问题,作为网络营销者就需要对客户的个人消费行为进行详细分析,对其信用额度作出评价。在进行信用评价时,如果对客户信用评价过高,应该到账的付款却没有到账,影响到企业的资金周转,使商品出现积压;如果对客户信用评价过低,因企业准备不足而无限期地拖延发货时间,则会对企业的信誉产生影响。为了保证企业在最小的风险前提下获得最大的利润,就需要有一个客观、准确的评估和控制机制,数据挖掘就是这样一种评估机制。利用数据挖掘可以对已收集到的大量的客户账户信息进行科学的分析和归类,并对这些客户的个人信用按“优”、“良”、“差”不同的等级进行评估,以此为据,再从数据库中提取客户的订单信息,分析找出哪些客户能够为起订单付款、将要采用的付款方式,以及资金到账的具体时间等,在此基础上,企业就可以合理安排进货、库存、发货等流程。

3.4 消费需求预测

在网络营销中,每一个消费者不仅是网络虚拟环境中的主角,是商品购买者的角色,同时也是社会消费者中一个重要的角色,承担着引导社会消费的作用。

基于对客户上述社会角色方面的考虑,作为一名网络营销人员,想要通过互联网获取最大的利润,在构思的网络营销计划时,首先也需要对传统销售市场中客户的各种需求进行重点考虑,这是一个非常重要的前提;其次,由于所处的环境是网络,因此还必须充分了解网络的特点、网民的兴趣及其需求,然后对其进行分析、总结,最后则在总结的基础上采用多种行销方法,达到唤起网络消费者购买兴趣,将其潜在的需求转变为现实的需求的目的。

4 结语

互联网所带来的庞大商机,使得市场营销管理逐渐迈入网络营销时代。面对日益激烈的网络营销竞争,如何获得最大的利益就成为了每个企业都在追求的目标。伴随着数据库技术和人工智能技术而发展起来的数据挖掘,为网络营销企业带来了极大的便利。就目前的发展形势而言,数据挖掘将成为网络营销中一个具有广泛应用前景的领域。

参考文献

[1]张骏.数据挖掘技术在企业网络营销中的应用[J].软件导刊, 2008 (12) .

[2]杜杨, 宋晓琳.数据挖掘在网络营销中的应用[J].2007 (03) .

[3]杜杨, 宋晓琳.数据挖掘在网络营销中的应用[J].辽宁经济职业技术学院 (辽宁经济管理干部学院学报) , 2007 (03)

数据挖掘中数据约简的研究与应用 篇10

信息化的飞速发展,导致人们积累了大量的数据。巨增的数据背后蕴藏着许多重要的信息,而目前的数据库技术虽然高效地实现了数据查询、统计功能,却无法发现数据中潜在的知识,无法根据现有的数据预测未来的发展趋势,因此数据挖掘技术应运而生[1]。但是数据挖掘在面对这些巨增的数据时,会引发很多问题:首先,许多数据挖掘和决策支持系统不能处理一个超过极限的数据集。其次,挖掘大的数据集时必定消耗大量的时间。第三,维护和管理大量数据在人员和存储设备方面也会耗资很多。

由此一些研究者已经认识到在一个约简的数据集上进行数据挖掘,就避免了针对海量数据集时遇到的问题[2]。本文就是通过相关的方法约简数据集中的属性和数据,从而在一个子集中进行有效的数据挖掘。

2 数据约简的相关方法

数据约简并不是一个新的领域,现在已经提出了很多理论和方法,如:层次分析法、主成分分析法、随机抽样、免疫算法等,本文根据需要采用层次分析法约简数据集中的属性,以降低维度;通过距离度量χ2来约简数据集中的数据,进行更有效的数据挖掘。

2.1 层次分析法[3]

AHP (The analytic hierarchy process), 是由Saty 最先发明的用于解决包含多项指标的复杂问题,基本思想是把复杂的问题分解成若干层次和元素,在同层次各元素间简单地进行比较、判断和计算,以获得不同元素和不同备选方案的权重。

(1) 构造层次结构图。

AHP法中最重要的一步,把复杂问题分解为称之为元素的各个组成部分,并按元素间的互相关联及隶属关系形成不同的层次。同层次的元素作为准则层,对下一层次的元素起支撑作用,同时它又受上一层次元素的支配。最高层次仅有一个元素,它代表问题的总目标;中间层次一般是准则层;最低一层表示某一准则下的相关指标元素。

(2)构造判断矩阵。

建立层次结构后,根据专家对元素相对重要性确定的判断尺度,进行两两比较确定判断矩阵

undefined

其中aij即是元素i与元素j相比较的结果,通过工具求该矩阵的最大特征值λmax及对应的特征向量ω。

(3) 一致性检验。

由于评价人员认识上的多样性、片面性及评价因素多、规模大等原因,要求每一个判断都完全一致是不可能的。因此,为了保证应用层次法评价得到合理的结论,需要对判断矩阵进行一致性检验。①计算一致性指标[4]undefined,其中n为矩阵的维数;②查找随机一致性指标RI,RI的值如表1所示:

③计算一致性比例CR=CI/RI,当CR<0.1时,即认为判断矩阵具有满意的一致性,否则需调整判断矩阵,使之具有满意的一致性。

2.2 距离度量

众所周知一个遵循正态分布的数据集属性可以通过分布的平均值及不一致性进行描述,但在现实中这样的数据集很少,所以我们采用了传统的距离统计变量undefined其中ni是真实数据集的分布,mi是预期数据集的分布,i是所有可能的类别结合。为了在数据约简中应用传统的距离统计变量χ2,我们做了如下定义。

定义1:J是一个数据集的属性集,A1,A2,……,AJ,Kj(j=1,2,……,J)是第J个属性的类别数,则undefined是属性Aj中的一个值,一个模型就是指不同属性J中不同类别值的组合,undefined[5,6]。

联合分布的距离度量χ2:undefined其中N和n是原始和缩减后数据集的大小,p=n/N, C是原始数据集中所有的模型,ni 、Ni (i=1 ,2,……,C)是这一模型在缩减数据集和原数据集中出现的频数。但是由于模型在数据集中分布的多样性,当某模型出现频次很少时,就不能应用上述公式,由此引入单变量统计量χundefined:undefined其中njk、Njk是约减后数据集和原数据集中某一属性的某一类出现的频数。

χ2和χundefined描述了原数据集与约简数据集在联合分布和单变量分布方面的相似度,在出现频数多的模型中随机地选择ni条记录,而在出现频数少的模型中选择χundefined值最小的记录组合,这样使得χ2和χundefined的值同时最小,保证在约简数据集与原数据集进行的数据挖掘结果极其相似。

3 实例分析

图1为学生成绩指标层次结构图,把学生成绩评估指标问题分为三个层次,九个元素。其中高校学生成绩评估指标为最高层,为总体目标;学生自身素质和教师自身素质为准则层元素;而其余元素为相应准则层元素的指标元素。

同时选择了n位有丰富教学和管理经验的教师及管理人员组成教学评估小组,负责对每一层次各元素两两相对重要性给出判断,得出元素的判断尺度,继而分别得出准则层与指标层元素的判断矩阵。以学生自身素质指标层为例的判断尺度、判断矩阵如表2表,表3所示:

通过Matlab求出此矩阵的最大特征值及归一化的特征向量分别为:2.9998 [0.5 0.33 0.17],一致性指标CR=0.002<0.1,所以判断矩阵具有满意的一致性。以此类推,得出所有指标及准则层的特征向量,统一排序后的结果,选取前四种指标为:生源、性别、教龄、职称,从而维数降为四维。

约简了数据集的属性后,再通过距离度量来约简数据。表4为12名学生某一学期、某一课程成绩的一组数据。

由表4可以看出这组数据共有8种模型,1、2学号属于第一模型;3、10、11、12学号属于第二模型,其余学号分属不同模型。假定我们要从中选择6条数据记录,则p=6/12=0.5。根据联合分布的距离度量χ2公式undefined和undefined,得出在在第一模型中选择一条记录,在第二模型中选择两条记录可以使得χ2的值为0,达到最小,剩余的6个记录(4、5、6、7、8、9学号)属于不同的模型,所以在剩余的模型中选择任一模型的χ2值为[1-0.5×1]2/(0.5×1)=0.5,而不选择这一模型的χ2值也是[0-0.5×1]2/(0.5×1)=0.5,所以在这剩余的6 个记录集中任选3个记录,χ2值最终均为1.5。但是,不同的选择会使单变量统计量χundefined的值发生改变。例如:选择4、5、6号记录,χundefined在生源方面的值为undefined相似地,在性别、教龄、职称方面的值分别为:1.54,0.17和0.17,所以χundefined的最终值为以上方面统计之和2.21,但是如果选择4、5、7号记录,χundefined的值为0.84,依次选择不同的三个记录,求出最小的χundefined=0.64(5、6、8)。这样只需在1、2学号记录中任选一条记录,而在3、10、11、12学号记录中任选两条记录,在其余中选择5、6、8学号记录,就能保证χ2和χundefined的值最小,而且与原来的数据集在分布方面非常接近,同时减少数据量。

4 结束语

当前的数据库已经超越了数据挖掘所能处理的数据极限,因此选择合适的算法约简数据,使约简后的数据集与原始的数据集在联合分布和单变量分布极为相似,可以在约简后的数据集上进行更加有效的数据挖掘。

参考文献

[1]王桂芹,黄道.数据挖掘技术综述.电脑应用技术,2007,(69):9~14

[2] THOMAS REINARTZ.A Unifying View on Instance Selection.Data Mining and Knowledge Discovery,2002,(6):191~210

[3]吕国英,李茹.基于层次分析法的专家系统开发平台测评指标权集.广西师范大学学报,自然科学版,2007,4(25):63~66

[4]邹江.基于层次分析法的高校教师素质评价体系.南昌大学学报(人文社会科学版),2007,6(38):178~180

[5] Xiao-Bai Li,Varghese S.Jacob b,Varghese S.Jacob.Adaptive data reduction for large-scale transaction data.Computing,Ar-tificial Intelligence and Information Management,2008,(188):910~924

上一篇:总承包承包能力下一篇:慢性脑缺血大鼠