数据挖掘的应用综述

2024-07-21

数据挖掘的应用综述(精选十篇)

数据挖掘的应用综述 篇1

在知识经济主导的趋势下, 数据采集与知识发现在刺激经济发展、提高商业领域竞争力、建立核心竞争优势中将扮演更为重要的角色。

所谓商业, 是以货币为媒介进行交换从而实现商品流通的经济活动和服务。商业领域是指商业活动发生的社会环境。商业有广义与狭义之分, 广义的商业是指所有以营利为目的的事业, 而狭义的商业是指专门从事商品交换活动的营利性事业。而进行商业的主体是企业, 随着企业各项目的深入开展和事业的不断壮大, 企业的数据库积累了大量的基础数据, 储藏着企业海量的客户和业务信息。这些数据在很大程度上还没有被充分利用。其实, 商业界的决策者都很重视数据资源, 注意积累、分析数据, 问题的关键是找到合适的数据挖掘方法和有效的技术, 使这种数据资源充分发挥作用, 为企业的管理和决策工作提供良好的帮助。

数据采集技术也在不断发展和进步, 人们收集到的商业数据和信息日渐庞大。如何从众多的数据挖掘方法中选择有效的技术, 从这些海量数据中挖掘有用的知识是商业数据分析者或商业决策者面临的艰巨任务。

目前, 数据挖掘是国内外学术界和实践界的研究热点。数据挖掘是一个交叉学科领域, 是若干相关学科的汇合, 因此其他学科的方法也可以应用到数据挖掘中来。国内外学者和实践者, 在常规的数据挖掘的理论、方法及应用上做了大量的研究, 取得了丰硕的成果;在最新热点的研究中也提出了一些新的方法, 如Boosting算法、Hybrid算法、Bagging、粗糙集、最邻近算法等。尽管数据挖掘在商业领域已经有很多的成功应用, 主要涉及商品进货量的确定、广告与销售之间的关联、商品的关联销售、银行信用卡的发放、保费的确定、客户关系管理等, 但是目前关于数据挖掘在涉及到的商业领域的应用研究并没有系统、全面的综述, 对其涉及到的数据挖掘方法也没有深入的分析研究。

本文通过调研最新的数据挖掘研究及应用的相关文献, 着重分析数据挖掘在商业领域中的应用实践成果, 系统地综述数据挖掘涉及到的具体商业领域, 并剖析在这些领域中用到的数据挖掘方法, 旨在为商业数据分析者和商业决策者提供选用数据挖掘方法的认识和参考依据, 以帮助他们进行科学的分析和决策。

二、数据挖掘在在商业上的具体应用研究

商业应用是数据挖掘最广阔的应用领域, 商业领域的数据往往是海量的并且具有巨大的价值。所以在商业领域关于数据挖掘的开发和应用最为活跃, 且经久不衰。

在商业管理工作中, 在初始数据收集的基础上稍做加工就可使管理效率明显提高的活动随处可见, 如商业活动和服务的业务绩效管理、财务分析、客户及市场分析等。数据挖掘对商业活动和服务决策层的管理工作起着极其重要作用, 在如图1所示的基础数据转化为商业价值中, 其核心和关键步骤是建模和评估, 它们的成功实现需要使用数据挖掘方法。 (见图1)

如何利用数据挖掘方法分析和挖掘数据使之为商业活动和服务创造更多的财富, 是商业数据分析者和商业决策者所关注的主要问题。下面分析现有数据挖掘方法在商业活动和服务中的热点应用研究。

(一) 数据挖掘在商品零售业的应用研究

1994年, 美国IBM的艾尔马丹 (Almaden) 研究中心的Rakesh Agrawal和Ramakrishnan Srikant合作发表的开创性论文, 发现了销售交易数据库中各销售产品之间的关联规则。

自此, 基于商品零售业的销售过程积累的大量数据, 数据挖掘方法的广泛推广给零售行业带来了更多创造价值的机会, 从最开始的货架上货物的摆放规划到当今的数字网络平台无不涉及并且利用数据挖掘赚取巨额利润。主要包括会员制零售业数据挖掘系统的开发应用;商品进货量的确定;关联营销即“购物篮分析”是一种建立在双方互利互益的基础上的营销, 在交叉营销的基础上, 将事物、产品、品牌等所要营销的东西上寻找互补关联、替代关联、潜在关联等关联性来实现深层次的多面引导。

2011年, 在新一代标准宏语言Visual Basic for Applications (VBA) 环境中实现了基于神经网络的零售业需求预测系统及基于Microsoft SQL SERVER Analysis Services (SSAS) 的聚类分析算法在对某销售信息进行顾客分组分析中的应用, 通过分析聚类算法挖掘模型所发现的模式得出对顾客分类的结果, 为销售公司管理层的营销决策提供了依据。

(二) 数据挖掘在商业保险业的应用研究

近几年来, 数据挖掘在保险业的应用研究有增无减, 包括汽车保险、医疗保险和人寿保险。例如葛春燕研究了数据挖掘技术在保险公司客户评估中的应用;李向东对客户与客户之间的关系和影响进行了突破性研究, 深入研究了客户关系网络及其网络波及效应。

(三) 数据挖掘在商业金融业的应用研究

如今数据挖掘技术已成为金融服务领域中极为重要的应用技术。由于银行业构成商业金融服务业的主要业务领域, 所以它是数据挖掘商业应用的最重要行业之一。在银行信用卡的发放时, 对客户信用评级、银行客户关系管理、顾客分类分析等都需要使用数据挖掘技术。个人信用经济在我国取得了一定程度的发展, 2010年, 采用数据挖掘和统计分析法, 通过综合考察个人的信用行为特征, 石勇与央行合作开发出了“中国评分”系统。夏宁应用数据挖掘指导信用卡业务经营管理。

(四) 数据挖掘在通信业的应用研究

应用数据挖掘技术, 基于用户行为分析的精准化营销在推销通信增值业务的商业活动中可以帮助通信行业运营商把运营成本逐渐地降低、增强在通信市场上的竞争力。2013年, 李珺岫应用数据挖掘技术分析了客户消费行为及客户特征, 以指导运营商进行市场营销和客户服务。

二、数据挖掘方法分析

当今, 随着各学科领域研究的逐步深入, 数据挖掘方法日渐丰富, 内容逐步充实, 以结构化数据为主的关系数据库、事务数据库、数据仓库和以非结构化数据为主的时间序列数据、文本数据、多媒体数据、空间数据、Web数据等构成了当今重要数据挖掘任务处理的最基本数据对象。在国内外, 成熟的数据挖掘方法, 有很多应用研究, 根据其发现或挖掘的知识或模式类型分为关联知识、分类知识、聚类知识、预测知识等挖掘方法;最近几年呈现出不少新的挖掘方法:社区挖掘、相互最近邻查询、基于云理论的方法、证据理论等。下面主要分析在商业领域涉及的数据挖掘方法。

(一) 商业领域的常用方法分析

1、关联分析方法

关联分析方法是通过发现数据仓库中有价值的属性或项目之间的关联规则从而挖掘出关联式的知识或信息的方法。其任务就是减少大量难懂的、无序可循的数据, 使之成为少量的、方便观察理解的静态资料或信息。关联知识的发现在商业领域中的应用最经典的实例是购物篮分析。其分类标准多样, 根据关联规则所处理的值的类型分为布尔关联规则和数量关联规则;根据关联规则所涉及的数据维数分为单维关联规则和多维关联规则;根据关联规则所涉及的抽象层次分为单层关联规则和广义关联规则。

发现关联规则的算法也有很多。Apriori算法是最有影响的挖掘布尔关联规则频繁项集的算法。它的核心是基于两阶段频集思想的递推算法, 该关联规则在分类上属于单维、单层、布尔关联规则。韩家炜等人为提高Apriori算法的算法性能, 提出了基于FP树生成频繁项集的FP-growth算法。研究表明它比Apriori算法大约快一个数量级。Eclat算法与F-Pgrowth和Apriori算法不同, Eclat算法加入了倒排的思想。

2、分类方法

分类方法是一种挖掘离散类别数据或信息中分类知识的一种重要方法。它可用来抽取能够描述重要数据集合或预测未来数据趋势的模型。在商业领域中的实现算法主要有决策树算法、KNN法 (K-Nearest Neighbor) 、Bayes法等。

(1) 决策树算法。决策树是数据挖掘中功能相对比较全面的一种分类工具, 其思想就是对测试数据进行标志, 采用自顶向下的递归方式, 在树的内部节点比较属性值、在树的叶结点得到结论, 将其正确分类。经典的决策树算法有ID3算法 (Iterative Dichotomiser3, 迭代二叉树3代) 和C4.5。在商业领域主要应用于市场营销的客户划分、银行贷款风险评估的客户分类、销售量预测建模等。

(2) KNN法, 即K最近邻法。KNN方法在类别决策时只与极少量的相邻样本有关, 优点是较好地避免样本的不平衡问题。因此KNN方法更适合于类域的交叉或重叠较多的待分样本集。不足之处是计算量较大, 另外, Reverse KNN法, 能降低KNN算法的计算复杂度, 提高分类的效率, 比较适用于样本容量比较大的类域的自动分类, 若样本容量小易产生误分。

(3) Bayes法。Bayes分类方法是一种在已知先验概率与类条件概率的情况下的模式分类方法, Bayes方法的薄弱环节在于实际情况下, 为了获得常常并不知道的其类别总体的概率分布和各类样本的概率分布函数 (或密度函数) , 要求样本足够大。另外, Bayes法要求样本相互独立, 一般很难满足, 因此该方法往往在效果上难以达到理论上的最大值。

3、聚类分析方法

聚类分析又称群分析, 它是研究样品或指标分类问题的一种统计分析方法。在商业领域中一般是基于不同聚类分析的计算方法, 分为基于分块的聚类方法、基于分层的聚类方法、基于密度的聚类方法、基于网格的聚类方法、基于模型的聚类方法;其具体实现算法又分为k-means算法、K-medoids算法、Clara算法、Clarans算法等。k-means算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象” (引力中心) 来进行计算的。改进k—medoids方法, 选取一个对象叫做mediod来代替上面的中心的作用, 这样的一个medoid就标识了这个类。Clara算法的思想就是用实际数据的抽样来代替整个数据, 然后再在这些不变的抽样数据上利用K-medoids算法得到最佳的medoids。Clarans算法在每一次寻找最佳的medoids的循环过程中所采用的采样都是不一样的。

4、预测方法

预测方法是一种挖掘连续取值数据或信息中预测知识的一种重要方法。在商业领域应用中的传统方法主要有时间序列分析、线性与非线性回归模型分析、灰色系统模型分析、马尔可夫分析法等;现在常用的算法主要有神经网络和支持向量机算法, 它可用来抽取能够描述重要数据集合或预测未来数据趋势的模型, 应用于销售量、市场占有份额预测方面。

(1) 神经网络是一种模仿动物神经网络行为特征, 进行分布式并行信息处理的算法数学模型。可以分为前馈式网络、反馈式网络和自组织网络三种网络模型。神经网络不依赖于模型的自适应函数估计器, 可以实现任意的函数关系。它可以同时处理定量和定性知识, 可以用于回归和分类, 而且网络有很强的稳定性和容错性。然而它容易陷入局部最小点, 易出现过度拟合, 导致泛化能力较差。

(2) 支持向量机 (Support Vector Machines, SVM) 是根据统计学习理论中结构风险最小化原则提出的一种机器学习方法。SVM开始于分类问题, 发展到求解回归问题, 如今已深入到线性和非线性回归问题建模。对于回归问题, 需要依靠不敏感损失函数。其优势在于解决小样本、非线性及高维模式识别。然而它对于大规模凸二次规划的数据集SVM算法效率很低、对奇异值的稳健性不高。

(二) 近两年新的研究热点方法分析

1、社区挖掘算法。

社区挖掘算法是研究具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络 (即复杂网络) 领域的热点问题。根据其依据的原理为标准可以分为基于划分、基于模块性优化、基于标签传播、基于动力学和基于仿生计算的方法等。

2、相互最近邻查询

最近邻 (Nearest Neighbor, 简称NN) 查询技术是空间数据库领域中一个重要研究内容。空间网络数据库的静态k-NN (K-Nearest Neighbor algorithm, 简称K-NN) 查询、移动数据的连续k-NN查询监视技术、相互最近邻查询 (MNN) 、反向最近邻查询的研究成为空间数据库领域的热点。2012年, 杨泽雪等人对空间数据库中连续可视反向最近邻查询做了深入研究。

3、基于云理论的方法

云理论是一种分析不确定信息的新理论, 由云模型、不确定性推理和云变换三部分构成。基于云理论的空间数据挖掘方法把定性分析和定量计算结合起来, 处理空间对象中, 融随机性和模糊性为一体的不确定性属性;可用于空间关联规则的挖掘、空间数据库的不确定性查询等。2013年, 黄德贤指出云计算、虚拟化等新技术不仅给企业数据中心的基础架构、运维和管理带来深刻的影响, 而且会促进商业模式的变革。

4、基于证据理论的方法

证据理论是一种通过可信度函数 (度量已有证据对假设支持的最低程度) 和可能函数 (衡量根据已有证据不能否定假设的最高程度) 来处理不确定性信息的理论, 可用于具有不确定属性的空间数据挖掘。目前的研究重点有D-S (Dempster-Shafer) 证据理论、模糊证据理论、证据组合等。2013年, 针对外汇市场的多变性和存在诸多不确定性的客观事实, 张华等人利用证据理论以处理不同技术指标分析方法结论存在的差异, 建立了基于证据理论的多指标融合外汇交易模型。

四、相关数据挖掘方法的使用条件和使用建议

从商业应用的角度, 数据挖掘支持决策的过程可以描述为三个步骤:首先是数据收集, 然后利用数据挖掘相关方法提取出有用的知识, 最后以提取出来的知识辅助相关决策者进行决策。下面对数据挖掘相关方法的使用条件和范围提出使用建议。

(一) 关联规则方法

关联规则挖掘主要是用于购物篮分析的布尔型关联规则。布尔型关联规则考虑的是项的存在与不存在, 处理的是种类化的、离散化的数据, 显示了变量之间的关系。Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。该算法的优点是简单、易理解、数据要求低, 然而, 其缺点就是算法效率也低, 对计算机系统的IO开销很挑战, 随着数据库的记录增加呈现出几何级数的增加。针对算法性能的提高, F-P算法是目前应用较广泛的算法。Eclat算法与F-Pgrowth和Apriori算法不同, Eclat的核心思想就是倒排, 这种数据处理方式很适合用关系型数据表示和实现。

(二) 决策树方法

决策树具有易理解的优点, 在商业领域的管理中, 其广泛应用体现在选购货物、市场调查、客户分类、风险评估和方案模式等方面。它与统计方法、神经网络等方法相比具有速度相对较快、易转化为分类规则、易于转化为SQL查询、准确率高的优点。在分类学习过程中只要训练事例能够用属性-结论式的方式表达出来, 就能使用该算法来进学习。ID3算法构造的决策树对样本的识别率较高;其不足是在搜索过程中可能收敛到局部最优解而不是全局最优解;且局限于处理离散值。其改进算法C4.5合并连续属性的值, 可以处理缺少属性值的训练样本, 用信息增益比率作为选择标准等使得决策树算法更加高效可靠。

(三) 聚类方法

迄今为止, 人们提出了很多聚类方法, 例如分割的方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。不同的方法有着不同的应用条件, 基于密度的方法适用于大数据集, 可以发现任意形状的聚类;基于分块的聚类方法思想简单, 适用于小数据集。基于分层的方法在实现上比较容易, 但是其方法中的判定条件比较模糊, 汇聚和分离操作不可逆, 因而聚类的最终结果可能并不理想。基于网格的聚类方法对目标数据集进行了格式的一致化, 因而速度较快。处理大多数聚类方法是基于欧氏距离进行相似度衡量, 因此它们只能处理数值属性的数据。简言之, 聚类分析方法试图从不同的途径实现对数据集进行高效、可靠的聚类。

聚类分析方法的实现算法有k-means算法、K-medoids算法、Clara算法、Clarans算法等, 对它们的高效性、可靠性等对比如下:k-means算法产生类的大小相差不会很大, 但对于脏数据很敏感;k—medoids算法对于脏数据和异常数据不敏感, 但一般只适合小数据量;Clara算法处理大量的数据是最高效, 在寻找最佳的medoids的过程中, 采样都是不变的, 一般不太可能得到最佳的结果;Clarans算法效率优于Clara算法, 在每一次循环的过程中所采用的采样都是不一样的, 但寻找最佳medoids的过程必须人为地来限定循环的次数。

(四) 神经网络方法

神经网络主要有三个优点:非线性映射能力、泛化能力和容错能力。自身也有缺点:学习速率是固定的, 因此网络的收敛速度慢, 训练时间较长;网络隐含层的层数和单元数的选择尚无理论上的指导, 一般是根据经验或者反复实验确定;网络学习和记忆具有不稳定性, 也就是说, 如果增加了学习样本, 训练好的神经网络需要从头开始重新训练, 对于以前的权值和阈值是没有记忆的。神经网络方法适用于模糊不清、多变量、隐蔽有序的实际问题, 神经网络可以处理例外及不正常的数据、同时处理定量和定性知识, 用于回归和分类。目前有很多不同种类的网络, 由简单的布尔网络、复杂的自我调整网络, 最新的热动态性网络模型。

(五) 热点方法

目前的科研热点方法主要在于解决在线、聚簇、实时、动态、空间数据的挖掘难题。缺点是热点研究的重点还限制在理论方面, 实际应用还需要一定的时间。所适用的商业范围主要是电子商务等网络在线的相关领域。在线聚集系统能在处理开始后短时间内返回高准确度的估计结果, 使得用户可以提前终止处理, 从而在云平台即用即付的收费模式下节省大量计算成本。云计算具有支付弹性、可计量。云计算可以节省企业的信息化开支, 有利于节能减排。在中国云很热, 但是只是数据库, 还不是真正的云计算。云计算是大数据处理的重要支撑, 早年谈数据库, 后来谈互联网数据中心, 现在谈云计算, 未来还有云服务。可以推测包括云计算在内的相关数据挖掘技术的不断进步和创新, 将会给商业领域带来前所未有的机遇, 极大提高社会生产效率, 从而创造巨额利润。

五、结论

数据挖掘的研究和应用产生了一定的社会效益和经济效益, 为信息社会的发展做出了重大贡献。在日渐发达的今天, 数据挖掘发挥着越来越关键而重要的作用。本文调研了数据挖掘在商业领域的主要成功应用案例, 归纳、总结了在商业领域中常用的和近两年产生的数据挖掘方法, 并分析指出它们各自的使用条件和范围, 为商业数据分析者和商业决策者提供使用建议, 指导他们恰当地选择数据挖掘技术, 高效工作。

摘要:随着数据采集技术的发展进步, 收集到的商业数据信息日渐庞大。如何从众多的数据挖掘方法中选择有效的技术, 从这些海量数据中挖掘有用的知识是商业数据分析者或商业决策者面临的艰巨任务。本文调研了数据挖掘在商业领域的主要成功应用案例, 归纳、总结和分析了在商业领域中常用的数据挖掘方法, 指出了它们各自的使用条件和范围。这些可为商业数据分析者和商业决策者选择恰当的数据挖掘方法来指导他们的工作提供帮助。

大数据时代 文献综述 篇2

一、前言

大数据是近年来出现在通信和计算机领域中的一个热门关键词。关于大数据,尚未有一个统一的定义,但却有两个观点能够诠释大数据的本质。第一个观点来自于Gartner公司的Merv Adrian在2011年第一季度刊登在Teradata Magazine上的一篇文章,文中指出“数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力”[1]。另一个观点来自于麦肯锡全球数据分析研究所(Mckinsey Global Institute)在2011年6月发布的《大数据:创新、竞争和生产力的下一个前沿》报告,报告中提出“大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集”[2]。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和应用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

大数据已经深刻地影响到人们的生活、工作和学习。大数据的意义在于对由多种类型数据构成的数据集体进行分析和研究,提取有利用价值的信息,从而帮助人们在解决问题时可以作出科学的决策。同样大数据的威力强烈地冲击着教育系统,正在成为推动教育系统创新与变革的颠覆性力量。

智慧时代下大数据技术在教育

领域的应用研究综述

二、大数据技术在教育领域的应用现状分析 大数据定义与特征

大数据(bigdata),又称巨量资料,海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。研究机构 Gartner[3]认为“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。麦肯锡的定义: 大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。无论哪种定义,我们可以看出,大数据并不是一种新的产品也不是一种新的技术,大数据只是数字化时代出现的一种现象。

大数据的主要特点可以概括为4V+1C。4V包含了四个层面:第一,即 Volume(大容量),海量数据,规模庞大,已跃升到 PB 级别;第二,Velocity(高速度),实时处理,处理速度快,涉及感知、传输、决策、控制开放式循环的大数据,数据实时处理有着极高要求,通过传统数据库查询方式得到的“当前结果”可能已没有价值,这也是大数据和传统的数据挖掘技术本质上的不同;第三,Variety(多样性),数据类型繁多:网络日志、视频、地理位置信息、图片等都是大数据;第四,Veracity(低密度),数据价值大,但价值密度低。对海量数据挖掘分析,对未来趋势与模式的可预测分析,深度复杂分析;“1C”即 Complexity,是通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据处理的需求[4]。2 国内研究现状

对于“智慧时代下大数据技术在教育领域的应用”国内研究的现状,我主要通过借助中国知网提供的论文发表数据进行分析。在中国知网中选择“高级检索”类型,并在检索条件中选择“主题”检索,输入“大数据”并含“教育”,截止到 2014年4月17日共检索出303 条结果与之相关,通过手工筛选,把会议报道等无关信息剔除掉,剩余160篇文章。

大数据在教育领域的应用,与国外相比,国内起步稍晚,还未形成整体力量。虽然2009年开始,大数据就成为了流行词汇,但是它在教育领域的应用是近3年才出现的。国内最早的研究是从2012年开始的,相关论文只有5篇。但是2012年大数据成为时代发展的一个重要趋势,这也直接影响到教育领域的专家学者开始关注。王震一[5]提出:今天的大数据就像当年发明显微镜一样,人们从庞杂的海量数据中找到了前所未知的事物。正确面对这些关系复杂、形式多样的结构化、半结构化和非结构化的教育数据,形成一套涵盖业务、技术和 IT 基础架构的全面解决方案来处理存储、管理和分析教育大数据,这就是信息化教育。

杨满福和焦建利[6]提出“大数据加速教学研究成果向教学生产力转化”,从产学研结合的意义上说,借助大数据,教学研究与教学产品的改善与创新更紧密地联结起来,理想的状态是教学研究的价值在教学产品的优化上快速得到体现,最终教学研究成果束之高阁的不利局面将能得到改变,教学研究的成果也就能在一个全球化境域下提高教学的生产力。

刘雍潜和杨现民[7]提出“大数据时代区域教育均衡发展新思路”,在大数据时代背景下,区域教育均衡发展应该以数据为基础,准确把握区域教育发展动态,利用大数据技术从教育环境均衡教育资源均衡、教育机会均等和教育质量均衡等四个方面提供科学依据,进而促进区域教育均衡发展。

2013年至今是大数据在教育领域应用研究的起步阶段。随着国家对教育信息化的快速推进和信息技术与教育教学的深度融合,我国教育事业的改革和创新发展离不开信息技术的支持和引领已经越来越成为教育界的共识。2013年被媒体称为中国的大数据元年。2014 年 3 月,教育部办公厅印发的《2014 年教育信息化工作要点》中指出:加强对动态监测、决策应用、教育预测等相关数据资源的整合与集成,为教育决策提供及时和准确的数据支持,推动教育基础数据在全国的共享[8]。可见,教育大数据的应用已被列入我国教育信息化的工作程序中,相信大数据将很快被推广并与教育领域的深度融合,这是当前时代教育事业发展的必然趋势。3 国外研究现状

2012年3月底,美国奥巴马政府宣布,白宫将投入2亿美金的研发费用来推动大数据技术的发展,其主要目标是为了让大数据技术更好地服务于科研、环境、生物医药、教育和国家安全领域,同时,明确地表示将主要用来鼓励在数据采集、存储、管理、分析和共享等方面的技术研发,这直接刺激了全世界对“大数据”的关注[9]。此外,大数据还上过《纽约时报》和《华尔街日报》的专栏封面。2012年,美国国家教育部发布了《通过教育数据挖掘和学习分析促进教与学》报告,对美国国内大数据教育应用领域和案例,以及应用实施所面临的挑战进行了详细的介绍。

国外关于大数据在教育领域的应用的论文发表时间也主要分布在近三年,研究内容主要包括对教育数据挖掘、学习分析,个性化教育、教育方式的改善、学习策略探讨、教育管理方式的改变、大数据对于教育的推动作用、数据驱动以及对图书馆建设、对教与学需求、评价方法的影响等方面。可见,虽然大数据在国外出现较早也备受重视,但是在教育领域中的应用仍不够深入,正如 Anthony G.Picciano[10]教授所说:教学应用大数据分析处于起步阶段,还需要几年才能成熟,虽然大数据的存在被证明是该被重视的,但大数据并不是解决所有教育问题的灵丹妙药,它只是给人们提供了拟定教育问题解决方案时的一部分决策参考。

综上所说,我们可以看出,国内外大数据在教育中应用的研究还处于初级阶段,研究的内容不够广泛也不够有深度,因此,还需要进一步加强大数据在教育中应用的研究力度,希望能够推动大数据在教育中的应用与发展。

三、总结

通过以上的分析,我们可以发现大数据在教育领域有着很大的应用空间,也是未来教育发展的必然趋势。但是国内外专家学者开展的相关研究,大多数集中在理论阶段,不能够运用到实际中来。具体的应用理论还不够成熟,实践研究方面涉及的案例比较少。大数据时代,互联网教育与学校教育将逐渐分离,正如电影院和电视机在初期竞争的时候水火不相容,而成熟后会各得其所。大数据提供了一种学校教育与互联网教育共存的新模式。有人预言,大数据开创了一个教育的新时代,我们应该积极迎接这个新时代,通过大数据来促进教育,进一步改善教学的方式与方法,进一步促进学生学习成绩的提高。

四、参考文献

[1]Merv Adrian.Big Data:it’s going mainstream and it’s your next opportunity[J].Teradata Magazine, 2011,(1):3-5.

[2]Manyika J, Chui M, Brown B, et al.Big data: The next frontier for innovation, competition, and productivity[R].USA:Mckinsey Global Institute, 2011.

[3]大数据[OL].

[4]大数据时代的特点[OL]. [5]王震一.教育离“信息化”到底还有多远[J].中小学信息技术教育,2012,(12):25-26.[6]杨满福,焦建利.大教学 大数据 大变革—edX 首门 慕课 研究报告的分析与启示,电化教育研究,2014(06);

[7]刘雍潜,杨现民.大数据时代区域教育均衡发展新思路,电化教育研究,2014(05);

数据挖掘在教学和管理中的应用综述 篇3

关键词:数据挖掘 教学应用 管理应用

一、数据挖掘技术概述

1.数据挖掘涵义

随着计算机应用的普及,信息技术的发展,产生了大量的数据。如何从大量数据中提取有用信息,找到隐藏信息成为亟待解决的问题。数据挖掘技术应运而生,且伴随数据库技术发展而逐步得到完善。

数据挖掘(DM:Data Mining)也称数据库中的知识发现KDD(Knowledge Discovery in Database),是从大量数据中提取或“挖掘”知识的过程,即从数据集合中抽取出隐藏在数据中的有用信息和知识的非平凡过程。数据挖掘是建立在人工智能、数据库技术、统计学、可视化支柱技术、机器学习、并行计算等不同学科和领域知识基础上,不同于信息检索的一门数据库技术。在大量数据中查找符合条件的记录,或者在因特网中搜索查找需要的特定信息,均属于信息检索领域范畴。

常用的数据挖掘技术主要有关联分析法、时间序列分析法、预测分析法、分类分析法、聚类分析法等。

2. 数据挖掘对象

数据挖掘对象是大量多种多样的数据,可以是关系型数据库中的结构化数据;也可以是文本数据库、多媒体数据库、时态数据库、历史数据库中的非结构化数据;甚至是万维网(WEB)上的异构型数据。

二、数据挖掘在教学和管理中的具体应用

1.教学方法分析

在教学过程中,教师通常采用讲授法、讨论法、案例法、演示法、参观学习法等多种教学方法完成对本门课程的教学任务。不同专业及层次的教学班级应采取何种教学方法以满足教学需要,且有利于学生对知识的掌握?大量的教学实践经验存放于教学数据库中,运用聚类分析、关联规则或分类分析的方法对存放于教学数据库中的数据进行挖掘,可以判断出教学方法与学生之间存在的适合关系,对分类、分层次、分专业教学具有指导意义。

2.教与学的评价分析

教学评价包括教师“教”的评价和对学生“学”的评价,是世界教育科学研究三大研究领域之一。目前,在各个高校中通过参考国内外相关评价指标体系且结合实际经验和采取调查问卷等方式积累了大量教与学的评价数据,包括学生综合评价指标、学生测评指标、课堂教学评价指标等,但对于各项指标间的关系,进行评价指标体系研究的高校却较少。[4]将粗糙集理论及关联规则应用到各评价系统,进行数据挖掘,可以容易地找到适合学校教学评价且简单易行的评价指标体系。另可考查学生个别差异,便于因材施教,对学生的学习评价也是各个高校教育工作者的重要职责之一。

利用数据挖掘工具,如将关联规则运用于教学评价数据库中的数据,得到教学效果与教师的职称、性别、年龄等之间的关系以及学生具备的素质指标之间的关系等,可以即时得到教学评价结果,从而对教师的“教”和学生的“学”进行及时指正。

3. 课程设置分析

学校对学生课程的设置大多遵循先基础、后专业、每学期的必修与选修课程的规律,课程与课程之间存在一定的关联与前后顺序关系,且学习室循序渐进的。[5]怎样能使每学期的课程设置大局与局部兼顾是一个值得教育工作者研究的问题。

学校学生成绩数据库中存放了历届学生的考试成绩信息,运用关联分析、分类分析和时间序列分析对学习同一门课程的不同专业和班级的学生成绩数据进行挖掘,分析数据之间的相关性和规律性信息,找出影响学生学习成绩的原因,从而对学校学生課程的设置做出合理安排。

4.学生学习及行为分析

依靠教师多年的教学经验来解决,可以了解学生在学习过程中所遇到的困难,帮助学生克服学习中的障碍,但对于更新迅速的计算机学科,传统的教学方法显然不能满足教学。因此可以利用数据挖掘技术从学生提交作业的数据库中提取数据及时发现和解决问题。例如,本人近期对学生提交的C语言程序设计课程作业进行数据挖掘,通过对评阅结果为语法错误、语法警告和运行错误的记录使用数据挖掘技术,准确地发现了学生程序中的语法及算法错误的主要因素,使学生得到及时地反馈,并在日后的程序设计中避免类似错误发生,从而明显改善教学效果。

在信息技术高度普及的今天,利用数据挖掘工具对学生的奖惩情况记录数据库、学生互评数据库、学习行为记录数据库等进行分析处理,对学生的行为进行管理并对不良行为进行及时指正,既减轻了教师的工作量,又达到了改善教学的目的。

5.学籍管理分析

各个高校在学生入学后,都为学生建立了学生档案,包括学生的姓名、年龄、性别、家庭情况、健康状况、特长爱好、奖惩情况、入学前后的成绩、联系方式等等。这些信息当中隐含了大量的有价值的数据,如每名学生的学习成绩变化情况、行为记录情况、身体健康变化情况等,运用预测分析、演变分析、统计分析、聚类分析、关联分析等方法,挖掘出有价值信息进行分析,对提高学生学习能力、各方面素质发展、纠正不良学习行为、学校的学生管理工作等均能起到指导作用。

三、数据挖掘应用的困境及发展前景

数据挖掘存在着一个潜在的机会。从数据集中发现模式的可能性当然存在,然而,也不应就此掩盖危险。所有真正的数据集,即使那些是以完全自动方式搜集的数据,都有产生错误的可能,关于人的数据集,例如事务和行为数据,尤其有这种可能。与此相关联的是如何确保任何所搜集到的模式是“真实的”,并为数据挖掘的可靠性提供保障。

目前,数据挖掘技术及应用已是国际上的一个研究热点,并在许多行业中得到应用,尤其在市场营销领域体现了其优越性和发展潜力。据国外专家预测,随着数据量的日益积累以及计算机的广泛应用,数据挖掘将在中国形成一个产业。随之而来的是数据挖掘技术在教育领域中的应用也必将不断壮大,发挥越来越大的作用,对日后教育的改革和发展起到指导和巨大的推动作用。

参考文献:

[1](加)Jiawei Han Micheline Kamber著 范明 孟小峰 等译.data Mining:Concepts and Techniques数据挖掘概念与技术[M].北京:机械工业出版社,2001:3-17

[2] Margarent H.Dunham著郭崇慧 田凤占等译.数据挖掘教程[M].北京:清华大学出版社,2005:3-15

[3]张玉林.数据挖掘技术在教学过程中的指导作用[J].西安通信学院学报,2006,5(2):38-40

数据挖掘的应用综述 篇4

企业通过实施客户关系管理, 可以降低成本, 增加收入, 提高业务运作效率。对于每一个面临竞争的公司, 数据仓库是必须最终拥有的市场武器。通过它可以更多地了解客户的需求以及处理这些需求的方法。数据挖掘能够对将来的趋势和行为进行预测, 从而很好地支持人们的决策。作为专门管理企业前台的客户关系管理为企业提供了一个收集、分析和利用各种客户信息的系统, 帮助企业充分利用其客户管理资源, 也为企业在电子商务时代从容自如地面对客户提供了科学手段和方法。建立和维持客户关系是取得竞争优势的唯一的最重要的基础, 这是网络化经济和电子商务对传统商业模式变革的直接结果。

1 客户关系管理 (CRM)

1.1 内容

CRM的概念由美国Gartner集团率先提出。我们认为, CRM是辨识、获取、保持和增加“可获利客户”的理论、实践和技术手段的总称。它既是一种国际领先的、以“客户价值”为中心的企业管理理论、商业策略和企业运作实践, 也是一种以信息技术为手段、有效提高企业收益、客户满意度、雇员生产力的管理软件。

客户关系管理 (CRM) 源于以“客户为中心”的新型商业模式, 是一种旨在改善企业与客户之间关系的新型管理机制。通过向企业的销售、市场和客户服务的专业人士提供全面、个性化的客户资料, 并强化跟踪服务、信息分析的能力, 使他们能够协同建立和维护一系列与客户和生意伙伴之间卓有成效的“一对一关系”, 使企业得以提供更快捷和周到的优质服务、提高客户满意度、吸引和保持更多的客户, 增加营业额。通过信息共享和优化商业流程有效地降低企业经营成本。

1.2 CRM解决方案的组成

CRM作为企业管理系统软件, 通常由以下三部分组成:

(1) 网络化销售管理系统 (Sales Distributor Management, SDM) 。该模块以市场和销售业务为主导, 对销售的流程进行了详细的管理, 是销售管理人员进行管理和销售业务员销售自动化的重要工具。它实现了销售过程中对客户的集中管理和协同管理, 销售管理人员可以随时对销售情况进行分析, 具体功能包括客户接待管理、报价单处理、销售合同管理、回款单处理、综合查询功能、综合统计功能。

(2) 客户服务管理系统 (Customer Service Management, CSM) 。该模块主要对企业的售后服务进行管理, 加快售后服务的响应速度, 提高客户满意度, 对服务人员进行考核, 加强对产品质量的监督。

客户服务系统最典型的代表就是呼叫中心环境, 通过呼叫中心环境布署并且实现基于电话、Web的自助服务。它们使企业能够以更快的速度和更高的效率来满足其客户的独特需求。由于在多数情况下, 客户忠实度和是否能从该客户身上赢利取决于企业能否提供优质的服务, 因此, 客户服务和支持对许多企业就变得十分关键。

(3) 企业决策信息系统 (Executive Information System, EIS) 。随着电子商务时代的到来, 各行各业业务操作流程的自动化, 企业内产生了数以几十或上百GB计的大量业务数据。这些数据和由此产生的信息是企业的财富, 它如实地记录着企业运作的本质状况。但是面对如此海量的数据, 迫使人们不断寻找新的工具, 来对企业的运营规律进行探索, 为商业决策提供有价值的知识, 使企业获得利润。能满足企业这一迫切需求的强有力的工具就是数据挖掘。

1.3 CRM的实施

CRM项目的实施可以分为3步: (1) 应用业务集成。将独立的市场管理, 销售管理与售后服务进行集成, 提供统一的运作平台。将多渠道来源的数据进行整合, 实现业务数据的集成与共享; (2) 业务数据分析。对CRM系统中的数据进行加工、处理与分析这将使企业受益匪浅。对数据的分析可以采用OLAP的方式进行, 生成各类报告。也可以采用业务数据仓库 (Business Information Warehouse) 的处理手段, 对数据做进一步的加工与数据挖掘, 分析各数据指标间的关联关系, 建立关联性的数据模型用于模拟和预测; (3) 决策执行。依据数据分析所提供的可预见性的分析报告, 企业可以将在业务过程中所学到的知识加以总结利用, 对业务过程和业务计划等做出调整。

2 数据挖掘

2.1 什么是数据挖掘

数据挖掘 (data mining) 是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解模式的非平凡过程。数据挖掘的广义观点:数据挖掘就是从存放在数据库, 数据仓库或其它信息库中的大量的数据中“挖掘”有趣知识的过程。数据挖掘, 又称为数据库中知识发现 (Knowledge Discovery in Database, KDD) , 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下步骤组成: (1) 数据清理; (2) 数据集成; (3) 数据选择; (4) 数据变换; (5) 数据挖掘; (6) 模式评估; (7) 知识表示。数据挖掘可以与用户或知识库交互。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。在客户关系管理 (CRM) 中, 数据挖掘的应用是非常广泛的。CRM中的客户分类, 客户赢利率分析, 客户识别与客户保留等功能都要借助数据挖掘来实现。

2.2 数据挖掘在CRM中的应用

比较典型的数据挖掘方法有关联分析、序列模式分析、分类分析、聚类分析等。它们可以在以客户为中心的企业决策分析和管理的各个不同领域与阶段得到应用。

2.2.1 关联分析

关联分析, 即利用关联规则进行数据挖掘。关联分析的目的是挖掘隐藏在数据间的相互关系, 它能发现数据库中形如“90%的顾客在一次购买活动中购买商品A的同时购买商品B”之类的知识。

2.2.2 序列模式分析

序列模式分析和关联分析相似, 但侧重点在于分析数据间的前后序列关系。它能发现数据库中形如“在某一段时间内, 顾客购买商品A, 接着购买商品B, 而后购买商品C, 即序列A→B→C出现的频度较高”之类的知识。序列模式分析描述的问题是:在给定交易序列数据库中, 每个序列是按照交易时间排列的一组交易集, 挖掘序列函数作用在这个交易序列数据库上, 返回该数据库中出现的高频序列。在进行序列模式分析时, 同样也需要由用户输入最小置信度C和最小支持度S。

2.2.3 分类分析

设有一个数据库和一组具有不同特征的类别 (标记) , 该数据库中的每一个记录都赋予一个类别的标记, 这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数据库中的数据, 为每个类别做出准确的描述或建立分析模型或挖掘出分类规则, 然后用这个分类规则对其它数据库中的记录进行分类。

2.2.4 聚类分析

聚类分析输入的是一组未分类记录, 并且这些记录应分成几类事先也不知道, 通过分析数据库中的记录数据, 根据一定的分类规则, 合理地划分记录集合, 确定每个记录所在类别。它所采用的分类规则是由聚类分析工具决定的。采用不同的聚类方法, 对于相同的记录集合可能有不同的划分结果。

3 结束语

应用数据挖掘技术, 较为理想的起点就是从一个数据仓库开始。这个数据仓库, 里面应保存着所有客户的合同信息, 并且还应该有相应的市场竞争对手的相关数据。数据挖掘可以直接跟踪数据, 辅助用户快速作出商业决策。用户还可以在更新数据的时候不断发现更好的行为模式, 并将其运用于未来的决策当中。

参考文献

[1]李志刚, 马刚.数据仓库与数据挖掘的原理及应用[M].北京:高等教育出版社, 2008.

[2]李雄飞, 李军.数据挖掘与知识发现[M].北京:高等教育出版社, 2003.

国内多源遥感数据融合研究综述 篇5

国内多源遥感数据融合研究综述

本文主要针对广泛应用的多源遥感数据融合方法,如IHS变换、主成分变换、小波变换法、神经网络法等进行简要介绍.概括了国内学者的主要研究成果,指出了遥感图像融合技术的`关键是图像之间的空间配准,发展方向是多源遥感数据融合模型的普遍适用性.

作 者:李菲菲 作者单位:北京林业大学林学院刊 名:山西水土保持科技英文刊名:SOIL AND WATER CONSERVATION SCIENCE AND TECHNOLOGY IN SHANXI年,卷(期):“”(2)分类号:V557+.2关键词:遥感数据源 数据融合技术 IHS变换 主成分变换 小波变换法

数据容灾技术综述 篇6

[关键词]网络安全容灾RAID双机热备

一、引言

计算机网络的广泛应用对社会经济、科学研究、文化发展产生重大的影响,同时,网络也越来越深入平常百姓的家庭。网络已经成为日常生活及科研机构不可或缺的一部分。在这些繁荣的背后,都存在着大量的数据来支撑整个系统的运行。从各种数据服务器到提供通信链路的各种网络设备,没有一种能离开数据的存储。数据服务器把各种有用的数据保存在外部存储器中,像硬盘、磁带、光盘等设备。网络设备则把运行中的数据存储在内存中,为用户提供实时稳定的数据链路。这些数据是保证网络安全的基础,如果数据丢失,则会给企业和用户带来不可估量的损失。因此,目前存在着很多种数据备份和恢复的方案应用于不同的系统中。在本文中,按照数据存储的方式不同,把数据容灾方案划分为两类:基于外存储器的容灾技术和基于内存储器的容灾技术。

二、基于外存储器的容灾技术

由于外部存储器具有数据存储不易丢失、存储容量大的优点,因此,在具体应用中,用户把大量的数据信息通过各种不同的方式保存在外存储器中。

(一)RAID磁盘阵列方式

RAID(Redundant Array of Independent Disk)是指廉价磁盘冗余阵列。这种方式可以在一张磁盘或磁盘组之间提供数据的保存与备份。RAID网络存储技术主要利用网络技术实现信息的异地存储,数据不再直接存储在本地服务器上,而是储存在远端的数据服务器上,并且还可以通过网络保存在与远端服务器相连的专门设备上Ⅲ。在系统中RAID被看作是一个逻辑分区,但它是由多个硬盘组成的,通过在多个硬盘上同时储存和读取数据来大幅度提高存储系统的数据吞吐量,而且在很多RAID模式中都有较为完备的、相互校验与恢复的措施,甚至是直接相互的镜像存储。当数据灾难发生时可以自动修复,从而大大提高了RAID系统的容错度,提高了系统的冗余性。目前,RAID是一种比较规范的技术标准,现在已经存在RAID0~RAID6共7种不同的级别。每一种级别均按照数据读写、备份的规则进行设计,级别越高,其备份或镜像的程度也越高,但是数据读写的速率却不是随着级别的增加而增加的。

(二)数据库定期备份方式

对于一些小型网站或服务器,由于其规模有限,经济上不允许使用RAID的方式来进行数据的备份,因此,其往往使用数据库定期备份的方式将服务器中的相关数据进行增量备份,然后将备份后的文件复制到其他位置,例如磁带等。

数据库的备份有多种方式:完全备份、差异备份、增量备份。

完全备份是备份系统中的所有数据。执行此种备份方式时,备份耗时较长,但是一旦出现问题,在进行恢复时耗时最短,可以在比较短的时间内恢复数据。此种备份比较适合于阶段性的备份,比如一个月或半年等。

差异备份是备份上次完全备份后有变化的数据。这种备份方式耗时比完全备份要短,而且如果数据变化不大,备份后的文件也比较小。但是在执行恢复操作时,需要先执行先前的完全备份,然后再将差异备份的内容按照备份时的时间顺序进行逐个恢复。此种备份适合于数据变化不大的小型数据系统。

增量备份是只备份上次备份后有变化的数据。这种数据备份方式速度最快,备份的数据量也是最小的。在系统中的数据变化比较大的情况下,使用增量备份方式可以比较快速有效地完成数据备份任务。但是此种方式在进行数据恢复时却是最慢的。

每一种备份方式均有其优点和缺点,在实际的应用过程中,往往将这些方式组合起来使用,比如完全备份与增量备份结合使用等。

(三)双机热备方式

上述两种方式进行数据备份时,一旦出现计算机故障或磁盘故障,系统的恢复时间都较长,会有至少几个小时的恢复期。这样的特点不能被一些要求比较高的系统所接受。例如,电信计费系统会要求“不断流”,也就是说在系统出现故障时,系统能在几分钟甚至几秒的时间内恢复。针对这种情况,有人提出了双机热备的方式来进行数据的备份。

双机热备方式的国外代表产品是NCR LifeKepper和OctoPus。它们采用TCP/IP技术来保持工作机和备用机之间的数据同步。两台机器采用相同的硬件和软件配置,在双机之间通过RS232连接线或网线建立连接,以形成心跳。通过这种心跳机制,双机可以互相检测到对方的存在,从而可以形成双机之间的数据同步及故障切换。

目前在国内,已经存在使用纯软件的双机热备方案和面向应用级的双机热备方案[3,4],并且这两种方案已经得到了很好的应用。

通过上述分析,给出这几种容灾方案优点与缺点的对比(如表1)。

三、基于内存储器的容灾技术

在各种网络设备及通信网络的核心区域中,由于其所处的位置的特殊性,要求其必须具有很强的实时性,以为用户提供及时可靠的网络通信链路。因此,在这样的网络设备中,大多没有容量很大的外部存储器,只有内存可供用户保存数据。而内存具有访问速度快、数据无法永久保存的特点,因此,在为这样的网络设备设置容灾方案时,一般都采用双板或双机的数据热备份方案。

(一)双板热备方式

在网络设备中,其计算机硬件往往是特殊制作的,比如大型路由器等。它们在网络通信中所处的位置决定了这些设备不允许出现故障。但是设备不可能设计的那么完美,它们总是可能在某种条件下出现问题。另外,在设备进行升级时,系统也需要进行“断流”的操作,临时不能提供服务。为了解决上述问题,一个设备中往往设计成两块板卡,一块是主用板,另一块则是备用板。当系统出现故障或需要升级时,备用板主动切换到主用板,此时新的主用板上的数据与原来的主用板完全相同,不存在“断流”的情况。当解决了故障或升级完成后,将新的板卡插入设备中,执行数据备份的任务。

这种方式适合于非自然性故障,比如主板损坏或设备升级等。但是如果存在机房断电或自然灾害等情况时,往往无法及时恢复服务。

(二)双机热备方式

在这里的双机热备方式不同于面向大容量服务器的双机热备方式,它是采用修改操作系统协议栈的方式来进行的。由于这类计算机系统一般都是嵌入式系统,其操作系统往往是开放源码的嵌入式操作系统,因此,系统内核中的协议栈是可以修改的。与服务器下的双机热备方式相同,它也需要将两台机器设置相同的硬件和软件配置,双机之间建立网络连接,互相检测对方是否在线。一般情况下,当双机同时启动时,通过一定的方式来确定主备机。非同时启动时,先启动的作为主机,后启动的作为备机。整个系统使用主机的IP地址来提供服务,同时由主机向备机传送实时数据,而备机则只接受主机传送的数据。当主机出现问题无法继续提供服务时,双机检测模块会将备机实时转换为主机,继续提供服务,从而实现“不断流”。如图1所示。

一般情况下,两台服务器可以分别放置在不同的区域,可以相隔较远。这种数据备份方式既能在主机发生故障,还能在发生断电或自然灾害等情况下,保证系统仍然能正常服务。但是在进行系统升级时,仍然需要结合双板备份的方式进行。

四、结语

数据挖掘在竞技体育中的应用综述 篇7

随着网络技术的快速发展, 人们已经步入了高速的信息社会。云计算、大数据作为一个全新的时代的技术产物, 必将推动社会的发展。在大量数据爆炸的今天, 如何从中发掘有用价值, 成为人工智能领域研究的主要话题。

竞技体育以其独特的特点, 获得很多人的喜爱, 对运动员的技术统计和挖掘成为比赛成功的关键。比赛不再是全靠实力的比赛, 还是一种智慧的比拼。美国的NBA教练组使用一种IBM提供的Advanced Scoutl数据挖掘软件, 辅助决定替换球员。澳大利亚运用自主开发的DVCoach系统辅助训练和对比赛技战术进行统计。AC米兰队通过分析不同渠道的生理、整形外科以及心理数据来防止球员受伤。运用数据挖掘技术辅助运动员训练、提高比赛水平、辅助教练员决策已经成为竞技体育的研究目标。

我国改革开发以来, 充分重视体育的重要性, 倡导全民健身, 并且以体育作为推广外交的手段之一。国内各种联赛的开展, 国际各种比赛的参与, 充分展示了我国综合国力提升。研究竞技体育的核心问题, 成为振兴我国与体育事业的关键。

1 数据挖掘

1.1 数据挖掘的概念

所谓数据挖掘, 就是从大量的数据中, 提取隐含在其中的、具有潜在信息和知识的过程, 它是为了解决社会中数据爆炸和知识贫乏而发展起来的[1]。数据挖掘起源于1989年IJCAI会议, 会议提出了数据挖掘的概念。1995-1998年, 每年都会召开KDD国际会议, 推动了数据挖掘的发展。今天, 每年都会有更多的国际会议, 讨论数据挖掘的相关技术和发展趋势。

数据挖掘的技术主要包括关联分析、系列模式、分类、聚集和异常检测典型的数据挖掘系统应该包括数据抽取、数据预处理、知识发现以及知识表示四个部分[2]。其中, 数据抽取又可以分为数据准备与数据选择;知识发现就包括模型的建立与算法的设计应用, 其过程模型图如图1所示。

1.2 常见的数据挖掘算法

1.2.1 C4.5算法

C4.5算法是一种分类决策树算法, 其核心思想是ID3算法, 并对ID3做了如下改进[3]:

1) 通过使用信息增益率来选择属性, 克服了偏向选择取值多的不足;

2) 剪枝发生在够造树的过程中;

3) 实现对连续属性的离散化处理;

1.2.2 K-Means算法

K-Means算法是一种聚类算法, 它把N个对象分为K个簇, 以使簇内具有较高的相似度, 而且簇间的相似度较低。相似度的计算根据一个簇中对象的平均值来进行。该算法基于对象属性源于空间向量, 并且群组内部的均方误差总和最小的假设。

此算法首先从N个数据对象任意选择K个对象作为初始聚类中心, 对所剩下其它对象, 根据它们与这些聚类中心的相似度, 将它们分配给与其最相似的聚类, 然后再计算每个新聚类的聚类中心, 不断重复直到标准测度函数开始收敛为止[4]。

1.2.3 支持向量机

支持向量机 (Support Vector Machine, SVM) 是Cortes和Vapnik在1995年提出的, 是一种新型的通用知识发现方法。它具有扎实的理论基础, 训练的本质是解决一个二次规划问题, 得到全局最优解。同时使用核函数将原始的样本空间向高维空间进行变换, 以解决非线性文本的分类问题。

支持向量机是一个线性的学习系统, 建立在统计学习理论和结构风险最小的原理上。它根据有限的样本信息在模型复杂度和学习能力之间寻求最佳折中, 以期达到最好的推广能力。

1.2.4 K近邻学习算法KNN

K最近邻 (K-Nearest Neighbor, KNN) 分类算法, 是一个比较成熟的数据挖掘方法, 也是最简单的机器学习算法之一。不同于其他分类算法, KNN算法不需要事先从训练集中学习得到模型, 学习过程仅发生在样例分类时, 因此称为惰性学习算法[5]。

它的实现过程是:假设D为训练数据集, 在分类前, 不需要对训练样本做任何操作。当需要对测试样例d进行分类时, 将d与训练集D中的训练样例进行比较, 计算它们之间的距离或是相似度, 从D中选出前k个与d最相似的样本。这些样例称为d的k近邻, d的类别由k近邻中出现最多的类别决定。假设n1, n2分别为集合中属于类C1, C2的个数, 则

通过比较两个概率值的大小, 判断样例d的分类情况。如果P (C1|d) >P (C2|d) 则将d划分为C1类, 否则为C2类。

2 竞技体育的特点

竞技体育是一种制度化、体系化的竞争性体育活动, 具有如下特点[6]:

1) 竞争性

竞争是竞技运动区别于其他体育运动的本质的特点之一。运动员总是力求最大限度地发挥自己的潜能去战胜对手。竞争性是竞技体育不断发展的杠杆, 它既增加了比赛胜负的不确定性, 也增加了体育运动的观赏性。

2) 规范性

竞技体育的规范性体现在参赛制度、各项技术统计、训练规范、项目竞赛规则、竞赛规程等制约机制的规范性和竞技体育管理的规范性等方面。竞技体育的规范性是公平性的充分保证。

3) 集群性

竞技体育不同于一般的体育锻炼, 它是由若干运动员组成的群体行为, 只有数量达到一定程度, 才可能组织竞赛活动。

4) 公开性

竞技体育通常情况下都是公开的, 无论是观众和运动员都可以观看。在运动训练方面, 新的运动技术和训练方法可以为运动员所共享。当然运动员的天赋特点也被公开, 可被对手利用, 成为比赛的弱点。

5) 不可预见性

竞技体育最吸引人的特点就是具有一定的不确定性, 比赛结束之前, 很难判定比赛的结果。因此体育给人们带来观赏的同时, 也是一种期待。对比赛的阅读和理解, 有助于提高自身的文化素养, 扩展对外文化的认知。

6) 依赖性

在科学技术高度发达的今天, 体育竞技已不单单是运动员体能与技术的比拼, 更延伸到了体育科技的较量。尤其是在国际性赛事上, 国家的科技、经济力量早已成为赛事背后的一场暗战。

从游泳池中的“鲨鱼皮”、跳高场上的碳纤维杆, 到短跑赛场上的黄金跑鞋, 高科技帮助运动员不断创造纪录, 但高科技装备的使用也备受争议[7]。

3 数据挖掘在竞技体育研究的核心技术

1) 信息的采集。比赛信息的采集是进行数据分析的基础, 信息采集的粒度与实时性是后续数据分析有效性和准确性的保证。

2) 图像处理和视频分析。竞技体育的技术动作是在瞬间内完成的, 肉眼难以准确地判断出运动员动作的规范程度。技术工作者可以图像处理和视频分析技术, 采集相关技战术数据, 实现比赛视频绑定、视频检索与视频编辑。

3) 战术分析。运用数据挖掘方法对篮球比赛技战术进行分析, 挖掘运动员的特点和各种团体运动的搭配组合, 实现最优效果, 辅助教练员指导训练和决策。

4 数据挖掘在竞技体育中的具体应用

4.1 布阵安排

针对具体的比赛对手, 分析对方在场球员的特点, 利用关联度分析, 合理安排场上人员和人员之间的对位。每一位运动员每一场比赛的相关技术统计都会有相关人员进行统计, 在人员对位上彼此的得分比也会有人计算, 因此如果一个运动员在每一场比赛中都能够限制其对手的某一位得分点, 那么布阵上就必须充分考虑这一点, 扬长避短。

对于每一场比赛的成功和失败, 虽然存在一定的偶然性, 但是大量数据统计下还是可以分析各种阵型的特点, 然后从所有阵型里选出一种最优解, 根据对方的参赛队员情况, 安排合理的搭配, 以便在比赛中提升比赛的成功率。

4.2 时间调整

利用数据挖掘, 分析出运动员的运动能力和上场时间的关系。不同的运动员, 体能情况不一样, 有的运动员爆发力很强, 但是持续时间短, 因此该类运动员应该合理安排上场时间, 使得其能力在有效时间内得到发挥。然而有的运动员虽然爆发力不是很强, 但是耐力很好, 这类球员适合打满全场, 消耗对手体力。

4.3 营养安排

研究发现, 营养的合理搭配有利于运动员的运动发挥。分析运动员的运动和营养物质之间的关系, 可以有利于食物的搭配, 在场上发挥应有的水平。营养过剩和营养不良都是需要避免的问题。

4.4 训练时间

不同国家和地区的运动员, 对运动量的承受能力是不一样的。通过相关度数据分析, 得出不同地区运动员的体能特征, 针对这些特征, 可以有效的制定体能训练计划, 充分发挥运动潜质。而不至于造成训练过度, 肌肉拉伤等不良训练结果的发生。

4.5 运动员特点分析

分析出运动员最擅长的运动特征, 比如是防守还是进攻, 这些通过数据分析是可以实现的, 比如得分差分析, 如果在防守对手时, 能够充分限制对手, 使得其得分很少, 可以通过盖帽, 抢断, 但自己进攻端得分却很少, 这种球员就属于防守型球员, 因此在安排上主要以防守对方进攻点为主。

比如篮球运动, 篮球运动员在不同的位置, 其得分能力是有所不同的, 因此在其特别擅长的区域, 必须加强对其进行限制, 而对其不是很擅长的区域, 可以适当的放开, 这样可以节约更多精力其防守其余队员。

5 小结

本文针对竞技体育的特点, 分析国内外研究竞技体育的进展, 介绍了几种常见的数据挖掘算法, 综述数据挖掘在竞技体育中的应用。论文作为竞技体育的研究基础, 也可以为高校体育研究提供参考, 综合测量考核学生的综合体能素质, 研究不同区域的体能情况和不同的营养物质对学生的体质影响。

参考文献

[1]范明, 孟小峰译.数据挖掘概念与技术[M].机械工业出版社.2005.

[2]于文爽.数据挖掘技术在篮球技战术分析中的应用研究[D].北方工业大学, 2010.

[3]方元康.数据挖掘综述[J].数据库及信息管理.2007.

[4]孙久喜, 张静静, 阿英嘎.决策树技术在体育教学质量评价中的应用研究[J].南京体育学院学报 (自然科学版) , 2009, 8 (4) :78-80.

[5]Zhou Y, Li Y, Xia S.An improved KNN text classification algorithm based on clustering[J].Journal of Computers, 2009, 4 (3) :230-237.

[6]胡胡斐.数据挖掘在体育领域中的应用研究综述[J], 科技创新导报, 2010, (27) :211-212

数据挖掘的应用综述 篇8

一、在软件工程中的数据挖掘技术应用发展历史

所谓的数据挖掘技术还有一个比较常用的称呼, 就是数据库中的信息资源提取, 该技术与数据库相互依存, 不可割舍。从刚开始的提出, 到最后的实践应用, 该技术渐渐地走向更为多向化和多功能化, 并且在该项技术中融入了相当多的重要领域技术。而对于软件工程来说, 其最原始的意义起源于一九六七年, 该项工程自提出以后就一直受到重点研究和关注, 就其功能将其进行定义为采用工程化的途径或者是方法对具有实用意义的并且高质量的和存在一定功能效用的软件内容进行构造和创建, 这样的软件构建预期的目标是在一定的背景条件下以及成本基础上, 所研究开发出的软件产品能够满足使用者的大部分需求[1]。在20世纪末期, 研究者们逐渐的将数据挖掘技术与工程软件相互结合, 令数据挖掘技术应用在工程软件当中, 这样的理论受到了著名学者Allen以及其他学者的一致认可, 主要是通过数据挖掘技术对软件工程中的代码之间存在的关系进行查找, 从起源到今天, 这样的二者结合应用形式, 已经逐渐变得更为完善[2]。

二、数据挖掘技术在软件工程中的应用剖析

2.1对克隆代码的数据挖掘

在软件工程领域中, 对克隆代码的检查与测试是最为原始的数据挖掘需求之一, 直到目前已经逐渐演变出了很多的方式, 其主要可以分为以下几种:

2.1.1将文本对比作为基础的方式

采用计算机软件系统中的对比程序代码中所包含的语句行展开进一步的判断过程, 这种方法在进行后期的改进过程中针对的是对字符串的匹配效率进行提升, 提升的办法有很多, 最为主要的就是通过Hash函数技术进行匹配效率优化, 在这个过程中最为常用的工具为Duploc。

2.1.2将标识符对比作为基础的方式

将标识符对比作为基础的方式, 最具代表性的方式是对由分词所组成的标识符序列构造前缀树, 并将其作为依据然后进行对比, 将标识符对比作为基础的方式的工具主要有CCFinder、Dup等[3]。

2.2计算机软件数据检索挖掘

数据检索挖掘与克隆代码一样, 同样是计算机软件工程中最为原始的数据挖掘需求之一, 对于计算机软件数据检索挖掘来说其主要分为以下三步:

第一步, 为数据信息的录入。所谓的数据信息录入实际上指的是对于要检索的信息进行录入的过程, 针对使用者的需求将使用者所需要的数据信息输入到检索信息录入框中进行数据的查找。

第二步, 为数据信息的查找过程。当客户所需要的信息进入到数据检索录入框中时, 进行确认后数据挖掘系统将会根据数据信息中所涵盖的数据信息内容进行数据库中的查找, 并且根据不同的分类, 对查找信息的数据信息资料进行罗列[4]。

第三步, 为数据信息资料内容的导出和查看, 在查找到相关的客户需要数据内容时, 客户可以根据自己本身的实际需要, 进行数据信息的导出或者是在线查看, 在数据信息资料导出后, 需要应用相关的数据信息查看软件进行查看。并且客户在导出数据信息时, 会在中形成一定的历史记录, 对客户及时查找的数据信息进行记录与保存, 当客户想要再次进行查找时能够更为方便与快捷的找到其所需要的数据信息内容。

三、结语

综上所述, 面对现今的发展形势来说, 软件工程技术已经逐渐渗入到各领域当中, 并且得到了相当广泛的应用, 作为该工程当中的一项重要技术, 数据挖掘技术也将发挥其最大的功用, 充分体现其巨大的应用价值, 并且随着更多的软件工程技术的发掘, 数据发掘技术已经不再是“独立作战”, 綦江与其它的软件工程技术共同融合渗透, 进而保证软件工程技术的完善性, 相信在未来的发展过程当中, 更加具有优势的数据发掘技术能够为我国整体的技术人员发展打下良好的基础进而促进我国整体的国民性进步。

摘要:笔者在对前人研究成果进行汇总研究分析后, 采用分层分析法对数据挖掘技术在软件工程中的应用进行层层剖析, 首先论述了在软件工程中的数据挖掘技术应用发展历史, 然后对该技术在软件工程中的应用进行了深入剖析, 以其为数据挖掘技术在软件工程中的应用打下良好的理论基础, 起到一定的促进帮助作用。

关键词:数据挖掘,软件工程,应用

参考文献

[1]毛澄映, 卢炎生, 胡小华.数据挖掘技术在软件工程中的应用综述[J].计算机科学, 2012, 05:1-6+26.

[2]徐建敏, 区木华, 熊金志.数据挖掘技术在体育训练中的应用综述与分析[J].电脑知识与技术, 2012, 22:5492-5495.

数据挖掘的应用综述 篇9

1 数据挖掘的发展

数据挖掘的概念是由Usama Fayaad (1995) 在加拿大蒙特利尔第一届知识发现和数据挖掘国际会议上提出的。数据挖掘, 又称数据库中的知识发现, 简单的说就是从大量的、不完全的、有噪声的、模糊的、随即的数据中, 提取隐含在其中的、新颖的、但又是潜在有用的信息和知识的过程[3]。数据挖掘是一门涉及数据库、统计学、人工智能和机器学习、可视化和信息科学等多个领域的交叉学科。数据挖掘的发展与计算机科学及人工智能等相关的机器学习的进步关系密切, 它的发展经历了由“硬件”改善到“软件”理论突破再到“硬件软件同步并进”的历程。1962年, Rosenblatt提出了第一个机器学习模型, 称为感知器。20世纪80年代后半期, 汪云九[4]、张承福[5]等对神经网络的数学理论进行了描述, 神经网络在中国得到传播与发展。与此同时, 还有一些学者完善了主要用于分类问题的决策树模型, 如周厚贵[6] (1988) 用决策树方法分析了水利工程的施工风险。多元统计方法作为数据挖掘的直接工具, 在20世纪80年代后半期也得到了同步发展。刘来福[7]、杨德[8]利用多元统计技术作多数量性状遗传分析, 得出了更具优良性状的动植物品种。从20世纪90年代开始, 由于数据量的激增, 信息大爆炸使统计学家对机器学习产生了兴趣。丁德恒[9] (1994) 阐述了用机器学习来建立数据库, 由此数据挖掘从用于描述所有的从已知数据中发现关系和规则的方法扩展为描述从数据库中推断信息的整个过程。目前, 信息化世纪的到来加速了数据挖掘的发展, 其思想理论及技术分析方法已在军事[10]、计算机[11]、地质找矿[12]、零售业[13]、金融[14]、通信[15]、基因序列组成研究[16]、交通管理[17]及电子商务[18]等领域得到了广泛运用。

随着矿产资源问题的尖锐化, 各种不可再生矿产资源的储量预测、地理分布探知都已成为重要的问题, 从而促进了矿产资源定量预测方法的发展。数据挖据在各学科的发展也引起了地质学家的重视, 概率统计、证据权法、灰色系统理论、分形理论、信息量法、遗传算法、决策树及神经网络等一系列的数据挖掘方法已在矿产资源定量预测中发挥了重大作用。

2 数据挖掘与矿产资源定量预测的结合

定量预测的发展过程就是数学模型或预测方法不断丰富的过程[19]。20世纪70年代及以前, 概率统计和多元统计是地质数据处理的主要方法, 到80年代初期, 随着对地质数据定性认识能力的提高, 定量理论得到重视, 80年代中后期, 对地质现象、地质过程开始模糊性的描述, 90年代以来, 对地质现象、地质过程的非线性认识, 促使灰色系统理论、人工神经网络、分形理论等方法开始流行。数据挖掘在矿产资源定量预测中的应用越来越广泛[2]。苏联学者P.P.别克扎诺夫、A.H.布加耶茨等 (1984) 在《计算机评价固休矿产的方法及方法论》一文中提出:任何矿床预测资源的评价其基本方法论前提是“类比推断”。赵鹏大院士 (1985) 指出:由于任何类比结论都具有概率性质, 因而原则上不可能是完全可靠的[1]。在这种条件下为了提高预测资源量类比结论的可靠程度, 很重要的就是选择最适合的数学模型和方法以及相应的计算机程序系统。经过多年实践研究和探索, 以赵鹏大院士为首的科研小组 (2001) 提出了“三联式”成矿预测理论[20], 是数字找矿的新实践, 是数据挖掘理论在矿产资源定量预测方面获得的重大进展。

3 常用数据挖掘方法介绍

3.1 信息量法

信息量法在区域矿产预测中的应用是E·B·维索科奥斯特洛夫斯卡娅 (1986) 及N.N恰金 (1969) 提出来的[21]。赵鹏大等于80年代应用该方法进行矿床统计预测并取得了良好效果。

信息量计算法以地质异常理论为指导, 用信息量的大小来评价地质因素、标志与研究对象的关系密切程度[22]。信息量用条件概率计算, 实际计算时可用频率估计条件概率来估算。即:

undefined

式中:I (XI, A) 为指标XI提供有矿存在的信息量值;NI为标志有XI状态的含矿单元数;N为研究区含矿单元总数;SI为标志有XI状态的单元数;S研究区含矿单元总数。I (XI, A) 为正值, 表示找矿标志XI能提供有利的找矿信息, 且值越大, 越利于找矿;I (XI, A) 为负值, 表示矿标志XI存在对找矿更不利;I (XI, A) 为0则表示找矿标志XI存在与否对找矿没有影响。

计算时先计算各地质因素 (地质、物探、化探、遥感、矿产分布) 、找矿标志提供的找矿信息量, 定量评价各地质因素和标志对指导找矿的作用;然后计算每个单元中各找矿标志信息量的总和, 其大小反映了该单元相对的找矿意义, 定量评价控矿地质因素和找矿标志对指示找矿作用的大小, 确定有利成矿部位, 从而预测找矿远景区。

3.2 证据权法

证据权法最初是在临床医学研究非空间数据的应用中发展起来的, 而后加拿大地质统计专家F·P·Agterberg[23]和G·F·Bonham-Carter根据矿产预测的特点对其改进, 使之在矿产预测中成为最常用的模型之一[24]。

该方法用统计学方法研究地质因素和矿产分布之间的关系, 首先是从计算先验概率入手, 先验概率反映了研究区已发现的矿床数与研究区大小的比值。然后要计算在某种地学证据模式条件下的条件概率, 比如在某种岩石类型中产出矿床的概率。这样就需要定义产出矿床的条件集合, 如“有”或“无”该种岩石类型的范围[25]。

证据权法的实际应用可按如下步骤操作[12]:第一, 搜集研究区内的矿点分布、地层、构造、地球化学、航磁重力及遥感信息等资料;第二, 分析研究区内矿种的成矿规律, 将已知的有关的地质环境与研究区内的地质环境对比、与研究区内已知的矿床矿点对比, 确定矿床的成因模式;第三, 根据该矿床成因模式, 选择符合该类成因的矿床 (点) ;第四, 基于矿床综合找矿模式, 选择有利成矿要素, 并提取相应数据作为证据层;第五, 计算每个控矿证据层的权重值 (W+, W-) 、成矿相关度 (C) , 并确定出最有利成矿的专题证据层;第六, 综合各有利证据层, 在成矿预测模型证据层范围内计算相应单元格成矿的后验概率值 (P后验) , 并根据后验概率值分级圈定成矿远景区。

3.3 灰色系统理论

灰色系统理论是邓聚龙教授1982年创立的, 以信息不完全系统的行为表现、行为内涵、行为关系、行为环境的层次性、动态性、信息性、量化性…为主要目的[26]。灰色系统是指既有白色又有黑色参数的系统[27], 通俗地讲, 白色参数, 是指信息完全明确, 黑色参数是指信息不知, 灰色参数是指部分信息明确。灰色系统主要用灰色参数、灰色方程和灰色矩阵进行描写。灰色系统理论的主要内容包括以灰色朦胧集为基础的理论体系, 以灰色关联空间为依托的分析体系, 以灰色序列生成为基础的方法体系, 以灰色模型为核心的模型体系, 以系统分析、评估、建模、预测、决策、控制、优化为主体的技术体系[28]。在矿产资源定量预测中主要使用的是其分析体系和模型体系。

关联分析是通过曲线间几何形状的分析和对比来计算曲线间的关联程度, 并认为几何形状越接近相似的曲线, 其发展变化态势越接近, 则关联程度越大[29]。关联分析不仅可以研究两个事物之间的相似程度, 而且可以进行因素分析, 通过对比矿床之间的相似程度来预测的方法称为直接预测方法, 而通过进一步的因素分析, 不仅使用绝对值关联度, 而附加使用消除极值影响的速度关联度的方法, 称为间接预测法。其步骤可简述为: 确定建模参数;建立关联序列;计算关联度;构造预测模型。具体步骤详见文献[30]。

灰色模型GM (1, 1) 目前主要运用于矿床的深部预测, 灰色模型按照五步建模思想构建, 通过灰色生成或序列算子的作用弱化随机性, 挖掘潜在规律, 经过灰色差分方程与灰色微分方程之间的互换实现了利用离散的数据序列建立连续的动态微分方程的新飞跃[28]。灰色模型的建立可分如下步骤:参变量的选择;原始数据预处理;建立白化微分方程;系数矩阵转换;确定模型。

3.4 分形理论及多重分形

分形理论是法国数学家曼德尔布罗特于20世纪80年代初提出来的, 目前已发展成为各学科研究的最前沿课题之一。分形最突出的特点是无特征尺度, 不能用一般测度 (如长、宽、高、体积、面积等) 进行度量, 只能用描述分形的特征量——分形维数进行描述[31]。维数是为了定量地描述客观事物的“非规则”程度而引入的, 而从整数扩大到分数, 从而突破了一般拓扑集维数为整数的界限。

分形理论在矿产资源定量预测方面的应用研究, 国内主要是成秋明[32,33,34]和李长江[35,36]等。前者把多重分形概念引入到分形理论中, 证明了背景异常值多服从正态和对数正态分布, 而异常值则多服从分形分布, 这一证明为区分背景值和异常值提供了途径。后者主要研究了矿床的分形性质, 提出了用分形理论作为快速评价寻找超大型矿床的方法。

关于分形理论在矿产资源定量预测中的应用, 具体可参见文献[37,38,39,40,41]等。

4 方法评述

上述各种数据挖掘方法各有不同的特点及适用的数据类型。

信息量法以地质异常理论为指导, 要求必需正确把握地质因素、标志与研究对象的关系密切程度, 才能准确确定各信息量的大小, 确定有利成矿部位, 从而预测找矿远景区。该方法能定量的对多来源、多尺度的不同信息进行综合处理与分析, 且简便易行, 易于在生产中应用, 弊端在于单元划分准则不确定, 人为影响过大, 不同的专家判断力会产生不同的预测结果。

证据权法出发点是统计学, 通过研究各找矿标志与矿产同时出现的概率, 确定其权重值。证据权法的优点在于权的解释是相对直观的, 并能够独立地确定, 但优点是有前提的, 就是条件独立性。而在实际工程项目中, 一个矿区的各地质因素和成矿因素是复杂多变的, 并有着千丝万缕的联系, 不可能是相互独立的。因此, 证据权法的条件就是克服自身的限制, 目前这点已取得可喜的成绩, 如Krishnan和Journel (2004) 提出了Tau模型等。但需改进和逼近现实的课题还有很多, 它与信息量法相比, 算法更具有客观性。

灰色系统理论基于系统论, 是横断科学, 为目前各学科研究的前沿课题之一, 在许多领域都展示了其生机勃勃的魅力。其最重要的一环就是参变量的选择和定性定量。参变量在矿产资源定量预测中有很多, 定量不难, 因为目前数据获取的方法很多, 但是把它定性为白、灰或黑却不易。比如断层, 在露头观察, 它是白色数据, 用地震测量它则是灰色数据, 而深部的超出地震精度范围外的就可以定性为黑色数据。严格的说, 客观系统都是灰色的。如何把同构、仿真的系统逼近客观系统, 进而确立事实, 是广大地质工作者面临的挑战之一。灰色系统理论相比于信息量法和证据权法, 最大的优势在于不确定量的灰化, 不强加某变量于一数值或一值域, 从而使方法具有更大的灵活性, 结论也更逼近现实。

分形理论仅用一个分形维数来刻画事物的形状特征, 这显得过于单一, 而且维数的测算方法不同, 结论就不同, 这就造成了争议。如何在数学理论基础上解决分形定义及其分维数测算方法带来的误差, 是分形理论发展的重要课题。在矿产资源定量预测中, 如何定义分维数的物理含义及解释其揭示的客观规律, 是地质工作者恰当运用分行理论的关键所在。分形理论与前三者都是同一时期提出的方法, 但目前的发展仅与关联分析有少许交叉, 如何融合其他方法的优点, 丰富自己过于单一的指标体系, 是其目前发展的前沿课题。

5 结论

数据挖掘的使用方法很多, 本文仅介绍了在矿产资源定量预测中应用最广、发展最快的四种方法。作为预测方法, 它们仅是获取预测结论的手段, 不是预测结论的仲裁者。在实际运用中, 不能盲目地指定某一种或某一类方法, 或仅仅依靠方法的先进就认为结论是可靠的。一切方法的选择和使用都应该符合研究区的地质背景和成矿规律, 缺乏或刻意回避对地质背景和成矿规律的深刻认识, 执意追求方法的玄奥精妙, 其结论注定是错误的。数据挖掘的各方法都有各自的前提或适用条件, 只有深刻认识研究区特征, 挖掘各参数的物理含义, 才能准确选取预测方法, 得出精确预测结论。

摘要:数据挖掘概念的提出使信息提取技术获得了快速发展。信息量法、证据权法、灰色系统理论及分形理论等都已成为许多领域研究的前沿课题, 并取得了可喜的成果。矿产资源定量预测方法已由单纯的数理概率统计、线性方程组求解向多元统计推理、非线性认识及模型预测等交叉学科发展。通过对各方法的研究、对比、分析, 发现各方法都有各自的理论前提和适用条件。作为实践性强的矿产资源定量预测工作, 唯有在充分认识研究区地质背景和成矿规律的前提下, 结合科研或生产需求及预采用方法的适用条件, 才能选取好恰当的预测方法, 并严格规范方法中各参变量的物理含义及定性分析、定量取舍, 从而保证预测结论的精准。

基于大数据的精准营销应用研究综述 篇10

一、精准营销相关理论研究

(一)精准营销概念梳理

精准营销自其提出以来就被奉为顺应时代发展的产物,它不是对传统营销的颠覆和否定,而是对其的继承和进一步发展。较为公认的说法是世界级营销大师菲利普·科特勒在2005年首次明确提出精准营销。并将其描述为公司需要更精准、可衡量和高投资回报的营销沟通,需要更注重结果和行动的营销传播计划,还有更注重对直接销售沟通的投资。国内较为权威的说法是著名精准营销学者徐海亮提出的精准营销就是在精准定位的基础上,依托现代信息技术手段,建立个性化的顾客沟通体系,实现企业可度量的低成本扩张。当然也有学者对精准营销做了更为详细的说明。刘征宇认为“精准营销”是通过定量和定性相结合的方法对目标市场的不同消费者进行细致分析,根据他们不同的消费心理和行为特征,企业采用有针对性的现代技术、方法和指向明确的策略,实现对目标市场不同消费者群体强有效性、高投资回报的营销沟通。尽管目前为止,还没有对精准营销的绝对定义,但是从学者们的理解中可以基本归纳出精准营销的3个关键点;精确定位、可衡量、高投资回报。本文用4W和1H来形象阐述精准营销。即在合适的时间(when)、合适的地点(where)以恰当的方式(how)向恰当的人(who)销售恰当的产品(what),恰到好处称为“精准”。

(二)基于大数据的精准营销

随着云技术的进一步发展,大数据也揭开了其神秘面纱。何为大数据?顾名思义就是大量的数据,至于到底达到何种程度才可谓之大数据呢?较为权威的说法是大数据是指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。但是大数据的特征并不只限于量大,其特征还包括数据类型多、数据价值高密度低以及实时处理四个方面。例如移动公司存储的客户个人信息以及各种消费记录、银行存储的账户信息以及所办理的各项银行业务的记录都可称之为大数据。

有了对大数据的初步了解,易于理解基于大数据的精准营销就是依托现有的大数据,利用现代信息技术进行分析与预测,帮助企业向特定客户应用特定策略投放特定产品的营销方式。当前较为普遍的精准营销方法中基于数据库的精准营销以及基于互联网的精准营销都是基于大数据的精准营销。

所谓基于数据库的精准营销就是事先建立一个有一定规模、相关信息较为完善的消费者数据库,在此基础上利用数据挖掘技术对顾客偏好与购物习惯进行探索,从而实现精准营销。许多学者对基于数据库的精准营销方法做了详细介绍。伍青生等在精准营销的思想和方法详细介绍了基于数据库营销的方法:邮件直附营销、呼叫中心、手机短信。而基于互联网的精准营销就是通过互联网来识别网民的消费心理和行为特征。也就是通过记录网民的上网记录来了解网民的潜在需求与偏好,从而实现精准营销,其实质是基于网民上网所留下记录的大数据来进行精准营销。常见的有窄告、点告以及搜索引擎等。

(三)国内外研究现状

1. 国内研究现状

笔者对国内有关精准营销的文献搜集主要来源于中国知网(CNKI)。通过以精准营销为关键词或标题或摘要筛选出近年来发表在中文核心期刊或有一定影响力期刊上的文献,并通过阅读大量相关文献总结出精准营销的国内研究现状。

精准营销自其提出以来,受到了学者们的广泛关注。国内学者纷纷开展对精准营销的理论和方法研究。如刘征宇在《精准营销方法研究》中分析了精准营销的概念并介绍其体系和方法以及未来发展的趋势。伍青生等在《精准营销的思想和方法》一文中详细介绍了精准营销的运营体系和方法。王俊等在《精准营销理论浅探》一文中对精准营销的产生原因进行了分析,并从产品和价格的精准,营销渠道的精准和广告的精准等方面探讨了精准营销的具体实施。并且国内学者的研究重点在于将精准营销视为一种营销策略,探索其在各行各业的应用。本文第二部分详细介绍了国内学者对精准营销应用研究此处暂不赘述。

2. 国外研究现状

笔者通过以precision marketing(精准营销)为关键词或标题或摘要在收录文献较为全备的外文文献数据库elsevier science direct、Springer link、nature等进行了搜索。发现相对与国内来说,国外有关精准营销的研究文献相对较少,且对一些精准营销的理论性研究相对较少,偏向于研究以实践为主的基于特定技术的精准营销实施方法。Zhen Y等提出了一个精准营销决策决策框架,旨在帮助管理者识别不同的客户类别的潜在特征,并提出了相应的精准营销策略,通过实例验证了其决策框架是有效的。Bert D R和Zeger D等为一家总部位于伦敦,专门从事手机位置敏感精准营销的公司开发了一个基于微软excel链接术语和建模语言等的自动调度和优化广播广告手机短信的精准营销决策支持系统。该系统显著减少了所需的时间安排的广播,并导致在增加客户的响应和收入。并且国外对精准营销的应用研究较少,下文涉及处再进行介绍。

二、精准营销应用研究

(一)基于大数据的精准营销在传统行业应用研究

本文所指的传统行业是一个相对的概念,是相对于互联网、电子商务等而言的传统等,包括但不仅限传统意义上的第一、二、三产业。近年,学者们纷纷开展精准营销在传统行业的应用研究。如乔丽探讨了精准营销在出版社图书发行工作中的具体实施,提出要做好读者和市场的调研、采用现代化信息技术进行基础建设、有针对性地采用一系列精准营销措施,才能达到良好的图书营销效果及预期的销售目的。宋磊将大数据营销与出版业相结合,提出出版全产业链的大数据营销以及在应用过程需注意的包括思维方式变革、大数据的保鲜及优质等几个问题,旨在对新形势下的图书行业营销工作有所启示。胡文静从传统农业营销现状分析入手,联系大数据时代给传统农业营销带来的机遇和挑战,提出立足精准营销,拓展订单农业;聚焦口碑营销,打造绿色农业;借力体验营销,发展休闲农业是传统农业走出营销困境,实现营销模式创新的有效途径。王克富基于大数据思维和大数据处理,提出精准营销新模式,即精准营销=精准数据+精准分析+精准推送。然后通过一个零售业数据实例,详细地说明了该模式的应用过程和实现方法。

(二)基于大数据的精准营销在新兴行业的应用研究

互联网、信息技术以及通讯技术的发展涌现出的新兴行业也得到了精准营销研究者的关注。如林桂珠和范鹏飞在明晰电信企业精准营销的概念和内涵的基础上,分析了我国电信企业进行精准营销的必要性,并对电信企业的3G市场进行了科学的分析,研究并提出了电信企业在3G时代进行精准营销的举措。王威针对江苏卫视和中国教育电视台联合打造的电视求职类节目《职来职往》,分析其运用精准营销的理论,通过差异化精准营销手段,锁定大学生求职群体,通过真人秀的节目形式,满足受众的求职信息服务需求,以整合营销的方式传播节目,形成电视节目的独特领先优势。孙玉玲在简要阐述了大数据的定义和特点的基础上,着重分析了大数据时代数字出版产业的发展趋势,指出基于大数据技术的精准营销日益受到重视,如果能充分挖掘大数据的深层次价值,就可以开发出更能满足消费者需求的新产品和新服务,也能实现精确而个性化的广告推送。

(三)基于大数据的精准营销在电子商务领域的应用

步入21世纪,电子商务的飞速发展颠覆了传统的购物模式,开展适销对路的电子商务成为企业在激烈市场竞争中的制胜法宝,这也使得学者们加大对电子商务营销的研究意义重大。如柴海燕从比较传统营销与精准营销的差异入手,分析了旅游电子商务网络营销的发展困境,并提出应利用w eb2.0强大的信息集聚和互动功能开展旅游精准营销。王步芳和刘凤针对阿里模式即阿里巴巴电子商务平台(包括阿里巴巴B2B、淘宝网C2C和淘宝商城即天猫B2C三大平台)主导的精准营销模式进行说明介绍,指出阿里模式带来企业管理革命并开创“产消合一的无缝经济”。

(四)基于大数据的精准营销在新媒体领域的应用

新媒体是一个相对而言的概念,智能手机、平板电脑都可称之为新媒体。新媒体的普及带来人们生活方式和消费习惯的改变,基于新媒体的精准营销正逐步广泛应用开来。冯智敏和李丽娜指明QQ广告和富媒体广告分别代表了用户精准和内容精准的两种网络精准广告形式,QQ上线弹出广告、对话框网幅广告、鼠标响应广告、QQ邮件广告、QQ社区广告等,是QQ针对用户的主要精准广告形式。刘丽彬认为“以客户为中心的精准营销和主动式服务营销,在正确的时间把正确的信息传递给正确的人”的微博营销理念,引领着微博精准化营销的发展。邱月指出微信庞大的清晰用户及强大的应用功能如微信公众号等为企业精准营销提供了目标准备和技术支持,但目前微信营销的实施途径还呈现单一化的特征,方式也日渐趋同,受众新鲜感不断消失,因此,企业依然需要不断思考如何利用微信的精准性更好地服务于营销这一命题。

三、评述

精准营销自其于2005年明确提出以来,吸引了国内外许多学者密切关注。学者们在研究精准营销相关理论与方法的基础上开展了其在各行各业的应用研究。笔者通过对国内外精准营销相关文献进行梳理得到以下评述。

(一)精准营销近年来广泛应用于各行各业中

在传统行业如农产品销售、图书出版业、零售业以及旅游业都可以见到精准营销的身影;新兴领域如电信行业、传媒广播业也都通过精准营销得到了进一步发展;精准营销在电子商务领域的应用将电子商务的发展推广到了一个新的高度;而当前较为热门的新媒体也纷纷通过微博、微信、QQ开展了精准营销。未来精准营销可进一步应用于与人们生活息息相关的各行各业中。

(二)现阶段的精准营销对数据的依赖性较高

无论是基于数据库和基于互联网的精准营销还是基于第三方平台的精准营销,其实质都是基于数据的精准营销。精准营销实施的关键点:市场细分、目标客户的选取、适合的营销策略以及营销渠道的选择,而这些都需要对顾客的购买记录、浏览足迹、上网行为等大量数据进行分析和预测而获得,数据是精准营销的生命线。然而随着社会生活的变化,人们的防范意识逐步加强,对个人信息的保护意识也愈加强烈。如何在获取消费者信息与保证消费者的满意度之间谋求平衡成了企业急需解决的问题。

(三)国内学者对精准营销的研究更多的是集中在理论研究阶段且缺乏创新性

学者们对精准营销的定义、方法与其实施策略进行了深层次、多方面的研究,通过相应的理论基础对精准营销的应用进行说明,为精准营销的应用打下了坚实的理论基础。但是尽管少数学者会结合具体实例来说明精准营销的应用,但也只能说是针对于特定现象的精准营销理论套用,未对精准营销的创新应用进行深入研究。这不适合变化迅速的市场环境与竞争激烈的国际环境。未来学者们的努力方向应该是基于实践的精准营销创新方法研究,帮助企业走独特且高效的精准营销之路。

(四)国外学者对精准营销的研究偏向于建立相应的模型或机制来实现某一特定领域或生产环节中的精准营销

精准营销理念的提出起源于国外,然而笔者在文献搜集过程中发现鲜有学者对精准营销理论进行进一步探讨和研究,也有学者会在书的某一章节进行简要介绍,但很少以精准营销理论研究为重点进行专门研究。而国外学者们对精准营销的实践应用研究却是可圈可点的。希望中外学者能各取所长,完善对精准营销的全面研究。

摘要:随着信息技术的高速发展,各类数据实现了爆炸式增长,人们进入数据大爆炸时代。基于大数据的精准营销俨然成了信息时代各行各业竞相追逐的香饽饽,学者们纷纷展开了对精准营销的各类研究。文章在对精准营销相关概念与理论基础进行简要梳理的基础上,初步归纳出精准营销在传统行业、新兴领域、电子商务领域以及新媒体方面的应用情况,并对国内外精准营销的研究现状进行简要评述。

上一篇:西交利物浦大学下一篇:支原体肺外损害