面向Web数据挖掘技术的研究

2022-11-07

随着网络的迅速发展, 数据库技术的规模不断扩大, 人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息, 目前的数据库系统可以高效地实现数据的录入、查询、统计等功能, 但无法发现数据中存在的关联关系, 无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段, 导致了“数据爆炸却知识贫乏”的现象。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。它利用了数据库、人工智能和数据统计等多方面的技术, 是另一类深层次的数据分析方法。

1 数据挖掘技术的定义

数据挖掘 (data mining) 是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘通过对大型的数据库进行分析、比较、转换、提取, 发现有用的知识从而为决策支持提供有力的依据。网络现在涉及诸多方面, 如新闻、消费、广告、金融、教育、政府等。面向W e b的数据挖掘就是利用数据挖掘技术从网络信息及网络服务中自动发现并提取人们感兴趣的、潜在的有用知识或隐藏的关联信息。

2 数据挖掘的常用方法

2.1 神经网络

模仿人脑神经网络的结构和某些工作机制而建立的一种非线形预测模型, 在神经网络中, 由权重和网络的拓扑结构决定了它所能识别的类型。流行的神经网络学习算法:BP算法 (Back Propagation算法) 神经网络, H o p f i e l d离散随机神经网络。优点:较易解决参数很多的复杂问题, 还有就是很容易在并行计算机上实现, 可以把它的节点分配到不同的C P U上并行计算;缺点:黑箱性, 人们难以理解网络的学习和决策过程。

2.2 决策树

决策树是一种常用于预测模型的算法它通过将大量数据有目的分类, 从中找到一些有价值的, 潜在的信息。决策树的学习着眼于从一组无秩序、无规则的事例中推理出决策树表示形式的分类规则。它的主要优点是描述简单, 分类速度快, 特别适合大规模的数据处理。最有影响和最早的决策树方法是由Quinlan提出的著名的基于信息熵的I D 3算法。缺点:I D 3算法决策树是单变量决策树, 复杂概念表达困难。

2.3 遗传算法

遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法, 是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。主要用于从一个潜在的大的解空间中寻优或近似最优级解。

2.4 统计方法

传统的统计学为数据挖掘提供了许多判别和回归分析方法, 常用的有贝叶斯推理、回归分析、方差分析等技术。统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响, 是许多挖掘应用中有力的工具之一。主要用于分类和聚类挖掘。

2.5 关联规则

关联规则是一种简单, 实用的分析规则, 它描述了一个事物中某些属性同时出现的规律和模式, 是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛, 适合于在大型数据集中发现数据之间的有意义关系。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系, 但是, 并不是所有通过关联得到的属性之间的关系都有实际应用价值, 要对这些规则要进行有效的评价筛选有意义的关联规则。相当于在大型数据库中“淘金”——查找人们感兴趣的规则。

2.6 文本

文本挖掘是典型的非结构化数据挖掘, 文本数据挖掘是指从文本数据中抽取有价值的信息和知识的计算机处理技术由机器学习、数理统计、自然语言处理等多种学科交叉形成。主要应用于:信息检索、生物信息处理等。

2.7 Web挖掘

W e b挖掘是典型的半结构化数据挖掘, 利用数据挖掘技术从W e b文档和服务中自动发现和抽取信息。W e b挖掘的数据:用户的背景信息、浏览信息、I n t e r n e t自身信息。

3 Web数据挖掘技术的使用

数据挖掘技术是面向应用、面向网络的, 目前在网络上很多领域, 如电子银行、网络电信、网络零售、政府管理、医疗服务等都应用到了数据挖掘技术。

3.1 电子商务中的应用

在电子商务中, 运用W e b挖掘技术从服务器和浏览器端日志记录中自动发现隐藏在数据中的模式信息, 对此进行分析加工, 通过对客户进行分类和聚类, 从中可得到商家用于向特定消费群体或个体进行定向营销的决策信息。如W e b使用挖掘在旅游电子商务网站中的应用, 通过序列模式的发现, 客户在一周以来经常浏览关于某旅游地方面的资料, 可以预测他有去该地的想法。这时可以把有关该旅游地最近的旅游活动和广告发送到客户的邮箱, 以满足他对旅游信息的需求。

3.2 在搜索引擎中的应用

利用W e b数据挖掘技术, 通过对网页内容的挖掘, 可实现对网页的分类, 实现网络信息的分类浏览与检索;运用网络内容挖掘技术改进关键词加权算法, 提高网络信息的标引准确度, 从而改善检索效果;通过对用户所使用的提问式的历史记录的分析, 可以有效地进行提问扩展, 提高用户的检索效率。

3.3 欺诈甄别

银行或商业上经常发生诈骗行为, 如恶性透支等, 这些给银行和商业单位带来了巨大的损失。对这类诈骗行为进行预测可以减少损失。进行诈骗甄别主要是通过总结正常行为和诈骗行为之间的关系, 得到诈骗行为的一些特性, 这样当某项业务符合这些特征时, 可以向决策人员提出警告。

3.4 提高网站个性化服务

Web使用挖掘的主要目标是从Web的访问记录中抽取感兴趣的模式。浏览器中的每个服务器都保留了访问日志, 记录了用户访问和交互的信息。分析这些数据可以帮助理解用户的行为, 从而改进站点的结构, 从面为用户提供个性化的服务。网站还可以根据实际用户的浏览情况, 挖掘用户的兴趣点, 定期为用户推送相关信息。

3.5 在电信业中的应用

现在的电信业已经迅速地从单纯地提供市话和长话服务演变成提供如语音、传真、寻呼、移动电话、图像、电子邮件、计算机和W e b数据传输等综合电信服务。在激烈的电信市场竞争和迅速的业务扩张中, 可以利用数据挖掘技术的帮助来理解商业行为、确定电信模式、捕捉盗用行为、更好地利用资源和提高服务质量。如对电信数据进行多维分析;多维关联和序列模式分析等。

数据挖掘技术是充满希望和挑战的研究领域, 每年都有新的数据挖掘方法和模型问世, 人们对它的研究也日益深入, 但是数据挖掘技术仍然存在着许多问题, 此外随着多媒体数据库的迅速发展, 面向多媒体数据库的挖掘技术也将成为研究开发的热点。

摘要:本文介绍了数据挖掘的目的、定义、常用方法, 以及对Web数据挖掘技术的使用进行了探讨。

关键词:Web,数据挖掘

参考文献

[1] 喻金平, 董芳芳.面向W eb的数据挖掘技术[D].中国论文下载中心, 2008, 12.

上一篇:苏里格气田苏5区砂岩储层特征研究下一篇:《食品安全导刊》征稿启示