信息挖掘与开发

2024-06-11

信息挖掘与开发(精选十篇)

信息挖掘与开发 篇1

由于毕业生就业工作涉及的数据量大, 工作量集中, 仅靠传统纸质或单机版信息系统的管理模式已难以满足需要, 必须借助现代化的网络信息管理技术, 建立一个适合当前职业教育特点, 适合我校的毕业生信息管理系统。通过该系统可以高效管理毕业生信息, 建立学生与用人单位实时双选平台, 实现就业部门与用人单位动态信息交换, 并利用Apriori关联规则算法对系统中的毕业生信息进行分析挖掘, 找到一些能对就业指导、专业设置、课程改革起到辅助作用的因素, 使之成为决策者的参考依据, 更好地为职业教育服务。

2 系统总体设计及工作原理

该毕业生信息管理系统采用B/S系统架构, 以安全稳定的Microsoft SQL Server数据库管理系统为后台数据中心, 使用ASP工具开发本系统。

将整个系统划分为6大模块, 分别为:用户身份验证模块、用人单位管理模块、毕业生管理模块、毕业生查询模块、就业动态模块、后台管理模块。

毕业生信息管理系统的工作流程为:毕业生通过用户身份验证模块完成姓名、专业、求职意向等信息的注册。注册后可通过毕业生管理模块对注册信息进行修改, 包括修改毕业生信息、密码等, 但不允许更改学生本人在校期间的档案资料, 以便用人单位通过远程查询。用人单位可在线注册为系统会员, 通过管理员验证后, 使用用人单位模块修改单位资料、发布招聘信息、查看人才信息。求职信息模块可以浏览该毕业生的基本信息、求职简历、选课成绩, 通过身份验证的用户还可以给某个毕业生留言。就业动态信息管理模块主要为管理员提供发布就业动态信息和重要通知的功能。毕业生信息查询可以通过多条件任意组合查询, 用人单位可以通过远程查询以确定学生资料的可信度。系统管理员通过后台管理模块对毕业生信息、用人单位信息、用户权限等进行管理。

3 Apriori关联规则挖掘算法的研究

关联规则挖掘算法是数据挖掘中比较活跃而且成果颇丰的研究分支, 它主要用于发现大量数据中项集之间有趣的关联或相关联系。例如毕业生的就业信息与其个体自然信息之间的关联就可以使用关联规则算法进行挖掘。Apriori算法是R.Agrawal和R.Srikant于1994年提出的最有影响的挖掘布尔关联规则频繁项集的算法, 这个算法主要有两个步骤, 一是寻找所有满足最小支持度的频繁项集, 二是寻找满足最小置信度的强关联规则。

4 数据挖掘实例

我校毕业生信息管理系统运行后, 能够获得大量的毕业生信息。可以利用数据挖掘技术将该系统后台数据库“bys”中的毕业生信息进行筛选、分类、汇总形成毕业生数据仓库, 并将Apriori算法用于毕业生数据仓库进行数据挖掘, 分析毕业生的就业情况和他们的政治面貌、综合测评成绩、参加技能比赛、校外实习实训经历之间有无必然的联系, 这可以指导教学部门制定科学合理的人才培养方案, 最终提高毕业生的就业竞争力。数据挖掘实施具体步骤如下:

(1) 在毕业生数据仓库中抽取与挖掘任务相关的部分样本数据汇总如表1所示。

(2) 使用算法寻找数据表1中影响就业的因素, 得到一个事务集合D, |D|=5。对事务集合的每一个候选字段进行计数, 得到候选1_项集C1。在C1中除去支持度小于2的政治面貌就得到频繁1_项集L1, 如图1所示。

(3) 在上述的频繁1_项集L1中计算产生得到候选2_项集C2, 然后扫描事务集合D, 对其中的每一个候选的项集进行计数, 计算可以得到候选频繁项集的支持度计数。在C2中除去支持度小于2的项集就得到频繁2_项集L2, 如图2所示。

(4) 在上述的频繁2_项集L2中计算产生得到候选3_项集C3, 然后扫描事务集合D, 对其中的每一个候选的项集进行计数, 计算可以得到候选频繁项集的支持度计数。在C3中除去支持度小于2的项集就得到频繁3_项集L3。

Apriori算法数据挖掘的结果分析:通过三次扫描得到综合测评成绩、参加技能比赛、校外实习实训经历通常是影响毕业生就业的主要因素。所以高职院校的学生在日常学习中要加强上述三方面的锻炼, 特别是技能的培养。同时学校就业指导部门要通过分析结果对学生加强引导, 各专业在制定人才培养方案时, 也应该把分析结果作为参考依据。

5 结语

本系统基本实现了学校、用人单位、学生三方的信息需求, 提高了毕业生信息管理工作的效率, 为毕业生和用人单位搭建了快捷的交流平台。并通过Apriori关联规则挖掘算法对系统中的部分学生信息进行挖掘试验, 得到了有益于就业指导的关联规则。当然, 因为本系统比较庞大, 系统性能有待进一步优化, 系统在分析决策方面仍有不足, 有待后期完善。

摘要:随着我国高职院校不断扩招, 毕业生人数大幅度增加, 给毕业生的信息管理和就业工作带来了巨大挑战。为提高毕业生信息管理效率与就业服务质量, 结合我校毕业生信息管理工作的实际需要, 开发了基于ASP技术的毕业生信息管理系统。并利用Apriori关联规则算法对系统中的毕业生信息进行分析挖掘, 找到一些能对就业指导、专业设置、课程改革起到辅助作用的因素, 使之成为决策者的参考依据。

关键词:ASP,信息系统,Apriori算法,就业指导

参考文献

[1]黄文静.Apriori算法在高校毕业生就业数据挖掘中的应用研究[J].电子技术与软件工程, 2015, 4.

[2]张嘉赢.基于数据挖掘技术的高校毕业生就业管理信息系统的设计与实现[D].东北大学, 2009.

信息挖掘与开发 篇2

数据的挖掘是一项复杂的系统工程,其主要指的是在庞大数据中收集有价值信息数据的过程。对数据挖掘技术在软件开发信息管理中的应用展开研究,有着十分重要的现实意义。

1 数据挖掘技术概述

1.1 数据挖掘流程

通常而言,数据挖掘可划分成四个阶段,分别为选择、预处理、挖掘以及吸收,如图1所示。其中,选择是就有着极强交互性的庞大数据而言的,在工作期间受信息数据不断更新影响,通常要对数据展开重新选择;预处理则是将没有得到加工的信息数据变换成适宜挖掘处理的形式;挖掘是经由科学计算方法将预处理数据输入系统,在庞大数据中收集有价值的信息内容,从而完成分类、聚类等工作;吸收也就是数据的后处理,其是为了将有价值的.信息数据反馈给用户,使数据预处理、挖掘环节具备真实意义。

1.2 数据挖掘技术

现阶段,在软件开发中数据挖掘技术诸如分析、聚类、预测及统计等已经得到较好的应用,这些技术的应用能够使数据挖掘繁杂工程得到一定的简化,也就是在海量的数据中尽可能快的时间内找出人们所需的信息,且对系统予以反馈供人们使用。在数据挖掘工程中,较为常见的技术包括关联发现、分类树、课时数据挖掘等,同时还有一些较为特殊的数据挖掘技术包括回归建模、统计分析等。在软件开发信息管理中应当对数据挖掘技术进行科学合理的选择,以完成好软件开发信息管理工作。

2 软件开发信息管理数据挖掘面临的挑战

2.1 软件开发数据较为复杂

现阶段,软件开发数据以结构化数据和非结构化数据为主,前一种数据多牵涉软件版本对应信息及缺陷报告等,后一种数据主要涵盖相关软件代码及文档等。该两方面数据无法使用同一种算法,然而它们相互又有着很大的相关性。换而言之,在数据挖掘算法开发方面,为了尽可能权衡到两方面数据的复杂关联,很大程度上提升数据挖掘难度。

2.2 分析手段并非传统模式

软件开发数据挖掘后续工作是把取得的信息提供给需要的用户。在以往数据挖掘应用期间,就好比电子商务或者金融行业,就是把信息转化为文字或图表。然而,软件开发人员所需信息并非如此简单,其还涉及了缺陷定位、编程模板等用户信息,所以对数据挖掘技术提供较高的要求。

2.3 数据挖掘结果评价标准不统一

现如今,数据挖掘技术在诸多行业得到普及推广,同时在结果呈现及评价标准等内容上相对完备。然而,在软件开发新型管理中数据挖掘技术的应用却并非如此。软件开发人员要获取诸多、繁杂的信息,且信息表示方法各不相同,如此很大程度上提升了对数据挖掘结果展开定量准确分析的难度。

仿真技术与液压挖掘机的开发 篇3

关键词:仿真技术;液压挖掘机;联合仿真

中图分类号:TU72

文献标识码:A

文章编号:1000—8136(2009)32—0025—02

液压挖掘机是一种功能典型、工况复杂、用途非常广泛的工程机械,特别是在中国这样一个发展中国家,几乎在所有的基础建设中都要用到挖掘机。节能型挖掘机就成为发展的方向和趋势,利用计算机仿真技术进行液压挖掘机的设计开发成为目前主要的先进设计手段之一。

1计算机仿真技术产生的背景

1.1传统技术的缺陷

传统批量产品的开发过程通过单件产品的模型试验来获取信息,然后再制造物理样机来核查设计要求是否达到。要加快设计周期,满足市场需求,可以采用“并行设计”的思想,但是产品有实质性变化时设计需要反复试验和修正,影响了并行设计的效果。要有效地加快设计进程,最合理的方法是加快样机的试制。由于物理样机的试验和改进延长了设计周期,多个样机的制造更导致成本高昂,可见传统的基于物理样机的产品开发设计模式有待改进。

1.2市场竞争的需要

随着世界经济和科学技术的飞速发展,企业为了提高竞争力,必须缩短新产品研制和开发,降低产品的研发成本,进行创新性设计.计算机仿真技术就是在这种迫切需要的驱动下产生的。

1.3仿真技术实现的可能性

计算机软硬件的发展,为计算机仿真技术的实现提供了良好的支持和技术环境。仿真技术的产生和发展与CAD技术的成熟及大规模推广应用分不开。此外,机械系统动力学建模理论的计算机实现使得参数化机械系统动力学数学“软模型”得以很好实现。计算机硬件的发展,加上数值算法的进步,加快了复杂的数学模型仿真运算速度,促进了计算机可视化技术及动画显示技术的提高,为虚拟样机技术提供了良好的用户交互界面。

2计算机仿真技术发展趋势

虽然现有的仿真工具可以有效辅助产品某个功能单元的设计开发,但随着产品规模和复杂程度的不断增长,分系统问的关系也越来越复杂。仅靠传统的单领域仿真已经很难满足对整个产品或其某个复杂子系统的功能和行为分析。目前,有不少商用仿真软件本身里边有好多模块,它既可以对一个产品进行联合仿真,同时也提供了与其他仿真软件之间的接口。通过这些接口,实现多领域建模,并提供联合仿真运行功能。

3联合仿真技术的特点

传统的设计思想是串行的过程,从设计到产品的批量生产按照从前至后的顺序进行。在整个过程中各个小组往往把注意力集中在各自的细节上而忽略了整机性能,最终产品集成后存在冲突缺陷。

联合仿真技术采用数字仿真的形式进行虚拟产品设计开发,仿真模型的参数就是物理样机的设计参数,虚拟样机因为参数修改方便,相比物理样机而言是“软模型”,能轻易地实现原型的多样化,柔性好。无需制造实物样机就可预测产品的性能.节省了物理样机制造时间,降低了开发成本,减少了风险。

4仿真技术与液压挖掘机开发

4.1复杂产品仿真技术研究现状

复杂产品通常涉及众多学科领域,其每个子系统都可能是由各学科领域的零部件组成。众多的子系统相互作用,组成一个有机的整体,展示出产品的外观和功能。

仿真通过对所要研究系统模型的开发,帮助人们了解系统的行为,使人们在产品设计阶段即可对产品行为进行全面的分析,并有可能根据产品行为进行优化设计。复杂产品由于自身的复杂性,开发难度大、时间长、成本高,因此要求将仿真应用于其设计中,使企业能以更短的时间、更好的质量、更低的成本推出自己的产品。在过去的10—20年内,随着计算机软、硬件技术的飞速发展,仿真技术已在复杂产品设计中得到大量应用。

4.1.1系统动力学仿真现状

虚拟样机是一种新型的设计、开发和评估手段,其在工程中的应用是通过商业化软件实现的。由于系统仿真技术能够满足真实产品设计要求,通过建立机械系统的虚拟样机。使得在物理样机建造前便可分析出它们的工作性能,因而其日益受到国内外机械领域的重视。目前,国际上有20多家公司在这个日益增长的市场上竞争,比较有影响的有美国MSC.Soflware公司的ADAMS、比利时LMS公司的DADS等。

4.1.2液压控制系统仿真现状

从20世纪70年代初开始,国外开始进行液压系统和元件的计算机数字仿真研究,经过几十年的研究开发,液压仿真软什的性能实现了从原先的精度低、速度慢,发展到精度高、速度快:从只能处理线性系统发展到能处理非线性系统;从复杂的编程和输入发展到交互友好的图形用户界面等。随着计算机技术的发展,液压系统仿真技术得到了迅速发展,近几年来,各款老牌的液压仿真软件公司纷纷推出了面目一新的版本,例如,英国的Bathfp、瑞典的Hopsan等。

4.1.3联合仿真现状

目前。人们已经开始将机械、控制、电子和软件等多领域的联合仿真应用于汽车、铁路车辆、作战系统等复杂产品的设计中,例如:福特公司将整车多体动力学仿真和汽车姿态控制系统仿真集成,通过机械、控制的多领域联合仿真,使机械设计人员和控制系统设计人员能够更好地进行通信和协同工作,极大地缩短了产品开发时间。

虽然联合仿真已经在很多领域得到应用,但目前的应用还存在诸多局限,主要体现在:通常只能做到机械、控制和液压等少数领域的联合仿真。通常只能局限于单台计算机上集中进行,分布式协同建模和分布式仿真运行几乎不可能。

4.2仿真技术在液压挖掘机领域的应用

4.2.1国内应用现状

国内液压挖掘机行业近年来虽有很大发展,但与国外挖掘机行业发达国家相比仍存在许多不足,设计水平与发达国家相比有较大的差距。国内众多的研究人员和单位对液压挖掘机工作装置设计进行了不少研究,开发了设计软件,他们的研究基本上局限于某些问题的解决,关于工作装置设计参数分析和在CAD上其自动设计的综合研究文献还没有。因此,开发出的软件缺少通用性,不能用于挖掘机一些通用问题的解决,对液压挖掘机进行分析的大型通用软件目前市场上还很少。

4.2.2国外应用现状

仿真技术在国外工程机械的很多方面都得到应用,如车辆悬架设计、发动机设计和冲击特性预测、驾驶员行为特性仿真、挖掘功率预测及工作效率预测等多方面都成功地应用了仿真技术。

世界最大的工程机械设备制造企业Caterpiller公司,采用仿真技术改进了设计过程,节省了制造物理样机所需的数月时间和数百万美元,实现了快速、低成本、高质量的开发。

面向软件开发信息库的数据挖掘综述 篇4

当前,为了适应时代与科技的发展,软件开发领域的信息库逐渐建立起来,并得到一定发展,在我国也已经初具规模,然而,现阶段很多软件开发信息库单单只作用于维护相关的软件项目或跟踪软件的缺陷状态,没有真正意义上发挥出软件开发信息库的特点与优势。随着时代的发展,越来越多的相关人员也注意到了这一点,开始利用数据挖掘这一形式理解软件开发信息库当中的潜藏信息。

1 软件开发信息库与数据挖掘的概述

1.1 软件开发信息库概述

(1)软件开发信息库的数据构成

所谓的软件开发信息库,主要指的是在整个软件开发的过程中,所涉及到的一切相关数据,主要包括以下几方面 :第一,项目开发过程中所涉及到的相关数据,如项目任务设置、项目资源运用等数据 ;第二,软件源代码,如软件开发与修改所运用的相关源代码数据 ;第三,重要文档,如软件项目设计、测试、需求等文档 ;第四,相关人员的交流信息数据,如对软件开发讨论的电子邮件、聊天记录等 ;第五,软件缺陷跟踪数据,如软件缺陷的状态、缺陷种类、修改过程等。

(2)软件开发信息库数据源存储

软件开发信息库中的数据量非常大,根据性质的不同,其数据源的储存方式也不一样,主要包括以下三种 :第一,版本控制系统,能够储存源代码、重要文档以及相关人员的交流信息,并对以上数据进行科学管理与控制 ;第二,缺陷跟踪系统,主要用于储存软件缺陷跟踪数据信息,将缺陷信息与修改的一系列过程整合,形成缺陷报告 ;第三,项目管理系统,主要用于储存项目计划数据、软件资源分配数据以及软件执行过程数据等。

1.2 数据挖掘概述

所谓的数据挖掘,实际上就是发现数据库中所潜藏的有效知识,但这个过程比较复杂,大体上讲,主要涉及到以下几个环节 :首先,需要对数据进行抽取,以研究的主要目的为基础,对数据库中的数据来源与内容进行分析与选择,在获得权限后将数据导出 ;其次,需要对数据进行预处理,抽取出来的数据虽然经过初步筛选,但仍会存在一些不符合要求或存在质量问题的数据,因此,需要在正是处理数据之前对数据进行清洗、转换、规约、离散化等预处理 ;再次,知识的发现,对数据预处理之后,便可以运用相关的挖掘技术发现数据库中的有效信息,这也是数据挖掘过程中的核心环节 ;最后,需要对所发现的信息进行表示,并应用到具体工作中。

2 软件开发信息库的数据挖掘

2.1 软件开发信息库如何获取数据

(1)数据的来源

现阶段,国际范围内比较先进的数据来源主要有以下三种 :其一,以自身为基础而建立起来的软件开发信息库,其优点在于对数据的基础操作相对容易,但可操作性不强,信息量较小 ;其二,权威构建的软件开发信息集合,其优点在于数据较多,数据质量较高,但工程量与操作难度相对较大 ;其三,自由 / 开源软件数据,是当前运用比较多的形式,操作相对容易,但在数据质量与抽取过程等方面仍存在问题。

(2)数据的抽取

在对数据进行抽取之前,需要对研究的目标进一步明确,以保证所抽取到的数据有较强的针对性,举例来说,要想对软件源代码的过程进行关联修改,便需要先明确管理系统领域内的相关代码和版本的修改过程。而软件开发信息库具有信息量大、数据庞杂等特点,这在很大程度上提升了数据的抽取难度,因此,在对数据进行抽取的过程中,需要先对数据源的访问权限进行事先获取,以充分了解相关数据的信息。

(3)数据的预处理

在对软件数据进行挖掘的过程中,数据的预处理扮演着十分重要的角色,预处理质量的高低在很大程度上影响着最终研究效果的好坏。根据研究目的与研究内容的不同,对抽取到数据进行预处理的方法也要有所差异,针对一些模拟难度大、人为因素多的数据信息库来说,数据预处理中的清理工作会花费更多的精力与时间。对于版本控制系统而言,需要将一部分重复的数据剔除 ;对于缺陷跟踪系统而言,需要对一些缺失属性值进行处理 ;而对于项目管理系统而言,则需要对不符合条件的数据进行处理。

2.2软件开发信息库的关联修改

在一些相对较大的软件系统中,大多都存在一部分记录缺失的依赖关系,而这些关系不仅使软件系统变得更加复杂,也在很大程度上提升了系统的维护成本。因此,对关联修改进行数据挖掘也是当前很多学者的主要研究角度。

(1)分类研究

当前学术界有很大一部分学者将关联修改归属于分类角度,也就是说,运用既定文件的修改,对其他相关文件进行修改或不修改的分类。一部分研究人员选用决策树的研究方法将既定的文件做出与之量符合的相关文件列表,设定两个文件为一个文件组,其中一个为既定文件,并以文件数量、文件名称、公用方法等为依托,设置文件对属性,判断既定文件之外的另一文件与既定文件是否相符,运用这种方法,将文件进行合理分类。

(2)聚类研究

还有一部分研究人员运用聚类的方法对同时进行的修改做出分析。一些研究人员将修改属性设定为是否对给定模块产生影响,并对将要进行修改的信息进行聚类。当前,类平均分与中心法是效果相对较好的两种聚类方法。

(3)规则研究

而更多研究人员所运用的研究方法是关联规则,这种方法主要是依据对软件进行修改所记录下来的相关数据,来实现对软件的修改分析。当前比较常用的一种关联修改工具叫“玫瑰”,这种软件能够运用软件代码的修改过程来完成关联修改。在运用关联规则的过程中,将改动分为增加、删除与修改,之后以置信度与支持数为依托,利用相关算法与关联规则得出相应的修改关联。

2.3 软件开发信息库系统的复用

在研究软件开发信息库的过程中,对软件模块的复用是相关研究人员最新的研究角度,主要运用关联关系来挖掘相应的复用关系,而其具体的研究方法主要有以下两点 :其一,关联分析法,研究人员运用该方法对一所图书馆中的软件系统进行了复用分析,发现该方法能够帮助相关软件开发人员在利用既定软件开发信息库的基础上,通过模块来构建适合的图书馆系统 ;其二,基于语义法,根据软件开发过程中的相关信息都必须以语义为依托的特点,基于语义法也是当前研究人员的方向之一,这种方法在平行复用与递阶复用中都能够发挥比较好的效果。

2.4 软件开发信息库系统的发展

软件系统的发展与应用抑制都处于不断变化中,软件的发展过程也是改进软件系统、保证开发质量的重要依据,软件的发展主要可以从以下角度进行分析 :第一,软件代码,解析树法是软件代码中最常用的一种分析方法,然而该方法并没有给予语义充分的重视,也并未考虑方法变量等实体,而语义法是另一种分析方法,能够对程序的一系列变量进行分析,还有抽象语法方法以及函数参数法,都能够在一定程度上完成软件分析。第二,软件系统,代码在软件系统中可以将其定义为微观层面,而对软件系统宏观层面的研究则更具有整体性与系统性,一部分研究人员将缺陷跟踪与信息库结合起来,便能够完成对不同版本中系统宏观的变化过程,还有一些研究人员对开源软件演进的过程以及演进的法则做出了系统研究。第三,软件产品,软件产品的发展并不单单针对某一个软件系统的研究成果,而主要针对与软件产品的家族,能够对软件的系统架构有一个更深入的了解。

2.5 软件开发信息库系统的缺陷

分析软件的缺陷能够为软件的可靠性、缺陷关联性、软件缺陷率等提供科学有效的依据,而主要的分析方法主要有以下两种 :其一,分类研究,这种方法主要以软件的属性值为依托,完成软件的缺陷分类,具体的分析方法主要有对影响缺陷因素进行分析的决策树法、对大型软件缺陷进行分析的回归分析法以及对软件经验数据进行分析的神经网络法。其二,关联分析,软件系统中涉及到很多模块,而这些模块的关联关系能够在很大程度上对软件的缺陷关系产生影响,而文件之间的关联也能够左右缺陷的预测与分析,当前文件修改缺陷的分析模型主要有RED、MLE以及RED-C-C三种。

2.6 软件开发信息库系统的过程建模

所谓的软件过程建模实际上是对软件整个开发过程的抽象性表示,主要包括软件的开发、维护以及演进等,能够对软件开发的整个过程起说明与展示作用,还能够对新软件的开发起到启示作用。对软件过程建模的研究主要从静态与动态两个层面进行,所谓的静态分析方法实际上是一种概念上的描述,而动态建模方法则是一种与系统进行交互交流的研究方法,能够在很大程度上将软件中的动态关系生动形象的展现出来。

3 结论

当今世界信息化程度越来越深,软件开发领域在长久以来的发展过程中也积累了很多相关数据,为了实现对这些数据的更好整合与利用,软件开发信息库的建立非常有必要,而运用数据挖掘的方法能够对软件开发信息库中的有效信息合理抽取与利用,对未来的软件开发领域有很大的积极意义。

摘要:随着科学技术的不断发展,软件开发技术也得到了很大提升,当前有很大一部分软件开发组织都构建起了软件开发信息库,软件开发产业也越来越受到社会大众的普遍重视。本文以软件开发信息库与数据挖掘的概述为研究基点,从软件开发信息库数据获取、关联修改、软件复用、软件发展、软件缺陷以及过程建模等六个角度,对软件开发信息库的数据挖掘进行综述,以期软件开发信息库可以在未来更好发展。

信息挖掘与开发 篇5

关键词:数据挖掘技术;保护设备;故障信息管理;分析系统

中图分类号:TP393 文献标识码:A 文章编号:1007-9599 (2012) 10-0000-01

数据挖掘技术作为当前计算机信息技术中的一項较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,也就是从大型的数据库数据中挖掘一些人们比较感兴趣的知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,数据挖掘技术也是现在智能理论系统的重要研究内容,已经开始被应用于行政管理、医学、金融、商业、工业等不同的领域当中,在保护设备故障信息管理方面发挥出了积极的作用。

一、数据挖掘技术的概念

随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,主要是指从大量的数据中发现和挖掘一些隐含的有价值的有用信息和知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,当前数据挖掘技术已经逐渐被应用于了医药业、保险业、制造业、电信业、银行业、市场营销等不同的领域,随着计算技术、网络技术以及信息技术的不断进步,在故障诊断过程中所采集到的数据可以被广泛地存储在不同的数据库当中,如果依然采用传统的数据处理方法来对这些海量的信息数据进行分析处理,不仅会浪费大量的实践而且也很难挖掘到有效的信息数据,同时,尽管智能诊断以及专家系统等方式在故障的诊断过程中已经被得到了广泛的应用,但是这些方法却仍然存在着很多推理困难、知识瓶颈等一些尚未完全被解决的问题,采用数据挖掘技术就可以比较有效地来解决这些难题,在故障诊断的过程中发挥其独特的优势。从不同的角度进行分析,数据挖掘技术可以分为不同的方法,就目前的发展现状来看,常用的数据挖掘技术方法主要有遗传算法、粗集方法、神经网络方法以及决策树方法等。

二、数据挖掘技术在保护设备故障信息中的实现方法

1.基本原理。在设备出现故障时采用数据挖掘技术对设备进行一系列的故障诊断,也就是说根据这一设备的运行记录,对其运行的趋势进行预测,并对其可能存在的运行状态进行分类,故障诊断的实质就是一种模式识别方式,对机器设备的故障进行诊断的过程也就是该模式匹配和获取的过程。

2.对故障诊断的数据挖掘方法建模。针对机械故障的诊断来说,首先就应当获取一些关于本机组的一些运行参数,既要包括机器在正常运行以及平稳工作时的信息数据,也应当包括机器在出现故障时的一些信息数据,在现场的监控系统中往往就会存在着相应的正常工作状态下以及出现故障时的不同运行参数,而数据挖掘的任务就是从这些杂乱无章的信息样本库中找出其中所隐藏着的内在规律,并且从中提取各自故障的不同特征,在对故障的模式进行划分时,我们通常可以借助概率统计的方式,在对故障模式进行识别时可以采用较为成熟的关联规则理论,实现变量之间的关联关系,并最终得到分类所需要用到的一些规则,从而最终达到分类的目的,依据这些规则,就可以对一些新来的数据进行判断,而且可以准确地对故障进行分类,找出故障所产生的原因和解决故障的正确方法。

三、数据挖掘技术保护设备故障信息管理的基本功能

1.数据传输功能。数据挖掘技术保护设备故障信息管理与分析系统的主要数据来源就是故障信息的分站系统,而分站系统中的数据是各个子站的一个数据汇总,而保护设备故障信息管理与分析系统所采用的获取数据的主要方式就是一些专门的通信程序构建起系统与分站之间的联系,将分站上的一些汇总数据传输到故障信息系统的数据库中,分析系统所具有的数据传输功能,在进行数据的处理时又能做到不影响原先分站数据库的正常运行,并且具备抗干扰能力强、计算效率高的优点。

2.数据的分析功能。系统在正常运行时,会从故障信息子站或者是分站采集相关的数据并且对这些采集到的数据进行分析整理,最终得到有用的数据信息,利用数据挖掘技术对庞大的故障数据进行分析、分类以及整理,能够有效地找出有用的信息,归并一些冗余的信息,对信息进行有效地存储和分类。另外,数据挖掘技术还具有信息查询的功能,可以进行不同条件下的查询,例如按时间段、报告类型、设备型号以及单位等进行查询,实现查询后的备份转存等,根据故障信息系统所提供高的数据信息以及本系统库中所保存的一些整定阻抗值,可以通过逻辑判断生产继电保护动作的分析报告,主要包括对故障过程的简述、故障切除情况以及保护动作情况等,可以便于继电保护人员直观的对保护装置的动作情况进行分析。

四、结语

随着企业自动化程度的不断提高以及数据库技术的迅速发展,很多企业在一些重要的设备方面都安装了监测系统,对设备运行过程中的一些重要参数和数据进行采集,采用数据挖掘技术可以有效地解决设备故障诊断中的一些知识获取瓶颈,将数据挖掘系统充分应用到监控系统中,有效解决故障诊断中的一些困难,事实证明,将数据挖掘技术应用到故障诊断中是非常有效的,也是值得研究和学习的新型技术手段。

参考文献:

[1]李勋,龚庆武,杨群瑛,罗思需,李社勇.基于数据挖掘技术的保护设备故障信息管理与分析系统[J].电力自动化设备,2011,9

[2]李建业,刘志远,蔡乾,赵洪波.基于Web的故障信息发布系统[J].电力信息化,2007,S1

[3]严夏,胡崇晶,汪建余,郑诗木,李强.继电保护故障信息子站系统结构探讨[J].机电工程技术,2008,10

信息挖掘与开发 篇6

作为一种经济、高效的土石方施工机械, 液压挖掘机在各种工程建设领域中发挥着至关重要的作用。随着近年来石油价格的不断攀升以及人们环保意识的提高, 用户对挖掘机的节能性与环保性也提出了更高要求[1]。由于挖掘机施工时经常铲斗装不满, 或是在运送过程中泼撒滴漏, 作业效能无法达到100% 的发挥。这就要求铲斗能够根据作业工况的不同走出适合工况的特定轨迹, 以达到作业效能的充分发挥。通过对铲斗作业范围的仿真, 来验证实现这一特定轨迹的可能性, 并对挖掘机的性能作出评价。

应用新型的多体动力学软件Recur Dyn可以直接建立液压挖掘机的模型并进行仿真分析, 并基于虚拟现实软件Virtools建立液压挖掘机三维虚拟实验平台, 对液压挖掘机的不同工作状态进行虚拟模拟。

1 液压挖掘机动态仿真分析

1. 1 Recur Dyn软件介绍

Recur Dyn软件是由韩国Function Bay公司开发出的多体系统仿真优化软件。主要基于相对坐标系建模和递归求解, 不但可以同时解决传统的运动学与大规模多体动力学问题, 同时是解决工程机械中机构接触碰撞问题的专家, 极大地拓展了多体动力学软件的应用范围。

Recur Dyn软件基于Professional模块提供的各种建模元素, 如齿轮、链条、履带、控制、液压、发动机设计以及与常用三维CAD软件的接口, 用户可以建立起系统级机械虚拟数字化样机模型, 为仿真研究提供全方位支持, 并进行全面的虚拟测试验证, 通过判断仿真测试的数据、动画、曲线、轨迹等结果, 进行系统功能优化实现创新设计[2]。

1. 2 液压挖掘机实体建模

液压挖掘机工作装置主要由动臂、斗杆、斗杆油缸、动臂油缸、摇臂连杆、铲斗、铲斗油缸等组成 ( 图1) 。各运动部件之间全部采用销轴铰接, 通过动臂油缸的伸缩实现动臂绕下铰点的转动, 并实现动臂升降。斗杆铰接于动臂的上端, 斗杆油缸的收缩使斗杆绕动臂上铰点转动, 斗杆油缸控制斗杆与动臂的相对角度。铲斗铰接于斗杆前端, 通常采用摇臂连杆机构联结铲斗来增大铲斗转角, 并通过铲斗油缸伸缩使铲斗转动[3]。

1—下车;2—上车及回转马达;3—动臂;4—动臂油缸1;5—动臂油缸2;6—斗杆油缸;7—斗杆;8—铲斗油缸;9—摇臂;10—连杆;11—铲斗

1. 3 挖掘机运动仿真分析

通过运动仿真, 建立测量函数得到性能参数仿真变化曲线, 斗杆、铲斗、动臂的速度- 时间曲线和加速度- 时间曲线如图2 和图3 所示。

从图2 和图3 可知, 斗杆的最大速度、加速度分别为19. 524 m / s、340. 271 m / s2, 动臂的最大速度、加速度分别为5. 223 m/s、70. 154 m/s2, 铲斗的最大速度、加速度分别为34. 124 m/s、630. 274 m/s2[4]。为使铲斗中物料不至于洒出, 液压挖掘机铲斗满载提升动臂时, 需要在动臂举升过程中进行铲斗姿态的调整。从铲斗的速度、加速度仿真曲线可以看出存在着突变, 说明铲斗姿态的调整对运动中铲斗的速度、加速度有很大的影响, 调整时间越短, 突变越剧烈。从液压缸设计角度出发, 应该充分考虑铲斗姿态的调整引起的冲击力对液压缸的影响。同时, 这个冲击力也必然会影响到斗杆、动臂和铲斗的载荷分布及应力变化, 需要在斗杆和动臂设计中考虑这些因素。

2 液压挖掘机虚拟实验设备开发

2. 1 Virtools软件介绍

Virtools是法国交互三维公司开发的一款虚拟现实开发软件, 具有简单操作、交互功能强大、可视化界面、可扩展性强等特点, 被广泛应用于游戏开发、虚拟训练、工业仿真、虚拟实验系统开发等方面。

2. 2 虚拟样机的理论及技术基础

一种产品从设计到定型要经过多次设计修改, 每次又都需要重新装配实物样机并进行试验; 传统制造有时采用建造一系列实际尺寸模型来校验实际产品的正确性, 这些过程既费时又费力, 影响了产品性能的确定和进一步优化。而采用虚拟技术进行设计、装配, 可使产品在实际生产之前, 其全部设计就经历了充分的虚拟实验和论证。

虚拟样机是一个最终系统或产品的计算机虚拟模拟。同物理样机相比, 它可以快速制作, 从而有效降低成本, 可以提供联机性能数据, 更有概括性, 用以论证工程分析的有效性。另外, 虚拟样机提供了非常好的内部状态的可观察性, 它允许用户从不同的角度观察系统内部结构, 并可快速对其进行修改。虚拟样机技术将仿真和建模扩展到产品研制开发的整个过程, 将对产品的传统设计方法产生变革, 提高了产品的竞争力[5]。

2. 3 三维虚拟实验设备开发的基本步骤

运用Virtools技术进行三维虚拟实验设备开发主要包括: 素材准备、三维模型与简易动画制作、场景编辑、数据库设计、交互脚本编写、作品发布6 个基本步骤。

1) 素材准备: 素材主要包括文字、图片、声音等, 无论是制作三维模型, 还是进行场景编辑都需要用到素材, 素材是进行系统开发的基础。

2) 三维模型和简易动画制作: 它可以使三维虚拟实验设备更加生动、逼真, 是进行三维虚拟实验设备开发的重要环节。目前Virtools支持的三维建模工具有很多, 例如3Ds Max, Maya, Collada等, 均便于进行三维模型和动画的制作。

3) 场景编辑: 其主要是考虑到三维虚拟实验设备的艺术性和易操作性, 使设备不仅能符合使用者的特点和审美, 而且还能让实验者容易操作和掌握。

4) 数据设计: 数据库用于存放实验相关的用户基本信息、实验内容、实验场景信息、虚拟仪器信息、实验结果、实验报告、实验基础知识等信息。其通过增加系统对数据的处理能力, 使系统变得更加灵活、友好。

5) 交互脚本编写: Virtools中的Building Blocks提供了强大的交互模块, 可以轻松实现三维场景中的交互功能, 为三维虚拟实验设备的开发提供了有力保证。交互脚本的编写是实现三维虚拟实验设备开发的关键。

6) 作品发布: Virtools技术开发的作品支持网页格式, 开发完成后可以很方便的导出Web格式, 运用于远程教学。

2. 4 体系结构

基于Web的三维虚拟实验设备的几个主要部分包括服务器、实验集成系统、场景调度系统、仪器调度系统、场景数据库、虚拟仪器库、信息数据等, 如图4 所示。

Web服务器主要功能是对学习者基本信息、实验相关内容进行管理。提供Web服务, 使学习者可以进行远程访问。

信息数据库由学习者信息、实验相关信息等组成。虚拟仪器数据库包含了实验者可以使用及操作的全部虚拟仪器的信息。场景数据库包括实验环境及相关的纹理、材质、声音等[6]。

2. 5 开发实例

利用Virtools技术设计, 该虚拟实验设备的功能主要包括模型各部件功能的介绍、与投影仪的连接、与数据库进行通信、读取和存储实验数据等。

2. 5. 1 三维模型的制作装配与优化

由于Virtools没有建模功能, 所以使用三维造型软件NX 6. 0 建立液压挖掘机各部件的数字化模型。然后将建好的模型导入到3D max中, 再通过3D max以. nmo格式导入到Virtools中。模型建立好并成功导入到3D max中之后的工作就是给模型赋予材质和贴图, 从而增加模型的真实感, 提高显示的刷新速率[7]。

在虚拟现实环境下, 重点解决的技术问题是: 1) 自动装配的过程中快速跟踪和定位零部件的信息, 并通过屏幕显示给操作者; 2) 自动选择装配关系以及装配路径。

基于以上两个问题, 在虚拟现实软件Virtools中, 经过反复验证编译, 决定采用软件中的Set Pickable模块, Get Row等模块的组合来模拟装配中定位零部件的信息; 而设置的Set Position等模块, 可以实现装配关系和装配路径的自动选择和设置, 虚拟装配路径规划的脚本流程图如图5所示。对这些模块进行重新组合, 通过消息发送模块Send Message传递交互信息, 进而描述液压挖掘机虚拟装配系统中装配路径规划[8]。

2. 5. 2 场景编辑

Virtools场景包括三维场景和二维场景。把建好的模型作为场景导入到Virtools中, 并调整好其位置和大小, 再在场景中加入灯光和摄像机来调整场景光线和视角。

二维场景主要用来放置控制按钮, 显示信息和数据, 以及美化实验室界面。可以通过添加二维框架 ( 2D Frame) 、材质 ( Material) 和纹理 ( Texture) 来设计。

2. 5. 3 交互脚本编写

利用Virtools的几个行为交互模块就可实现对三维对象的控制, 下面以三维对象的旋转、缩放为例说明行为交互模块的使用方法。

给三维对象建立脚本, 并添加相应的行为交互模块, 如图6 所示。Switch On Key行为交互模块用来接收键盘按键, 不同按键执行不同的功能, 可分为放大、缩小、顺时针和逆时针旋转四种情况。Per Second用来设置每次按键后旋转和缩放的程度。Rotate和Scale分别实现三维对象的旋转和缩放功能。

2. 5. 4 与数据库通讯

Virtools与数据库实现通信, 必须先建立数据库, 并通过ODBC ( open database connectivity) 与数据库建立连接, 取DSN ( distributed service network) 别名为vrdsn; 在服务器端安装Virtools Multiuser Server模块, 并启动Server服务;在Virtools Server管理界面中选择Database模块, 为其添加数据源vrdsn, 此时服务器端配置完成。

服务器端配置完成, 用Connect To Sever建立与Virtools服务器的连接, 获取一个连接ID, 再用Database Behaviors ( 数据库行为交互模块组) 对数据库进行操作, 就能在Virtools中对数据库进行通信。图7 是在数据库表中添加记录的脚本流程图。

2. 5. 5 生成Web页面

在Virtools中, 点击file选择Create Web Page, 在弹出的窗口中对导出路径和窗口大小进行设置, 设置好点击“OK”生成网页格式。

3 结语

建立了液压挖掘机机械系统的数字化虚拟样机模型, 对液压挖掘机进行了运动学仿真。基于Recur Dyn软件对液压挖掘机工作装置进行研究, 用挖掘机虚拟样机代替传统的物理样机, 可降低开发和制造成木, 缩短研制周期, 提高装载机的性能。这种方法可以提高系统仿真的效率, 为分析挖掘机的性能和改进液压挖掘机的设计提供了一种有效的手段。

在此基础上, 利用虚拟现实技术, 在Virtools系统中开发了一套液压挖掘机三维虚拟实验设备, 打破了设备在时间、空间、和地域方面的限制, 能够为学生提供液压挖掘机结构和原理的生动、逼真的沉浸式学习环境, 获得与真实物理实验一样的体会, 从而加速和巩固学生学习知识的过程。

参考文献

[1]陈桂芳, 郭勇, 刘锋.挖掘机液压系统建模仿真及能耗分析[J].机械设计与研究, 2011, 27 (5) :101-103.

[2]张卧波, 杨俊峰, 王建明, 等.挖掘机工作及运动状态的仿真与应用研究[J].农业机械学报, 2008, 24 (2) :149-151.

[3]黄爱华, 卢炎麟.基于Pro/E的反铲式挖掘机工作装置的建模与运动仿真[J].煤矿机械报, 2008, 29 (9) :67-69.

[4]张俊俊, 张辉.装载机工作装置建模和运动学仿真[J].机床与液压科技报, 2010 (4) , 38 (7) :106-108.

[5]隋爱娜, 吴威, 赵沁平.虚拟装配与虚拟原型机的理论与技术研究[J].系统仿真学报, 2000, 12 (4) :386-388.

[6]方利伟.基于Virtools的三维实验室研究与实现[J].实验技术与管理, 2012 (5) :83-86.

[7]范孝良, 田珍.基于Virtools的机械零部件虚拟装配的研究[J].仪器仪表用户, 2012 (5) :71-72.

信息挖掘与开发 篇7

1 体育场馆资源无形价值难以开发的原因

体育场馆资源背后尽管蕴含着丰富的无形价值, 但是现实中这些体育无形价值的开发与保护现状却不容乐观, 是因为除了少量的体育无形资产得到了开发之外, 大多数体育场馆资源的无形价值没有得到无形资产的价值变现, 即大部分体育场馆资源的无形价值没有实现经济效益的转换。

第一, 体育场馆资源的无形资产没有得到较好的保护与开发。体育资源的无形价值大多数以其无形资产的存在而存在的, 是以无形资产为载体的一种价值表现和量化。因此, 体育场馆资源无形价值的实现须以其无形资产开发为前提。物质决定意识, 体育场馆资源的无形资产没有得到充分的保护与开发就必然成为了制约其无形价值开发与保护的重要影响因素。体育场馆资源的无形价值没有得到充分的开发与保护这一现状在实践中表现的尤为明显, 如某大型体育场馆的商誉权由于相关管理部门没有对其进行有序的管理而出现了体育场馆商誉价值流失的现象。

第二, 缺乏一套完整的保护体育场馆资源无形价值的法律法规。现今体育事业不断繁荣, 并已渐渐走进人们的生活之中, 相应的也为体育场馆资源无形价值的多样化发展带来了契机。面对日益丰富多样的体育场馆无形价值, 相关的法律法规发展却没有跟上体育事业的繁荣步伐, 专门管理和保护体育场馆资源无形价值的法律法规还很落后或甚至没有, 无法使体育场馆资源的无形价值在市场中得以生存和开发。

第三, 体育场馆资源无形价值评估体系的缺失。尽管体育场馆资源具有丰富多样的无形价值, 但专业化、科学化评估体系的缺失已成为阻碍体育场馆资源无形价值开发与保护所面临的重要难题。当前, 有很大一部分体育场馆举办过地方以及国家的大型体育赛事, 这些体育竞赛也赋予了这些体育场馆众多的无形价值, 这些无形价值也可以为地方经济社会的发展带来巨大的经济效益和社会效益, 但是由于缺乏相关的体育无形价值的评估体系及政策, 致使这些体育场馆的无形价值无法得到相关部门及国家法律法规的认可, 从而致使这些无形价值严重浪费和流失。

第四, 体育无形价值研究较少, 实际可操作性措施没有。当前, 无论是学界还是相关政府部门都或多或少进行了体育无形价值的理论研究, 对推动我国体育无形价值的保护与开发做出了一定贡献。但长期的理论研究, 加上开发体育场馆无形价值又是一个长期的复杂过程, 开发者不仅很难在短期内实现经济价值的转换, 而且还承担着巨大的经济风险。基于这一特点, 久之必然导致我国体育场馆资源无形价值开发与保护出现实践落后于理论研究的被动局面。而且很大一部分理论研究没有从本质上去分析出体育无形价值的特点, 从而致使其实际操作的可行性不强。

第五, 意识形态上局限于实体经济的开发。由于体育无形价值的开发在我国尚处于刚刚起步的阶段, 无论是理论研究还是实践操作的成功案例都远不及西方发达国家, 正是这一原因要决定了我国体育产业经济的发展还很落后。当前, 大多数的管理部门和经营人员都还着重于体育实体经济的开发, 对于体育无形价值缺乏开发意识。

2 体育场馆资源无形价值开发的路径挖掘

体育场馆资源的无形价值作为市场经济发展中的重要元素, 同样需要遵循市场经济发展的客观规律, 才能够真正立足市场并为社会经济的发展做出贡献。马克思在生产理论中提出, 商品是使用价值和价值统一, 社会总产品同样具有双重属性, 并论证了I ( v + m) = IIC是简单实现再生产的条件, 即生产资料必须与消费资料保持平衡, 否则再生产就难以进行。也就是说, 同样要实现社会的扩大再生产, 就必须平衡社会增加的消费资料与生产资料。体育场馆资源的发展同样须符合社会生产与再生产理论, 着力实现生产与消费的供给品平衡, 这样才能够实现体育场馆资源无形价值的可持续发展。而一切经济活动都包含生产、分配、交换、消费四个环节, 促使体育场馆资源无形价值的保护与开发不仅要实现生产与消费的平衡, 而且还要权衡分配合理与交换科学问题, 这样才有利于其健康快速发展并确保保值与增值。

第一, 加大体育场馆资源无形价值的开发力度, 使其市场化和产业化。当前很大一部分体育场馆、场地以及设施的无形价值由于没有引起相关管理部门的高度重视, 加上地区体育场馆资源的无形资产种类分散, 没有形成一种集中统一的类型产业, 更未把地区体育场馆资源的无形价值开发引入市场而难以发挥其经济效益和社会效益。所以, 要想促进体育场馆资源无形价值的开发, 使其经济效益和社会效益都能够充分发挥, 必须引起管理部门的重视程度, 设立专门管理和开发体育无形价值的管理机构以及公司, 形成一定的规模, 实现体育场馆资源无形价值开发的市场化与产业化。

第二, 推动体育无形价值保护的法律法规建设。市场经济具有竞争性、平等性、法制性以及开放性的特征, 这决定了市场经济中充满激烈的竞争压力。对于任何一个竞争者来说, 战胜对手并为自己赢得一席之地是其生存的必然道路, 这一性质也让市场经济表现出了自发性的特征, 各种违法犯罪行径可能就同时出现。因此, 对于体育场馆资源无形价值的保护和开发来讲, 建立健全的法律体系是其顺利进行的必须保障。只有拥有健全专业的法律体制, 才能保护体育无形价值的开发, 才能确保体育无形价值所有者的权益不受侵犯, 才能确保体育产业经济的健康发展。

第三, 建立健全体育场馆资源无形价值的评估体系。开发体育场馆资源无形价值首要解决的任务就是明确体育无形价值的科学范畴, 只有切实明白一座体育场馆或者场地中哪些属于体育无形价值、无形价值的种类多少和开发潜力的大小, 才能有序的开发和保护体育场馆资源的无形价值。面对这一问题, 须建立一套完善科学的体育无形价值评估体系, 确立体育无形价值的具体衡量标准, 继而才能将其纳入法制轨道。

第四, 重视理论与实践相结合的研究。我国学界对于无形价值的理论研究经过长期的努力, 取得了一定成就, 各种相关科研论文、学术著作继而出现, 但当前我国关于体育无形价值的理论研究很大一部分脱离了社会实际的需要, 很多研究也只是看到了体育无形价值的表面, 根本没有从本质上去探索体育无形价值的特征。所以要想推动体育无形价值的开发与保护, 不仅要重视理论研究, 更要从实践的角度出发, 探索体育无形价值的发展规律, 推动体育无形价值的发展。

第五, 培养具有专业知识的管理人才。专业知识人才是指通晓体育无形价值且具有体育无形价值管理与开发知识的体育工作者。当前这一类型人才的缺失很大程度上制约了体育无形价值的开发与保护。为了培养具有专业知识的人才, 可以在大专院校中开设相关专业, 在社会成立体育无形价值人才培训机构, 为社会输送专业人才, 推动我国体育无形价值的开发与保护, 为经济社会发展做出贡献。

3 结语

体育无形价值这一概念是在体育无形资产概念上的一种延伸和拓展, 因此体育场馆资源无形价值就是体育场馆资源无形资产的价值表现, 其内容比体育无形资产更加广泛, 开发与保护体育无形资产其本质就是要实现体育无形资产的价值。所以, 体育无形资产本身就属于一种在矛盾中运动的客观事物, 而体育场馆资源的无形价值就是体育场馆资源无形资产所变现出来的矛盾的主要方面, 保护和开发体育场馆资源的无形资产其最终目的也就是要实现这一主要矛盾的主要方面。体育无形价值属于体育产业的重要组成部分, 解决体育场馆资源无形价值的主要矛盾, 科学开发体育场馆资源的无形价值, 对推动经济社会的发展有着重大的现实意义。

参考文献

[1]王书瑶.无形价值论[M].东方出版社, 1992:37-42.

[2]王晓玲, 高清伟.论体育无形资产的特点及其开发保护策略[J].北京体育大学学报, 2005, 28 (8) :1029-1030;1044.

[3]贾爱萍, 朱礼才, 邬佐新.试析高校体育无形资产的开发与管理[J].成都体育学院学报, 2007, 33 (5) :120-122;126.

[4]张春宇, 陈祥岩.我国部分大型体育场馆对外开放使用现状调查与分析[J].沈阳体育学院学报, 2009, 28 (6) :48-50.

[5]霍亮, 边萍, 杨傲淞.公共体育场馆特许经营方式探析[J].体育文化导刊, 2011 (3) :91-93.

[6]郑昌意.体育场馆冠名权价值评估指标体系研究[D].广州体育学院, 2011.

[7]黄俊.国外大型体育场馆冠名权开发研究[D].广州体育学院, 2011.

[8]柳泽民, 杨俊.社会生产的自然规律与资本主义经济危机的形态变异[J].经济问题, 2014 (2) :10-16.

[9]赫金鸣.体育无形资产开发战略研究[J].吉林体育学院学报, 2010, 26 (3) :5-7.

信息挖掘与开发 篇8

关键词:数据挖掘技术,图书馆,应用探讨

随着当代信息技术的快速发展, 网络信息数据库的规模和范围不断扩大, 已从单一的记录发展到整个网络, 使得各企业或是政府部门多年的资料在短时间内迅速积累了海量的数据资料进行检索, 从而需要更加准确的检索工具。数据挖掘技术是适合当代技术而诞生并迅速发展起来的, 本文将结合数据挖掘技术的基本理论与实际进行探讨和分析。

一、数据挖掘技术

数据挖掘技术是从大量的、不完全的、有噪声的、模糊的、随机的数据中进行检索, 并提取其隐含在其中的人们不知道的, 但又是潜在有用的信息和知识的过程。

(一) 图书馆信息服务中应用数据挖掘技术的必要性。

在当今网络科技中, 超媒体是一款非常方便的信息系统, 该系统可在任何地点、任何时间收取信息, 并将大量信息传播给受众, 从而给受众带来更多方便。然而, 在给受众带来方便的同时, 超媒体中的数据管理起来也是一项非常麻烦的工作, 其信息量庞大, 真伪辨识, 信息的保密程度都是难以进行规划和处理的。该如何进行对信息的管理, 是目前摆在管理人员面前最为困难的问题。

在庞大的海量信息中寻找专业知识, 对于管理人员而言, 是非常困难的, 但管理人员要将不可能变为可能, 正是管理人员展现才华的机会。由于超媒体网络的迅速发展, 人们越来越依靠因特网来获取知识。而来到图书馆寻找知识的次数越来越少, 这对从事图书馆工作的工作人员而言是一项巨大的挑战。现今, 专业的图书馆工作人员提出了在网上建立数字图书馆的设想, 并且, 目前, 数字图书馆的设想已然成功。数字图书馆是采用数据存储, 通过各种超链接在大范围的内容下进行检索, 从而使得需求者更加快速地检索到自己需求的信息, 并且, 数字图书馆是对所有用户开放的, 对于, 信息高速发展的今天, 简单、快速即是现代社会的一切, 用户只需简单的操作, 即可获得海量的信息。

数字图书馆不仅具有传统图书馆的内容, 而且对于难以理解的信息还提供了专门的信息服务, 数字图书馆将是未来图书馆的信息枢纽中心。但数字图书馆的管理人员必须选取有效的检索引擎来进行配合工作, 传统引擎无法灵活地对信息加以验证, 在这种大条件下, 数据挖掘技术是克服以上缺点最为理想而必需的工具。

(二) 图书馆信息服务中的数据挖掘技术。

数据挖掘技术中的数据源必须是真实的、大量的、是用户感兴趣的、可接受的、可理解并且能够运用的, 特定发现问题。而此类数据是结构化的, 是文本、图形、图像相互结合的数据, 是可演绎归纳的。数据挖掘技术中的数据源可用于信息管理, 优化并且能够用于数据自身的维护。现今, 数据挖掘技术已成为一门重要的学科, 其中包含着人们从查询到挖掘知识, 最后到给用户进行决策提供支持。在这种条件下, 数据挖掘技术汇聚了各个领域的研究者, 数据库的建立管理, 数据的统计, 可视化技术的发展, 工程计算运行的技术等等一系列的工程人员投身至此, 形成新的技术热潮。

(三) 网络环境下的数据挖掘技术。

数据挖掘技术在网络环境下被定义为超媒体挖掘, 定义为超媒体挖掘有两方面的意义, 一是可自动地在数以百万计的超媒体站点和数据库中, 搜索出有用的信息和资料, 这也称为超媒体的内容挖掘;二是可一个用户访问多个站点或是数据库, 可节省大量验证时间, 也可称为是超媒体使用挖掘。近年来, 各领域研究人员不断的对超媒体内容挖掘进行研究, 并且致力于开发智能化的信息检索工具。人工智能系统可代表特定用户, 自动地进行发现并组织超媒体信息, 也一并检索出用户感兴趣的信息, 这是将超媒体中非结构化的数据进行组织, 使其成为结构化的数据资料。

二、数据挖掘技术在图书馆信息服务中的应用

数据挖掘是目前非常有前景的一类检索工具, 相对于传统的搜索引擎进行检索, 搜索出来的信息往往都不完全, 并且大多数都无法进行信息验证。超媒体挖掘技术应用在图书馆中, 进行信息服务的检索工作, 使得图书馆管理人员能够依照用户的习惯, 为用户检索出更好的质量信息。

(一) 在信息咨询服务中的应用。

随着现代社会生活日益发展, 人们检索信息的质量也不断提升。信息质量要求的综合性、复杂性、有序性的要求也越来越高。面对各式各样要求的信息检索, 图书馆目前采用的数据挖掘技术能够打破传统数据库的限制, 对大量文献进行深层次的挖掘, 并保证数据的一致性、完整性和安全性, 以其检索的高效性满足用户特定的信息需求。

(二) 在个性化服务中的应用。

在以往的图书馆信息服务中, 一般是一对一地进行解答, 这种方式一般是由客户进行发文, 才能够得到想要的信息。数据挖掘技术可完全根据客户的历史记录, 对客户的兴趣爱好、研究方向进行整理分析, 从而制定出个性化的信息服务。管理人员只需对数据库的资料进行整理, 即可为客户带来更好的个性化服务。

三、结语

综上所述, 我国目前的数据挖掘技术正慢慢走向成熟阶段, 在信息处理技术上有自己独特的方面, 并在信息处理自动化技术上占有基础性的地位。作为现代社会快速发展的信息检索的代表性检索工具, 数据挖掘技术在图书馆领域的应用还处在刚刚萌芽的状态, 但数据挖掘技术不可估量的前景, 将爆发出无限的发展潜力与广阔的发展前景。

参考文献

[1].Chang Yang-Ming, but good news, Su Yang mobile customer value evaluation method research[A].China optimization program evaluation and review technique and economic mathematicsseminar of the eighth national congress and members of the eighth China management science academic conference proceedings[C], 2008

[2].王令群, 郑应平, 周爱华等.数据挖掘技术在半导体生产过程数据分析中的应用[A].2009年中国智能自动化会议论文集[C], 2009

[3].王伟, 殷国富.基于数据挖掘的多维联机分析处理系统研究[A].全国先进制造技术高层论坛暨制造业自动化、信息化技术研讨会论文集[C], 2009

[4].王令群, 郑应平, 周爱华等.数据挖掘技术在半导体生产过程数据分析中的应用[A].2009年中国智能自动化会议论文集[C], 2009

[5].Zhengzhou, Gao Tao-Long, Yang Lin-Yao data warehouse and data mining technology and the relationship between the[A], in 2009 China intelligent automation conference proceed-ings (part ii) [C], 2009

异构信息网挖掘:概念、技术与未来 篇9

信息网络是一种由图建模的数学模型,其中包含顶点和边两个元素。顶点代表现实世界中的实体对象,边代表实体之间的联系,实体以及实体之间的联系就构成了信息网络。随着信息技术的发展,越来越多的领域开始关注于数据对象之间错综复杂的关系。例如,生物信息学领域中研究基因、酶、蛋白质之间复杂的调控、代谢与交互关系;互联网搜索领域中研究网页与网页之间超链接的关系;社会学和商业领域中研究人与人之间的社会关系。随着信息技术的发展,特别是互联网技术的发展,各种应用领域的信息量都呈爆炸性增长趋势。在现实应用中积累了大量的图数据,例如生物信息学中的基因调控网络、酶代谢网络、蛋白质交互网络;互联网领域的网页拓扑结构图、邮件通讯关系图;在线社交网站中用户之间的社会关系图;城市的道路交通网络、供水排水网络等。信息网络广泛存在于现实世界中,如社交网络、生物网络、道路网络、知识库等。信息网络上的查询和挖掘问题也具有重要的研究意义。

这些图数据的规模还在不断快速增长,其中蕴含了大量有用的知识。挖掘和处理图数据可以得到这些有用的信息帮助用户分析决策。截至2009年9月,全球最大的社交网络Facebook已有3亿多个顶点。这些大规模图数据承载了海量信息。用户根本无法通过视觉观察或手工方法来理解和分析。并且,现实世界中实体不仅仅是单纯的一种类型,而是多种类型的实体同时存在一个网络中;再有,联系也不仅仅存在于同一类型的实体内部,在不同类型的实体之间同样也存在着关系。异构多属性图是包含多种类型顶点和多种类型边的图,其中每种类型顶点具有一组属性。如生物网络、社交媒体网络、在线分享网络等。在图数据规模爆炸式增长的同时,图数据的形式也越来越复杂。因此,海量图数据模型中蕴含着大量有用的知识与信息,亟需从不同维度和不同粒度上对其进行研究提取、挖掘分析。

1 异构信息网

1.1 异构信息网的概念

在现实世界中,信息网络通常被假定为同构的,即网络中顶点的类型是相同的(如用户),顶点之间的关系类型也是相同的(如朋友关系)。然而,大多数真实世界的网络是异构的,即顶点和关系的类型是不同的。例如,在医疗保健网络中,顶点可以是病人、医生、医疗检查、疾病、药物、医院、治疗等。把顶点全部看作一种类型,也就是同构信息网络,可能导致丢失重要的语义信息。因此,对具有丰富信息和复杂结构的异构信息网进行分析和挖掘研究是非常重要的。下面将给出异构信息网的形式化定义。

异构信息网是一个有向图,其中V是顶点集合,是边集合,T是顶点的类型集合,R是边的类型集合。φV:V→T是顶点类型映射函数,φE:E→R是边类型的映射函数。A是顶点的属性集合,D是A的域。φA:T→A是从顶点类型到属性的映射函数。

1.2 异构信息网的应用

异构信息网可以从交互的大规模数据中构建得来,例如社交网络、科学网络、工程及商业应用等,下面文中则给出几个例子用以具体说明。

1)社交媒体网。Twitter也可以被看做一个异构信息网络,其中包含顶点类型有用户、推文、标签和词语。2个用户可以互相关注,用户可以发布或回复推文,推文可以使用词语、并包含某些标签。Flickr是一个图片分享网站,也可以被看成异构信息网。其实现结构中包含的顶点类型有:图片、用户、标签、分组和评论。用户可以上传图片,图片包含某些标签、图片属于某个分组,用户可以对图片发表评论,图片可以有不同的评论。

2)物联网。在智能家居、交通、物流、农业等物联网中,都可以构建出异构信息网。例如,在智能家居网络中,顶点类型有用户、智能终端(空调、热水器、音响等)、智能控制系统、传感器节点、手机或电脑。用户通过手机或电脑远程发送命令给智能控制系统,智能控制系统将命令发送给相应的传感器节点,传感器节点再根据用户的需求发送命令给指定的智能终端对其进行操作。

3)文献信息网络。从DBLP中提取的计算机科学文献信息就是一个典型的异构信息网,其中包含4种类型顶点:论文、会议、作者和关键词。每篇论文对应一个作者集合、一个会议和一组关键词,构成了3种类型的关系。同时,在论文之间还存在引用关系。

4)医疗健康网络。医疗健康系统也可以被看成一个异构信息网,其中包含的顶点类型有医生、病人、疾病、治疗和设备。病人患有某种疾病,该疾病可以采取特定的治疗方案,使用某种设备,此外,病人也需要由特定的医生负责。

异构信息网可以在很多领域中构建得到,如社交网络、电子商务、社交媒体等许多数据库应用中。异构信息网包含多种类型的顶点和多种类型的边,每种类型顶点包含一组属性。例如,用户的属性可以是其编号、姓名、年龄、城市等。

2 异构信息网研究现状

除了异构信息网上复杂的结构信息,顶点的属性信息对于挖掘异构信息网也发挥着至关重要的作用。信息网上现有大多数研究成果都是基于同构信息网的,比如社交网络[1]上的排序、社团发现、链接预测、影响力传播等。然而,这些方法都不能直接用于异构信息网上。这不仅因为连接不同类型顶点之间的不同类型的边所具有的语义不同,也是因为异构信息网包含了比同构网络更丰富的信息。同构信息网可以通过在异构信息网上的投影得到,但是却丢失了大量的信息。例如,作者合作网络可以从更复杂的异构的文献信息网络中投影得到。然而,这种投影操作丢失了有用的信息,如该论文的主题以及该论文作者合作的其它论文等。另外,在原始的异构信息网中蕴藏着丰富的信息,需要设计有效的数据挖掘方法用来探索这些有用的信息。

相比传统同构信息网上的研究,异构信息网上的研究工作才获发展起步。但在最近几年,越来越多的工作开始关注异构信息网方面的研究。异构信息网上现有的研究工作还都比较零散,也未形成规模体系,主要有聚簇[2,3,4,5,6,7]、基于排序的分类[8,9]、顶点的相似性搜索[10,11]、关系预测[12,13,14]、子图查询[15,16]、社区发现[17]、实体识别[18]、无结构查询[19]等。下面,文中将分别介绍这些已有的研究成果。

2.1 异构信息网上聚簇问题的研究

Rankclus[2]将DBLP网络构建成二分图,根据排序将相同类型的定点进行聚集。信息网络的分析中,文献[4,7]根据用户选择的顶点类型和簇的种子顶点,对该类型的顶点进行聚簇。文献[6]在顶点属性不完整的情况下,基于顶点的属性和不同类型的关系,对网络进行聚簇。系统通过学习得到不同类型的关系的权重,将用户指定的属性集合带有权重的不同类型关系合并,建立一个概率模型,用于训练出最符合用户需求的聚簇结果。文献[5]以网络中的一种类型顶点为中心,根据元路径将网络分解成为若干个路径图。元路径是不同类型顶点构成的序列,表示了顶点由不同的关系连接起来。例如元路径“作者-论文-作者”代表作者之间的合作关系,元路径“作者-论文-会议-论文-作者”表示在同一个会议发表过论文的作者。通过学习得到每个路径图的权重,将所有路径图加权得到统一的路径图。在该路径图上对顶点进行聚簇。

2.2 异构信息网上分类问题的研究

Rank Class[8]把排序与分类相结合,对异构信息网进行更好的分析。该方法把顶点进行分类,在每个分类内对顶点进行排序。例如,对于DBLP异构信息网,先把会议顶点按照领域进行分类,在每个领域内对顶点进行排序,可以使用户很清楚地了解每个领域内影响较大的会议。这种排序与分类相结合的方法,要好于对顶点进行全局的排序。分类对顶点进行排序提高了排序的质量,优秀的排序结果也使分类更为准确。GNet Mine[9]研究异构信息网络上只有一部分顶点具有标签,通过将顶点分类,得到所有顶点的标签问题。通过衡量无标签顶点与带有标签顶点之间链接关系的一致性,把无标签顶点与其相关的带有标签顶点划为同一类,得到所有类型顶点的标签。

2.3 异构信息网上顶点相似/相关性问题的研究

基于元路径的异构信息网上的搜索技术在最近两年得到了关注与重视。Pathsim[10]提出计算2个同类型顶点在给定元路径情况下的相似性的方法。2个顶点通过不同的元路径连接表示不同的含义,其相似性也不相同。信息网上现有的相似性所有工作大多数都集中在同构信息网上。这些工作都忽略了顶点由不同类型的关系连接,具有的含义不同。进一步地,给定查询顶点,Pathsim能够有效地计算出与查询相似度最高的k个顶点,效率远远高于PageRank和SimRank.Hete Sim[11]提出异构信息网上同类型或不同类型顶点之间相关性的度量。衡量不同类型顶点之间的相似性是十分有意义的。如作者J.F.Naughton与会议SIGMOD相关程度比会议KDD大,青少年更喜欢电影哈利波特,而不是肖申克的救赎。这种不同类型顶点的相关性研究有着大范围的广泛应用,例如推荐系统、聚簇和协同过滤。该方法描述的顶点相关性是基于搜索路径的,2个顶点通过特定的元路径相连。不同的搜索路径含义不同,导致2个顶点的相关程度也将出现不同变化。因此相关性的度量函数也是不对称的。

2.4 异构信息网上链接预测问题的研究

异构信息网上的链接预测问题已然面世推出了一些重点研究成果。Path Predict[12]提出了异构信息网上预测合作关系的方法。文章用4种度量函数:路径个数、标准化路径个数、随机游走、对称随机游走,来计算2个顶点在所有元路径上的相似性。通过监督模型去训练出不同结构特征的预测权重,得到统一的预测模型。大多数的链接预测工作都是集中在同构网上,并且只关注链接是否发生,而无法预测发生的时间。针对这个问题,文献[13]提出一种链接预测模型,并给出链接发生的未来时间,如作者将于某年在会议上发表论文,用户在某个时间将会对电影做出评论等。Anchoring[14]对多个异构信息网之间的用户进行链接预测。单个用户可能在多个社交网络上都拥有注册账号,这篇文章就是为了识别不同的社交网络之间哪些账号是属于同一个用户的。通过用户在社交网络上展现的个人信息、活动时间、地点和文本信息,清晰确认并识别账户的对应关系。当一个人刚刚注册某个社交网站时,利用这种链接预测方法,就可以对其推荐符合标准预期的理想朋友。

2.5 异构信息网上子图查询问题的研究

文献[15]研究异构信息网上搜索结构和语义都相似的子图。为了提高效率,利用离线的索引生成候选子图,进一步递归剪枝对候选子图进行验证。文献[16]研究给定查询的模式,计算top-k相似子图的方法。为了解决这个问题,文章提出2种低代价索引:图拓扑索引和最大元路径索引。利用这2种索引,对候选的子图进行剪枝,快速计算得到查询结果。

2.6 异构信息网上社区发现问题的研究

文献[17]提出动态异构信息网上社区发现的方法。该方法为异构信息网建立社区模型,每个社区包含网络上所有类型的顶点和边。用Dirichlet混合模型为每个时间窗上的网络社区实现建模,能够自动确定社区的实现数量并考虑前一时刻的社区对现在时刻的影响。利用Gibbs采样方法推理出该模型。在该模型上解决符合网络演变规律的社区发现问题。

2.7 异构信息网上实体识别问题的研究

SHINE[18]提出了异构信息网上实体识别方法。该文结合实体普及模型和实体目标模型,对异构信息网上的实体识别进行建模。实体普及模型依赖于内容,例如,名字是“Wei Wang”的老师比名字是“Wei Wang”的学生发表的论文数量多。实体目标模型确定元路径的概率,通过期望最大化算法自动学习元路径的权重。

2.8 异构信息网上无结构查询问题的研究

GQBE[19]提出在用户不知道网络的顶点类型和结构情况下,只给出查询的元组示例,计算与查询相近的结果。如查询示例为<Jerry Yang,Yahoo!>,查询结果可能是<Steve Wozniak,Apple Inc>,<Sergey Brin,Google>,表示了创立人与公司的关系。该方法构建基于输入的最大查询图,生成查询图的晶格。在晶格上得到top-k相似的查询结果。SLQ研究用户在不了解网络结构的情况下,无需给出准确的查询形式,通过转换函数,查找网络中符合查询的匹配。由于转换函数的代价不同,应用条件随机场得到匹配结果关于转换代价的打分函数,最终输出最佳匹配的top-k个结果。

3 异构信息网的未来和挑战

异构信息网的应用日趋宽泛普及,随着信息技术、特别是互联网技术的发展,各种应用领域的信息量都已呈现爆炸性增长趋势。传统技术虽然推出了众多研究成果,但却大多集中在同构网络上。

异构信息网上在线分析处理问题的研究对于异构信息网上知识的提取是至关重要的。现有的信息网络在线处理算法都很简单,缺乏对具体模型定义、执行过程分析(时间、空间、I/O、能耗)、核心步骤优化等层面的深入研究。从立方体计算、物化到OLAP操作,以及复杂的冰山立方体计算等,但却并不适用于图数据。

当前,大规模的信息网络上的挖掘和分析工作已有大量的研究人员在开展理论和技术上的各类探讨,但却仍无法从不同的维度和粒度上为用户分析决策提供有效的视图,以及灵活的在线分析处理。时下的在线处理技术缺乏对信息网络方体格、方体、方体单元详细定义,对于其空间爆炸式增长缺乏可行性技术解决方案;而且,现有技术也缺乏对物化方式、实现算法等的深入研究(对于信息网络而言,中间结果的表示和重用对在线信息网络处理的性能至关重要),缺乏对时间性能、空间开销等的切实充分考虑;现有的信息网络OLAP技术在处理大规模数据方面缺乏良好的数据组织、中间结果物化、高效OLAP算法等性能需求的必须解除设施。在实际问题中,用户关注的目标常常是复杂的信息网络度量,并且只关注那些度量大于给定阈值的立方体,如冰山立方体。迄今为止,这方面的研究工作几乎是零起步、全空白;

随着数据规模的日益增大,信息网络的增长尤其巨大。如何解决信息网络立方体中的海量空间开销即已成为首要关键问题,在每个立方体单元中存储的都是一个子图,而不是传统数据立方体中的聚集值,这就给立方体物化过程提出了现实巨大挑战;

巨量的信息网络除了消耗海量的存储空间外,在其上的巨量计算时间也给研究带来了严峻挑战,尤其是对于复杂信息网络度量。通常情况下,立方体计算需要多次遍历信息网络,这就大大降低了在线处理的效率。如何与用户进行快速交互、且高效实现在线处理已经成为研究学界亟待解决的重要问题。

挖掘带有噪声的、不确定的异构信息网。异构信息网的数据往往是由多个数据源集成而来,而每个数据源的质量不尽相同。数据往往带有噪声,同时部分数据也是不确定的。因此,研究带有噪声的、不确定的异构信息网上的挖掘问题对于异构信息网的实际应用则表现出其独特意义及实用价值。

4 结束语

随着大数据时代的到来,数据的形式也越来越复杂。随着信息网络的飞速发展,如社交网络、生物网络、道路网络、知识库等,异构信息网应运而生。大多数真实世界的网络都是异构的,即顶点和关系的类型是不同的。异构信息网是包括多种类型顶点和多种类型的边的信息网。异构信息网可以在很多领域中构建得到,如社交网络、电子商务、在线电影数据库等许多数据库应用中。异构信息网能够很好地表达现实世界中不同类型实体以及实体之间的复杂关系。异构信息网上的挖掘问题对于复杂数据形式的分析是十分重要的。本文系统介绍了异构信息网上广泛的应用背景和现有的研究工作,并提出未来的进一步发展方向,期望有更多的研究者投身到这一领域的学术关注和研究中。

摘要:信息网络是一种由图建模的网络,包含顶点和边两个元素。其中顶点代表现实世界中的实体对象,边代表实体之间的联系。实体以及相互之间的联系就构成了信息网络。信息网络广泛存在于现实世界中,如社交网络、生物网络、道路网络、知识库等。信息网络是无所不在的。在现实世界中,信息网络通常被假定为同构的,即网络中顶点的类型是相同的,顶点之间的关系类型也是相同的。然而,大多数真实世界的网络是异构的,即顶点和关系的类型是不同的。异构信息网是包括多种类型顶点和多种类型的边的信息网。异构信息网可以在很多领域中构建得到,如社交网络、电子商务、在线电影数据库等许多数据库应用中。因此,异构信息网能够很好地表达现实世界中不同类型实体和实体之间复杂的关系。全面介绍了异构信息网的现有研究工作,并对该领域未来可能的发展方向进行了总结和展望。

基于教务管理信息的数据挖掘与决策 篇10

关键词:教务管理,数据挖掘,决策

引言

随着教学体制的不断改革, 尤其是学分制、选课制的展开和深入, 教务日常管理工作需要处理大量的数据, 如学生信息、课程设置、教师信息、教学资源、培养方案、教学任务、选课情况、成绩数据等等;这些信息之间彼此存在联系, 同时也隐含着一些重要信息。海量信息是分析预测所必需的, 但目前, 高校教务管理系统使用的是面向应用的联机数据处理型数据库系统。通常采用C/S结构, 其信息模型是E-R法即实体关系法设计的二维模型, 元数据的管理采用数据字典的方式。这种方式得到的数据能够很好地反应流程化的信息, 但对于数据潜在的规律以及预测性的分析是远远不够的。为此学校教务决策者需要新的技术来弥补原有数据库系统的不足, 需要把已经广泛收集到的数据集成到数据仓库中, 通过数据挖掘技术将这些重要的信息从数据仓库中抽取出来, 帮助他们在教务管理和发展上做出即时、正确的判断, 用来优化专业、课程等设置, 提高学生的竞争力。

1 以教务管理信息为数据源, 建立数据仓库。

1.1 数据仓库的概念

数据仓库概念的创始人W.H.Inmon在《建立数据仓库》一书中指出:“数据仓库 (Data Warehouse) 是一个面向主题的 (Subject Oriented) 、集成的 (Integrated) 、相对稳定的 (Non-Volatile) 、反映历史变化 (Time Variant) 的数据集合, 用于支持管理决策 (Decision Making Support) 的决策制定过程”。对于我们以教务信息建立的数据仓库来说, 就是要将教务信息的数据库和其他外部的数据库联合起来作为此数据仓库的数据库;利用数据抽取工具将多种形式的数据库进行必要的转化、整理, 再存放到数据仓库内。根据决策的需要建立元数据 (描述数据仓库内数据的结构和建立方法的数据) , 并针对特定目的 (选课倾向、生源特点、成绩分析、就业状况等) 建立数据集市, 通过决策信息系统 (EIS) 工具、在线分析 (OLAP) 工具、数据挖掘工具等工具的分析, 最终在信息发布平台上展现给决策者。

1.2 基于教务信息的数据仓库的设计

1.2.1 确定主题, 明确需要解决问题

数据仓库本身是一个面向主题的数据集合, 所以确定建立的主题至关重要。教务管理是学校工作的重中之重, 所有的工作几乎都离不开教务管理。教务工作的决策者们每个决策都直接影响到教师授课质量、教学资源的分配、学生的学习效果以至于学生就业状况。所以对历史数据的分析就非常必要, 从中我们可以进行横向和纵向的对比, 获取有数据依据的结论。

1.2.2 依据主题收集整理数据库

数据仓库中的数据库是整个数据仓库环境的核心, 是数据存放的地方, 它能够提供对数据检索的支持。相对于操纵型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。我们可以以教务系统中的数据库为基础, 整理教务处的网络课程数据库、四六级成绩库、国二成绩库、师资教学工作量等等数据建立内部数据库, 并获取一些外部数据库如:学生课外借书信息、毕业就业信息等。尽量涵盖学生和教师在校的所有教学活动, 以便分析的更加全面。

2 数据挖掘的知识分类与基于教务信息数据仓库的挖掘

2.1 概括化知识 (Generalization)

概括化知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识, 反映同类事物共同性质, 是对数据的概括、精炼和抽象。通过对挖掘的信息数据建立一个量的模型, 在此基础上进行分析、归纳和总结, 找出它们共同的特点, 通过对不同专业学生的选课特点、课外读物、学科成绩、就业倾向进行量化分析, 对于专业和学科建设提出量化的依据, 从而对教务的管理以及培养方案的个性化和创新化提供决策支持。

2.2 关联知识 (Association)

对于关联知识的挖掘应该是数据挖掘技术在教务管理中的主要应用, 通过对与成绩相关联的知识的挖掘, 我们可以更加合理地设置课程, 分配教学资源等等。学生学习效果的好坏最直接的反应就是成绩, 而与学生成绩相关联的要素有很多, 比如:课程开设的先后顺序对相互关联的课程之间有着重要的影响, 不同的教学资源 (如教师讲课效果、开班大小、教室情况等) 和课程性质 (选修、必修) 以及试卷难易程度等等与成绩相关联的因素共同决定了最终的成绩, 关联分析不能仅限于已知这些因素, 我们要通过对数据仓库中的历史数据进行关联分析与时间序列分析, 从海量数据中挖掘出一些隐藏的规律和信息, 从而为课程设置、教师评估、工作量的核算等等提供决策支持。

2.3 分类和聚类知识 (Classification&Clus-tering)

分类法即通过找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类, 将数据库中的数据项映射到某个给定的类别。这项技术在高校教务管理中有着广泛的应用范围。随着市场对人才需求的不断提高, 本科人才培养工作越来越充分体现个性化特征, 我校已经针对就业市场需求开设几个实验班, 效果非常显著, 而针对不同特点、性格、兴趣、行为设置不同课程、分配教学资源、培养个性化人才是分类法最好的应用。

聚类分析的方法可以应用到教务管理中的成绩分析、试卷分析、学生评教、教师评学等方面。这些指标通常都以数值作为衡量标准, 通过相应的条件将数据划分为子集, 测量分值的分布情况, 判断试题的编制情况, 学生学习情况以及教师受欢迎情况等是否符合正常情况, 是否存在两极分化的情况, 有助于进一步提高教学质量。

2.4 预测型知识 (Prediction)

数据挖掘自动在大型数据库中寻找预测性信息, 以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。它根据时间序列型数据, 由历史的和当前的数据去推测未来的数据, 也可以认为是以时间为关键属性的关联知识。预测型知识的挖掘仅靠教务系统信息以及学校内部的数据是远远不够的, 它还需要很多其他的知识库, 建立数学模型, 并利用统计学的方法进行分析预测。通过数据挖掘, 我们可以对历年就业数据、报考考生数、招生分数等信息进行横向、纵向的分析, 提前对各专业的设置、招生、就业的前景等进行规划。

2.5 偏差型知识 (Deviation)

——偏差型知识是对差异和极端特例的描述, 揭示事物偏离常规的异常现象, 如标准类外的特例, 数据聚类外的离群值等。观测结果与预测模型存在偏差, 这就说明有很多潜在的信息被忽视, 寻找观测结果与参照值之间有意义的差别是偏差检查的主要目的, 也是数据挖掘的根本意义。

在教务管理中, 通过对教师教学和科研工作量的偏差分析发现学校任课情况异常的教师;通过对学生成绩的分析观测学生是否存在学习不稳定、厌学科目、考试抄袭等情况;通过学生评教的分析看教师在教学中存在的问题等等。

结束语

在高校中有很多软件管理系统, 教务、财务、人事、就业、图书、资产、档案等等管理系统中分别包含了大量的数据, 通常这些数据对本部门的工作起到了关键的作用, 但这些数据之间需要整合, 转化为数据仓库才能更好地为我所有。我们可以借助数据挖掘工具, 根据不同知识类型, 挖掘出我们想要的数据, 揭示数据潜在的关联和规律, 从而指导决策。

基于教务信息的挖掘能为培养方案的研究、教学质量、试卷质量和课程设置等方面提供了数据依据, 可以为教务管理工作和决策提供指导。伴随着数据仓库和数据挖掘技术的不断进步和在教务领域应用的深入, 相信在以后的工作中必将发挥更重要的作用。

参考文献

[1]W.H.Inmon.数据仓库[M].北京:机械工业出版社, 2003.

上一篇:前进的力量下一篇:继发性腹泻病