模式挖掘

2024-09-07

模式挖掘(精选十篇)

模式挖掘 篇1

关键词:话题演化,演化模式挖掘,话题聚类,Text Rank

0 引言

随着互联网的发展, 网络资讯已进入人们生活中的方方面面, 而网络新闻更以其独特的魅力在众多传统新闻方式中脱颖而出。网络新闻相比于其他新闻方式具覆盖面广、使用率高、传播效率高与亲和力强等特点, 人人可看, 人人可说, 使得它具有更加深远的影响力。对于新闻话题的发展, 从最早话题刚刚兴起时的不成熟, 到现在对话题演变研究的不断挖掘, 新闻话题目前已经拥有了一定的演化规律, 而国内外的研究者们希望通过各种判别分析方式[1,2,3,4,5,6]再加上大量的同类话题的数据统计分析, 总结推导出一套行之有效的新闻话题演化模式, 建立一套新闻话题演化的发展模型。新闻话题的演化模式挖掘对于话题动态演化研究具有重要研究意义和应用价值, 能帮助人们清晰地梳理话题事件的来龙去脉, 直观地展现话题演化轨迹的逻辑结构, 对于政府进行舆情监控以及企业进行情报挖掘都有着十分重要的作用。

中文新闻话题演化模式挖掘研究工作大多集中于国内, 大致分为两类:基于统计学的模式挖掘[1,2,3]和基于逻辑分析的模式挖掘[4]。基于统计学的模式挖掘, 其优势是与事实契合度高, 所有素材源于新闻报道, 得出的结论符合分析内容, 对于话题的结论可直接使用, 针对各个话题得出其特点与热点, 比如说2009山西古交煤矿瓦斯爆炸事故, 分析之后除了单纯的煤矿事故, 还会突出其瓦斯爆炸的事故特点, 有着较强的特色分析能力。但其不足的地方是, 太过于依赖新闻素材, 有时如果报道太过杂乱, 会影响其分析结果, 容易出现热点重复的问题。基于逻辑分析的模式挖掘, 其优势是话题演化形式分析全面, 得出结果准确率高, 利于分析。但缺点是, 分析工作量大, 针对比较成熟的话题分析方便, 但是对于一个新的专题演化模式的挖掘有着较大难度。

本文结合了两种新闻话题演化模式挖掘的优点, 再引入时间模型, 在统计的基础上得出初步结论, 再结合逻辑分析的方式, 添加时间特征, 通过多话题演化模式的对比, 得出相应话题演化模式模型, 增加了分析的准确率, 提高了分析的效率。

1 话题演化模型

话题演化轨迹可以归纳为不同阶段的话题特征所构成的时间序列, 是指一个话题产生后, 随着时间的发展, 从开始发展到高潮再到衰落, 最后直至话题消亡的过程。如图1所示, 一个完整的话题演化过程具有与事件发展的时间顺序一致的演化顺序, 完全符合人类的逻辑思维方式。因此, 针对话题演化模式挖掘问题, 我们首先要解决话题演化阶段表示以及话题特征提取两个问题。

1.1 新闻话题聚类

我们采用话题聚类的方法生成话题演化轨迹中的各个阶段, 以类簇中的特征来表示当前阶段下话题的内容。对文档进行聚类时, 可以根据需要将新闻话题划分成相应数量的类簇。话题演化聚类结束后, 将目标新闻话题相关的新闻文档序列组织成一系列类簇, 每个类簇代表一个话题演化阶段, 而整个新闻文档序列则全面体现了目标新闻话题的演化轨迹。K-means算法是最为经典的基于划分的聚类方法[7,8], K-means算法的基本思想是:以空间中k个点为中心进行聚类, 对最靠近他们的对象归类。通过迭代的方法, 逐次更新各聚类中心的值, 直至得到最好的聚类结果[9]。一般都采用均方差作为标准度量函数, 如公式1所示。k个聚类具有以下特点:各聚类本身尽可能的紧凑, 而各聚类之间尽可能的分开, 输出结果是k个类簇的集合。

它假设对象属性来自于空间向量, 并且目标是使各个群组内部的均方误差总和最小。假设有k个群组Si, i=1, 2, ..., k。μi是群组Si内所有元素xj的重心, 或叫中心点。

假设要把样本集分为S个类别, 算法描述如下:

(1) 适当选择S个类的初始中心;

(2) 在第k次迭代中, 对任意一个样本, 求其到S个中心的距离, 将该样本归到距离最短的中心所在的类;

(3) 利用均值等方法更新该类的中心值;

(4) 对于所有的S个聚类中心, 如果利用 (2) (3) 的迭代法更新后, 值保持不变, 则迭代结束, 否则继续迭代。

该算法的最大优势在于简洁快速, 算法的关键在于初始中心的选择和距离公式, 满足本文的文本处理要求。

1.2 话题特征提取

多篇新闻报道聚类后, 类簇的核心思想 (话题) 是由文中的词项来体现。通过词语间的语义关系分析, 找出最能代表该类簇核心内容的特征词项。为了弥补传统方法 (TF-IDF模型) 只计算文中词语词频而没有考虑词项之间语义关系的不足, 本文通过构建词项间的Text Rank模型[10], 分析多文档间词项的语义关系, 抽取出有效关键词。

Text Rank与Google提出的Page Rank非常类似, 它本质是在以词汇作为顶点、词之间关联作为带权或无权, 有向或无向边的图上进行random walk的过程[11]。Text Rank模型表示为一个带权有向图G= (V, E) , 由点集合V和边集合E组成, E是V×V的子集, 图中两点i, j之间的权重为Wji。对于一个给定的点Vi, In (Vi) 为指向该点的点集合, Out (Vi) 为点Vi指向的点集合。点Vi的分数定义为:

其中, d为阻尼因数, 取值范围为0到1, 代表从图中某一特定点指向其他任一点的概率。在使用Text Rank算法计算图中点的分数时, 需要给图中的点指定任意的初值并递归计算知道某个词语分数收敛, 收敛后每个点都获得一个分数, 代表该点在图中的重要性。需要注意, 点的最后分数不受给定初值的影响, 点的初值只影响该算法达到收敛的迭代次数。根据基于图排序算法的基本理论, 可以在具有语义关系的词语之间连线构建Text Rank模型。根据词语之间的相互“投票”, 递归计算词语分数, 选择分数较大的词语为重要词语, 其中不和任何词语有连线的词语为孤立点。例如, “国家养老保险调整”专题新闻文本的词语序列 (如下所示) , 通过Text Rank模型计算得到词项间的关联关系 (图2所示) 。

保险养老人员单位制度企业事业基金社会保障社保工作参保职工改革退休个人养老金试点管理农民待遇劳动建立农村发放规定机关参加上海推进问题统筹缴纳确保完善实行续保国务院

构建Text Rank模型是根据待选关键词词语之间的语义相似关系大小来决定是否在两个词语之间建立边。因此, Text Rank图是带权无向图, 边的权重为两个词语之间的关联度, 通过词语间的投票递归计算出权重, 关键词的选取按分数序列从高到低选择, 选取范围可以根据需要设置。

2 话题演化模式构建

构建话题演化模式, 我们需要分为两步来进行, 第一步, 构建同类主题不同话题各自的演化模式;第二步, 对各个话题演化模式进行分析与总结, 构建统一主题的演化模式。首先, 我们对剔除噪声后的关键词提取结果进行分析, 看其中是否存在具有代表意义的词语, 例如话题“2009黑龙江鹤岗煤矿爆炸”的聚类结果中存在“医院”“治疗”“心理”“巷道”“弟弟”这几个非常独特的词语, 这几个词语在其他聚类结果的关键词提取中不曾出现过, 而且在该类簇中的Text Rank值很大, 因此, 本文定义其为核心词, 用以表达该类簇的核心内容。同时, 我们结合前期完成的话题时间抽取工作[12], 根据文档的话题时间对聚类结果进行二次整合, 构建针对单一话题事件的演化模式序列。表1给出了话题“2009黑龙江鹤岗煤矿爆炸”的演化模式生成结果。

将同一主题下不同话题 (矿难) 的各个专题新闻进行演化模式序列的一致性对比分析, 在每个演化阶段提取具有相同或相似语义信息的关键词作为该阶段的“共性词”, 然后将这些词组成的集合映射到该话题 (矿难) 相应的演化阶段, 作为该阶段的话题特征, 依次处理各个演化阶段, 进而构建统一主题的演化模式序列。整个处理流程如图3所示。

3 实验结果及分析

3.1 实验环境

本文采用利于分析的典型话题作为实验的原始数据, 数据来源于新浪新闻的专题新闻, 我们选择矿难专题作为测试话题。数据集包括21个专题、2175篇新闻报道, 由于考虑到有些专题报道时间过长、链接失效或是报道相关度较低, 本文对数据进行筛选后选用了其中六个篇幅量适中、报道全面的话题 (“2009黑龙江鹤岗煤矿爆炸”181篇、“2009山西古交发生煤矿瓦斯爆炸事故”87篇、“2010河南平煤集团平禹四矿矿难”58篇、“2010河南伊川煤矿爆炸”46篇、“2011黑龙江煤矿透水事故”66篇、“2011云南曲靖师宗县煤矿事故”97篇) , 其他话题的文档作为参考与分析, 不参与模型构建。

3.2 实验结果

根据本文的方法, 针对六个不同话题事件的矿难专题新闻, 我们得到六个话题演化模式挖掘结果, 图4、图5分别给出了话题“2009山西古交发生煤矿瓦斯爆炸事故”和话题“2010河南伊川煤矿爆炸”的演化模式序列。

生成了话题演化模式序列后, 可以看出并不是每一个话题演化模式的都是一样的, 每个矿难话题都有自己的演化特点, 但是大致都可以分为事件发生、救援工作展开、家属反映、遇难人数与救援结果以及责任追究这五个方面, 同时结合话题时间特征与话题逻辑顺序的分析和理解, 我们得到针对矿难话题的基本演化模式:

同时, 我们以基本演化模式为标准, 对六个矿难话题事件的新闻话题演化轨迹进行了实验评测, 采用聚类算法的准确率来评测基本演化模式的性能, 如表2所示。从实验数据不难发现本文算法得到的基本演化模式具有较好的聚类准确率, 对于特定话题的演化轨迹具有较好的语义表达能力, 符合话题发展的逻辑顺序。

4 结论

本文针对网络新闻话题演化研究的实际需求, 提出一种面向特定话题的话题演化模式挖掘方法, 从挖掘话题演化逻辑的角度出发, 针对特定话题 (矿难事件) 进行话题演化一般规律的深入分析, 对话题演变过程进行阶段化表示, 建立统一的话题演化模式。实验结果表明, 本文构建的特定话题演化模式具有较强的语义表达能力, 符合话题逻辑。

参考文献

[1]赵华, 赵铁军, 于浩.面向动态演化的话题检测研究[J].高技术通讯, 2006, 16 (12) :1230-1235.

[2]Blei D, Lafferty J.Dynamic Topic Models[C]//Proceedings of the International Conference on Machine Learning (ICML) , Pittsbur gh, PA, USA, 2006, 113-120.

[3]Wang X, Mc Callum A.Topic over Time:A Non-markov Continuous-time Model of Topical Trends[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Philadelphia, PA, USA, 2006, 424-433.

[4]赵旭剑, 杨春明, 李波, 等.一种基于特征演变的新闻话题演化挖掘方法[J].计算机学报, 2014, 04:819-832.

[5]郑世卓, 崔晓燕.基于半监督LDA的文本分类应用研究[J].软件, 2014, 35 (1) :46-48.

[6]曾利, 李自力, 谭跃进.基于动态LDA的科研文献主题演化分析[J].软件, 2014, 35 (5) :102-109.

[7]陈磊磊.不同距离测度的K-Means文本聚类研究[J].软件, 2015, 36 (1) :56-61.

[8]徐步云, 倪禾.自组织神经网络和K-means聚类算法的比较分析[J].新型工业化, 2014, 4 (7) :63-69.

[9]Yu Bao Liu, Jia-Rong Cai, Jian Yin, Ada Wai-Chee Fu.Clustering Text Data Streams[J].JCST, 2008, 23 (1) :112-128.

[10]陈宏, 陈伟.基于突发特征分析的事件检测[J].计算机应用研究, 2011, 28 (1) :117-120.

[11]Pearson, K.The Problem of the Random Walk[J].Nature.1905, 72:294.

模式挖掘 篇2

摘 要:随着新课改的不断发展,开放式的教学理念逐渐成为现行教学中的主流理念。引导学生在开放式的课堂中进行自主性的探究学习,已经成为了广大教育工作者首选的教学方式。在高中理科类的教学中,高中生物的教学占据着十分重要的地位。对高中生物教师而言,如何在教学中更好的挖掘教材中的内容,让学生既能立足于课堂,又能进行延伸探究,是广大生物教师共同关注的课题。本文主要就高中生物课堂中开放探究性的教学模式,结合人教版高中生物教材,进行简要分析。

关键词:高中 生物 开放 探究

所谓开放探究式教学,是相对于传统的封闭式教学来说的。传统的高中生物教学中,由于受到应试教育的影响,教师在课堂教学时往往采取死板单一的教学方式。教学过程中,教师的权威地位被夸张性放大,学生的主体地位得不到重视,教学经常陷入到封闭、沉闷的氛围当中。这样的教学往往难以起到良好的效果。新课改所强调的开放探究式教学,是一种以学生为本,围绕学生进行教学设计的教学模式。开放探究教学模式崇尚多种教学方法相结合,多元结构并存的教学理念。开放探究教学模式不仅强调要对学生做到思想开放、资源开放、权力开放,同时还强调了能力开放,互相合作、互相学习的教学特点。其追求的是在这样的教学模式下出来的学生,既掌握了正确高效的学习方法,又具备与他人合作、互相融入的能力,从而让学生得到综合全面的发展,实现教育的真谛。

一、开放教学思想,激发学生兴趣

传统的教学思想,就是“老师讲,学生听”。在这样的教学思想指导下,不仅教学过程中所采用的教学方法死板单一,而且整个课堂也常常变得乏味无趣。学生活跃的思维不仅没有得到很好的培养和开发,反而却因此受到打击和抑制,积极性得不到促进,对教学的参与度也就不高。既然现行的高中生物教学中要求开展开放探究式的教学,那么教师首先就要开放教学思想,激发学生的学习兴趣。

某位教师在教学必修3第六章的“人口增长对生态环境的影响”这一节时,并没有按照传统的教学模式进行按部就班的讲解,而是充分开放了教学思想,引导学生积极的参与到了教学中来。在教学时,这位教师先是向学生阐述了“生态环境”的涵义,并利用多媒体辅助设备为学生放映了一些关于人类对大自然的破坏的纪录片。在解说时,这位教师又强调到:“任何生物的增长都会对生态环境造成一定影响,而这种影响又构成了新的环境。”之后,这位教师安排学生组成学习讨论小组,就“人类数量的增长对生态环境的影响”进行讨论。学生经过一定时间的讨论,纷纷提出了各自的看法。其中大部分学生都提出了诸如“破坏环境”、“挤占野生动物生存空间”、“破坏全球气候”等观点。但是也有少部分学生提出了超前的、超纲的,甚至颠覆性的观点。虽然观点中的内容引起了其他学生的不理解,但是这位教师却鼓励学生发表了自己的见解。这种做法正好刺激了课堂的讨论氛围,不少学生都抒发了更新颖的观点,思维极大的活跃起来。在最后的课堂总结中,这位教师发现,学生对于这节课堂内容的记忆都十分牢固,并且理解也十分深刻。

所谓开放教学思想,就是不能强调教师在教学中的权威性。学生是教学的主体,学生的思想才应该成为教学的主题。教师在教学时,要重视学生观点的表达,尊重学生的思想结晶,鼓励学生书法不一样的观点,充分做到思想的自由性。只有这样,学生的兴趣才能被真正激发。

二、开放教学资源,引导学生探究学习

现行的高中生物教学主要还是立足于教材上开展的教学活动。然而,对于教师而言,真正的教学,应该是超出课堂融入到生活中的教学。学生在课外,也可以通过各种途径收获生物知识。要想实现这样的开放式教学,教师就必须开放教学资源,让学生明白教材只是学习的一种途径而已。

某位教师在教学“基因的表达”和“基因突变及其他变异”这两章的内容时,就采用了开放探究式的教学模式,提高了教学效果。基因工程、遗传学等科学,都属于当今世界的前沿科学。而书本上的知识往往都是几年前的内容,并不具有时效性。这位教师在教学时,先是要求学生以小组为单位各自收集有关教学内容的咨询和前沿知识,并制作成课件为全班学生讲解。在这位教师的引导下,各个小组的学生纷纷通过图书馆、网络、电视等多种途径收集了丰富的资料。在正式的课堂上,各个小组的学生又纷纷上到讲台讲解了自己制作的课件。通过这样的方式,学生学到了教材中没有的知识,不仅对前沿科学的状况有了一个大致的了解,还促进了他们对于课本上知识的学习和理解,更进一步激发了学生对基因学的兴趣,刺激了他们的学习兴趣。在最后的课堂总结中,这位教师又通过讲解让学生进一步领会了,知识不只是通过上课才能学到的道理,从而加深了学生的自主探究学习的意识。

教学资源的开放,让学生学习的范围变得更广,学习的自由度也更高,更能提高学生的学习效率。

三、开放教学权力,让学生主导教学

在高中生物的教学中,要想实现开放探究式的教学,就还需要教师进一步释放教学权力。

如某位教师在教学《植物的激素调节》这一章节的内容时,要带领学生做一个相关实验。为了让学生能有更加深刻的体会,这位教师要求学生以小组的模式合作探究实验方案,并互相评比,选择最优实验方案。相比于传统的学生只要动手的实验课,这样的教学方式无疑让学生在教学中的权力大大提升。学生需要自己制定实验方案,并执行这个方案,教师在这一过程中只担任顾问的角色。这位教师通过这样的教学方式,不仅激发了学生的兴趣,锻炼了学生的思维能力,还实现了课堂教学的优化,让学生更好的学习到了知识。

只有真正开放了教学的权力,学生才是教学的主人。只有这样,学生的学习才是高效的,才是受学生欢迎的。总 结:

高中生物开放探究的教学模式,需要教师开放教学思想,开放教学资源,开放教学权力。只有做到这些,高中生物的教学才能称得上是开放探究式的教学。参考文献:

[1]张建霞.开放式教学在高中生物实验教学中的运用[J].中国科教创新导刊,2008(33)

O2O模式创新有待挖掘 篇3

O2O有多火,看看百度指数就一目了然了。进入2014年后,它的热度持续攀升,无论是互联网企业还是传统企业,整天都将其挂在嘴边。似乎一天不说几回,都不好意思在圈子里混。而且,资本市场上也不忘出来凑热闹,只要是与O2O概念沾边的股票,没有一家不大涨的。华帝股份连续两天涨停,原因是该公司宣布今年将致力于打造O2O体系。

在这场O2O的狂欢盛宴中,O2O俨然成了救世主。但应当看到的是,作为一家连锁型的实体零售企业,互联网是它必须谨慎对待的话题。如何在互联网时代作出适应消费需求的改变,又不会因为随波逐流而陷入泥潭中,都是一个需要破解的难题。

一直以来,传统零售企业在发展O2O的过程中,面临的最大难题是线上和线下渠道之间的矛盾。一般来说,线上运营的产品因减少了实体店、进货渠道、人力等成本,其商品大多都比线下便宜。因此,对于实体店来说,当一家企业不顾线下渠道进入电商平台售卖后,它们怨气十足。原因很简单,当用户蜂拥到网上购物后,线下渠道就彻底变成了“试衣间”。这对于投入大量成本的线下渠道而言,显然是不公平的。

传统企业运营O2O,首先要解决的就是线上与线下渠道之间的利益矛盾。对于这个问题,不同企业有不同的解决办法,苏宁实现线下线下货品打通、同价。而另一家实体零售起家的时尚内衣企业都市丽人的解决办法,是将线下门店定位于生存和发展的根基,而将电商作为实体销售终端的补充。具体运作方式是,当用户在线上注册会员时,它会让用户选择一家线下门店。用户在线上购买商品后,都市丽人会在扣除运营成本后的所有收益,返还给线下门店。

这一模式意味着电商平台只是维持运营,但不赚取利润,利润全部返还下单会员所属的实体店。如此一来就保证了线下渠道的利益,即使它的店面里没有卖出去一件内衣,但用户线上购买的商品,依旧会保证它的收入。在电商竞争日渐胶着的今天,这一创新思维,或许可以给即将进军互联网的传统企业一些启迪。

模式挖掘 篇4

证券公司经过多年的信息化建设和发展, 已经积累了大量的业务数据, 在这些数据中隐含了大量有价值的商业信息, 如何从这些数据中提取出有价值的信息, 并用来指导业务决策, 成为证券客户关系管理当前首要解决的问题。虽然存在一些传统的数学分析工具, 但是随着数据的复杂性和人们对信息有更高的要求, 这些传统的分析工具不能满足人们的期望。这要求证券从业人员作分析决策时不仅需要大量数据资料, 更需要通过数据挖掘发现其隐含的运行规律和未来走势。

数据挖掘技术在证券业CRM中的应用, 就是将证券交易所内实时更新的海量数据及时提取出来, 采用分类、聚类、关联分析等方法, 清洗和变换数据来发现新信息, 及时为证券从业人员做分析决策提供参考咨询服务、分析客户交易行为、掌握企业经营状况、控制证券交易风险, 从而帮助从业人员在证券交易中增强决策的智能性和前瞻性。

一、数据挖掘在证券业客户关系管理中的作用

数据挖掘就是从大量的、不完全的、有噪音的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘与传统数据分析的本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息具有先前未知、有效和可用三个特征。

先前未知的信息是指信息是预先未曾预料到的, 即数据挖掘是要发现那些不能靠直觉发现的信息或知识, 甚至是违背直觉的信息和知识, 挖掘出的信息越是出人意料, 就可能越有价值。在商业应用中, 最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有惊人的联系。

数据挖掘在证券业客户关系管理中的作用主要有:

1. 客户群体分析。

建立数据仓库来存放对全体客户、预定义客户群、某个客户的信息和交易数据, 并通过对这些数据进行挖掘和关联分析, 实现面向主题的信息抽取。对客户的需求模式和盈利价值进行分类, 找出最有价值和盈利潜力的客户群, 以及他们最需要的服务, 更好地配置资源, 改进服务, 牢牢抓住最有价值的客户。

2. 客户价值分析。

客户价值分析主要是通过收入、成本以及风险来确定客户在不同时期的价值。在客户行为追踪的基础上, 分析客户在不同时期的收入、成本、风险, 判断客户的价值, 为制定不同的市场营销策略提供依据。获得这些信息以后, 证券公司就能为客户提供针对客户个人习惯和投资组合的建议, 从而真正做到对客户的贴心服务。

3. 客户流失分析。

根据流失客户和没有流失的客户性质和投资行为, 分析哪些客户的流失率最大, 流失客户的投资行为如何, 客户流失的其他相关因素, 如竞争对手的优惠策略, 国家政策和现行经济运行环境等。通过对客户资源信息系多角度分析, 了解客户各项指标, 掌握客户投诉、客户流失等信息, 从而在客户离开券商之前, 捕获信息, 并通过分析流失客户对利润和成本的影响, 做出挽留客户还是不挽留客户的决策。

4.

通过对行情走势、上市公司的基本资料和宏观微观经济数据、证券领域有关政策和各股资讯等进行统计和分析, 结合客户的操作习惯和持仓比例、盈亏状况等对客户进行风险评估、股票推荐等咨询服务。

二、基于关联规则和模式发现的客户行为模式挖掘

关联规则挖掘的研究是近几年研究较多的数据挖掘方法, 在各种数据挖掘方法中应用也最为广泛。关联规则模式属于描述型模式, 发现关联规则的算法属于无监督学习的方法。一般用四个参数来描述一个关联规则的属性, 如下表所示:

序列模式挖掘指从序列数据库中发现蕴含的具有次序的数据模式, 是想通过在带有交易时间属性的交易数据库中发现频繁项目序列以找到某一时间段内客户的购买活动规律。

定义1:项集 (Itemset) 是由项 (Item) 组成的一个非空集合。

定义2:一个序列 (Sequence) 是项集的有序表, 记为a=a1→a2→…→an, 其中每个ai为一个项集, 一个序列的长度是它所包含的项集。

定义3:设序列a=a1→a2→…→an, 序列=1→2→…→m, , 若存在整数, 使得a1

定义4:给定序列S, 序列数据库DT, 序列S的支持度是指S在DT中相对于整个数据库元组而言所包含序列S的元组出现的百分比。支持度大于最小支持度的k-序列, 称为DT上的频繁k-序列。假定项集中的项由一些连续整数代替, 这样一个项集I可以表示为 (i1, i2, i3, …ij, …im) , 而这里的ij代表了一个项。一个序列s可以表示为, 这里sj代表的是一个项集, 如序列< (3) , (4, 5) , (8) >包含于序列< (7) , (3, 8) , (9) , (4, 5, 6) , (8) >。但是序列< (3) , (5) >不包含于< (3, 5) >, 前者表示项3和项5是先后购买的, 而后者则表示项3和项5是同时购买的, 这充分体现了序列模式的序列特点。

一个客户所有的事务可以综合地看成一个序列, 每一个事务都由相应的一个项集来表示。事务按交易时间顺序排列就成了一个序列, 称这样的序列为客户序列。将一个客户的交易按交易时间顺序排序成T1, T2, …Ti, …, Tn。Ti中的项集定义为Itemset (i) 。这样这个客户的客户序列就成了这样一个序列:, 如果一个序列S包含于一个客户序列中, 则称该客户支持序列S。一个具体序列的支持定义为支持该序列的客户总数。给定一个由客户交易组成的数苦苦DT, 挖掘模式的问题就是在那些具有客户指定最小支持度的序列中找出最长序列。而每个这样的最长序列就代表了一个序列模式 (sequential pattern) 。

定义5:由n个序列模式构成的序列模式集合称为序列模式集, 简称序列集, 记为SP。SP={sp1, sp2, …spn}

定义6:序列集SP的最小支持度为生成sp1, sp2, …spn的最小支持度。在序列集SP中, 虽然每一个序列模式spj都满足序列集的最小支持度, 但是序列模式之间的支持度是有差异的, 这种差异可以用来表述序列模式之间的强弱程度。因此可以用二元组进一步表达每一个序列模式的强弱。

定义7:由n个序列模式sp1, sp2, …spn以及相应的支持度s1, s2, …, sn构成的序列集记为SP′。SP′={ (sp1, s1) , (sp2, s2) , … (spn, sn) }在二元组中含有支持度, 可以理解为每一条序列模式的权重。因此称为含权序列集。

基于由关联规则和序列模式挖掘生成的含权序列集, 构成了网上交易客户行为模式:

BH为一个k的矩阵, 每一行代表一条序列模式, 揭示了投资者所买卖的不同股票之间的前后关联顺序。从第一行到最后一行序列的支持度递减。因为每个序列的长度不同, 取最长的序列的长度为列数。凡是不足最大长度的列均补为零。如果通过客户行为模式进一步分析客户的交易行为, 可以发现, 对于某一个投资者而言, 在证券交易中交易证券品种构成了一个序列s1, s2, …, sn。在该序列中由于持仓状况、个人偏好等因素, sn状态可能与sn-1, sn-2, sn-3等前面诸多状态相关。但是如果我们从投资者整体来考察整个交易数据库的统计分布, 在某一时刻t, 投资者交易证券状态为sn, 在t-1时刻, 投资者交易证券品种状态为sn-1。序列模式挖掘的结果表明, 时刻t的交易证券品种状态sn只与t-1时刻的状态相关, 与再早以前的状态不相关。

参考文献

[1]范明, 孟小峰.数据挖掘概念与技术[M].北京:机械工业出版社, 2007:112-118.

[2]张喆.数据挖掘及其在客户关系管理中的应用[M].上海:复旦大学出版社, 2007:23-28.

[3]李皓, 朱建秋, 朱扬勇.ISCRMS智能化证券CRM系统[J].计算机工程, 2003.

[4]李雄飞, 李军.数据挖掘与知识发现.北京:高等教育出版社, 2006:97-100.

[5]苏新宁, 周军等.数据挖掘理论与技术.北京:科学技术文献出版社, 2008:138-142.

客户潜在资源挖掘 篇5

第一,是我们要对客户足够的了解。

我们要对客户有足够的了解,才能够轻车熟路地从他身上挖掘到我们需要的东西,而不是一头雾水。

按台州银行的习惯,我们会在第一次跟客户开展业务的时候就应该有目的有准备的去了解这个客户的存款水平、主要社会关系。一般来说,客户的日均情况我们可以从银行流水上一目了然,而客户所处的行业、行业地位以及结算方式,则能够让我们对其自有银行流水的潜力也一目了然。

比如:绝大多数项目经理类客户,就不可能给我们带来足够的日均回报,虽然他们的个人流水量看起来很大,但行业模式决定了,他们的存款不可能留存。而超市食品供应商等,你甚至不用看他的银行流水你都可以确定他能够给你带来足够的存款日均回报。至于市场类客户或者说服装类客户,他们的银行流水就具备非常明显的季节性。他们会在每年的5月9到10月,是资金使用的高峰期,而在11月之后到明年年初是他的主要资金会放在银行账户里睡大觉。对这类客户我们就能够针对他们的特征对他们进行资金服务,在旺季放贷款给他们,在淡季要求存款。而且淡季的存款水平往往体现了客户的真实自有资金情况。

至于客户的社会关系,主要是他在该市场或者说行业内的地位。我们往往会挑选在群体中比较有说话权的客户为入手点,只要他看中你了,其他人也会跟着他做。然后就是客户的经营履历,客户一般都很愿意谈自己的奋斗史或者说发家史,在客户起家或者遇到重大事项的时候,往往能够涉及到他主要的社会资源。

而且,关键的是当你足够了解一个客户本身之后,你会发现你已经跟这个客户在业务联系之外初步建立起了一定的关系。他会觉得你是个朋友。那些调查会让他觉得跟谈心谈过一样。当然这里方式方法很重要,我们讲究成熟的信贷员调查的时候给客户的感觉就像喝酒吹牛一样。

第二,给客户制定一定的存款要求,量化考核客户。

我们总是在忙完一笔贷款之后,就有种一切终于结束了的感觉,但其实真正的工作才刚刚开始。不做客户维护,就像种了一年的庄稼,秋天却不去收割一样。

在我们对客户的情况有足够了解之后,应该针对客户的实际情况展开合作,为我们谋取应得的足额回报,这应该是我们算得最精确的事情。回报的事情要在放款前明确的说清楚,多少利息还是多少存款。如果没有达到,绝对要他付出代价,不是下笔惩罚性的利息,就是你给我压存款。不要以为客户会生气,我们这里把客户贷款收掉,客户其他地方没这么好贷的,而且客户的心态也往往都是做生不如做熟,客户会比我们先心虚。(比如我的一个客户,在10月份转贷的时候,意外的接受了1分多的月利,并且压了20%的存款,问题是客户一旦做出了这样的付出,下笔他肯定继续在这里贷,不贷他觉得亏啊!就像谈恋爱一样,付出越多的一方,总是陷得越深。)

而对于我们来说,这就像给客户做规矩,绝对不能手软,否则以后大家就不要做了。都是免费劳动。

第三,帮客户想办法,主动营销客户背后的资源。

当我们从一个客户的行业及结算方式,明确了解他能给我们带来存款回报的局限性的时候。我们就应该主动从了解到他的社会资源中,挑选我们营销的目标。而对客户来说,介绍朋友过来开户,总比真金白银的付高利息要好。这也算劳动报酬所得么,而且是举手之劳。

而有时候,当客户也不方便,或者没有能力营销该社会资源的时候,我们可以只要求客户引荐,后面的事情交给我们就行了。这样客户不会有压力,也会觉得欠了我们一点什么,更有助于以后的合作。

原来台州会以找担保的方式来开发客户,每找一个担保人,你就多了一个客户么。你甚至可以指定客户去找你想要的市场里的客户来给他做担保,从而做到你打开这片市场的目的。

这东西你只要坚持,不知不觉中你就会发现,这个客户给你带来了意外中的良好回报。

第四,跟客户保持足够的联系。

前面说了这么多,到最后盯住客户落实一切才是最重要的。

而人都是习惯性的动物,不管他答应得再好,就算他说的时候真的是这么想的。时候如果没人去催他他肯定不会坚持去做,甚至回去可能就把这件事忘记了。忙起来,以前他是用哪个银行的他还是用哪个银行,就算我们这有优势那个优势,到头来我们是不会有存款的。因为往往客户的上下游也已经习惯了原有银行的结算方式。换个角度想,换成我是客户的话,没人来催我,我也不会坚持,刚开始转型的时候确实是不方便的。但是只要坚持一段时间,新的习惯就会养成了。

这件事情只有我们自己盯着的,帮他网银弄好教会,前两个礼拜要多看他流水多打电话,按季结息了要联系,顺便提一下存款,路过附近记得去看望客户一下,随便聊几句就够了,问下网银弄得怎么样了。然后量化下他的存款,看看是否主要的流水已经在我们这里了。

至于一些存款客户,我们就要逢年过节去拜访一下了,去的次数不用多,但是要么不送礼,送礼就要送得看起来很多。给客户留下深刻的印象。在工作中,我们发现一个现象,我们说朋友是越久感情越好,但其实很多老朋友,我们一年也没联系过几次。我们跟这些客户也是一样的,每年在特定的时候联系几次,时间一长就会给客户你是一个老朋友的深刻印象。而我们也可以选择在客户生日,或者说直系亲属生日或者其他特别日子记得联系一下,将会带来意料之外的效果。因为在现代社会中,就像我们常说的,往往只有移动才记得我的生日,而我们这样做会让客户感觉到我们对他的重视跟诚心。(杜红的例子)

台州银行工作模式简介

一、信贷模式的起源:

台州银行信贷模式核心技术是交叉检验的信贷调查方式,该方式来源于2005年世界银行和国家开发银行引进的德国PIC小额信贷风控技术项目。台州银行作为该项目在中国南方的试点,接受了国开行10亿元资金,以代为经营的模式,与北方的包商银行一起,致力于将该项目学习、改进、适用于中国市场。后逐渐普及到台州的另一家银行(泰隆银行),以便在中国南方市场形成良性竞争环境。

该信贷技术,主要适用于二千到一百万以内的小微企业及个体工商户、作坊主、农户、船舶贷款等,利息为一分两厘九,多为一年期,按月等额本息返还。后普及到台州银行各信贷系统及贷款业务中,成为台州银行立足小微企业市场的核心竞争力。

在该体系下,包商银行和台州银行,常年不良率维持在0.1%到0.3%,以300亿的存款规模做到年净收益15亿元左右,各项指标均达到国际先进银行水平。并且在信贷调查的软信息层面上,做到了在原有技术水平上的改良和超越,并为世界银行所认可及报道。

多年来两家银行在银行家杂志中,分别连续蝉联大型城市商业银行(包商)及中小型城市商业银行(台商)竞争力排名第一。杭州银行为大型城市商业银行排名第二。在宁波银行上市前一直是第三名。

二、贷款调查流程简介:

1、填写贷款申请书,并做申请接待。

在此过程中,客户经理将对客户的基本信息情况,包括行业类型、销售额水平、行业季节性情况、上下游结算情况(应收应付及其周期)、存货情况、设备情况、资产情况、生产经营履历、家庭情况进行初步的了解。并在其过程中通过交叉检验进行初步的检验。

例如:一客户年销售额1200万左右,无明显季节性,应收账款回笼45天左右,上家可以拖欠30天左右。那么其应收账款应该在150万左右,应付账款100万左右为合理水平。(当然,期间任何推理,我们最终都要落实到2个倒2个以上的具体实物来核实该推理,否则都是空的。比如银行流水确认销售额,出入库单及账单确认应收)而存货就要根据其行业特征、备货水平来衡量。

而该客户福建人2002年开始来杭州打工做学徒,2005年开始自己创业初始投入50万,2009年开始生意稳定下来,经营该生意至今。

那么,我们可以认为,该客户初始资金肯定具备社会负债,我们应当关心的是其资金来源与性质。然后按照公式:初始权益+期间利润-期间提款(亏损、归还初始负债、买房等重大支出)+期间追加资金(厂房拆迁、房产溢价等)-折旧=现在及时所有者权益,而该权益应当与表内权益基本相符。通过经营履历的了解,有助于我们发现其可能的社会负债来源。

在基本确认,该客户属于适合,我们开展信贷业务的客户之后,再真正开始信贷工作,该步骤能为信贷员大致了解客户整体情况,并对客户做出初步的梳理,并对接下来的工作做出充足的准备(比如深入了解该行业,侧面信息打听等)。最终确保我们有限的时间花费在有效的工作中。

还有,关键的是,通过以上过程,我们应当了解客户的实际经营状况及其关键风险点,然后按照其关键风险点来安排后期工作。(吴坚案例)

2、资料收集。

与杭州银行相比,台州银行面对小微客户为主,该类客户的财务资料等更加不完全。而我们讲要收集的是,能够证明客户在真实经营该行业的相关资料。比如客户没有营业执照(服装市场客户为例),我们就收摊位租赁合同。没有报表,我们就收出入库单,记账本等。户口本我们要收全。

具体实施中,我们还要分两步,第一步,先让其准备基础资料。第二步,在实地收集出入库单、记账本等关键资料。(现在合同等伪造太简单了),不能给客户准备的时间,要让客户感觉我们就聊了一下,贷款很简单,无防备的情况下,我们才好下手了解真实信息。

3、实地调查。

首先要确认,我们去的地方是否是真实的客户经营场所,这是一切调查工作的基础。(脑白金案列等)

第二查看现场工作情况,小工态度、生产型客户,我们还可以通过了解其生产流程,及其生产力来做交叉检验。了解其开工时间,是否有加班情况,用电量情况,双人调查时一人可以跑开去询问小工收入情况。耗材情况,比如五金加工企业,其铜粉的产生量客观反映了其生产水平,而铜粉也是其一大收入来源,客户不会想到在这里隐瞒你。(当然,你要先通过一些简单的方式来判断该客户说话的习惯,是喜欢夸大的,还是较为谨慎型的,然后对其数据进行适当调整)

第三盘点存货,收集相关资料。大致目测就够了,大点的企业就现场拉他的库存清单。

4、报表编写。

通过你收集的信息编写客户的资产负债表及其损益表,并通过具体数字来完善交叉检验,通常在这一环节会发现很多不平的地方。在此要通过电话跟客户查漏补缺,你会发现很多隐藏的东西。这跟杭州银行,改纳税报表其实是两种概念,杭州银行并未去验证客户所跟我们讲的一切。这样怎么得到真实的数据?

三、工作理念:

在我们看来,一个客户经理,首先应该树立的是他成熟、健康的工作理念。而我们所推崇的理念是,作为一个客户经理,应该像经营自己的生意一样来经营自己的工作,这样才会劳心。我们讲究要驾驭客户,而不是简单的服务客户,服务只是你应该做到的基本项目,而跟客户之间的博弈才是信贷工作真正的乐趣所在。

台州银行工作信条:We need results , not pretext!我们需要的是工作结果,而不是听你滔滔不绝地解释没有完工的理由!

模式挖掘 篇6

关键词:高职;单独招生;职业潜能;考试

中图分类号:G718.5 文献标识码:A 文章编号:1671-864X(2015)03-0185-02

一、高职院校单独招生的现状及问题

自2007年教育部批准4省8所国家示范性高職院校试点单独招生以来,到2013年高职单招的院校已扩大包括100所国家示范性高职院校、100所国家骨干高职院校、各省级示范性高职院校以及国家高职教育综合改革试验区在内的所有高职院校。江西省高职院校单独招生发展相对比较滞后,2010年全国有73所高等职业院校获得单独招生资格,江西省才有2所;2011年,单独招生院校增至200所,江西省才占5所。但江西省高职院校单招招生的发展速度是比较快的,2014年江西省具有高职单独招生资格的院校达52所,当年单独招生录取新生达26506名。

但从总体来看,特别是江西的高职院校单招考试来看,高职单招无论在理论还是实践层面,都存在诸多新的问题和挑战。

一是缺乏理论研究和引领,一些院校对高职单招考试在理念、思想与行动上存在误区。

二是考试科目设置不尽科学合理,与高职教育脱钩、与所报考专业脱钩,有的仍然以语数外文化课考试为主,简单增加面试环节,“知识+技能”考试选拔特色不足。

三是命题的指导思想、考题的设计原则、功能、内容等方面尚未形成完备的体系,单招院校的命题质量还不高,命题设计缺乏创新,设计的考题没有完整体现基础知识、职业素质和专业技能的价值导向。高职单招院校命题大多存在结构不清晰、知识、能力、素质权重不明确等问题,特别是对职业素质和专业技能潜质方面的考查没有进一步细化。

四是评价标准单一,把几个科目成绩简单相加,以总分高低评判考生,有些考生尽管某科成绩特别优秀,很有潜力,因为总分达不到分数线仍被拒之门外。

总之,高职单招特色不够鲜明,尚未走出一条具有高职类型特征的招生考试新模式。要高职院校通过单独招生真正能够选拔适合高职专业学习的综合素质高、能力强、具有创新素质和专业潜质、职业倾向明显的考生,就必须进一步深化高职单招改革及人才评判标准。

二、高职单招考试选拔的理论基础

高等职业教育的培养目标是培养现代职业所需的高素质技术技能型人才,专业设置与学生未来要从事的职业更加紧密,因此,高职类考生在选择专业时必须考虑到自己是否对此专业感兴趣,是否有这方面的职业潜质。但高职院校选拔对象多以文化成绩偏低,特长不明显的考生为主,如何让这些高考文化成绩偏低的考生找到适合自身发展的职业发展方向,是高职单独招生的最终目的所在。

(一)加德纳多元智力理论

美国哈佛大学教授、发展心理学家加德纳认为,人类至少有七种不同的智能:言语语言智力、逻辑数理智力、视觉空间智力、音乐节凑智力、身体动觉智力、交往交流智力和自知自身智力。这七种智力在个人的智力结构中处于同等重要的地位,每个人都同时拥有这七种智力,但它们在每个人身上以不同的方式、不同的程度组合,从而使得每个人的智力各具特点。而我国的高考选拔制度一直以来就是以对数理逻辑智能方面的考核为考查重点,较少注重音乐、节奏、视觉、空间、动觉智能等方面智能的考核。造成很多学生认为读高等职业教育就是高考较差时的无奈选择,使得很多读高职的学生对专业不感兴趣,甚至自暴自弃,这十分不利于高职教育的发展。其实,这不仅忽略了学生的学习态度、学习习惯以及学习环境等因素的影响,更是忽视了多元智能对一个人的影响。

我们运用多元智力理论对高职院校的学生进行分析时,发现许多学生数理逻辑智能相对较差,而空间智能、动作智能等方面较强,具有较强的形象思维能力。高职院校培养的是高技能型专门人才,要求有较好的形象思维能力。

(二)霍兰德职业兴趣理论

兴趣在人的职业活动中发挥着重要的作用。职业心理学家研究指出:一个人一生中选择什么样的职业,兴趣占主导地位,有时甚至比能力更重要。因为在兴趣的引导下,即便是枯燥的工作,他也会忘我工作,并从中感受到无穷的乐趣。

美国职业指导专家约翰?霍兰德(John Holland)于1971年提出了具有广泛社会影响的职业兴趣与职业匹配的理论。霍兰德认为,职业兴趣是决定一个人选择何种职业的重要因素。基于他自己对职业兴趣测试的研究,他归纳了六种基本的职业兴趣类型:现实型(Realistic)、研究型(Investigative)、艺术型(Artistic)、社会型(Social)、企业型(Enterprising)、常规型(Conventional),相应的,职业环境也可分为这六种类型。人们总是会寻找那些适应自己个性、发挥自己技能与能力、体现自己价值以及能令自己愉快的职业。因此,我们在职业选择时,兴趣类型与职业环境类型一致性越强,人职匹配度就越高,个人在职业生涯中就越能获得职业满足感、持久感和职业成就。

在高职单独招生中,我们运用霍兰德职业兴趣理论对考生进行职业测评,帮助考生明确自己的职业兴趣类型,然后选择与自己一致性较高的专业,再进行该专业类型的职业素质与潜能考试,从而有利于发挥考生的优势,考出理想的成绩,同时也能挖掘出考生的职业潜能。

三、高职单独招生考试选拔模式的实践及成效分析

(一)高职单招考试选拔模式

运用加德纳的多元智力理论和霍兰德职业兴趣理论,充分挖掘考生职业潜能,发现考生职业兴趣,探索多元化的高职院校单独招生考试选拔模式,形成“职业测评+专业技能+综合素质”的综合考评选拔模式。

nlc202309040235

我们以江西外语外贸职业学院单独招生考试选拔模式为例。根据霍兰德职业兴趣理论中的六种职业环境类型,我们将已有的四十多个专业归属于六种不同职业环境类型,然后根据不同的职业环境类型特征设计不同的专业知识和综合素质考试试题。对报考的考生(“三校生”、普通高考生、复转军人、企业员工等)先进行职业测评,考生可根据测评结果选择与其一致或相邻的职业环境类型的试题进行考试,这样有利于发掘考生的优势所在,并突出了对考生职业潜质和综合素质的考核。

(二)高职单独招生考试命题设计

高职院校单独招生改革重點在于改革适应高职教育选拔的考试内容和形式,根据加德纳的多元智力理论和霍兰德职业兴趣理论,设计适合高职教育选拔的试题,突出职业能力潜质及综合素质测试,让一直在数理逻辑智能方面的考核中较差的学生能够发现自己的其他特长,并重新找到自信。

1、职业测评测试。根据霍兰德职业兴趣类型测试题,精选了60题,让学生在报考我院之前进行测试,测试内容包括职业兴趣类型、职业能力倾向。此测试只作为学生选取专业和学院录取的参考,不计入分值。

2、专业技能测试。重点考查考生与所报考专业相关的基本素质和能力。根据考生的职业测评结果,把考生划分为几个大类,不同大类设计体现考生不同素质和潜能的考试试题。如针对现实型的考生,在技能测试上偏重机械、电子、物理、化学等方面的知识考核;针对企业型的考生,偏重政治、经济、时事、算术、管理等方面的考核。针对传统型的考生,偏重电脑办公软件、会计、表格、文书等方面的考核等。考试形式为笔试,分值可设为200分

3、综合素质测试。综合素质测试主要考查考生在职业中所需的通用能力,包括观察能力、理解能力、表达能力、动手能力、创新能力、对所学基础知识的运用能力、分析解决问题的能力。试题内容包括人文艺术、基础数学、生活英语、法律道德、心智礼仪等。综合素质测试的题型多以主观题为主,考试形式既可以采取笔试的方式也可以采取面试的方式。分值可设为100分。

下面就综合素质测试命题设计举几个例子。比如“在7分钟内写出1至300这一系列数字”,可以考查考生的“注意力”,这题看似简单,但要长时间保持手脑一致需要高度集中注意力,一开“小差’,就会出错;给出一组没有规律、毫不相干的10个词组,让考生默看40秒,然后默写出来,这是一道考查“记忆力”的试题;“一支铅笔有多少种用途”,则是考查考生的发散性思维能力;试题“分析家用小汽车发展的利与弊,并提出发展建议”,可以考查考生的分析问题、解决问题和批判性思维能力。又如在考查考生形象思维能力中,设计了“数一数这个不规则几何立体图形有多少个面”等考题;在考查考生是否适合职业教育模块中,考题“‘一个敬业的木匠胜过一个平庸的博士’,你能从中悟出什么道理”,这是考查考生对技能型人才的认识,对高职的正确定位,不唯学历。这些试题充分体现了高职教育特点、彰显了高职教育的类型特征。

(三)成效分析

通过单独招生考核,我院2012年共录取了126名学生,经过近2年的培养,单独招生考生表现出较强的实践动手能力、创新能力和社会活动能力。120名学生中,实践考核成绩优79人、良26人、合格21人;53人次获得校级以上各种奖励,其中省级以上奖励15人;39人成为系级、院级学生会骨干和各类社团骨干。但是单招学生的文化基础、学习习惯、自主学习等方面不如普通高考的学生。实践证明,高职院校单独招生改革有助于解决普通高考中唯分是录的弊端,使学生的特长、兴趣和爱好充分展现出来,有利于树立学生的自信心,有利于真正将适合高职专业学习,具有专业潜质的考生选拔出来。

四、结语

高职单独考试作为高职教育的一种选拔形式,还处在改革试点阶段,需在实践中不断反思,在反思中不断探索和改进。只有对高职单招考试改革进行系统整体设计,不断探索和完善多样化的评价模式与多元录取机制,“分类考试、综合评价、多元录取”的招生考试制度才能逐步形成,高职单招考试改革的目标才能实现。

参考文献:

[1]王佩国.高职院校单独招生改革与多元选拔模式探索与实践[J].中国职业技术教育,2011(4).

[2]张智等.关于高职院校单独招生考试模式的探讨[J].继续教育研究,2010(7).

[3]黄斌.高职院校单独招生考试改革的深度思考[J].黑龙江高教研究,2014(2).

[4]梁柱、廖非.我国高职院校单独招生改革试点的现状和趋势研究[J].教育与职业,2009(23).

此论文是江西省教育考试招生“十二五”规划课题《基于挖掘考生职业潜能的高职院校单独招生考试选拔模式探索》的阶段性成果,课题编号为:1331。

数据流频繁模式挖掘技术研究 篇7

计算机通信技术的快速发展和软件技术的广泛应用使人们积累了大量的数据,而计算机硬件技术的不断进步又使大规模数据的集中存储成为可能。但是随着数据积累的不断增长,人们不再满足于从数据的简单查询和统计分析中获得少量信息,人们迫切需要透过数据表面去挖掘蕴含于其中的丰富知识。随着科学技术的高速发展和信息技术的广泛应用,最近几年出现了大量新类型的应用,这些应用的典型特点是数据以序列的形式出现,比如传感器数据、互联网数据、金融数据(股票价格等),在线拍卖以及事务日志(网站访问日志、电话记录日志)等,这种数据形式称为数据流。由于数据流的特殊性,短时间内有大量数据连续到达,这些激增的数据具有海量、实时、高速等特点,而人类处理和分析数据的能力与海量数据相比显得相当有限与无力,怎样使用有限存储空间对这些数据流进行快速处理以获取有用信息,为数据挖掘及其应用研究带来了新的机遇和挑战。因此数据流应用的兴起更加剧了“数据爆炸,知识匾乏”趋势。人们迫切需要从包含海量数据的数据流中提取有价值的信息与知识,数据流的分析和挖掘已成为一个热点研究问题。

1 数据流频繁模式挖掘算法

数据挖掘就是从这些大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取出人们感兴趣的、隐含的、先前未知的、对决策有潜在价值的信息和知识的过程。数据挖掘满足了人们对海量数据进行更深层次分析的需要,不仅提高了人们对于海量数据的理解能力,而且可以透过数据表面提取更多有价值的信息和知识,这些信息可以广泛应用于商务管理、生产控制、市场分析和科学研究等领域。经多年的研究,数据挖掘已发展成为一个庞大的学科,主要包含关联规则、分类、聚类等。

数据流可看作是一个不断增长的d维元组i集合,对任意,各元组的时标为Tl…Ti,且对任意l

数据流频繁模式挖掘可描述为:对于一个有序无限数据流,在有限的存储空间下,通过近似算法对模式的频率进行估计,从而获得满足最小支持度要求的频繁模式。数据流频繁模式挖掘算法按数据处理模型可以被分为:界标窗口模型、滑动窗口模型和衰减窗口模型;按挖掘内容可以被分为:完全频繁项集、闭频繁项集、最大频繁项集和top-k频繁项集。下面对数据流频繁模式挖掘算法的国内外研究现状和水平进行详细介绍。

(1)完全频繁项集挖掘算法

2001年,Lee等提出了SWF算法[2],该算法使用过滤阀值处理每段数据流,产生每段局部的候选项目集,通过扫描整个窗口,挖掘全局的频繁项目集。2002年,Manku、Motwani等提出了Lossy Counting算法,它基于Apriori算法思想,利用近似归纳技术实现数据一次扫描,实现频繁项目的挖掘。2003年,Teng等提出了FTP-DS算法[3],它使用统计回归技术挖掘频繁项集。2003年,Chang等提出了estDec算法,它通过定义一个称为衰减因子的参数,使得较早到达数据流的事务的影响逐渐减弱。2003年,Giannella等提出了一种传统的FP-Tree改造的处理数据流的算法FP-stream,它利用不同时间粒度实现不同时间段的频繁项集的生成工作。2005年,刘学军等提出了FP-DS算法,该方法在借鉴FP-grow算法的基础上采用数据分段的思想,逐段挖掘频繁项集,用户既可以在线获得当前的频繁项集,又可以有效地挖掘所有的频繁项集。2005年,张昕等提出了一种改进的字典树结构IL-TREE,并在此基础上提出了一种启发式算法FPIL-Stream,该算法采用了一种启发式倾斜窗口,当生成新的模式时,它可以更为准确地估计相应的窗口,并可以提供更细的窗口粒度,降低数据的平均处理时间来发现频繁项集。2006年,Yu等提出了false-negative算法,它基于切尔诺夫约束,从高速的事务型的数据流中挖掘频繁项目集,使用运行错误参数剪掉不频繁项集和可靠性参数控制内存。2008年,李国徽等提出了MSW算法,该方法使用SW-tree捕获数据流上最新的模式信息,同时周期地删除SW-tree上过期的和不频繁的项集,还应用时间衰减模型降低历史事务支持数的权重来区分历史事务与最近事务,当用户发出请求,所有的频繁项集被挖掘出来。2009年,HuiChen等提出了REP-stream算法[4],将最近产生的数据流信息增量地维护到RFP-tree中,周期性地删除模式树上过期交易所包含的模式信息以及不频繁的模式分枝;应用保守计算策略去近似计算窗口内模式的支持数,保证模式挖掘无负向错误。

(2)闭频繁项集挖掘算法

2004年,Chi等提出了Moment算法[5],它采用前缀项目树存储、维护结点信息,通过结点类型转换,算法对其进行不同的处理从而挖掘闭频繁项集。2006年,刘学军等提出了一种发现滑动窗口中频繁闭合模式的方法—DSC-FI算法,该方法在FP-Tree的基础上加以扩展,用来维护滑动窗口上的频繁闭合模式。2007年,刘旭等对Moment算法进行了改进,提出了A-Moment算法,该方法采用衰减窗口机制、近似计数估计方法和分布式更新信息策略解决Moment算法过度依赖于窗口和执行效率低等问题。2007年,Ranganath等提出了一个Moment改进算法—CFI-Stream,该方法以基于内存的DIU树为存储结构,维护滑动窗口内的频繁闭合项集。通过对进入或离开滑动窗口的每个事物进行闭包检查实施频繁闭集的挖掘,在稠密数据集上具有较高的时空效率。2008年,Hua-Fu Li等也是对Moment算法进行了改进,提出了NewMoment算法,每个事务的项目用二进制位序列表示,当窗口滑动时,采用位移动技术移去过时的事务,当用户发出请求,一系列闭频繁项集从滑动窗口中挖掘出来。2009年,敖富江等提出了FPCFI-DS算法,该算法把第一个窗口中所有事务所包含的闭频繁项集保存在一棵全局闭项集树GCT中,当窗口滑动时,算法采用更新挖掘方式快速挖掘出当前窗口中的闭频繁项集。

(3)最大频繁项集挖掘算法

2005年,Hua-Fu Li等分别提出了DSM-MFI[6]算法,它们也是基于Apriori算法思想,使用基于前缀树结构存储数据流信息,实现一次扫描完成最大频繁项目集的挖掘。2007年,Mao Guijun等提出了INSTANT算法,算法在内存中维护不同支持度级别的项集,并对项集定义了一些子操作(Sub-operator),当新事务到达时,通过一系列的子操作,直接把最大频繁项集陈列给用户。

(4)Top-k频繁项集挖掘算法

2003年,Golab等提出了数据流滑动窗口的Top-k网络数据包检测算法FREQUENT[7],它仅适合于最频繁的单元数的发现,而未涉及Top-k频繁模式的挖掘。2005年,Metwally等研究了数据流最频繁的K个元素的挖掘算法,但均没有涉及多项集的处理。2006年,Wong等提出了基于界标窗口模型的两个算法Chemoff和Lossy,它是基于静态Top-k挖掘算法Lossy Counting,修改该算法的输出方法,发现Top-k频繁项集。2009年,Hua-FuLi等提出了Top-DSW算法,算法使用一个概要数据结构来维护滑动窗口中Top-k频繁项集的有关重要信息,设计了一个有效的裁剪策略来控制内存中Top-k频繁项集的数目。2009年,敖富江等提出了MTKFP-DS,首先研究一种面向静态数据集的高效Top-K最频繁项集挖掘算法MTKFP,接着研究了基于Chernoff不等式的数据流Top-K频繁项集挖掘算法MTKFP-DS,在MTKFP-DS算法中需要应用MTKFP算法挖掘数据流每个分段中的Top-K最频繁项集。

2 入侵检测应用

入侵检测系统是检测企图破坏计算机资源的完整性、真实性和可用性行为的软件,它能实时监测系统的活动,实时地发现攻击行为并采取相应的措施以避免攻击的发生或尽量减少攻击产生的危害[8]。随着数据挖掘技术的成熟,数据挖掘技术在入侵检测系统中的应用研究获得如下方面的成熟成果:IDS模型、检测模型建立方法、基于数据挖掘的检测方法、攻击特征选择算法、数据预处理方法。近几年来,基于数据挖掘技术分析网络流量和日志数据以发现新的入侵模式在入侵检测系统的研究中已经成为一种趋势。Venkatesh Ganti通过维护增量的数据挖掘模型来存储数据集的当前子集,以检测数据流的进化情况。Ben-David通过数据点的距离度量来检测到达数据概率分布的变化等。

基于数据流频繁模式挖掘入侵检测方法是对经过预处理后的数据集进行挖掘分析,利用最大频繁项集挖掘算法进行挖掘,建立系统和用户的正常行为模型和攻击模型;然后采用Top-k频繁项集挖掘算法思想对各个滑动窗口中的连接记录进行检测和标记,并及时对正常行为模型和攻击模型进行更新。该方法分为训练和检测两个阶段。第一步为训练阶段,包括对系统和用户的正常行为建模和攻击行为建模。训练数据以正常网络连接记录为背景,首先在不包含攻击数据的纯净训练数据集上挖掘最大频繁模式来建立系统和用户的正常行为模型;然后,在含有入侵行为的训练数据集上通过一个滑动窗口来捕获某段时间内发生的频繁事件,建立攻击模型。第二步为检测阶段,该阶段是用训练阶段得到的系统和用户的正常行为模型和攻击行为模型对各站点滑动窗口中的频繁记录进行标记。各站点用一个滑动窗口监视网络流量数据,应用Top-k频繁项集挖掘算法找出其中全局异常频繁的模式,并将其与正常行为模型和攻击行为模型进行比较。依下列规则标记记录:将含有攻击模式的频繁记录标记为攻击记录,将被正常行为模型完全覆盖的频繁记录标记为正常记录,将含有正常行为模型和攻击行为模型均无法确认的记录标记为可疑记录。可疑记录采用增量挖掘做进一步的分析,以发现是否是慢扫描类的攻击。

3 结束语

关联规则是数据挖掘中研究最早也是一个最基本、最重要的问题,而频繁模式的挖掘是关联规则产生的基础与核心,在频繁模式挖掘方面取得的任何进展也会对其它数据流挖掘任务产生重要的影响,因此挖掘数据流频繁模式的研究具有挑战意义。数据挖掘技术在入侵检测系统中的应用一直是数据挖掘领域及信息安全领域的研究热点之一,目前研究大都侧重于建立在对整个数据集进行等同学习的基础上的检测结果受历史数据的影响较大,难以真实反映当前网络数据的行为特征,不适合实时的数据流处理。因此基于数据流的数据挖掘入侵检测方法的研究具有挑战意义。

参考文献

[1]M.Garofalakis,J.Gelirke and R.Rastogi.Querying and Mining Data Streams:You only Get One Look.In the tutorial notes of VLDB,2002.

[2]Lee,C.-H.,Lin,C.-R.,&Chen,M.-S.Sliding window?ltering:An efficient method for incremental mining on a time-variant database.Information Systems,2001,30:227-244.

[3]W.G.Teng,M.-S.Chen,and P.S.Yu.A Egres-sion-Based Temporal Pattern Mining Scheme for Data Streams.In Proc.of the29th VLDB Conference,2003.

[4]HuiChen.Mining Frequent Patterns in the Recent Time Window over Data Streams.Proc in:the10th IEEE International Conference on High Performance Computing and Communica-tions,2009:586-593.

[5]Chi,Y,Wang H,Yu P.MOMENT:maintaining closed frequent itemsets over a data stream sliding window.In:Pro-ceedings of the2004IEEE International Conference on Data Mining,Brighton,UK,2004:59-66.

[6]Hua-Fu Li,Suh-Yin Lee.Online Mining(Recently)Max-imal Frequent Itemsets over Data Streams.In:Proceedings of the 15th RIDE-SDMA Conference,Tokyo,Japan,2005:11-18.

[7]Golab.L.etal.Identifying Frequent Items in Sliding Win-dows over On-Line Packet Streams.SIGCOMM Internet Mea-surement Conference.Miami,ACM.2003:173-178.

VPM:一个就医行为模式挖掘算法 篇8

关键词:医保基金,风险防控,就医行为模式,序列模式,数据挖掘

0 引 言

序列模式挖掘问题是Agrawal和Srikant在1995年研究交易序列时第一次提出的[1]。许多应用领域都涉及到序列模式的挖掘[2]。医保基金风险防控领域中参保人就医行为模式就是一种序列模式。通过对就医行为模式的挖掘,可以得出疾病的发病规律;划分易患人群,提前做好防治工作;还可以筛选出就医行为异常的参保人,为审核监督提供重点监督管理对象,提高审核监督力度和效率。因此,如何挖掘就医行为模式对医保基金风险防控具有十分重要的意义。

就医行为是指参保人在一段时间内到医院就诊的次数。例如,参保人在第1、2、4、6天就诊,可以表示成序列模式<d1,d2,d4,d6>。就医行为模式不同于一般的事务序列模式,它具有如下一些特点。

首先,表示方式不同。参保人就诊往往是突发性的,比如某些人平时不怎么生病,但最近忽然患有某类疾病,就诊次数将会频繁增长,如表1所示。

参保人1和参保人2存在一种相同的就医行为模式:连续4天就诊。但如果仅从di上看,是找不出这种模式的,因为d1、d2、d3、d4显然不同于d201、d202、d203、d204。所以如果仅仅像交易型记录那样记录天数,算法难以挖掘出这种模式。因此必须将交易数据转化成向量形式,某天内用1表示就诊,0表示未就诊。这样我们就能挖掘出<1,1,1,1,0,0,…,0,1>与<1,0,0…0,1,1,1,1,0,0,1>之间的共有模式<1,1,1,1>。

其次,我们找的往往是精确的模式匹配,如<1101>与<1000101>显然是不同的就医行为模式。

第三,由于就诊治疗的阶段性,单条序列中可能含有较大时间间隔的重复模式。例如,<111000…000111…>表示某参保人上个月化疗和本月化疗记录。

第四,就医行为模式以1开头和结尾。在就医行为模式中,1表示就诊,0表示未就诊,故以0开头或结尾的序列是没有实际意义的。例如模式<10101000>等价于模式<10101>,<000101011>等价于模式<101011>。

随着近年来的研究与发展,很多序列模式挖掘算法被提出。这些算法主要分为两大类,一类基于Apriori性质;另一类基于频繁模式增长。代表性的算法有GSP[1]、PrefixSpan[2]。虽然这些算法原则上可以处理更广泛的数据结构,但是它们最初都是针对交易序列模式设计的,难以直接应用到诸如生物、就医行为等序列数据上。因此,这些算法存在一些共同的问题。首先,带有约束的PrefixSpan等算法在投影数据库中查找序列模式时,引入了模式间隔约束,考虑了序列模式间可能存在间隔的情况。例如,针对就医模式序列<1101>和<1000101>,将会得到<1101>这样的频繁模式,但在第二条序列中包含的<1101>模式间间隔了没来就诊的三天<1000101>。从就诊意义上看,它与<1101>存在较大差异。其次,PrefixSpan算法在创建初始投影数据库时,仅仅对单个符号的第一次出现进行投影,而忽略该符号在该条序列中重复出现的情况。因此,如果单条序列中含有重复的序列模式,并且这些模式超过了引入的时间间隔的约束,则这些模式将会丢失。而生物DNA序列、就医行为序列中常常含有这类序列模式。针对生物序列,Yun等提出BioPM算法[3],很好地解决了生物序列模式挖掘问题。但针对就医模式问题,该算法会产生大量重叠投影数据库,降低了算法效率。第三,大部分已有算法没有考虑到分布支持度和局部支持度的区别。多投影策略会造成模式误判,可能重复计算单条序列中的重复模式,从而把局部频繁的模式认为是全局频繁的。例如模式<111>是<1000111000111>中的局部频繁序列,但可能并不是序列数据库中的全局频繁序列。因此需要记录模式对应的分布支持度和局部支持度,用以判断模式是全局频繁还是局部频繁的。最后,无论是PrefixSpan算法还是BioPM算法,得到的模式集中可能会存在冗余,即包含重叠的模式。这类问题并没有得到很好的解决。

本文针对就医行为模式的特点,提出了一个新的序列模式挖掘算法:向量模式挖掘算法VPM(Vector Pattern Mining)。该算法采用二叉树增长的策略,通过建立VP-tree的方式挖掘频繁模式,避免产生不必要的投影数据库,并有效区分分布支持度和局部支持度。分析和实验表明,VPM算法具有良好的性能。

1 问题定义

就医行为数据库D是元组<ID,S>的集合,如表2所示。ID表示参保人卡号,S表示就医行为模式。

如果αs的子序列,则称元组<ID,S>包含序列α。序列α在就医行为数据库中的支持度是数据库中包含α的元组个数,记为supports(α)≥min_sup。给定一个正整数min_sup,表示最小支持度阈值。如果supports(α)≥min_sup,则称序列α在数据库D中是频繁的。

2 VPM:向量序列模式的挖掘算法

2.1 基本概念

引理1 分区问题。

① 设{a1,a2,…,an}是D中所有长度为1的序列模式集合。

D中的所有序列模式可以分成n个不相交的子集,第i个子集(1≤in)是具有前缀[4]为ai的序列模式集。

② 设α是长度为l的序列模式,{β1 ,β2 ,…,βm}是所有具有前缀α的长度为l+w的序列模式。

包含前缀α的所有序列模式的集合,α本身除外, 可以被分为m个不相交的子集。第j个子集(mj≥1)是含有前缀βj的序列模式。

引理1的证明参见PrefixSpan算法。基于引理1,VPM算法可通过建立VP-tree树的方式递归地把问题分割成几个小问题解决,并且序列模式的每个子集也可以进一步划分,从而采用模式增长的方式来产生频繁模式。

定义1 VP-tree 一棵向量模式树定义为一棵有向根树T=<V(T),E(T)>,其中,V(T)是结点集,每个结点v属于V(T),代表一个(或w个)序元的值和它的分布支持度,分别记为v.valuev.sup。E(T)⊂V(TV(T)是(有向)边集。T必须满足约束:∀vV(T),v.sup≥min_sup(最小的支持度阈值)。根据就医行为数据库建立一个VP-tree,其根结点到每个叶子结点的路径序列就是序列模式。

定义2 散列 散列是一种以线性表中每个元素的关键字K为自变量,通过一种函数h(K)计算出函数值,并以这个值作为一块连续存储空间的单元地址,将该元素存储到这个单元中的存储方法。

散列技术可以用来压缩数据库,减少I/O次数。我们根据序列中1的个数将其散列到不同的桶中。如图1所示。

2.2 VPM算法的序列模式产生

例1 设就医行为数据库D如表3所示,最小支持度阈值min_sup=2。

就医行为模式挖掘过程如下:

步骤1 为降低I/O次数,首先将就医模式数据库D中的记录存入散列表V中。由于本例所有序列都含有4个1,故映射到同一个桶中。如表4所示。

步骤2 创建根结点,用值1标记。

步骤3 划分搜索空间。就医行为模式表示成二元向量的形式,其序列模式的完全集可根据2个前缀划分成:(1)前缀为<0>的子集;(2)前缀为<1>的子集。创建根结点的左右子树结点,分别用0,1标记。

步骤4 支持度计数。记录从根结点到该序元的路径10和11,其中10含有1个1,故扫描散列表V中大于等于1的桶地址,11含有2个1,故扫描散列表V中大于等于2的桶地址。这里都扫描4号桶。如果桶中向量ei包含序列10,则vi.sup加1(即使向量ei包含多条10序列,也仅仅对vi.sup贡献了1,从而有效区别分布支持度和局部支持度问题)。统计10序列和11序列的支持度,记为<0:4>,<1:3>,其中,符号<序元:计数>表示从根结点到该序元的支持度计数。如果该序元的支持度计数v.sup<min_sup,则删除该序元结点,并记该序元的父结点该子树为空。

步骤5 寻找序列模式的子集。递归地,所有前缀为<11>的序列模式可划分成2个子集;(1)前缀为<110>的子集;(2)前缀为<111>的子集。分别统计其支持度计数,递归地建立VP-tree,增长序列模式。

步骤6 继续该过程,直到所有叶子结点的左右子树均为空。读入就医行为数据库中所有序列后形成的VP树如图2所示,其中阴影结点表示被删除的结点,因为该序元的支持度小于最小支持度阈值。我们保留VP-tree中叶子结点之间的指针链接(图中虚线所示),这样有助于依次回溯到根结点,输出序列模式。

步骤7 就医行为模式是从根结点到每个叶子结点的路径的汇集。本例中,行为模式为{<1001001>,<11>}。

2.3 VPM算法

根据以上定义和基本概念,下面给出基于频繁模式增长的无候选生成的就医行为模式挖掘算法VPM。

算法 VPM 使用VP-tree,通过模式增长挖掘就医序列模式。

输入 D:就医行为模式数据库;min_sup:最小支持度计数阈值。

输出 就医行为模式集。

方法

(1) 为降低I/O次数,将数据库D中就医序列读入散列表V中。

(2) 按以下步骤构造VP-tree:

(a) 首先创建VP-tree的根结点,以1标记它。

(b) 分别创建根结点的左右子结点,分别以0,1标记之。记录该结点到根结点的路径,存入栈中。出栈,形成从根结点到该结点的序列si,并扫描散列表V,如果散列表中序列vi含有该序列si,则其支持度si.sup加1。统计根结点左右子树的支持度,如果某子树si.sup<min_sup,则删除该子树,并记根结点该子树为Null;如果根结点左右子树均为Null,则该结点为叶子结点,入队列Queue,Queue中用于保存所有叶子结点。

(c) 递归执行(b),直到VP-tree所有叶子结点的左右子树均为空。

(3) 通过调用output_frequencepattern(VP-tree,Queue)生成就医序列模式集。

(a) Stack s ; { 建立初始栈,用于保存从叶子结点到根结点的路径 }

(b) for 队列中每个叶子结点si∈Queue do

(c) repeat

(d) s.add(si) { 将该结点入栈 }

(e) si=si+1{ 回溯到父结点 }

(f) until si== null

(g) repeat

(h) sF+= s.pop( ) { 生成序列模式 }

(i) until s is empty

(j) end for

(k) Result = UsF

(4) 删除序列模式中可能含有的0结尾,然后判断删除后的序列是否是序列模式集中其他序列的前缀。如果是,删除该序列,从而去除冗余。最后输出就医行为模式集。

3 实验分析

3.1 数据集和实验环境

本实验的数据集来自某市医疗保险局提供的就医模式序列数据库。该数据库中共收集了100天内就诊20次以上的192 790名参保人就诊记录 。

实验程序在内存为2G、处理器为Intel P8400酷睿双核2.24GHz的PC机上运行,操作系统为Windows XP Professional。实验程序采用Java语言编写。

3.2 实验结果

实验的目的是对比VPM算法和PrefixSpan算法在不同阈值支持度下得出的序列模式的个数和长度。

实验结果表明,VPM算法得出的序列模式结果集中序列的个数和长度明显比PrefixSpan算法的多,尤其在阈值较小的情况下。此时满足条件的模式大大增加。并且进一步的实验对比表明,VPM算法的序列模式结果集中包含了PrefixSpan算法得出的所有序列模式,表明了PrefixSpan算法并不能获得所有的就医行为模式,遗漏了参保人阶段性就诊治疗所产生的含有时间间隔较长的重复序列模式。而VPM算法能很好地挖掘出这类行为模式。如图3、图4、表5所示。

实验结果表明,针对就医行为模式的特点,VPM算法优于PrefixSpan算法。

4 结 语

本文针对就医行为模式的特点,提出了一个新的就医行为模式挖掘算法VPM。实验表明,该算法优于PrefixSpan算法。目前,VPM算法已被成功应用在某市医保基金风险防控数据仓库项目的数据挖掘过程中,为后续的医保风险防控、决策支持提供帮助。进一步工作我们还将考虑内存建树、数据压缩等问题。

参考文献

[1] Agrawal R,Srikant R.Mining sequential patterns:Generalizations and performance improvements[C]//EDBT,1996.

[2] Jian Pei,et al.PrefixSpan:Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth[C]//Data Engineering,2001.

[3] Xiong Y,Zhu Y Y.BioPM:An Efficient Algorithm for Protein Motif Mining[C]//ICBBE,2007.

[4] Agrawal R,Srikant R.Fast algorithms for mining association rules[C]//VLDB,1994.

模式挖掘 篇9

1 入侵检测技术

1.1 概念

入侵是指任何企图危及资源的完整性、机密性和可用性的活动[1]。入侵检测就是检测“未经授权使用计算机系统”的外部入侵行为和“合法访问系统但滥用其特权”的内部入侵行为,并采取对抗措施。它作为一种积极主动地安全防护技术,提供了对内部攻击、外部攻击和误操作的实时保护,在网络系统受到危害之前拦截和响应入侵,是网络防火墙的有力补充。对各种事件信息进行分析从中发现违反安全策略的入侵行为是入侵检测系统的核心功能。入侵检测模型如图1所示。

用于入侵检测的软硬件组合称为入侵检测系统(intrusion detection system,IDS),它通过收集并分析计算机系统和网络的有关数据来检测入侵行为,有效扩展系统管理员的安全管理能力(包括安全审计、监视、进攻识别和响应),提高信息安全基础结构的完整性。

1.2 分类

目前的入侵检测方法可分为:误用检测(Misuse Detection)、异常检测(Anomaly Detection)。

误用检测是基于规则的检测技术或者模式匹配检测技术,它是将已知的攻击特征进行编码,存入特征库,入侵检测将所监视的事件与特征库中的攻击特征进行匹配,当发现有匹配时,就认为有入侵发生。这种检测的优点是检测效率高,误报率低,缺点是只能检测已知的入侵,对未知的入侵活动或已知入侵活动的变异无能为力,需要不断更新特征库。

异常检测是基于行为的检测技术,是根据用户的行为和系统资源的使用情况判断是否存在网络入侵。异常检测技术首先假设网络攻击行为是不常见的或是异常的,区别于用户和系统的“正常行为”,通过比较被检测的信息与“正常行为”的偏离程度来检测入侵,通过关注异常的信息来分析是否有攻击产生。这种检测技术是假定正常的工作行为模式相对稳定,有入侵发生时,用户或系统的行为模式会发生一定程度的改变。异常检测的优势在于与系统无关,通用性强,它的最大优点是可以检测以前从未出现的攻击方法。异常检测是目前入侵检测系统的主要研究方向。

2 基于模糊序列模式挖掘的网络异常检测

在入侵检测的研究中,以往大量的工作集中在通过统计分析、专家系统、神经网络、模式预测等方法来构建检测系统的正常行为模式。而入侵检测实质是数据分析和知识发现的过程,所以数据挖掘在入侵检测领域极具应用潜力。

网络安全事件本质上具有模糊性,在正常行为与异常行为之间没有明确的边界。通过引入模糊逻辑,用定义在特征属性论域上的模糊集来软化边界,可以在集合元素和非集合元素之间提供平滑的过渡,从而缓解正常行为和异常行为的突然分离问题。将序列模式挖掘方法用在网络异常检测中可以从大量数据中自动地提取出行为模式,而模糊逻辑的引入又可以解决单纯使用序列模式挖掘方法进行入侵检测建模所引起的边界过硬问题。因此,把序列模式挖掘与模糊逻辑相结合用于网络异常检测建模,能够在高层次上挖掘出抽象的行为模式,减少对审计记录的依赖,同时使检测模型更具有适应性,检测精度更高。

2.1 模型简介

本文通过对文献[3]中的模型进行修改,建立图2中的网络异常检测模型。该模型主要包括三个模块,即数据采集及预处理、模糊序列模式挖掘、模式比较。

模型首先进行数据采集和预处理工作,将捕获到的网络数据包,经过数据预处理之后形成审计记录集,确定需要做模糊化处理的定量属性。然后为定量属性确定隶属度函数,计算出每个属性值对应于所属模糊集的隶属度。完成这些处理后,使用模糊序列模式挖掘算法从无入侵的模糊审计记录集中挖掘出所有的模糊序列模式,建立历史行为模式库。同时系统在运行时会产生新的审计数据,模糊序列模式挖掘模块根据它们挖掘出的新的模糊序列模式规则集合,建立当前行为模式库,计算出当前行为模式与历史行为模式的相似度。如果相似度低于预先设定的阈值,就可认为有入侵的行为,或者根据相似度给出系统遭受入侵的程度评价。

2.2 数据采集及预处理

采集网络数据通常的做法是:当网络数据流在网段中传播时,采用特殊的数据提取技术,收集网络中传输的数据,作为入侵检测系统的数据源。利用Tcpdump等工具可以实现网络数据包的捕获。Tcpdump是根据使用者的定义对网络上的数据包进行截获的包分析工具。但工具包输出的数据并不是专为安全目的设置的,所以在使用这些数据进行入侵检测之前必须对它们进行多轮的预处理,提取有价值的特征和度量尺度。经过预处理后,原始的网络数据被转换成了统计记录集合,集合中的记录是由若干基本特征属性值和统计特征属性值组成的。下一步的模糊序列模式挖掘就是在此基础上进行的。

2.3 模糊序列模式挖掘

得到网络连接的统计记录集后,首先将其转化为顾客序列数据库的形式。把目的主机IP地址作为主键,相当于顾客序列数据库中的CID;根据连接起始时间给记录按顺序编号,这个编号就相当于TID。将同一个主机IP上顺序发生的网络行为看作一个序列[4]。

然后对这个数据集上基于时间的统计特征属性做模糊化处理。例如Count(目标主机地址与当前连接相同的连接数)属性是基于时间的统计特征属性,将其看作模糊变量,在其论域上划分low、middle、high三个模糊集合,各自隶属函数表示及示意图如图3。

选取好隶属函数并为每个函数设定合适的参数后,计算每个模糊变量值的隶属度,完成模糊化处理。对每一条统计记录中的每一个属性都进行上述的模糊化处理后,就可以开始进行模糊序列模式挖掘了。

选定一种模糊序列模式挖掘算法,指定最小支持度min_sup,在处理好的数据中进行挖掘,可得到形如的序列模式,其中()为模糊项集。

2.4 模式比较

在得到用户在正常情况下所形成历史模式和检测数据所形成的当前模式之后,需要对两种模式进行模式比较,根据比较结果入侵检测系统的响应单元需要做出相应动作。在此,引入相似度(similarity)函数的概念来衡量不同行为模式之间的相似程度[5]。相似度函数的取值在0和1之间,如果两个比较模式序列完全相同其值是1;如果两个模式序列完全不相同,其值是0。取值越大,说明两个模式序列相似程度越高。计算出相似度后,就可以根据预先设定的阈值来判断网络行为的特征。如果相似度大于等于阈值,则该行为是正常行为,反之是异常行为。

3 小结

由于安全事件常常是与时间相关的,而有些时间统计特征往往是数值型的。因此在网络入侵检测应用模糊序列模式挖掘将十分有效。本文首先介绍了网络入侵检测的基本理论,包括入侵检测的概念、分类及分析技术等。然后将模糊序列模式挖掘引入了网络异常检测,介绍了一种基于模糊序列模式挖掘的网络异常检测模型,并对模型中各模块的工作过程进行了介绍。

参考文献

[1]陈望斌,王力生,廖根为.基于序列模式挖掘的入侵检测技术研究[J].小型微型计算机系统,2004,25(5):878-881.

[2]杨智君,田地,马骏骁.入侵检测技术研究综述[J].计算机工程与设计,2006,27(12):2119-2123.

[3]连一峰,戴英侠,王航.基于模式挖掘的用户行为异常检测[J].计算机学报,2002,25(3):325-330.

[4]马晓丽.模糊序列网络异常检测建模方法研究[D].太原:太原理工大学,2005.

全业务商机挖掘与成功转化模式分析 篇10

1.1 项目背景

上海移动崇明分公司地处远郊地区, 地域面积1041.21平方公里, 分为崇明本岛, 长兴岛和横沙岛, 崇明本岛以农业和旅游业为主要产业, 长兴岛以造船等海洋装备业为主要产业, 横沙岛以农业和渔业为主要产业。南门和长兴岛地区客户相对集中, 属地内基本无商务楼宇, 客户经理配备13人, 全业务发展的主要产品以CMNET接入和电路出租为主。基于崇明地域广、客户分散、资费竞争价格低、网络资源匮乏的特点, 在全业务发展中主要遇到了以下几个问题:

1.1.1 全业务商机在哪里

在全业务商机挖掘中, 长久以来一直存在一个问题, 我们的客户在哪里?哪些客户是我们的重要拓展客户?如何平衡投资效益比问题?这些问题的解决必须依赖于我们了解全业务商机在哪里, 找准目标客户是第一步。

1.1.2 全业务商机如何成功转化

在全业务发展中, 挖掘商机后, 如何将商机成功转化显得尤为重要。如何抓住并激发客户潜在需求, 以达成商机的成功转化, 是全业务发展的重要突破。同时, 商机的成功转化也考验着客户经理的问题处理能力及项目跟踪能力, 必须要求客户经理拥有全面的业务知识及较强的项目管理能力, 分公司在实践中不断摸索, 形成一套流程化的全业务能力滚动提升机制。

基于以上的问题和思考, 要提高全业务商机的挖掘效率和成功转化率, 必须要明确分工, 简化流程, 提高商机的签单率, 提高客户经理信心和能力, 最终实现全业务商机的成功转化, 为全业务发展奠基。

1.2 项目研究目标

(1) 建立基于基站经纬度的GIS地图数据筛选和分析模型。

(2) 建立全业务客户信息数据库的建立和优先级管理模式。

2 全业务商机挖掘的研究思路及实施方案

2.1 全业务商机挖掘数据模型

以基站经纬度数据为依据, 通过GIS地图信息搜集一定范围内的客户信息, 结合行业特点分析和实地走访, 梳理目标客户清单是确保专线可建设、可签单的重要保证, 客户经理不必无序进行全业务推荐, 避免因无传输资源和投资成本过高造成的重复勘测和与客户反复沟通, 以及因网络能力造成无法签单对客户经理的信心打击, 造成前后台不必要的“矛盾冲突”。

2.1.1 确定网络资源清单

对属地328个2G基站及116个室内覆盖站点进行全量梳理, 一一匹配, 结合属地城镇分布情况, 确定城桥、堡镇、长兴三地作为主要目标区域, 选取的原因主要是由于城桥地区为崇明县政府所在地, 是岛上的政治经济中心, 故将城桥地区作为筛选的重要地区, 其次, 堡镇地区作为崇明县内的成熟型经济较发达地区, 是重要的港口城镇, 而长兴地区是具有国家定位的重点战略发展区, 船舶行业主要集中在该地。

结果:按设定3公里的范围过大, 基站间叠盖的情况过于严重, 无法精确定位目标客户, 故不选取此种标准。

2.1.2 以半径为1-1.5公里为标准提取

最终, 确定以基站半径1公里作为选取标准。

2.1.3 确定筛选的维度

由于崇明地区没有客户集中的商务楼宇和工业区, 属地的全业务客户处于较为分散的状态, 但行业特点是比较明显的, 主要集中在政府、造船、农业等主要领域。根据基站1公里范围作为选取标准, 初步筛选出4841家商户信息, 通过对此清单以政府企事业单位、公共服务、公司、私人企业、旅游景点、其他等维度进行筛选, 筛选出共计1187家商户信息, 再根据客户是否存量客户进行匹配, 最终筛选出371家潜在集团客户。

最终, 得出全业务商机挖掘数据模型, 分层次分地区有针对性展开业务拓展。 (见表2:基站对应信息表)

2.2 全业务重点商机筛选清单机制

2.2.1 目标客户的选取标准

全业务重点商机清单以属地主要竞争对手电信的存量大单客户作为重点目标, 结合属地特色, 锁定政府和船舶行业作为重点推进对象, 根据公司性质、规模、收入情况等多维度进行筛选。从156家潜在大单客户中综合筛选出36家重点目标客户。

2.2.2 目标客户的商机挖掘

结合客户经理日常走访, 制定商机客户定期走访制, 通过陌生拜访、电话拜访等多形式对重点商机客户进行关怀, 挖掘潜在客户商机, 宣传全业务营销理念, 提升移动品牌知晓度。

通过定期走访跟踪, 成功策反竞争对手存量客户5家, 累计年信息化收入100万元左右。

3 全业务商机挖掘的实践应用

3.1 全业务商机挖掘数据模型实践

经过精确匹配崇明基站数据444个, 采用1公里半径范围初选, 以地理位置、所属行业类型等维度进行GIS地图数据采集, 崇明全业务潜在目标客户共计371家, 经过客户经理分片区走访梳理, 筛选精确目标客户260家。

3.2 全业务商机转化模型实践

基于精确目标客户数据, 由客户经理根据公司性质、规模、是否存量集团客户等维度判定, 明确需重点沟通客户162家, 经过电话外呼、上门拜访等方式, 沟通了解客户需求、竞争对手、资费及签约时限等信息, 锁定竞争对手大单客户, 获取政府及造船行业重要商机, 建立“全业务重点商机清单”管理机制。包括:崇明县水务局防汛指挥部三级防汛保障视频监控系统, 实现电路出租18根, 专线年收入40万元;上海外高桥船厂IMS项目, 直线固话1000门, 虚拟固话760门, 专线年收入58万元。

4 项目总结及展望

通过全业务商机挖掘机制, 有效减少了寻找目标客户的时间, 提升了工作效率, 客户经理平均发展专线数从3.3根提升至7.4根, 增长率达124%。客户经理发展转型类产品占比从2012年初的40%提升至100%。平均每线工程投资额从2012年的3.2万降为2013年的3万, 降幅达9.4%, 有效锁定目标客户, 提升专线投资回报率。该项目的成功应用, 对分公司提升商机转化率, 提高专线投资回报率, 提高客户经理全业务实战能力等方面起到了积极的作用, 为远郊区域开展有效的商机挖掘提供了一定的方法。

4.1 提升商机转化率

本项目的成功应用, 借助目标客户挖掘, 减少外部建设风险, 有效控制专线建设成本, 平均每线工程投资额从2012年的3.2万降为2013年的3万, 同时提升商机转化率, 商机转化率从原来的20%提升至55%左右。

4.2 提高投资回报率

本项目的成功应用, 有效减少了原本困扰远郊分公司在全业务发展中遇到的投资回报率问题的负面影响, 提高了专线建设成本使用率, 成本使用有的放矢, 有效避免高投入低产出类的专线产品的发展, 加大低投入高产出潜在客户的挖掘能力, 2012年专线投资139万元, 累计新增专线收入242.5万元, 投资回报率174%, 2013年专线投资313万, 累计新增专线收入537.65万元, 投资回报率224.65%, 提高了专线投资回报率。

4.3提高客户经理全业务实战能力

本项目的成功应用, 改变了以往客户经理对转型类产品的惧怕心理, 为其找准目标客户提供了良好的方向, 使每位客户经理都有目标客户, 明确需要了解的竞争信息, 掌握自身网络的支撑能力, 具有较强的报价能力, 截止2013年10月, 客户经理已100%发展过转型类产品。

4.4有效积累客户资源储备

全业务商机挖掘数据模型和全业务重点商机清单的应用为属地下一步传输投资建设提供可靠的依据, 明确客户在哪, 资源就往哪里建的建设原则, 提高网络和市场的协同能力, 下一步将以光交网建设为基础, 结合现有网络数据, 探究如何更有效提取目标客户数据, 提高网络投入的有效性, 缩短投资的回报周期。

摘要:本项目是上海移动崇明分公司创新使用基于目前网络资源条件, 利用GIS地图模型有效分析和筛选目标客户, 建立竞争对手大单客户商机拓展清单, 协同网络资源促进重大商机成功转化, 形成商机挖掘、目标管理、项目实施、直销能力提升的分析模型, 以解决在全业务发展过程中遇到的目标客户不明确、竞争对手信息不清楚、网络协同能力不足等问题, 实现从商机挖掘到商机成功转化的一整套流程制度。

上一篇:国家示范下一篇:机械动力系统