计算机特征数据

2024-08-15

计算机特征数据(精选十篇)

计算机特征数据 篇1

1云计算技术下的虚拟信息资源调度模型设计及特征

1.1系统设计模型

云计算环境你啊虚拟信息资源调度过程, 模型的构建, 需要结合云计算的多元信息资源服务体系, 对相应网络环境构建, 尽可能的将资源的共享逐渐实现, 在直接访问的过程, 做好信息的有效性交互。云计算环境下的基础服务实现, 实现云计算环境下虚拟信息的有效性管理和应用。

云计算环境下, 数据量的访问过程, 相对而言, 注重高效能的读写访问实现, 在系统性能的处理过程, 尽可能的将最高效率的一种访问控制实现, 并做好数据的存储和数据的有效传输[2]。

1.2虚拟信息资源特征

系统的设计过程, 注重资源信息的有效性分布, 尽可能的将虚拟信息资源的一种数据特征逐渐实现, 结合调度数据的基础环节, 做好虚拟信息的系统管理。表示可信度, 信息源用i表示, 其资源调度置信区间, 也即是:

信息源的不同, 将相应命题直接提出, 其中FDR用p表示, 先验数据有N组, 对虚拟信息管理资源的一种共享网络系统构建, 将虚拟信息数据节点分裂记录方法实现, 这种资源先验分布的基本表达, 也即是:

数据点P的应用, 就要结合K距离的形式, 对控件数据对象进行直接的排序。数据对象用s表示, 元素个数用r表示, 序列轨迹用e表示, 关于综合先验信息概率的一种密度函数, 用f (x) 表示:

经过信息资源的调度, 后验分布如下:

基于树形结构设计的应用, 结合之网络分区的设计, 并构建资源信息流信号模型, 将更加准确的数据提供。

2虚拟信息资源大数据模型的模糊循环堆控制算法

对于数据模型的构建, 往往需要做好算法的及时改进, 文章主要是结合一种模糊循环堆栈控制的一种信息特征集成调度算法。

关于算法改进, 主要是结合模糊循环堆栈控制理论, 在节点数据查收过程, 对并查集中的Dn进行间隔粒度的形式进行划分, 也即是通过进行若干个划分之后, 将其划分为子集AK, 其中AK作为并查集, 将

算法的改进过程, 在阶段数据分析过程, 结合间隔力度分布情况, 对数据子集进行划分, 基于模式序列中的虚拟信息判断, 做好大数据统计原理的应用, 进而概要的分析虚拟企业信息情况, 实现虚拟企业信息资源的有效集成和调度。

3云计算技术下虚拟信息资源大数据模型仿真分析

对于算法性能的测试, 结合仿真实验, 通过应用客户端的额形式, 对缓冲内部节点分析, 并将循环堆栈树逐渐找出。叶子结点f位置插入的同时, 结合虚拟企业信息的有效性资源节点分布, 对文本算法有效采用, 做好信息资源的有效性处理。对比算法性能的基础分析, 对不同算法的一种调度成功率采用, 注重资源任务的有效性调度过程, 进而将不同算法仿真性能实现。

相对而言, 在调度成功率的分析过程, 基于EDF算法的调度成功率较高。基于本文算法的应用过程, 更加注重虚拟资源的按数据集成调度成功率的提高, 并逐渐缩短执行的时间。虚拟信息资源管理较好, 将集成调度的一种优越性能逐渐提升。

因此, 通过仿真, 改进后的算法不仅仅显著提高了集成调度的成功率, 同时也缩短了执行的时间, 应用价值较高。

结束语

本文在研究过程中, 目的是将虚拟信息资源大数据集成调度过程数据访问能力和管理能力提高, 提高集成调度成功率, 缩短执行时间。通过基于云计算环境下做好虚拟信息资源特征集成调度模型, 对传统集成调度方法分析, 结合层次分析法和粒子群算法, 做好虚拟企业信息管理存储系统调度, 对信息管理迟滞问题分析。在将新的模糊循环堆栈控制的一种集成调度算法提出, 并结合虚拟企业信息管理资源信息调度网络的一种能量节点设计, 实现模糊循环堆栈的控制, 进而将企业信息管理资源信息调度配置实现, 结合虚拟企业信息管理资源的数据特征融合, 实现数据的集成。通过仿真, 改进后的算法不仅仅显著提高了集成调度的成功率, 同时也缩短了执行的时间, 应用价值较高。同时也应该注意到由于本文在研究过程中本身知识存在的不足, 研究结果不够深入及全面, 还需要广大同行共同努力, 进一步优化云计算技术下的虚拟信息资源大数据特征集成调度研究结果。

摘要:本文在算法的应用过程, 将虚拟资源大数据的一种集成调度成功率逐渐提高, 缩短执行的时间。在云计算下的一种虚拟企业信息系统应用过程, 做好调度模型的合理设计, 体现更好的应用价值, 为云计算技术下的虚拟信息资源大数据特征集成调度实现机制提供相关参考依据。

关键词:云计算技术,虚拟信息资源,大数据特征,集成调度

参考文献

[1]宋霞, 李莉.网络环境下医院图书馆信息资源开发与利用[J].医学信息学杂志, 2012, 33 (6) :78-80.

数据的四个特征 篇2

二、分散性

数据的分散性,具体表现在两个方面。 1、没有固定发生地 数据没有固定发生地,因此,需要多渠道采集数据,除了上网、图书馆查资料、还要留意电视、杂志等媒体的信息,关注统计局、行业协会、研究机构的数据或者直接做市场调研。 2、零散分布,相互关联才完整 数据是零散的,真正能还原数据的完整性,并充分利用数据的,都是勤于思考,努力寻找数据关联性的人。 在旧社会的解放区,人人都听到,河北省出了一个白毛仙姑,但是谁也没有去琢磨,当时只有20岁的贺敬之琢磨出来了:这叫做旧社会把人变成鬼,新社会把鬼变成人。于是他就写出了不朽的名著叫做《白毛女》,正可谓“人人之所见、人人所未思”。

三、概率性 什么是概率性?简单理解就是看似结果不确定的事情,多次重复,就会显示出一定的规律性。 比如我们抛硬币。抛5次、10次,到底有几次正面向上不好说,但若抛几百次,几千次,正面向上的可能性就稳定在50%左右。 有一个生产装汽水、装啤酒的塑料箱的小厂厂长,了解了数据的概率性,就把北京邮政编码本找来,找到北京130个单位,发了130封信,结果就回来1封,让他拿着样品过去看看,概率够低的。这个厂长怕别人搞不好,就自己夹着箱子去了。这家单位在4楼,厂长把箱子递过去,那老兄看都没看,一推窗户,‘磅’的一声,就给扔出去了。然后那老兄就往下跑,这厂长就在后面追,到了楼下,一看这箱子,一点没坏!那老兄说:“行!这箱子挺结实的,定货!”半年的买卖就有了。玩的就是概率。 数据的概率性告诉我们:成功=努力+等待。

四、再创性 所谓再创性是指我们所看到的数据只是一种现象和启示,不同的人会得出不同的结论。而要想透过现象看本质,需要用发展的眼光看问题,通过深入的分析,找出隐藏在市场现象背后的机会。 例如,二战后,松下幸之助开始研制一个非常不起眼的家庭用电机,好多人嘲笑他,说电机都是工厂用的,你这电机家庭干什么使呢。但是,松下幸之助看到了家用电机的发展,他说:‘现在是零,将来就是无限。’用发展的眼光看问题,才能再创性地挖掘机会。 再讲个故事:有甲、乙两个推销员,同时到非洲的一个岛国卖鞋子。这个岛国里人人都光着脚丫。甲推销员一见到他们都不穿鞋,于是认为鞋子在这里没有销路;而乙推销员将数据进行再创,看到他们不穿鞋,于是拿着鞋子来做调查,经调查发现:这里的人之所以不穿鞋,是因为他们的脚都特别宽,而市面上的鞋太窄,他们穿不进去。于是他建议公司生产出专门适合这个岛国的鞋子。此外,他还把尺寸合适的鞋子送给当地的酋长,酋长一穿鞋,感觉舒服极了,而老百姓一看酋长都穿鞋了,他们也想穿。等到老百姓也想穿,就有市场了,原来都不穿鞋,现在人人都要穿鞋,于是乙推销员让鞋子很有销路。这个故事说明,数据只是现象和启发,只有深入的分析,才能再创性地挖掘机会。 以上就是数据的四个特征:时效性、分散性、概率性、再创性。 了解数据的四个特征,对于我们的数据工作具有启发。例如,数据采集就要充分考虑到数据的这四个特征: 基于时效性,数据采集要有项目周期; 基于概率性,数据采集要有抽样设计; 基于分散性,针对不同的数据来源要有不同的采集方法和问卷设计 基于再创性,要对采集到的数据信息深入地分析和解读 数据除了这四个特征外,还有没有其他的特征?很想听听你的想法:)

计算机特征数据 篇3

【摘 要】随着计算机技术和应用飞速发展,互联网上的数据每年将增长50%,网民数量也成倍的增加,再加之全世界其他各行各业每分每秒都在制造着大量数据。“大数据”的概念逐步被人们所重视,本文提出了一种大数据的多维度特征表示方法(BDDP),并且积极探讨了这种表示方法在互联网中的应用,比如:招聘信息挖掘、移动APP的广泛利用。

【中图分类号】TP393.4【文献标识码】A【文章编号】1672-5158(2013)07-0117-02

1、研究背景介绍

大数据具有信息体量巨大、数据类型繁多、价值密度低,商业价值高、处理速度快的4个“V”特点。[1]大数据的概念一经提出,科学研究者就发现大数据技术的战略意义并不在于对掌握庞大的数据信息而欢欣鼓舞,而在于对这些含有意义的数据进行专业化处理,即提高对数据的“加工处理能力”体现数据的“价值”。本文认同,在大数据时代下,仍将是以数据为中心的SOA模型占领主导地位。故本论文侧重对大数据本身的处理,而并非对其存储等架构技术[2]做过多的探讨。本论文提出了大数据的多维度处理方法,将互联网上的大数据进行整合处理,并对其应用到互联网应用中提出了憧憬和建议。

2、 大数据的多维表示方法(BDDP)

2.1 互联网应用中的大数据

2.1.1 互联网中的大数据定义

互联网中的大数据目前还没有很明确的定义,本论文特指其是:由互联网产品或者网民产生的大量数据。如:商品信息、商品价格、用户信息(位置、好友信息、生活信息)、 音频、视频、图片、网站管理日志、用户登录日志 、社交网站中的聊天记录、博文等等。[3]

2.1.2 互联网用户产生大数据的方式

目前,互联网用户的主要接入媒介分为:PC和手机、智能平板等移动和不可移动终端。[4]加之互联网应用包括:企事业信息门户网站、百度等搜索引擎、新浪等新闻网站、APP应用商城、阿里巴巴等电子商务网站、社交网站、腾讯微博、腾讯微信、移动互联网应用等。因此本论文认为,大数据产生方式有以下:

1) 新闻、企事业单位网站的每日新闻、政策公布

2) 博客用户针对新闻事件的讨论、引用

3) 移动APP用户信息汇总(移动终端触摸行为)

4) 电子商城用户行为(鼠标点击行为)

5) 社交网站用户的交流与社交关系

2.2 BDDP数据建模

2.2.1 BDDP建模的依据

互联网大数据的产生方式是可以根据2.1.2中进行划分的,因此能够准确的了解并掌握不同数据的特征与特性。这些数据可以是结构化的、半结构化的、非结构化的。

但是这些数据的产生都是基于为用户服务产生,并且由于用户不同的参与行为导致数据急剧增加,因此用户行为分析,[5]可以帮助我们进行BDDP数据建模。另一方面,互联网应用供应商性质,也是决定数据性质的一个关键因素。

2.2.2 BDDP建模算法

1)以新闻事件为中心的大数据产生模型

对某一新闻头条为中心的大数据产生进行建模

第二层微博、微信、QQ推送记录为第二层数据

第三层各种互联网用户产生的行为记录为

我们还可以在每一层数据上加入时间维和地点维,这样我们不仅可以检测到该条新闻的传播影响力,而且可以很清晰的查看到该头条新闻在某一时所产生的影响,便于新闻归档,方便以后查阅。

2)移动互联网APP为中心的大数据产生模型

对某款新的手机APP为中心的大数据进行建模图2 典型的APP事件流动模式

根据上图,本论文将APP产品数据记录建立大数据多维特征数据

第一层数据

第二层数据

第三层数据

同理我们可以在每一层数据上加上时间维和地点维,便可得到特定时刻某个APP产品的用户数量。

综上所述,以上仅是两种典型的模型,不足以代表所有互联网大数据的产生模式。但是整体看:移动互联网大数据一致可以分为三层、最多四维的特征数据,而最后一层数据通常又是以一个中心向外辐射的特征数据集,由于辐射数据集的复杂性才使得互联网大数据的处理和挖掘变得异常困难。但是上述的大数据的多维度特征数据维度较少,定义精确,可以那个多层次关联规则数据挖掘算法,[6]以较高的效率实现。

3、 BDDP在互联网中的应用

移动互联网的发展,离不开用户的支持。现在很多互联网企业都是利用高浏览量来赚取广告费用。掌握大量数据、分析用户消费行为、引导用户消费已然成为目前各大互联网企业的重点研究领域。

前程无忧,应届生求职网等以发布招聘信息为主的招聘网站,它并不为用户提供任何职位,而是求职者和招聘单位的一个沟通桥梁。通过点击率赚取利润,这是一种典型的以新闻事件为中心的大数据产生模式。

近期,百度发布了“明星脸”,是一款手机终端的APP[7],目前该APP功能较单一,就是支持用户上传照片,然后识别与用户相似的明星脸。其实这就是第二种大数据产生模式的一个应用。其发布时间是2013年愚人节那天,经过APP为中心的数据产生模式,很快就有了大量用户关注。

从上述的分析可以知道,很多互联网公司是凭借大量用户、拥有大量数据,靠着模式创新而不是提供产品来获得利润。因此掌握互联网大数据多维特征数据,有利于互联网企业准确定位,建立正确的盈利模式。

4、 结束语

参考文献

[1] 百度百科 大数据词条 http://baike.baidu.com/view/6954399. htm 2013-4-5

[2] 王珊,王会举,覃雄派,烜周.《架构大数据:挑战、现状与展望》 计算机学报Vol.34 No.10 Oct.2011

[3] 199IT推荐文章,2012年中国移动互联网发展历程回顾,2013-4- 3

[4] 刘三德.互联网大数据应用之二:用户行为分析 速途专栏,2012-6-10

[5] 王璐,唐红.移动互联网用户行为分析,中国知网Vol.11 2012

[6] 程继华,施鹏飞.多层次关联规则的有效数据挖掘算法 软件学报Vol.9,No.12,Dec.1998

[7] 百度百科,明星脸词条,http://baike.baidu.com/view/10370916. htm 2013-4-5

计算机特征数据 篇4

流动人口指离开户籍所在地的县、市或者直辖区,以工作、生活为目的异地居住的成年育龄人员,对某个城市而言,包括流入人口和流出人口,人口的流入和流出情况在一定程度上反映出当地的经济发展情况,也对当地造成一系列的社会经济影响,包括人力资源的分布变化、对公共设施配备的需求增加、对城市建设的影响等。目前常用的流动人口统计方法主要包括人口普查、人口抽样调查、构建流动人口信息平台等方法,缺乏实现快速动态监测、短周期内流动人口规模测度统计的有效方法和策略。若要对某城市实现以上统计目标,需实时获取城市范围内所有人员有关原户籍、现所在地等个人信息,传统方法很难在短时间内获取相关数据,而这对电信运营商来说却是易于反掌,原因在于移动的基站系统和实名制注册要求。据工业和信息化部统计,截止2015年4月,我国移动用户数总规模接近12.93亿户,而全国总人口为13.6亿人,移动电话普及率已达95.07部/百人,接近人手一部手机。对于流动人口而言,无论其流动方向而言,总会通过移动通信与家里留守的亲人保持联系,这使得流动人口的统计特征与移动通信数据保持基本一致,为应用电信大数据统计流动人口提供了较强的理论和数据支持。

二、电信大数据的类型分析

电信运营商的数据具有十分宝贵的研究价值,包括用户身份信息、设备终端数据,出于对在网客户进行服务计费的需要,运营商实时记录用户上网数据、所在位置数据、通信数据等内容。

(1)用户身份信息:包括用户姓名、年龄等个人信息,业务订购,积分获取等数据。在逐步实施用户实名制之后,运营商拥有了较为准确全面的用户个人资料,身份证号信息提供了用户的出生地信息,是进行流动人口统计的主要数据基础。(2)设备终端信息:主要记录用户终端的数据信息,包括品牌、型号以及手机终端的性能信息。(3)用户行为数据:记录用户的通话、数据上网、收发短信等行为,以通话为例,记录是否主被叫,通话时间、时长,是否漫游,对方号码归属地等信息。由于流动人群大多数存在频繁与户口所在地进行通信的现象,因此通话行为数据可被用来作为统计流动人口的依据。(4)用户位置数据:为保证用户能接打电话,手机终端需要与移动基站不停地进行呼叫通信,运营商可根据通信基站确定用户所处的大致范围,而随着用户位置的改变,网络会进行基站切换和位置更新,这就形成了特定时间内用户位置的移动轨迹。研究检测用户在某个时间范围内的位置变化也是流动人口研究的统计依据。综上所述,电信用户入网登记的身份信息,在网期间所产生的行为数据和位置数据对统计流动人口有重要的应用价值。

三、流动人口电信数据的表现特征

对某一特定区域而言流入人口和流出人口,在身份信息、行为数据和位置数据方面表现出不同的数据特征,以下将分别进行分析:(1)流入人口的数据特征分析。1、身份信息:实名认证客户的身份证信息中前六位所对应的出生地区域代码与电信运营商所在地不一致,可根据其统计流入人口的来源地区分布;2、位置信息:在春节、五一或国庆等节假日期间,出于与亲友团聚的目的,运营商检测到的流入人群所处基站位置信息发生明显变化,显示区域与身份信息所在地一致;3、用户行为数据:流入人群与其身份证记录的外地区域客户有频繁的长途通话、收发短信等行为。节假日期间,流入人群在身份证显示区域有漫游通话的情况。(2)流出人口的数据特征分析。1、位置信息:流出人口的身份证出生地信息显示为本地;2、位置信息:在春节等节假日期间,流出人口有回流情况,即所在基站位置与出生地一致;3、用户行为数据:流出人口与本地区域客户有较高频率的长途通话;节假日期间,客户漫游地区与本区域一致。

总结:电信运营商在提供移动通信业务的过程中,获取了海量真实的客户历史数据,客观反映了用户的真实身份信息、位置信息和消费行为,结合流动人口的消费、移动等行为特征,本文研究分析了流入、流出人口电信数据的特定表现特征,为进一步应用电信大数据统计流动人口数量提供了参考依据。

摘要:我国流动人口呈现出规模持续扩大,人口结构日益复杂化的趋势,但是目前的流动人口统计方法明显滞后,不能满足各级政府和社会各界对流动人口数据的需求,亟待结合大数据分析方法进行改进。而随着智能手机等移动终端的普及,电信运营商获取了用户身份、通讯记录、地理位置等海量客观数据,本文将结合电信运营商获取的数据信息分析流动人口所表现出的数据特征,为统计流动人口提供判定思路。

关键词:电信大数据,流动人口,价值分析,判定

参考文献

[1]智勇,盛昭翰.基于移动通信信息资源的人口流动趋势研究[J].山东社会科学,2009(11).

[2]Liu P.电信行业中的大数据.电信网技术[J],2013(8).

计算机特征数据 篇5

2. 选择“数字”选项卡,选中“分类”下面的“自定义”选项,然后在“类型”下面的文本框中输入2523030000(注意:后面有几位不同的数据就补几个0),单击〔确定〕按钮即可。

3. 在单元格中只需输入后几位数字,如“2523034589”只要输入“4589”,系统就会自动在数据前面添加“252303”。

也可以先输入数字,再选中单元格区域设定数据格式,可以得到相同的效果。

★ 绝秘:在Excel中快速输入数据

★ 教你用WPS文字快速输入商标符号

★ 搜狗输入法怎样快速输入人名?人名智能组词模式

★ EXCEL 使用共享工作簿进行协作

★ 用好Excel共享工作簿能提高工作效率

★ 毕业留言经典簿

★ Excel函数与数据有效性配合快速填通知书EXCEL 函数

★ 数学教案-第三章 生活中的数据

★ 浅谈电话行销中的数据清洗

计算机特征数据 篇6

随着数据挖掘技术的不断发展, 数据挖掘软件逐步成熟, 数据挖掘成果日益丰富, 并运用到管理决策、经济发展趋势分析等多方面。与此同时, 由于计算机运算能力的提高、计算机存储量的数量级增加, 个人已经初步具备了进行数据挖掘所需的数据源和高运算能力的电脑。因此各行各业的人都希望通过运用数据挖掘软件对自己的数据进行发掘分析, 从而获得有效的信息。

但是由于数据挖掘算法多达上千种, 它们适用于不同的数据挖掘类型, 对不同的数据集挖掘效果也有很大差异。对于非数据挖掘专家的普通用户而言, 选择适合自己数据集的算法非常困难。国内外专家的大量实验已经验证, 同一个算法在相似数据集上的挖掘效果相似。而对很多算法的效果评估是基于各种国际标准数据集的。如果研究者能够知道自己的数据集与标准数集的相似程度, 并选择在相似的标准数据集上表现良好的算法来对自己的数据集进行挖掘, 将更容易获得满意的挖掘效果。

因此, 数据集的相似度判断便成为了一个关键点。数据集的相似不应该是简单的内容形式相似, 比如同样是文本数据, 因为同样内容形式的数据集可能在不同类型数据项的分布上有着巨大区别。数据集特征是指能反应该数据集自身数据统计特点的一些指标, 是对整个数据集而言, 用于确定数据集的整体特点。因此根据数据集特征来比较数据集之间的相似度, 将具有较高的准确度。

2、数据集特征概述

数据集特征应该是能反应数据集自身的数据特点的一些指标。这个特征有别于用于数据挖掘中的分类特征。数据挖掘过程中的特征提取和选择是对数据集的内容而言, 分析对象是数据集中的属性和记录值, 提取的特征用以为各条记录进行分类。而数据集特征是对整个数据集而言, 分析的对象虽然也关系具体的属性和记录, 但是提取的特征是这些属性和记录的整体性描述, 用于确定数据集的整体特点。

数据集特征其实是元学习的一个很小的领域[1]。数据集特征可以分为几个不同的种类:包括标准统计和加强统计[2]。标准统计描述的是数据集的性质和数据集中变量的性质。加强统计分为两个方面, 一个是对表示数据集值域的数值属性空间特点的描述, 另一个是对数据集的名称属性特点的描述。国外已经有很多学者、机构从事数据集特征提取研究, 并提出了多种特征提取的方法和特征度量, 如时间序列的长度 (LEN) [3]、前5个自相关的评价绝对值 (MEAN-COR) , NMSE等。

3、数据集特征提取及比对

3.1 特征度量选择标准

为了支持数据挖掘算法的选择, 应该选取对数据挖掘效果影响较明显的特征度量来进行提取。选择的数据集特征要符合数据挖掘功能的特点。因为数据集的不同特点对于不同功能挖掘算法的效果影响程度是不同的。如记录数、属性数会影响分类的速度和精度, 离群点分布会影响聚类的效果等。分析了各种度量对数据挖掘效果的影响程度, 确定特征的提取应该侧重以下几个方面度量:数据集的大小, 数据的中心趋势, 数据集属性分布, 属性的离散程度和不同属性间的关联程度。

同时对特征度量的选择要注意以下几个问题:

第一、特征要是客观可靠且有区别度的。这样才能避免主观分析对特征提取的影响。如果由专家主观提取特征不但费时, 而且可靠性并不高;

第二、参考文献中其他研究者对各种数据集特征的介绍, 最好是经过他人实验的, 有效的特征。因为特征提取涉及很多复杂的统计学算法, 要了解各种算法的数学理论并在理论基础上推导出某个统计特征在描述数据集的某方面特性准确, 基本是不现实的。现在我们所运用的很多算法或特征值, 评价它适合某些任务, 都是建立在大量实验基础上的, 而并不能用数学理论证明它的有效性和本质含义;

第三、选择的数据集特征是可实现的。这个可实现是指计算机能在有效的时间内通过运算获得。作为为用户推荐算法中的一个环境, 提取特征应尽量避免大量耗时。

3.2 适用于数据挖掘的特征度量

基于以上几个因素, 本研究选择了5类共6个特征度量进行提取:

(1) 数据集的大小用样本量 (quantity_of_examples) 来度量, 一个样本包含一组属性值, 样本量是数据集样本个数以0.1为底的对数。由于样本个数值区间很大, 有的数据集样本个数只有几十个, 有的却有数千个。为了避免单个指标对整个相似度影响程度过大, 我们采用对样本个数取对数, 在不改变样本量单调性的情况下, 把样本量指标的值控制在一个较小的范围内。

(2) 数据集“中心” (centre_tendency) 最常用、最有效的数值度量是 (算术) 均值[4]。设x1, x2, …, xn是N个值或观测的集合, 如某个属性的所有值。该集合的均值是-x=∑xi/N。与样本量一样, 对数据集均值取对数, 把中心趋势的值控制在较小范围内。

(3) 数据集的分布特性是指各种不同属性或特殊值在数据集中的比重, 包括:

符号属性比例 (prop_symbolic_attrs) =符合属性个数/总属性个数

缺失值比例 (prop_missing_values) =缺失值个数/总数据个数

(4) 用平均联合熵 (avg_joint_entropy) 来度量数据集的离散程度[5]。在信息领域, 熵是衡量不确定性的一个随机变量, 是常用的离散化度量之一[6]。值域为{x1, …, xn}的离散随即变量X的熵H (X) =E (I (X) ) 。这个E是期望值函数, I (X) 是X的自信息, I (X) 本身是个随机变量。如果p表示X的概率质量函数, 则熵H (X) 的定义如下:

其中b是对数的底, 通常为2、e、或10。

联合熵度量的是在一个有两个随机变量的系统里的熵的量。H (X, Y) 表示随即变量X和Y联合的系统的熵。在计算联合熵时, 要考虑到每一对变量 (X, Y) , 每一对变量同时发生的概率用p (x, y) 表示, 联合熵H (X, Y) 定义如下:

如果H (X, Y)

(5) 用平均互信息量 (avg_mutual_Information) 来度量数据集不同属性间的依赖性[7]。在概率论和信息论中, 两个任意变量的互信息量是度量两个变量间相互依耐性的量。通常对于两个非连续变量X和Y, 对信息变量的定义如下:

其中p (x, y) 是x和y的联合概率分布, p1 (x) 和p2 (y) 是X和Y各自的边际概率分布函数。

对于连续性变量的情况, 用二次积分代替求和, 定义如下:

这里的p (x, y) 是X和Y的联合概率密度, p1 (x) 和p2 (y) 是X和Y的边际概率密度函数。

平均互信息量是互信息量I (xi;yj) 在联合概率空间P (XY) 中的平均值, 它克服了互信息量的随机性, 是一个确定的量。互信息量也可以通过计算信息熵来得到:

3.3 数据集特征比对

提取数据集特征是为了判断数据集之间的相似度。一组数据集的特征也可以看作一个向量, 所以数据集的相似度判断本质上是向量之间的距离计算, 距离最小的两个向量代表的数据集相似度最高。

K最近邻 (k-Nearest Neighbor, KNN) 算法, 是一个理论上比较成熟的方法, 也是最简单的机器学习算法之一。KNN方法主要靠周围有限的邻近的样本, 而不是靠判别类域的方法来确定所属类别的。

我们将k近邻算法的思想运用到数据集特征对比中来, 把已有的所有数据集作为样本集, 对于新的用户数据集, 考虑在实验数据集中与该新数据集距离最近 (最相似) 的K个数据集, 根据这K个数据集所属的类别判定新数据集所属的类别, 具体的算法步骤如下:

(1) 对新数据集提取特征值, 根据特征值重新描述训练数据集向量;

(2) 在训练数据集中选出与新数据集最相似的K个数据集, 计算公式为:

其中, K值的确定目前没有很好的方法, 一般采用先定一个初始值, 然后根据实验测试的结果调整K值;

(3) 在新数据集的K个邻居中, 依次计算每类的权重, 计算公式如下:

其中, 为新数据集的特征向量, 为相似度计算公式, 与上一步骤的计算公式相同, 而为类别属性函数, 即如果属于类Cj, 那么函数值为1, 否则为0;

(4) 比较类的权重, 将数据集分到权重最大的那个类别中。

但是这样有几个不足之处:需要事先对实验数据集进行分类这种分类在没有进行相似度判断的情况下, 只能采用主观判断来分类, 准确度低, 不能保证在同一个分类中的数据集上取得良好挖掘效果的算法一样;需要的样本空间大, 但是基于第一个原因, 建立大样本空间实际可行性低;计算量大。基于这几个原因, 我们将算法简化, 将k的值取为2 (或其他10以下的数) , 也就是寻找邻居数据集中最相似的2个 (或10以下的其他个数) , 然后算法结束, 根据算法在这2个相邻的数据集上的平均性能特征, 为用户推荐算法。这样避免了不准确性, 也简化了计算过程, 提高了速度。

4、实验结果

为验证以上数据集特征是否能支持数据挖掘算法的选择, 本研究对大量的标准数据集进行了验证实验, 实验思路如下:对一组标准数据集进行特征提取, 并对该组数据集进行同类的各种数据挖掘算法, 获得挖掘效果评估;对另一个数据集A进行特征提取, 比对它和已实验的那组数据集的相似度, 选出最高相似度数据集;如果一个算法在最高相似度数据集中挖掘效果理想, 且对数据集A的挖掘效果也理想, 那么说明用以上特征是能正确支持挖掘算法选择的。

接下来我们将以一组数据为例进行说明:

[例]以7个下载自UCI的标准数据集 (cmc, hayes-roth_train, po stop erative-patien t, h aber man, cr edit-ra tin g, ir is, an n e al) 作为一组, 并对它们进行特征提取, 它们的特征如表1所示:

任意选择分类算法下的5个算法:Bayes方法的Bayes Net, Naive Bayes, 决策树法的BFTree, 用规则分类的JRip和元学习法的END, 通过weka实验获得这5个分类算法在以上7个数据集上的性能表现表2所示:

为任意挑选的一个数据集tae选择进行分类功能的数据挖掘算法的过程如下:

(1) 提取用户数据集tae的特征, 结果为:

(2) 将该数据集的特征与实验组中数据集的特征进行相似度比对, 计算tae的特征和本体中各数据集的特征间的相似度:

S (tae, anneal) =1.62786

S (tae, cmc) =1.09266

S (tae, credit) =2.26362

S (tae, haberman) =1.21694

S (tae, hayes-roth) =1.10471

S (tae, iris) =1.61637

S (tae, postoperative) =1.67057

相似度是一种距离度量, 所以值越小, 相似度越高。由该结果可知, hayes-roth和cmc是数据集特征本体中与tae的最相似的2个数据集。

(3) 进行实验的5个算法在数据集hayes-roth和cmc上的平均性能如表3所示:

(4) 根据该列表对数据集tea选择合适的算法

如果用户对挖掘的精度要求较高, 则可以选择END算法;如果对速度要求高, 则应该选择BFTree算法。在用户数据集tae上用5中算法进行试验, 检验按数据集特征相似度选择的算法是否真的在精度和速度上分别都是表现最好的。

如表4所示, 对例子中的数据挖掘算法本体中的5个算法在数据集tae上的表现进行比较, END算法获得的精度最高, 而BFTree算法的速度最快, 说明该方法是有效的。

5、结论

随着计算机科学与数据挖掘技术的不断发展, 数据挖掘技术成果已应用到社会生活的很多方面, 更多的各领域用户也希望对自己的数据进行挖掘, 获得具有启发性或支撑性的信息。普通用户要想应用数据挖掘技术, 首先要能选择适合的数据挖掘算法。通过判断数据集的相似性, 根据算法在与之相似的已实验数据集上的表现来选择合适的数据集是可行的。在下一步的研究中, 我们将根据文献及实验整理已知的各类常用算法在不同标准数据集上的表现并形成库。在此基础上基于数据集特征比对用户数据集和标准数据集的相似性, 并选择合适算法的方法将可以得到应用推广。

摘要:普通用户选择合适的算法进行数据挖掘是一项困难的工作。本研究提出了一种根据数据集特征判断数据集相似度, 从而根据算法在相似数据集上的性能选择数据挖掘算法的方法。

关键词:数据挖掘,数据集特征,算法选择

参考文献

[1]Aha D.W.Generalizing from Case Studies:A Case Study[R].9th International Workshop on Machine Learning, 1-55860-247-X.SanFrancisco, CA, USA:Morgan Kaufman Publishers, 1992.379-395

[2]Gama J.Brazdil P.A Characterization of Classification Algorithms[R].EPIA, 3-540-60428-6.Portugal:Springer, 1995.189-200

[3]Ricardo B.C, Prudencio, Teresa B.Ludermir.Meta-learning approaches to selecting timeseries models[J].Neurocomputing, 2004, 61:121-137

[4]范明, 孟小峰译.JiaweiHan, Micheline Kamber.数据挖掘:概念与技术[M].原书第2版.北京:机械工业出版社, 2007.32-34

[5]Robert M.Gray.Entropy and Information Theory[M].New York, USA:Springer-Verlag, 2008.77-92

[6]Shannon, C.E.The Mathematical Theory of Communication[J], TheBell Systems Technical Journal, 1948 (27) :379-423

基于程序数据属性的联合软件特征 篇7

关键词:软件盗版,数据属性,软件特征

0 引言

近年来, 随着Internet的快速发展, 软件盗版行为越来越猖獗。盗版者利用软件产品易复制和易传播等特点, 非法盗取软件产品所有者的劳动成果。盗版行为不仅危害了软件开发者的著作所有权, 严重扰乱了市场秩序, 而且也给使用盗版软件的用户造成了不小的危害, 比如建立在盗版系统上的杀毒软件根基不牢固, 用户遭到黑客借助盗版传播的病毒和木马的攻击等等。已有的软件保护技术包括加密技术、代码迷惑技术、防篡改技术、软件水印技术和软件特征技术等。

软件特征是程序本身所固有的、能够唯一标识该软件的一个属性或者几个属性的集合, 可以用于软件的识别, 是盗版检测和算法识别的有效方法。软件特征技术一般分为特征提取和相似度比较两部分, 通过比较分别从两个程序中提取特征的相似度来判断两个程序之间是否存在盗版行为, 如果两个程序的相似度较高, 则可以认定二者之间可能存在盗版行为。

1 相关技术

根据提取特征时软件是否运行, 软件特征可以分为静态软件特征和动态软件特征两种。静态软件特征提取的是程序静态的信息集合, 而动态软件特征提取的是程序某个执行状态下的信息集合。根据程序属性分类, 软件特征可以分为基于指令集的软件特征、基于系统API及库函数调用的软件特征和基于图结构的软件特征三种。基于指令集的软件特征的组成基础为软件中的基本指令单元, 根据相关指令的组合或筛选规则形成了不同形式的软件特征, 其中Myles等提出的k-gram静态软件特征[1]是其典型的代表。Myles等在软件特征的描述中引入了滑动窗口 ( 窗口长度为k) 的思想, 把从程序中提取的k-gram碎片作为程序的特征。但由于该特征丢失了控制流信息, 只是对程序指令的机械分割, 难以抵抗代码迷惑和语义保持变换的攻击。为了克服这一不足, 其他研究者对其进行了改进, 如从动态执行程序和运用程序切片技术角度, 提出了k-gram动态软件特征[2]和基于程序切片的k-gram动态软件特征[3]; 从统计k-gram指令序列频数和加权角度, 提出了k-gram频数软件特征[4]和加权kgram静态软件特征[5]等。

基于系统API及库函数调用的软件特征通过静态或动态分析, 将系统API和库函数调用序列及其频数作为软件特征。Tamada等提出的基于API调用序列的动态软件特征[6]是其典型的代表。之后从调用API和库函数子序列角度, 提出了Java库函数动态软件特征[7]、基于系统调用的短序列特征[8]; 从分析API序列调用轨迹的角度, 提出了基于API踪迹序列的静态软件特征[9]和基于API调用图的静态API序列集合特征[10]。基于程序图结构的软件特征通过分析程序内部元素之间的关系, 构造出控制流图、数据流图以及依赖图等图结构, 通过分析图内相关结构提取相应的软件特征, 其中Myles等提出的路径追踪特征 ( WPP) [11]是其典型的代表。

本文通过对程序的数据属性进行分析, 从静态和动态两个方面着手得到基于程序数据属性的联合软件特征DAB ( Data Attributes based Birthmark) 。对于常量, 通过分析程序在特定输入下的动态执行过程, 得到基于程序常量属性的子特征。对于变量, 分别从静态和动态两个方面着手, 分别得到基于程序变量属性的静态子特征和动态子特征。最后将三个子特征结合在一起, 得到基于程序数据属性的联合软件特征。理论分析和实验数据表明, 该联合特征具有较高的可信性和鲁棒性。

2 基于程序数据属性的联合软件特征

程序的执行过程实质上是程序对数据进行处理的过程, 而程序的语义正是体现在程序的执行过程中, 因此, 程序对数据的处理和程序的语义是紧密相关的。提取程序的数据属性作为其特征可以很好地表征该程序独一无二的特性, 使其区分于其他软件的能力得到提高。此外, 采用动态和静态相结合的方式来提取特征, 能够很好地弥补单一使用静态或动态方法提取的不足。本文通过分析程序中由数据引起的指令间的关系以及程序执行过程中数据值的变化, 构建基于程序数据属性的联合软件特征。

2. 1 基于常量属性的子特征

基于常量属性的子特征Crel的提取过程为:

( 1) 在特定的输入I0下, 跟踪程序的执行, 提取在特定输入下程序对常量的引用序列;

( 2) 对该引用序列进行k-gram划分得到长度为k的指令碎片集;

( 3) 该指令碎片集即在特定输入下, 程序基于常量属性的子特征。本文通过以下定义描述Crel。

定义1 ( k-gram碎片集) 记A = { a1, a2, …, an} 是一个序列, ( ai + 1, ai + 2, …, ai + k) 是A的一个k-gram碎片, 其中, k是kgram算法中的滑动窗口长度。A的k-gram碎片集记为Seg ( A, k) ={ (ai+1, ai+2, …, ai+k) |0≤i≤n-k}。

定义2 ( Crel) 设p是一个程序, C = { C1, C2, …, Cn} ( 其中Ci为程序的指令) 是在特定输入I0下提取的程序对常量的引用序列, 则程序p在特定输入I0下基于常量属性的子特征Crel ( p, I0) = Seg ( C, k) 。

定义3 ( Crel的相似度) 设Crel ( p, I0) 和Crel ( q, I0) 分别是从程序P和q中提取的基于常量属性子特征, 则二者的相似度记为:

2. 2 基于变量属性的子特征

对于变量, 从静态和动态两个方面进行数据属性分析。基于变量属性的静态子特征Sdep的提取过程为:

( 1) 对程序进行静态分析得到该程序的控制流图CFG ( Control Flow Graph) ;

( 2) 基于变量间的数据依赖和控制依赖关系, 在CFG上构造其数据依赖图和控制依赖图, 然后将两图合并得到程序依赖图PDG ( Program Dependent Graph) ;

( 3) 提取PDG每条路径上的指令序列, 构成指令碎片集S= { S1, S2, …, Sn} ( Si为第i条路径上的指令序列) , 该指令碎片集即为程序基于变量属性的静态子特征Sdep= { S1, S2, …, Sn} 。

定义4 ( CFG) CFG是一有向图, 可用四元组CFG = ( N, E, nstart, nstop) 表示。其中, N是节点集, 程序中的每个语句都对应图中的一个节点; 边集E = { < ni, nj> | ni, nj∈ N且ni到nj可能存在控制转移 ( 执行完ni后可能立即执行nj) } ; nstart和nstop分别为程序的入口和出口节点。

定义5 ( PDG) PDG可用二元组G = ( N, E) 表示。其中, N= { n∈N | n表示程序中的某一个语句} , E = { ( ni, nj) | ni, nj∈N且nj控制依赖于ni, 或者nj数据依赖于ni} 。

概念1 控制依赖。设n1、n2为CFG中的两个节点, 若n2能否被执行由n1的执行状态决定, 则称n2控制依赖于n1, 记为CD ( n2, n1) 。

概念2 数据依赖。设n1、n2为CFG中的两个节点, v为一变量。n1和n2之间存在一条可执行路径, 变量v在n1处被定义或者修改, 在n2执行, 且在n1和n2之间的路径上没有其它语句对v重新定义或修改, 则称n2关于变量v数据依赖于n1, 记为DD ( n2, n1, v) 。

图1 描述了基于变量的静态子特征的提取过程。

图 1 基于变量的静态子特征的提取过程

基于变量属性的静态子特征的相似度比较分为以下几步[12]:

( 1) 计算两个指令碎片之间的相似度

两个指令碎片之间的相似度可以通过最长公共子序列LCS ( Longest Common Subsequence) 和最短公共子序列SCS ( Shortest Common Subsequence) 来计算。假定a和b分别是两个指令序列, LCS ( a, b) 和SCS ( a, b) 分别表示a和b的最长公共子序列和最短公共子序列, 则两个指令序列的相似度记为:

其中| a| 是指令序列a的长度。

例如, 指令序列a = ( iload-1, iadd, isub, pop) , 指令序列b = ( iload-2, iadd, isub, pop) , 则LCS ( a, b) = ( iadd, isub, pop) , 因此, 两个指令序列a和b之间的相似度记为:

( 2) 计算两个特征之间的相似度

假定Sdep ( p) 和Sdep ( q) 分别是程序p和q的基于变量属性的静态子特征, 为了计算两个特征之间的相似度, 首先需要得到任意两个指令序列之间的相似度Sim ( ai, bi) ( 其中ai∈Sdep ( p) , bi∈Sdep ( q) ) 。然后通过Hungarian算法在两个特征的所有指令序列对 ( ai, bi) 中得到其最优匹配序列对集match ( p, q) = { ( a1, b1) , ( a2, b2) , …, ( an, bn) } ( 其中n是最优匹配序列对的个数) , 即两个特征所有指令序列中最相似的指令序列对的集合。则程序p和q的基于变量属性的静态子特征的相似度记为:

其中| Sdep ( p) | 是p基于变量属性的静态特征中指令序列的个数。

两个程序的相似度通过计算所有最优匹配序列对的相似度之和得到, 为使其标准化, 将所得之和除以两个程序中指令序列个数的最大值。因此, 所得的相似度值从0 到1, 分别表示两个程序基于常量属性的静态子特征的相似程度。

例如, 假定Sdep ( p) = { a1, a2, a3, a4} , Sdep ( q) = { b1, b2, b3, b4} , p和q之间的相似度矩阵如表1 所示。

利用Hungarian算法, 最优匹配序列对集match ( p, q) ={ ( a1, b4) , ( a2, b2) , ( a3, b1) , ( a4, b3) } 。因此, 程序p和q的基于变量属性的静态子特征的相似度为:

基于变量的动态子特征的提取过程如下:

( 1) 对程序进行分析得到局部变量集合{ Var1, Var2, …, Varl} , 其中l为局部变量个数;

( 2) 在特定输入I1下, 记录每个局部变量Vari取值的变化序列Vi= { v1, v2, …, vm} , 其中Vi是变量Vari的变化序列;

( 3) 构造程序基于变量的动态子特征Vseq ( p, I1) = { V1, V2, …, Vl} 。

基于程序变量属性的动态子特征的相似度计算方法和基于程序变量属性的静态子特征的相似度计算方法相同。令Vseq ( p, I1) 和Vseq ( q, I1) 分别为程序p和q的基于程序变量属性的动态子特征, 则二者的相似度记为:

其中| Vdep ( p) | 是p基于程序变量属性的动态子特征中指令序列的个数。

2. 3 基于程序数据属性的联合软件特征

利用基于程序数据属性的三个子特征, 构建基于程序数据属性的静态和动态联合特征DAB ( Data Attributes based Birthmark) = 。联合特征的相似度可以通过计算三个子特征的平均值得到, 即为:

3 性能分析

软件特征的两个最主要的评价标准是可信性和鲁棒性。可信性是指两个独立开发的软件, 即便它们完成的功能是相同的, 从中提取出来的特征也应该是不同的。鲁棒性是指经过语义保持变换前后的两个程序, 从中提取出来的特征应该是相同的。可信性反映了软件特征区别两个独立开发的程序的能力, 鲁棒性反映了软件胎记在受到语义保持变换等攻击后, 将其正确识别的能力。

为了验证DAB的可信性, 本文使用4 对应用程序来进行实验。这4 对程序的大小各异且每一对程序实现的功能相同或是同一应用程序的不同版本。选择这样的实验程序的目的是通过两个方面验证DAB的可信性, 第一, DAB应该能够识别实现相同功能的不同软件; 第二, DAB应该能够识别不同大小, 不同复杂度的软件。实验程序的功能、实现方法、大小及相似度如表2所示。

表2 前两项数据反映了DAB区分实现相同功能的不同软件的可信性。从表中数据可以看出, 阶乘函数和Fibonacci函数这两个程序对大小相对较小, 且每个程序对中的两个程序实现的功能相同, 但分别采用递归和迭代两种不同的方法实现, 属于不同的软件, 所以前两组数据的相似度都比较低, 这说明DAB能够区分实现相同功能的不同软件。表2 后两项数据反映了DAB区分相似软件的可信性。从表中数据可以看出, gnunpdf和ftp4j这两个程序对大小相对较大, 由于每个程序对只是相同软件的不同版本, 所以这两组数据的相似度均高于0. 8。由此可见, DAB对于实现不同功能、不同大小、不同复杂度的软件均具有较高的可信性。

为了验证DAB的鲁棒性, 我们使用两种码迷惑/优化工具:Sandmark和Jarg分别对以上8 个程序进行语义保持变换, 模拟可能的攻击, 然后比较语义保持变换前后的两个程序的相似度, 最后将相似度计算结果以相似度值为基准从小到大排序, 实验结果如图2 所示。

图2 反映了DAB抵抗语义保持变换攻击的能力。由图中数据可知, 对于经Sandmark或Jarg变换前后每个程序对, DAB的相似度均在80% 以上, 由此验证了DAB对这些攻击具有较高的鲁棒性。

4 结语

传统的静态或者动态软件特征各有不足之处, 比如静态软件特征虽然提取简单, 但是抵抗语义保持变换的能力较差, 而动态软件特征鲁棒性虽然较强, 但提取过程复杂, 覆盖面小且高度依赖运行环境。本文将基于变量的静态软件特征和基于常量及变量的动态软件特征相结合, 构造基于程序数据属性的静态和动态联合特征, 使该特征既具有较高的可信性又具有较高的鲁棒性。下一步的工作可以将软件特征技术和软件水印技术进行结合, 将软件特征作为水印信息编码成某个特征的表示, 并嵌入到程序中, 作为程序特征的一部分, 或许可以提高其抵御盗版的能力。

参考文献

[1]Ginger M, Christian S C.K-gram based software birthmarks[C]//Proceeding of ACM Symposium on Applied Computing.Santa Fe, New Mexico, USA, ACM, 2005:314-318.

[2]Lu B, Liu F, Ge X, et al.A Software Birthmark based on Dynamic Opcode N-gram[C]//Proceedings of International Conference on Semantic Computing (ICSC) , 2007:37-44.

[3]Bai Y, Sun X, Sun G, et al.Dynamic K-gram based Software Birthmark[C]//19th Australian Conference on Software Engineering, 2008:644-649.

[4]陈林, 刘粉林, 芦斌, 等.基于k-gram频数的静态软件胎记[J].计算机工程, 2011, 37 (4) :46-48.

[5]Xie Xin, Liu Fenlin, Lu Bin, et al.A Software Birthmark based on weighted k-gram[C]//Proceedings of 2010 IEEE International Conference on Intelligent Computing and Intelligent Systems, 2010, 1:400-405.

[6]Haruaki T, Keiji O, Masahide N, et al.Dynamic Software Birthmarks to Detect the Theft of Windows Applications[C]//Proceeding of Symposium on Future Software Technology.Xi'an China, 2004.

[7]David Schuler, Valentin Dallmeier, Christian Lindig.A Dynamic Birthmark for Java[C]//Proceedings of the 22nd IEEE/ACM International Conference on Automated Software Engineering.2007:274-283.

[8]Wang Xinran, Yoon Chan Jhi, Zhu Sencun, et al.Detecting Software Theft via System Call Based Birthmarks.ACSAC, 2009:149-158.

[9]Heewan Park, Seokwoo Choi, Hyunil Lim, et al.Detecting Java Theft Based on Static API Trace Birthmark[C]//Proceedings of International Workshop on Security (IWSEC) .Springer LNCS, 2008, 5312:121-135.

[10]Seokwoo Choi, Heewan Park, Hyun-il Lim, et al.A Static API Birthmark for Windows Binary Executables[J].Systems and Software, 2009, 82 (5) :862-873.

[11]Ginger M, Christian S C.Detecting Software Theft via Whole Program Path Birthmarks[C]//Proceeding of 7th International Conference Information Security.Palo Alto CA, USA, Springer-Verlag, 2004:404-415.

大数据视角下矿难特征及演变趋势 篇8

1 大数据的概念

大数据是信息时代的产物, 它最早出现在舍恩伯格和库克编纂的《大数据时代》一书中, 在作者看来, 大数据是在大量信息基础上解决现实问题的新方法。相比于传统数据而言, 大数据数量更多、类型更全、更新时效更快。具体到煤炭工业而言, 大数据的特点主要表现在以下几点:一、大数据研究煤炭行业过往历程中的所有数据, 而不是随机抽样;二、大数据研究对象众多, 举凡煤炭工业发展中出现的监测数据、文字记录、图形图像、视频资料等都是其研究重点;三、大数据依托于云计算, 因而处理速度更快, 能够再最短的时间内搜寻出最有价值的信息。因此, 在矿难研究的过程中选择大数据视角, 不仅可以提升矿难研究的准确性, 也能够更好地为减少矿难这一目标服务。

2 大数据视角下的矿难特征

矿难特征是指矿难爆发环节中出现的一些特点, 它是研究矿难的切入点, 笔者从中国过去数十年的矿难数据出发, 采用大数据的分析方法, 总结出了我国矿难的三点特征:

2.1 地区特征

中国是矿难高频国, 但不同地区在矿难次数以及死亡人数上仍然有着较大的差异性, 换句话说, 我国矿难有着较为明显的地区特征, 大部分的矿难都是发生于贵州、四川、山西、湖南、重庆、河南等省市, 如2010 年, 河南矿难死亡人数达266 人, 占矿难总人数十分之一以上。这主要由两个因素造成:一、各省煤炭的储量, 尤其是产量不均是导致各省矿难人数差异性的主要原因, 通过数据分析可知, 矿难大省通常也是产煤大省, 如山西、河南、贵州等都是中国主要产煤地;二、不同省份的煤炭开采条件对矿难也有着很大的影响, 如西南某些省份小煤矿多、水害隐患大、地形条件恶劣, 这些因素都不可避免地加剧了矿难势头。当然, 矿难地区特征的根本因素仍然是安全意识差、制度欠缺等人为的因素。

2.2 时间特征

大数据分析显示, 我国每年的矿难虽多, 但并没有均匀地分布到每个时间节点上, 而是在某一个时间段或某几个月呈现出高发的态势, 而在其他月份则相对平稳。换个表达方式即时, 在某个月份中, 矿难的次数远高于全国月平均数。

2.3 类型特征

矿难是一个泛称, 它指出现在煤炭开采过程中所发生的事故, 矿难的类型有很多, 根据国家煤矿安全监察的分类, 共有顶板、瓦斯、机电等八种。就我国矿难而言, 顶板与瓦斯一直是矿难事物的主要类型, 其中瓦斯事故更是造成重大矿难事物的元凶, 就以2000 年至2013 年的重大矿难而言, 由瓦斯造成的次数以及死亡人数高达百分之七十左右。

3 大数据视角下矿难的演变趋势

大数据不仅能够显示出矿难的特征, 也能够将矿难的发展趋势呈现出来。监管者可以从矿难的演变趋势出发, 采取对应的措施, 从而提高政策的针对性, 完善我国采矿事业的安全性。

3.1 总量逐步降低

我国是世界矿难大国, 这一点是实情, 不容置疑, 而这也是鞭策我国不断提高采矿安全性的动力。但具体到实际矿难次数及死亡人数而言, 我国矿难的总量是在逐步降低的, 这种逐步降低在2002 年以前尚是一种螺旋形状态, 但之后便处于急速下降的状态。在2002 年, 我国的矿难死亡人物达到一个历史高峰7000 余人, 之后, 政府加强了采矿安全监督, 并且由于采矿安全技术以及工人安全作业意识的提升, 矿难逐年减少, 2014 年矿难死亡人物为931 人, 较2002 年下降了百分之八十六点七, 但与此同时, 原煤的产量却从10 亿吨增加到了38.7 亿吨。换成世界通行的煤矿百万吨死亡率而言, 中国2013 年的死亡率为0.293, 首次低于0.3, 这对于我国煤炭事业而言, 无疑是一项巨大的进步, 但相比于美国的0.03 相比, 仍然有不小的差距。

3.2 特征变化有别

从大数据分析可知, 我国煤炭开采的安全性是在逐年提高的, 进入新世纪以后, 更是如此。但与此同时, 地区、时间以及类型三大特征也发生了一些变化, 这些变化是进一步深入了解矿难的重要因素。首先就地区特征而言, 尽管传统上的产煤大省仍然是矿难高发地, 但相比较先前而言, 它们的矿难总数已经得到了有效控制, 并且实践证明, 产煤大省完全可以摘到矿难高危地区的帽子, 比如河南近几年的矿难总数就已经大幅下降, 2013 年仅有10 人死于矿难, 脱离了矿难高发地的称号;其次, 就时间特征而言, 由于矿难总数的大幅下降, 各个月份发生矿难的次数也日渐减少, 时间特征已经不如以往那么明显;最后, 就类型特征而言, 瓦斯与顶板造成的矿难次数虽然有所减少, 但仍然是目前矿难形成因素中最为突出的两个, 此外, 交通与水害也是矿难形成的重要原因。

4 总结

矿难不仅直接威胁到煤矿工人的生命安全, 对社会经济的发展与稳定有着很大的危害作用, 减少乃至消除矿难是政府义不容辞的责任。大数据能够通过宏观数据的分析, 将矿难的特征及演变趋势清晰的呈现出来, 从而为决策者提供客观依据, 进而降低矿难的频次, 实现安全作业。

摘要:大数据的出现为矿难研究提供了一个新的视角, 它有助于提升矿难研究的客观性以及针对性。文章首先概述了大数据, 然后, 就分析了大数据视角下的矿难特征, 包括地区特征、时间特征以及类型特征, 然后总量逐步下降以及特征变化有别两个角度分析矿难的演变趋势, 希望对提升采矿事业的安全性有所裨益。

关键词:矿难,大数据,特征,演变

参考文献

[1]孙继平.煤矿事故分析与煤矿大数据和物联网[J].工矿自动化, 2015, 41 (03) :1-5.

基于数据立方体的特征提取方法 篇9

特征提取问题是模式识别、机器学习和数据挖掘等领域的重要问题, 一直都被广泛研究。特征提取大致可以分为三个步骤:1.从对象中提取初始特征;2.从初始特征集合中选取一个子集, 得到相对低维的特征向量;3.对前面得到的特征向量进行变换得到更低维的特征向量。第2步和第3步的目的都是降维, 有时只做其中的一步。

从初始特征集合中选取一个子集包括子集生成、子集评价、停机条件和结果验证四部分工作, 可视为一个搜索问题, 搜索策略有启发式、完全和随机等策略。搜索过程对特征的评价可分为距离、信息、相关性、一致性和分类器错误率等多种度量方式。

文[1]的研究表明, 尽量多地构建初始特征, 并采用合理的方式从初始特征中选取子集构建特征向量, 能够明显改进分类精度。文[2]在文本分类领域研究了不同特征选择方法对分类精度的影响, 结果表明不同特征选择方法对分类精度的影响是显著的。文[3]认为, 合理减少特征个数不仅有利于快速构建分类模型, 也有利于消除无关的, 冗余的或噪声特征, 从而利于得到具有优良性能的分类器, 并且这样得到的分类器更简单更易于理解。在初始时尽量多地构建特征然后又尽量给特征向量降维, 是特征提取的一般思路。

如何构建特征向量是研究电信消费欺诈预警系统面临的一个重要问题[4]。每一个对象 (例如电话用户) 都有大量的消费记录, 如通话详单, 数据流量详单等, 消费欺诈行为的模式隐藏在大量的消费记录中。但是, 由于消费记录的数据量极大, 数据结构又极其简单, 消费记录不能作为消费欺诈预警的直接判据。本文把这一类问题称为记录流预测问题, 针对该问题提出了基于数据立方体的特征提取方法, 并把此方法应用到了移动用户消费欺诈预警系统中。

2、特征数据立方体的构造

在记录流预测问题中, 单条记录无法反应特征信息, 记录的不同统计量能够在一定程度上体现特征信息。但是用不同的统计方法在不同的粒度上计算大量的统计量是一个非常耗费计算资源的工作, 没有恰当的策略作为基础, 采用统计的方法在大量的记录中提取特征信息是不现实的。

我们依据数据立方体的概念[5]提出了特征数据立方体模型, 特征数据立方体模型是一个层次结构的数据立方体集合。以下以移动用户消费欺诈预警应用为背景来表述该模型。如图1所示, 第一层的数据立方体是统计粒度最细的数据立方体, 上一层数据立方体的统计粒度大于下一层数据立方体的统计粒度。例如, 第一层数据立方体的统计粒度是日, 第二层数据立方体的统计粒度是旬, 第三层数据立方体的统计粒度是月。

每个数据立方体是一个三维结构, x、y、z轴分别表示数据立方体的三个维度。x轴是时间轴, 其时间单位是该层的统计粒度, 例如, 当x轴的时间单位是日时, 则该层的统计粒度是日, 当x轴的时间单位为月时, 则该层的统计粒度为月。x轴取值为0, 12, …, 表示当前时间单位, 前一个时间单位, 前两个时间单位, 依次类推。数据立方体的y轴是属性轴, 表示统计针对的记录类型。例如, 通话属性, 数据流量属性等。数据立方体的z轴是统计方法轴, 表示采用的统计方法, 取值为次数、总时长、平均时长、时长标准差、时长最大值和时长最小值等。 (注, 当应用背景变化时, 总时长、平均时长、时长标准差、时长最大值和时长最小值等统计量的名称可以不同, 但不影响统计方法本身)

我们把特征数据立方体模型中由x、y、z轴的具体取值所确定的方体称为基本方体, 每个基本方体是对象 (例如某一手机用户) 在某一统计粒度下以某个特定统计方法的某一属性的统计量。例如, 图1中第一层的阴影部分表示该对象在某天的通话总时长。

我们把特征数据立方体模型中由x、y轴的具体取值所确定的方体称为组合方体。每个组合方体是对象在某一统计粒度下以各种统计方法得到的某一属性的各种统计量, 每个组合方体是x、y轴取值相同的基本方体的组合。例如, 图1中第二层的阴影部分表示该对象前一旬通话记录的各种统计量, 包括次数、总时长、平均时长、时长标准差、时长最大值和时长最小值。

我们把每个组合方体视为一个结构, 包括次数、总时长、平均时长、时长标准差、时长最大值和时长最小值等数域。为了存储计算过程的中间结果, 增加时长平方和数域。所有组合方体的每个数域 (除时长最小值数域外) 的初值为0, 时长最小值数域用时长极大值赋初值。

关于时长标准差有以下公式:

其中xi表示时长, x表示平均时长, σ表示时长标准差。

特征数据立方体模型中不同层次上的组合方体形成了一个树状结构, 如图2所示, 每个上层组合方体都对应着若干个下一层组合方体。非叶节点上组合方体的各种统计量可以从其子节点计算得到, 不必从记录流直接计算。这样的树状结构是我们提出特征数据立方体构造算法的基础。算法表述如下。

特征数据立方体构造算法

输入:某对象的特征数据立方体空模型 (此时模型内无数据) 和该对象的记录集合。

输出:该对象的特征数据立方体实模型 (此时模型填满数据)

步骤:

1.扫描的记录集合, 累加底层组合方体的次数、总时长和时长平方和数域, 如果当前记录的时长大于时长最大值, 用当前时长更新之, 如果当前记录的时长小于时长最小值, 用当前时长更新之。完成扫描后设置栈为空。

2.若顶层数据立方体存在空组合方体, 选取一个作为当前组合方体, 下一步。否则, 输出特征数据立方体实模型, 算法结束。

3.若当前组合立方体不存在子节点, 则依次执行以下5个操作: (1) 计算当前组合方体的平均时长 (=总时长/次数) 和时长标准差 (根据公式2) ; (2) 将次数、总时长、时长平方和累加到其父节点的对应数域中; (3) 如果父节点的时长最大值小于当前时长最大值, 用当前时长最大值更新之; (4) 如果父节点的时长最小值大于当前时长最小值, 用当前时长最小值更新之; (5) 转步6。

4.若当前组合立方体不存在未计算子节点, 则依次执行以下2个操作: (1) 计算当前组合立方体 (次数、总时长、时长最大值和时长最小值在其所有子节点的计算完成后已经得到) , 平均时长=总时长/次数, 时长标准差依据公式2计算; (2) 转步6。

5.将当前组合立方体压栈, 取出前组合立方体的一个未计算子节点, 置为新的当前组合立方体, 转步3。

6.若栈空, 转步2。否则, 弹栈, 置为当前组合立方体, 转步3

3、特征向量的构造

特征数据立方体构造算法以扫描记录集合一遍的代价计算得到对象的整个数据立方体。对于每个对象 (例如一个手机号) 都可以通过特征数据立方体构造算法得到一个如图1所示的数据立方体。计算数据立方体的目的是构造特征向量, 依据数据立方体构造特征向量的一个简单做法就是, 把数据立方体的每个方体作为特征向量的一个维度。

上述简单做法得到的是一个非常高维的特征向量。一方面, 各维数据之间存在着复杂的相关性, 信息冗余的问题严重。另一方面, 维度过高的特征向量不利于分类器的构造以及分类预测。由高维特征向量精简得到一个实用的低维特征向量是一项必要的工作。

文[2], 文[6-13]中的方法都可以完成此项工作。但是这些方法不是专门为特征数据立方体模型设计提出的, 它们在进行特征选择时没有利用特征数据立方体模型的特性。特征数据立方体模型包含着如图2所示的树状结构, 每个非叶节点上的组合方体是对其所有子节点的概括和总结。我们在构造特征向量时, 可以用非叶节点上的组合方体代表整棵子树, 也就是说, 如果处在非叶节点位置上的某个组合方体已体现了分类信息, 它的子孙节点就不必考虑了。

我们根据[14]定义离散度来度量特征数据立方体模型中每个基本方体的分类信息, 见公式3。

其中, d表示离散度, 针对特征数据立方体模型中每个基本方体计算d, ei+表示正例集合中第i个对象在该基本方体上的值, e+表示正例集合在该基本方体上的均值, n表示正例个数, ej-表示负例集合中第j个对象在该基本方体上的值, e-表示负例集合在该基本方体上的均值, m表示负例个数。特征数据立方体模型中每个组合方体的离散度定义见公式4。

其中, D表示组合方体的离散度, di表示组合方体中第i个基本方体的离散度, l表示组合方体内基本方体的个数。

我们根据特征数据立方体的特点提出了数据立方体特征向量构造算法。为了便于表述该算法, 这里先解释一下算法表述中的用语:正例集, 它的元素是正例对象 (如出现了欺诈行为的手机号) 对应的特征数据立方体模型;负例集, 它的元素是负例对象 (如未出现欺诈行为的手机号) 对应的特征数据立方体模型;离散度数据立方体模型, 它的基本方体与特征数据立方体模型的组合方体一一对应, 离散度数据立方体模型的基本方体记录对应组合方体的离散度, 初始时标记为未计算。特征数据立方体模型与对象一一对应, 离散度数据立方体模型与整个训练集 (含正例集和负例集) 对应。

为了避免不同量纲对计算离散度的影响, 交给数据立方体特征向量构造算法的所有特征数据立方体模型都是经过归一化的。

数据立方体特征向量构造算法:

输入:正例集, 负例集, 离散度数据立方体模型, 离散度标准。

输出:特征向量模型。

步骤:

1.设置一个空的特征向量模型, 设置一个空栈。

2.若离散度数据立方体模型顶层数据立方体中不存在未计算的基本方体, 则输出特征向量模型, 算法结束。

3.从离散度数据立方体模型顶层数据立方体中选取一个未计算的基本方体, 置为当前基本方体。

4.根据公式3和公式4, 计算当前基本方体离散度, 结果填入当前基本方体, 并把当前基本方体标记为已计算。

5.若当前基本方体的离散度小于等于离散度标准, 则将当前基本方体压栈, 转步7。

6.将当前基本方体对应的组合方体加入到特征向量模型中。

7.若栈顶节点已不存在未计算子节点, 弹栈, 转步8。否则, 转步9

8.若栈空, 转步2, 否则转步7。

9.取栈顶节点的一个未计算子节点, 置为当前基本方体, 转步4。

4、实验

本文的方法是为与移动用户消费欺诈预警类似的应用提出的, 实验以移动用户消费欺诈预警为背景设计。

移动用户欠费主要分为两种, 一种是欠费后按时还款;另一种是欠费后无限期拖欠甚至拒不还款。我们把欠费后拒不还款的行为称为消费欺诈。我们通过搜集用户基本信息、通话信息、短信信息、数据流量信息、语音信息、增值业务信息、代收业务信息等来进行移动用户消费欺诈预警。与本实验有关的信息格式见表1, 每个user_id表示一个对象。本实验为每个对象设计的特征数据立方体模型如图1所示, 第一、第二和第三层数据立方体的统计粒度分别是日、旬和月。

本实验采集某市移动公司1000个用户 (后称为对象) 连续5个月的运营记录, 其中正例433个, 随机地分为训练集和测试集, 训练集含700个对象 (正例301个) , 测试集含300个对象 (正例132个) 。在训练集上依次运用本文的两个算法构造特征向量模型, 然后依据特征向量模型分别在训练集和测试集上为每个对象生成一个特征向量。用训练集得到的特征向量集合训练SVM模型, 用测试集来验证分类精度。

通过调节数据立方体特征向量构造算法的离散度标准, 分别得到了30维、48维和96维的特征向量模型。依据三种特征向量模型分别提取特征向量并训练SVM模型, 各自的测试结果如表2所示。实验结果表明本文的特征提取方法具有可行性。5、结束语

本文提出的方法能够从记录流中以不同的统计方法在不同的统计粒度上高效地的计算大量的统计量, 并以此为基础构造特征向量。本文的方法已被应用到某市移动用户消费欺诈预警系统的开发中。在实际的移动用户消费欺诈预警系统中, 除了利用本文的方法提取特征外还加上一些用户信息作为特征, 如入网时长等。因此, 在实际的移动用户消费欺诈预警系统中预测精度高于表2的水平。

计算机特征数据 篇10

关键词:社交网络,用户特征,数据挖掘

1. 引言

互联网技术与移动通信技术的发展改变了人们传统的社交方式, 微博、微信等越来越普及。对于社交网络信息数据的挖掘, 研究用户的生活规律与兴趣偏好, 对于信息的个性化推荐及企业发展方向具有非常重要的现实意义。

2. 互联网社交网络用户特征分析

2.1 群体结构

在社交网络中, 大多数为普通用户, 其朋友圈和粉丝数量会随着用户网络社交的时间递增。新加入社交网络的用户会选择自己感兴趣的好友进行关注, 老用户会不断维护自己的朋友圈。若将社交网络中话题的发起者设为初始, 则其朋友圈接收信息的人群为1阶用户, 1阶用户的朋友圈为2阶用户, 2阶用户的朋友圈为3阶用户, 以此类推用户群体结构随着时间的递增, 结构呈树形拓扑, 互联网社交网络用户群体信息传播结构如图1所示:

2.2 用户影响力

在社交网络中, 不同用户因为其在公众领域、行业领域、区域团体等的角色不同, 用户的影响力也不同。在社交网络中, 如微博, 社交用户的友好关系是单向和双向协同的, 即A用户添加B为关注对象, B中的好友名单中不会出现A, A如果也添加B为关注对象, 则AB信息交互是双向的。在微博中用户可分为认证用户和普通用户, 认证用户在某一领域具有较高的辨识度, 具有较高的粉丝数量, 这也标志这用户微博信息的受众数量多, 微博的转发率也就高。

2.3 用户活跃度

用户在社交网络中的活跃度是信息传播的重要因素。用户的活跃度根据用户在一定时间范围内发送微博数量T、转发微博数量R, 提及数量M构成, 用户活跃度特征W= (a+b) ∑t (T+R+M) , 其中, t为设定时间范围, a, b表示用户历史微博信息的平均回复率和平均转发率。

3. 社交网络用户特征权重分析算法

3.1 用户权重排序

社交网络是通过互联网进行人与人之间的沟通与互动, 用户特征关系的权重分析, 可基于HITS算法的节点权重进行分析, 根据HITS算法原理, 每一个互联网中的页面存在两个值:hub值与authority值。网页的hub值由该页面所指向的所有网页的authority值构成;网页的authority值由指向该页面的所有网页hub值构成。在互联网中, 具有较高权值的网页更倾向于与其它髙权威网页相互连接, 即:如果网络中有大量具有高权威性的网页同时指向某一未知网页, 那么该未知网页将有很高的可能性也为高权重网页。得社交网络用户权重计算 为用户i所指向好友j的数量, 由此可得一个用户所连接的好友越多, 则其传递给每个好友的权重值越小。

3.2 用户个性推荐

社交网络中关注好友的日志、微博、图片、状态等信息均以推送的形式发送至相关用户主页, 这种推送模式在强化了用户信息交互的同时, 也给使用者带来了信息风暴的冲击, 因此社交网络中的个性化推荐算法将对提高用户体验与信息交互质量产生重大的影响。

用户个性化推荐算法中, 推荐的主体是经过短文本聚类的微博话题。根据NBI算法推荐思想用于微博推荐时, 若用户A发布了关于话题a的微博, 同时用户B发布的微博话题中也包含了话题a的微博信息, 那么用户A与B之间通过话题a形成了一条网络拓扑连接关系:A-a-B。基于用户特征的NBI推荐算法:

其中Si, t表示一条来自用户j发出的微博t, 对于用户i的推荐评分。 为微博t的作者j对于目标用户/的归一化用户影响力特征。Rij为用户i与用户j交互关系。f' (xt) 为推荐评分的影响。

3.3 用户层次聚类

社交网络微博中具有大量粉丝的明星用户通常只具有少量的好友数目, 而且这些好友通常也具有很高的粉丝数或本身就是明星, 这些用户的微博往往具有很高的回复与转发率。也有一些用户, 如媒体或广告, 他们同时拥有较高的粉丝数量和好友人数, 但这些用户所发布的微博通常只为特定产品或品牌服务的, 而这些微博也不会被广泛关注。通过微博用户的分析可以得到规律:如果一个高权重用户所关注的好友越多, 那么关注的每个用户将越不重要;反之如果关注的好友越少, 那么关注的每个用户将越重要。

用户层次聚类算法设用户的j为用户i的粉丝, Fj为用户j的粉丝数量, nj为用户j的好友数量, 得:

根据HITS算法将节点的hub权重与authority权重统一为单一authority权值, 其中authority权值由指向该节点的所有邻居节点入度比出度值累加获得。于是, 本文提出的用户影响力模型由用户粉丝数量与粉丝质量加权组成:

第一部分Ni代表用户i的粉丝数量;第二部分为用户每一位粉丝对用户影响力的贡献之和, 即粉丝质量;参数μ用于调节两部分的权重。

4. 基于社交网络用户特征的数据挖掘模型

4.1 数据集说明

本文社交网络用户特征分析数据采用新浪微博用户进行采集分析, 用户特征分类通过用户共同好友关系及用户标签信息等的相似度进行描述, 用户标签信息具有衡量用户兴趣偏好的重要特征, 标签信息有广泛性的标签譬如:“电影”、“韩剧”、“笑话”等, 也有专向性的譬如:“iphone6”、“金融”、“搏击”等。衡量标签权重是社交网络用户共性的标准, 如果用户特征相似度越低则标签权重越大, 如果用户特征相似度越高则标签权重越小。

4.2 用户特征相似度模型

建立用户特征相似度模型, 设m表示采集涉及网络用户数量, top-n表示用户某一特征相似度模型计算排名处于前n位的用户信息, 此时, 用户i与用户j存在的关系表示为Rij=1, 不存在的关系表示为Rij=0。得用户特征相似度模型为:

4.3 网络拓扑关系预测模型

社交网络用户传播信息过程中, 用户在t0时间发布一条信息, 该用户的所有粉丝是否会在t1时刻转发这条信息, 粉丝的粉丝是否会在t2时刻转发这条信息, 成为网络社交的拓扑结构关系。由此, 网络拓扑结构关系预测根据蒙特卡罗仿真模型在每隔一定的时间间隔∆t对各节点进行随机取样, 如果随机取样概率小于节点先验概率则认为该节点将触发某一事件, 并将与该节点相连的邻居节点加入到下一个∆t的随机取样过程中。随机过程直到若干时间间隔后没有新的节点触发事件结束仿真, 此时网络中该事件被触发的节点总数为: , 在社交网络发布者的首次接收用户取样过程在0与1之间均匀取出一个随机数, 记为rand (t1) , 同时该用户存在对该条信息是否进行传播的先验概率prior (t1) , 网络中其粉丝被称为1阶用户, 每一个用户根据自身兴趣, 对每一条信息选择是否传播的先验概率均不同。若在t1时刻, 某1阶用户的随机取样结果小于其对于该信息的先验概率, 即rand (t1)

5. 结语

在社交网络中, 数据特征种类丰富, 信息量大, 用户的特征性较为鲜明, 基于社交网络用户特征的数据挖掘对用户群体结构、影响力、活跃度进行研究, 分析用户特征权重, 建立用户特征数据挖掘模型, 研究用户特征相似度模型和网络拓扑关系预测模型。在社交趋于网络化的今天, 社交圈蕴含着大量的具有潜在价值的数据, 对于这些数据的挖掘对互联网行业的发展、企业网络推广于信息传播具有非常重要的实际价值。

参考文献

[1]黄成维.面向社交网络用户商业价值细分的数据挖掘模型[J].旅游纵览 (行业版) , 2012, (01) .

[2]杨瑞仙, 李露琪.基于社交网络的个性化知识服务模型研究[J].新世纪图书馆, 2014, (09) .

[3]王连喜, 蒋盛益, 庞观松等.微博用户关系挖掘研究综述[J].情报杂志, 2012, (12) .

[4]朱彦杰.基于社交圈的在线社交网络朋友推荐算法[J].科技视界, 2014, (09) .

上一篇:时机和方法下一篇:生物技术药物