大数据的发展及应用

2024-06-29

大数据的发展及应用(精选十篇)

大数据的发展及应用 篇1

1 网络大数据的特点

网络大数据的主要特点是准确、高效, 这是对数据可靠性的基本要求。并且大数据是运动的, 经常处于高速传输的状态下, 人们通常称它为数据流。而数据流是很难被全部存储的, 因为网络储存空间的限制, 长期储存大量数据是难以实现的, 所以周期性的对数据进行整理, 删除部分数据, 仅保留数据的关键信息, 可以在最大程度上节省空间。并且在网络大数据的不断发展过程中, 由于数据的来源各异, 就导致数据信息变得越来越多样化, 形式也各不相同。在2012年的互联网发展趋势中, 有人用生动形象的图画对大数据进行了描述。其中一张是排列整齐的稻草堆, 另一张是在稻草堆中缝衣针的特写。两张画相比较所表达的含义就是, 可以利用网络大数据技术, 在繁杂的数据信息中快速、准确地找到你所需要的东西, 哪怕是一个小小的针。

2 网络大数据时代的发展趋势

2.1 网络大数据与智能计算相结合

想要从网络大数据中获取有价值的信息, 就要对大数据进行分析, 这就需要将网络大数据与智能计算进行结合。从网络大数据中获取到更准确、更深层次的知识, 并不能只对数据进行简单的分析比对, 这就需要计算机提升对数据的认知和推理能力, 其中核心的技术就是人工智能。近年来, 人工智能的研究与应用受到了很多关注, 其原因就是计算机的硬件性能不断突破与计算机技术的快速发展, 让信息处理的速度与质量都有了显著提高, 能够快速高效的处理海量数据, 为人们的生活工作带来许多便利与益处。

2.2 网络大数据带动科学研究

网络大数据的不断发展带动了多个学科研究的融合, 许多学科从表面上来看, 研究的方向与内容都大相径庭, 但从大数据的角度上进行分析, 会发现各学科之间的研究具有一定的相同性。随着时代不断朝着数字化的方向发展, 就会使许多学科的研究在数据层面上不尽相同, 这样就能够采用相似的思想统一对数据进行相关分析。在大数据处理的理论研究上面, 使用概率统计的新型模型进行相关研究, 从而在学科的理论基础上面实现突破。

2.3 网络大数据与热点技术领域融合

网络大数据与移动互联网、云端技术等热点技术领域的相互结合, 会产生很多综合性极强的应用。近些年信息技术的发展呈现出前端不断延伸, 后端逐渐强大的趋势, 云端技术的运用使数据在后端的储存能力与计算能力不断加强, 这样做能够加强信息技术与人类生活的相互交融, 不仅大大方便了人们的生活, 对社会的不断向前发展也起到了一定的积极作用。

2.4 网络大数据信息社会化

随着智能手机的全面普及, 移动智能终端具有了接入互联网的能力, 上网的人数在每天成倍的增长, 社交媒体的使用也逐渐成为日常化的事情, 这就是使得网络大数据中普通民众的日常生活信息不断增多, 从而使网络大数据信息社会化。不再只有高级技术人员才能够进行对数据的访问, 普通民众也可以做到, 访问数据、搜集数据和整理数据, 使得对数据信息的访问变得普遍化, 可以供所有人使用。比如, 在2012年11月份的《时代》杂志中, 就有人指出美国总统奥巴马成功连任的关键, 就是对过去几年来相关的网络数据进行搜集、整理以及分析, 充分了解当前美国的经济状况、民生诉求, 以便于准确把握民众的心理, 在拉票演讲中赢得民心, 顺利连任。就是因为网络大数据信息的社会化, 奥巴马才能在分析数据中准确把握民众心理, 并且利用演讲达到赢得选票的目的。

3 网络大数据应用前景展望

3.1 将数据进行资源化处理

在网络大数据中包含着各种各样的数据信息资源, 将这些数据信息进行有效的整合、处理与运用, 将会为相关行业产生巨大的经济价值, 并且带来丰厚的利润。因此, 要逐步对网络大数据技术进行相关研究, 从而更好地利用大数据信息, 为行业产生更多的经济效应。先进的大数据技术和信息化的思维模式是高效利用信息资源的基础, 因此, 处理网络大数据的相关技术人员应该将传统的数据资源处理方法与现代先进的大数据技术进行有机的结合, 将数据进行资源化处理, 通过对数据的重新整理、分析与比对, 将大数据技术不断的提升, 从而为相关行业创造更多的经济价值。而对于掌握了新型的网络大数据处理技术的行业来说, 在未来的发展上面可以通过对数据的进一步整理分析, 正确的制定发展战略, 创造更多的利润空间, 从而实现利益的最大化。

3.2 将数据与企业发展融合

在大数据技术的不断发展下, 移动网络技术、物联网和云计算等热门技术都做到了与大数据技术的充分融合, 这样的融合也可以促进许多不同方面科学技术的结合, 充分的体现出学科的交叉融合在这个新时代下的效用与功能。相关网络技术人员需要具备充分的信息科学知识, 只有这样大数据技术才能够有长足的进步与发展。技术人员通过对大数据技术中的信息进行获取、分析、比对, 对具体技术进行相关创新改造, 使大数据技术与企业的管理制度进行有效的结合, 从企业经营的角度分析问题, 让大数据技术能够在最大程度上帮助企业管理和发展。企业也要对相关技术人员进行培养, 并且创建一个能够处理与应用大数据技术的信息部门, 吸引业务水平高超的技术人员的加入, 充分发挥出信息部门对企业经营与发展的重要作用。

3.3 网络大数据的发展要以人为本

科学技术的发展离不开人类的不断创新, 并且使用科学技术的主体一定是人类, 虽然在网络大数据技术的广泛应用下, 数据信息的及时交流与整合极大方便和满足了人们的日常生活, 还能够为科学发展提供有效的依据与指导, 但无论是多么准确、高效的数据都无法完全代替人脑, 这就需要在大数据技术的不断发展过程中, 始终坚持以人为本的原则, 将人的生产生活与网络大数据进行融合时, 一定要把人类在科技发展中的主体地位充分体现出来, 只有这样, 大数据技术的发展才会益于人类社会的发展。

4 结论

网络大数据的时代已经来临, 在众多复杂的数据信息中, 人们可以快速的找到有效信息并且正确的加以利用, 会在极大程度上方便自己的工作和生活, 也对提高个人的生活品质有很大的帮助。并且, 大数据技术的不断发展正逐渐引发一场思维革命, 大数据在潜移默化中不仅改变了人们看待世界的方式, 还以极快的速度在各个领域中占据重要地位, 对人类社会的发展做出了巨大贡献。

摘要:随着网络大数据时代的到来, 网络大数据的规模和复杂程度都有很大的增长, 为计算机顺利快速的处理数据带来了很大挑战。并且随着智能终端的快速普及, 以及云端、云计算等技术的逐渐兴起, 网络数据呈井喷式增长, 对许多行业都会造成一定影响, 可谓是机遇与挑战并存。近些年由于人们对社交网站的喜爱程度不断增长, 就会使网络大数据中存有许多社会信息, 形成了社会缩影在网络上的一种映射。由此对网络大数据进行分析可以帮助人们更好的生活, 也会对社会发展产生巨大的推动力。

关键词:网络大数据,发展趋势,前景展望

参考文献

[1]王元卓, 靳小龙, 程学旗.网络大数据:现状与展望[J].计算机学报, 2013 (06) :1125-1138.

[2]何文娜.大数据时代基于物联网和云计算的地质信息化研究[D].长春:吉林大学, 2013.

[3]高海建.基于大数据视角的电子商务产业研究[D].北京:首都经济贸易大学, 2015.

[4]付红安.大数据在社会化媒体营销中的应用研究[D].重庆:重庆大学, 2014.

大数据的发展及应用 篇2

作为中国首部地方大数据地方法规——《贵州省大数据发展应用促进条例》填补了大数据的立法空白,具有大数据产业纳入法治轨道的意义。作为贵州省“十三五”开局之年通过的首部法规,该条例也是贵州省立法时间最短的法规。

记者1月23日下午从《贵州省大数据发展应用促进条例》新闻发布会上获悉上述消息。

《贵州省大数据发展应用促进条例》共6章39条,包括大数据发展应用、共享开放、安全管理等内容。条例紧扣贵州大数据应用的现实需求和发展趋势,对数据采集、数据共享开发、数据权属、数据交易、数据安全以及“云上贵州”等基本问题作出了宣示性、原则性、概括性和指引性规定。

贵州省人大常委会副主任张群山用“先行先试、突出地方特色”概括该条例。张群山告诉记者,条例的制定体现了科学立法和急用先立的指导思想,贵州将抢抓国家实施大数据和网络强国等战略机遇先行先试发展大数据产业。

《贵州省大数据发展应用促进条例》从起草到制定出台仅历时半年左右,是贵州省立法时间最短的法规、该条例的出台属于创制性立法,是贵州省立法模式的创新。该条例起草后历经社会讨论、业界点评、专家评议等,综合各方意见后才宣告出炉。

该条例的出台仅是大数据地方立法的“试水”。贵州还将针对数据交易等单项内容进行立法,从而进一步完善大数据法规,进一步规范大数据发展应用有关问题。

该条例经贵州省十二届人大常委会第二十次会议通过,现已公布,自3月1日起施行。

大数据产业的发展现状及发展举措 篇3

关键词:大数据;大数据产业;发展现状;发展举措

随着大数据的兴起,与大数据技术相关的产业已成为抢占全球科技发展战略的制高点。大数据产业是以互联网、物联网为基础建立起来的一种信息服务业,适时发展大数据产业不仅有助于提高信息资源的利用率,促进国家治理模式和企业决策流程重塑,而且还有利于进一步加强产业创新能力,促进我国创新型国家的早日建成。

一、大数据产业分类及特点

(一)大数据产业分类

根据不同的角度,大数据产业有不同的划分方法。一是二分法。根据占有大数据情况不同,大数据产业可以分为自身生产数据或获取数据的产业和为大数据产业生产基础设施和技术支持的大数据衍生产业;二是三分法。根据数据的营销模式不同,大数据产业可以分为数据产品销售,为用户提供个性化服务的服务类产业、整合数据为用户提供整套服务的产业以及通过专业化分析为用户提供产品销售和广告推介的产业;三是五分法。根据价值模式不同,大数据产业可以分为五种模式:内生型、外生型、寄生型、产品型以及云计算服务型。

(二)大数据产业特点

一是产业服务个性化。据相关调查显示,利用数据进行分析的企业不仅在销售额上比未运用数据分析的企业增长百分之二十,而且在企业增长率上表现得更为突出,高达百分之五十。由此可见,种类广泛、数量庞大的大数据不仅能够挖掘用户需求,开展个性化定制,创造巨大的价值,而且还能满足高端客户的需求,提升企业生产率,获得更高的经济受益。换句话说,大数据产业已成为企业实现个性化发展的重要工具。二是产业决策智能化。随着大数据产业的发展,大数据产业不仅能促进劳动与资本一体化,提升企业自身的决策智能化发展水平,而且还能推动生产组织去中心化,为行业决策智能化提供平台。过去,局限于信息化技术发展水平,企业只关注数据的存储和传输,对数据的获取、分析和处理还不足企业存储和传输信息的百分之五,也就是说,大数据作为企业发展的重大战略仍未得到充分的重视,其在推动企业决策智能化和科学化发展过程中未能发挥领头羊的作用。三是产业技术的高创新性。在大数据时代,数据已渗透到社会生活的各个方面,世界上每天都会产生海量的数据,只有不断优化和创新产业技术,有效获取、存储、整合数据,才能为用户提供个性化服务。

二、大数据产业的发展现状

(一)产业发展的环境影响

我国《“十二五”国家战略新兴产业发展规划》、《物联网“十二五”发展规划》等一系列国家战略明确提出开发和应用大数据技术产业,如支持海量数据存储技术、信息处理技术的研发,推动数据分析技术发展,但这些技术只是大数据产业的组成部分,与国外先进发达的数据产业相比,我国产业发展不仅在政府数据开放程度上也有待提高和规范,而且在政策方面也缺乏系统性、整体性和纲领性。

(二)产业发展的伦理瓶颈

随着互联网、物联网技术的快速发展,伦理道德问题也成为大数据产业发展面临的重要问题。为保护用户隐私、規范网络行为,我国颁布实施了一系列网络安全保护管理办法,如《计算机信息网络国际联网管理暂行规定实施办法》、《计算机信息网络国际联网安全保护办法》等,这些办法明确规定任何单位和个人不得进行未经许可的计算机操作,不得违反法律规定,利用网络侵犯用户的隐私。大数据环境下,这些管理办法虽然能够对国家安全和数字经济发展起着一定的积极作用,但由于缺乏专门的针对用户隐私安全的法律以及专业的配套法律规范支持,大数据产业发展不可避免地面临着伦理道德的瓶颈。

(三)产业发展的人才制约

对于大数据产业发展来说,相关人才的缺乏已成为制约其发展的重要因素。大数据人才是伴随着大数据产业发展而产生的,不仅包括科技人才、管理人才,还包括与数据科技工作相关的数据科学家,这些大数据产业发展人才是产业发展的人力资源基础。大数据产业对人才能力具有较高要求:不仅能够采用灵活统计工具、数学工具和科学方法挖掘数据,对数据进行分析和可视化的分析和技术能力,而且还要具备与同事、客户沟通、合作的技巧和合作精神,即,产业发展人才应是具有多重能力的复合型高端人才。据麦肯锡统计,未来两年内,仅美国市场,大数据产业人才缺口将达一百五十万左右;人才短缺已成为制约我国大数据产业发展的瓶颈。

三、未来大数据产业发展的举措

(一)制定大数据发展的国家战略

做好顶层设计,在统一的共性标准体系下,制定规范、详细的大数据产业发展国家战略,整体部署我国大数据产业发展格局,促进国家核心竞争从数据转化为取决于技术和管理的信息和知识的速度与能力,推进大数据技术与管理方法的创新应用,促进社会与经济和谐发展。制定开放的数据信息公开政策,统筹规划资源、人才等关键布局,针对不同领域建立大数据建设标准,增强管理能力和服务能力,通过大数据产业的培育和支持,拉动我国落后地区的大数据产业和基础设施建设。

(二)规范数据安全应用和网络用户隐私保护标准和法律

在数据安全应用和用户隐私保护问题上,我国法律法规制定显得相对滞后。随着大数据技术在各行各业渗透力度的加大,数据获取、分析、处理将对网络安全和用户隐私保护构成重要的挑战。及时制定数据安全应用和网络用户隐私保护标准和法律,划定隐私保护与大数据运用之间的边界,为我国大数据产业发展营造良好的发展环境。

(三)积极培养数据产业发展人才资源

人才资源培养是推进大数据产业发展的核心因素。一个完备的产业发展人才既要精通数据分析和挖掘理论知识,又要具有较强的实践水平,因此,产业发展人才培养既依赖于在数据在理论教育方面占优势的教育机构,也依赖于在实践中对人才磨炼和提升的企业。只有将学校培养与企业锻炼相结合,才能从根本上解决我国产业发展人才短缺问题。(作者单位:西安思源学院)

参考文献:

[1]郑梦悦.论当前大数据产业的发展现状及崛起举措[J].财经研究,2009,(1).

[2]迪莉娅.我国大数据产业发展研究[J].科技进步与对策,2014,(4).

大数据时代的数据挖掘及应用 篇4

数据挖掘是从大量的数据中四栋搜索隐藏于其中的具有特殊关系性的信息过程。它是数据库知识发现KDD中的一个步骤。知识发现KDD过程由以下3 个阶段组成:数据准备、数据挖掘、结果表示和解释。数据挖掘跟许多学科都交叉关联, 包括数据库技术、统计学、机器学习、人工智能、云计算和可视化等。

数据挖掘的实际应用功能可分为三大类和六分项:分类和聚类属于分类去隔类;回归和时间序列属于推算预测类;关联和序列则属于序列规则类。分类常被用来根据历史经验已经分好的数据来研究它们的特征, 然后再根据这些特征对其他未经分类或是新的数据做预测。聚类是将数据分群, 其目的是找出群间的差异来, 同时找出群内成员间相似性。回归是利用一系列的现有数值来预测一个数值的可能值。基于时间序列的预测与回归功能类似, 只是它是用现有的数值来预测未来的数值。关联是要找出在某一事件与数据中会同时出现的东西。

2 降维

从降维的角度讲, 整个数据挖掘的过程就是一个降维的过程。在这个过程中, 需要对数据删除线性关系比较强的特征数据, 再用一些算法, 如信号分析算法、傅里叶转换、离散小波转换等算法, 从数据中提取特征, 再对数据做主成分析处理, 得到最后的特征, 再用数据挖掘算法来将这些特征转化为人类可读取的数据或信息。

3 分布式数据挖掘解决方案

随着分布式计算技术、云计算技术、hadoop生态圈和非结构化数据库等技术的发展, 以及对大数据挖掘的需求, 出现了一批分布式数据挖掘, 比较典型的有Apache推出的基于Hadoop的Mahout和加利福尼亚大学伯克利分校AMP实验室推出的基于Spark的MLBase。在Mahout中主要实现3 种类型的数据挖掘算法:分类、聚类 (集群) 和协同过滤。相比Mahout而言, MLbase更好的支持迭代计算, 它把数据拆分成若干份, 对每一份使用不同的算法和参数运算出结果, 看哪一种搭配方式得到的结果最优。

4 大数据下的具体应用实例——生物信息学的应用

生物信息学 (Bioinformatics) 是生命科学、计算机科学、信息科学和数学等学科交汇融合形成的一门交叉学科。近年来随着先进仪器装备与信息技术等越来越广泛和深入的整合到生物技术中来, 生物医学研究中越来越频繁的涉及到大数据存储和分析等信息技术。在使用计算机协助生物信息时, 处理仅有计算机辅助的方式存储数据很显然是不够的, 生物信息学研究的目的是运用计算机强大的计算能力来加速生物数据的分析, 理解数据中所包含的生物学意义。当前生物信息学研究的热点有:

(1) 由以序列分析为代表的组成分析转向功能分析。

(2) 由对单个生物分子的研究转向基因调控忘了等动态信息的研究。

(3) 完整基因组数据分析。

(4) 综合分析。

生物信息数据具有如下特点:高通量与大数据量;种类繁多, 形式多样;异构性;网络性与动态性;高维;序列数据等特点[5]。针对这样的生物数据信息, 要结合当前的大数据分析方法进行分析和理解。当前数据挖掘实现对生物信息分析的支持主要有:生物数据的语义综合, 数据集成;开发生物信息数据挖掘工具;序列的相似性查找和比较;聚类分析;关联分析, 生物文献挖掘等方面。

参考文献

[1]许凡.大数据时代的数据挖掘技术探讨[J].电子技术与软件工程, 2015 (08) .

[2]洪松林.数据挖掘技术与工程实践[M].北京:机械工业出版社, 2014 (11) .

[3]李荣.生物信息数据挖掘若干关键问题研究与应用[D].复旦大学 (博士论文) , 2004 (11) .

[4]宋杰.生物信息数据挖掘中的若干方法及其应用研究[D].大连理工大学 (博士论文) , 2005 (04) .

大数据的发展及应用 篇5

序 言

大数据是通过快速获取、处理、分析以从中提取价值的海量、多样化的交易数据、交互数据与传感数据。大数据产业是指一切与大数据的产生与集聚、组织与管理、分析与发现、应用与服务相关的经济活动的集合,以数据挖掘分析服务为核心,包含数据中心、宽带网络等基础设施服务,数字内容服务、物联网服务、位置服务等信息服务,智能终端制造、电子元器件制造等电子产品制造,以及智能交通、互联网金融和智慧城市等应用服务。继云计算、物联网和移动互联网之后,大数据正成为信息技术的新热点,产业发展的新方向,将对人类的生产与生活产生巨大影响,对经济与社会发展带来深刻变革。把握大数据发展方向,推动大数据开发应用,发展大数据服务产业,是推进贵州省信息技术产业集聚发展和经济社会跨越发展的重要抓手,对推动贵州工业结构调整、加快贵州新型工业化和城镇化进程、打造贵州经济社会发展升级版,具有十分重要的战略意义和现实意义。

本规划纲要依据《国务院关于进一步促进贵州经济社会又好又快发展的若干意见》、《黔中经济区发展规划》、《“十二五”国家战略性新兴产业发展规划》以及《中共贵州省委贵州省人民政府关于加快信息产业跨越发展的意见》、《贵州省人民政府关于加快培育和发展战略性新兴产业的若干意见》等文件的部署和要求制定,旨在为贵州省大数据产业发展提供指导。规划期为2014年至2020年。

一、发展机遇与优势

(一)发展机遇

1.国家和贵州省全力支持为大数据产业发展提供政策保障

为贯彻落实有关规划和意见,国家35个部委相继出台支持贵州发展的政策文件或与贵州签署合作协议,对贵州省发展的支持力度明显加大。贵安新区跻身国家级新区,在财税、投资、金融、产业、土地、人才等方面享有更多广泛的改革试验权和更加优惠的产业政策,为贵州省经济发展注入了强劲动力,对产业和人才、资金、数据资源的吸引力显著增强。各类政策叠加效应日益显现,为贵州省大数据产业发展带来难得机遇。贵州省委、省政府对大数据发展高度重视,将大数据作为贵州省的战略重点之一,为加快招商引资、加速资源集聚、推动大数据产业发展提供了保障。

2.贵州省重视电子信息产业为大数据产业发展提供产业基础

近年来,贵州省日益重视电子信息产业发展,先后出台《贵州省人民政府关于加快培育和发展战略性新兴产业的若干意见》、《关于加快信息产业跨越发展的意见》、《“宽带贵州”行动计划》、《贵州省促进信息消费实施方案》、《贵州省信息化和工业化深度融合专项行动计划实施方案(2014-2017)》等文件,与大数据关系密切的软件、集成电路、物联网、下一代互联网、云计算等均列为发展重点。贵州省正以贵安新区、贵阳市为主要承载地,推动电子信息产业高端化、集群化、快速化发展。富士康贵州第四代绿色产业园,以及电信、移动、联通三大运营商的云计算和大数据中心的加快建设,将为贵州省大数据产业发展提供新动力。

3.经济社会加速转型升级为大数据产业发展提供市场需求

贵州省已进入工业化、城镇化加速发展阶段,推动改革发展转型、提高经济增长的质量和效益、保障和改善民生等任务艰巨,需要强化创新驱动和推动信息技术的广泛深入应用,把握和发挥大数据在决策、管理等方面的重要作用。由此将带来各行业、各领域数据量的爆发性增长和大数据应用需求的急速增大,带动政府部门、社会机构、企业及个人的大数据应用热潮。旺盛的应用需求将为大数据产业发展提供广阔的市场空间,更好地促进数据资源、应用资源的产生和聚集,实现产用衔接,互动共进。

(二)发展优势

1.生态优势:气候环境优良,地质结构稳定

贵州省属亚热带季风湿润气候,夏季平均气温低于25℃,全年风速以微风为主,没有明显沙尘天气,空气质量常年优良。地质结构稳定,远离地震带,灾害风险低。优良的生态环境为发展大数据基础设施提供了独特优势。

2.能源优势:水煤资源丰富,电力价格低廉

贵州水能资源蕴藏量为1874.5万千瓦,居全国第六位,其中可开发量达1683.3万千瓦,占全国总量的4.4%。煤炭资源储量居全国第五位,煤层气资源量列全国第二位,全省火电装机容量超过2000万千瓦。电力价格具有竞争优势,贵州省工业用电平均价格明显低于国内其他地区。能源优势能够为大数据企业提供廉价、稳定的电力资源,降低企业运行成本。

3.区位优势:地理位置特殊,交通日趋便利

贵州省位于我国中部和西部地区的结合地带,连接成渝经济区、珠三角经济区、北部湾经济区,是我国西南地区的重要经济走廊。近年来,抓紧建设以贵阳龙洞堡国际机场为核心的“一干十三支”民航系统,以黔桂、成贵等铁路干线和贵广高铁、沪昆高铁为代表的铁路运输网络正在形成,2014年进入“高铁时代”。贵州省公路路网结构日趋完善,高速公路通车里程3261公里,2015年通车里程将突破5100公里,实现“县县通高速”的目标。持续优化的交通条件,使贵州省经济走廊的地位进一步凸显。

4.战略优势:西部重要增长极,内陆开放新高地

党中央、国务院高度重视贵州省的发展,先后出台的《全国主体功能区规划》、《国务院关于进一步促进贵州经济社会又好又快发展的若干意见》、《西部大开发“十二五”规划》和《黔中经济区发展规划》等政策规划,都明确了对贵州省的支持政策。2014年1月6日,国务院批复设立国家级新区,确立了贵安新区作为西部地区重要的经济增长极、内陆开放型经济新高地和生态文明示范区的战略定位,进一步加大了对贵州省发展的支持力度。

二、指导思路与发展目标

(一)指导思想

紧抓国家西部大开发战略实施机遇,面向贵州经济社会跨越式发展的需求,以大数据应用作为产业发展的战略引领,坚持“应用驱动、创新引领,政府引导、企业主体,聚焦高端、确保安全”,通过改革、开放、创新,挖掘数据资源价值,集聚大数据技术成果,形成大数据企业集群,全面提升大数据产业发展支撑能力、大数据技术创新能力和大数据安全保障能力,努力建成全国领先的大数据资源集聚地和大数据应用服务示范基地,为贵州省经济社会加速发展、加快转型、推动跨越提供有力支撑。

(二)基本原则

应用驱动、创新引领。坚持以应用需求为导向、“应用、数据、技术”三位一体协同发展,集中攻克大数据关键技术和产品,集聚丰富数据资源,发展数据服务业务。推动技术产品、应用模式、商业模式和体制机制的协同创新,大力推进原始创新和集成创新,形成完整创新链条,促进产业发展向创新驱动型转变。

政府引导、企业主体。发挥政府统筹作用,加大引导力度,优化政策环境,建立推动大数据发展与应用的协调机制,充分调动各方积极性,形成最广泛合力,提高全社会对大数据的认识。发挥市场在资源配置中的决定性作用,以企业作为创新发展的主体,形成政、产、学、研、用联合推进的良好机制。

聚焦高端、确保安全。依托贵州省特色优势,围绕大数据分析处理等核心环节和大数据明星企业打造,坚持高水平建设、高端化发展,充分发挥大数据的引领带动作用。建立科学的数据开放规则和机制,以技术创新和管理模式创新推动构建安全、规范的发展与应用环境,提升数据资源开放利用的信心。

(三)发展目标

1.总体目标

推动贵州省大数据产业稳步快速发展,到2020年,大数据带动相关产业规模达到4500亿元。大数据产业体系基本健全,业务形态较为齐备,创新能力显著增强,安全保障能力明显提高。产业载体建设顺利推进,聚集一批具有较强市场竞争力的骨干企业。数据中心布局合理,政府数据资源实现有效整合,大数据开放与管理机制初步建立,应用水平明显提高,以大数据引领和支撑贵州省经济社会转型发展的能力显著增强。

2.阶段目标

遵循“基础构建、集群聚集、创新突破”的发展路径,以2015年、2017年和2020年为主要节点,分三个阶段规划发展。

(1)基础构建期(2014-2015年)

发展路径:在完成园区规划和完善宽带网络等基础设施的同时,加快贵州省各领域数据资源建设,启动大数据平台建设,实施重点领域应用示范工程。大力引进国家级数据资源库、存储与服务中心、数据灾备中心、超级计算中心,逐步完善产业发展环境,加速吸引以大数据服务为核心的电子信息企业入驻和大数据人才汇集。

发展目标:到2015年,三大电信运营商数据中心等大数据产业基地基础设施基本建成,1-2个重点领域的大数据服务平台初具雏形,大数据应用服务初步形成布局。大数据基地初具规模,聚集一批大数据采集、存储、分析服务企业和软硬件配套企业。引进10家左右大数据存储管理、分析处理的先进企业和若干电子信息产品制造业的龙头企业,培育200家大数据保障、系统集成服务、数据服务软件研发的中小企业,基本形成大数据产业配套体系,初步建立以大数据应用为基本业态的产业发展模式。通过大数据带动相关产业规模达到1100亿元,引进和培养2000名大数据产业高端人才。

(2)集群聚集期(2016-2017年)

发展路径:继续强化数据资源优势,完善优惠政策,健全配套产业体系和大数据标准规范体系,优化发展环境,深化与国家各部委、大型企业、科研机构和高等院校的合作,大力引进国内外数据存储、分析和应用服务的高端企业,逐步集聚一批国家部委的信息分析中心和国内外龙头企业的研发、服务、交易、结算总部,吸引和培育一批数据分析和数据应用企业,打造形成以数据分析、挖掘、组织管理、应用服务为核心的产业集群,争取在食品安全、环境保护、射电天文、民族医药等领域形成国家级数据处理和备份中心。

发展目标:到2017年,建成国内一流的数据资源中心,打造形成国内一流大数据产业基地和科技密集型的新一代信息技术产业集聚区。引进或培育30家大数据龙头企业,500家创新型大数据相关企业,产业链条基本健全,研发创新能力显著增强,能提供较为全面和专业的大数据分析、挖掘、组织和管理等服务,实现大数据与云计算、物联网、移动互联网等业态的融合发展,形成以数据服务为核心的产业集群化发展模式。通过大数据带动相关产业规模达到3000亿元,引进培养5000名大数据产业高端人才。

(3)创新突破期(2018-2020年)

发展路径:推动大数据服务、云计算服务、物联网服务、移动互联网服务的融合协同发展,拓宽以数据资源为基础的信息服务业发展空间,完善高端品牌创建、高素质人才引入、高增值和高回报产业培育,不断充实巩固大数据产业基地的资源实力、创新实力和市场竞争实力。吸引更多信息技术产业领域相关软硬件产品企业和服务企业,逐步形成与贵州地方产业基础和优势条件对应的信息技术产业体系,提高贵州省新一代信息技术产业发展水平。

发展目标:到2020年,国内一流的数据中心地位进一步巩固,大数据产业基地基本建成,数据为基础的信息服务产业特色明显,大数据、云计算应用和服务水平居国内领先地位,产业体系健全,成为西部地区重要的、全国有影响力的战略性新兴产业基地。通过大数据带动相关产业规模达到4500亿元,吸纳就业20万人。

三、重点任务

(一)建设大数据基地,优化产业布局

按照“黔中引领、两极带动、协同发展”的思路,以黔中经济区核心区为主,规划建设贵安新区电子信息产业园大数据基地、中关村贵阳科技园大数据基地、黔南州超算中心等多个产业基地。

贵安新区以三大电信运营商数据中心为重要依托,推动实现物联网、云计算等管理平台的统一,网络、存储、计算、系统等软硬件资源平台的统一和“一站办理、一网连通、一号服务、一卡通行”等服务资源平台的统一,引导大数据产业上下游优势企业落户基地聚集发展。

贵阳市充分利用中关村贵阳科技园的创新理念和各类资源,依托贵阳市信息技术产业基础,建设大数据特色产业基地,大力推进智慧城市、网络金融、食品安全等领域的示范应用,带动大数据产业集聚发展。

其他市(州)根据本地信息产业基础和需求,发展各具特色的信息产品制造业和大数据服务业。

(二)实施五大计划,推动信息产业“蛙跳式”发展

1.数据资源开发利用计划

围绕拓展新兴信息服务业态,推动大数据采集、加工、处理、整合和深加工。面向重点行业和重点民生领域,开展大数据重大应用示范,提升大数据应用服务能力。组织实施大数据关键技术产品产业化和大数据生产、转换、加工、展现平台及专用工具的产业化项目,大力发展基于大数据的生产性信息服务业,推动工业结构升级。

2.产业技术创新和成果转化计划

支持建立和引进大数据研发中心、工程技术(研究)中心等技术创新和产业化机构。组织实施大数据关键技术产品产业化项目,支持用于整合、处理、管理和分析大数据的关键技术产品产业化。加快推动以北斗导航为核心的技术研发和产业化进程,深化与大数据的结合,推动基于北斗卫星导航的地质灾害预报预警、交通运输监管、智慧旅游等应用示范,支持位置信息服务(LBS)业务发展。在产品、市场及产业链分析研究,产业共性关键技术研究,大数据、云计算及相关领域重点实施一批行业应用示范项目。

3.高端人才引进和培养计划

以大数据领域研发和产业化项目为载体,积极引进高端人才。创造条件,引进大数据领军人才100名,高端人才5000名。围绕大数据产业所需专门人才,鼓励高校开设大数据相关的研究生课程。支持建设专门高等职业技术教育学院,开展高等技术教育和职业技能培训。未来5年培养5万名左右的技术技能型、复合技能型和知识技能型专业技术人才,满足大数据产业发展需求。

4.产业配套升级计划

依托射电天文数据处理中心、三大电信运营商数据中心、阿里巴巴和京东贵州馆电子商务集群、大数据应用示范工程等一批特色项目,集聚和配套发展智能终端设备、云存储、云超算、云管理、数据清洗等产品和服务,在大数据基地形成专业化分工和社会化协作,鼓励龙头企业积极开展外包,推动实现大数据产业省内配套。

5.大企业培育和大项目带动计划

采取政策引导、资源整合、兼并重组、企业上市等综合措施,重点引进世界500强和国内电子信息百强企业落户,形成大项目带小项目、主体项目带配套项目、上游项目带下游项目的良好发展局面,建立“基于黔中经济圈、立足全省、覆盖全国”的大数据产业体系。到2017年,培育5家以上营业收入超百亿元的大型龙头企业,20家以上营业收入超10亿元的骨干企业,100家以上营业收入超亿元的重点企业,新增上市或股权挂牌交易企业10户以上。

(三)推动云计算服务发展,创新产业发展模式

推动云计算服务发展。大力引进公共云服务龙头企业,促进本地电子信息企业转型发展和创新创业,集聚一批服务能力突出的云服务提供商,提供高质量的云计算服务。

打造电子政务云服务平台。充分发挥政府在云计算服务应用中的引领作用,引导财政资金支持的信息化项目优先考虑和利用统一的大数据基础设施进行部署,逐步推进相关政府部门现有信息系统向平台迁移。

打造工业云服务平台。支持工业大数据应用开发和专业化云计算服务提供,加快推进贵州省两化深度融合。先行选择基础条件较好的工业行业开展云计算应用创新试点。推动大企业利用云计算技术整合信息系统,提高运营管理水平和服务能力。

(四)拓展大数据应用领域,提高科学发展水平

推动电子政务及信息资源共享。继续实施和完善党委、政府系统电子政务工程以及“金”字工程,推进政府信息公开和政务业务协同系统建设。加快省数据中心、电子文件(档案)备份中心、异地灾备中心建设,推进四大基础数据库和市场经营主体信用信息数据库的建设和完善。梳理各部门信息资源共享需求,建设覆盖全省的跨部门、跨地区的信息资源目录体系与交换体系,推进信息资源交换与共享。

挖掘“智慧贵州”大数据潜力。依托市(州)开展以“智慧交通”、“智慧旅游”、民生服务等为主要内容的“智慧城市”试点,整合信息资源,实现软硬件资源的共建共享。围绕车辆、商品和人员流动建设物联网应用平台,围绕医疗、教育、社保、食品安全等领域,推进民生服务信息化平台建设。推动社区信息化建设,促进行政管理、社会事务、便民服务等社区管理服务一体化。

四、重大工程

(一)信息基础设施提速工程

推进全省通信骨干网络扩容升级和网络通信能力优化,加快数据中心等基础设施建设,打造全国信息交换枢纽和信息存储中心,逐步成为全国重要的“信息港”。

加快全省骨干网络设施建设。积极争取国家有关部门支持,在我省设立国家级互联网骨干直联点。加快贵州省对外网络扩容步伐,到2017年全省互联网出省带宽达到4000Gbps。落实《“宽带贵州”行动计划》,开展“宽带中国”示范城市群创建工作。到2020年,力争全省城区实现光纤接入,城市宽带用户接入能力达50Mbps。提高低频段频谱资源使用效率,推进农村信息基础设施建设,到2017年实现村村通宽带,到2020年,借助各种先进技术实现农村宽带用户接入能力达12Mbps。实现新建开发区、产业园区宽带网络全覆盖,推进1Gbps光纤到楼,100Mbps光纤到户。

加强重要产业基地网络建设。加快部署LTE网络、网络带宽升级和区域性关键节点建设,力争将贵安新区在2015年建设成为区域性的核心节点,2020年升级为国家级的核心节点。加快制度创新,强化信息基础设施共建共享机制,在贵安新区先行先试。综合采用光纤到户、WIFI和4G技术,率先在贵阳国家高新技术开发区、贵安南部科技新城、贵阳经济技术开发区、花溪大学城实现宽带全覆盖。

统筹重要产业基地数据中心建设。推进中国电信、中国移动、中国联通三大运营商的大规模数据中心建设,吸引大型互联网信息服务企业、专业数据中心运行企业和金融机构等用户企业来贵州建设数据中心。充分利用已建、在建数据中心资源,建设全省数据中心,统筹推动全省数据资源整合和云计算、大数据应用。

加快重点地区北斗增强系统设施建设。率先在贵安新区、贵阳市、遵义市和安顺市建设北斗多模连续运行参考站网,实现增强系统信号全覆盖,提供事前分米级、事后厘米级精确定位服务。

(二)产业链整合提升工程

加强招商引资和本地优秀企业培育,在电子信息制造产品、基础软件和应用软件、产业公共服务平台等领域实现重点突破,全面带动贵州大数据产业发展。

发展电子信息制造产品。推动贵州省电子信息产业园区及示范基地建设,积极引进国内外电子信息制造业龙头企业,大力发展阻容感片式元件、显示模组、锂离子电池等产品,逐步发展传感器、音视频采集、条形码、RFID等数据采集设备产品,重点发展高性能低功耗服务器、存储设备等云端设备,构建配套体系。

发展基础软件和应用软件。引进国内外知名的基础软件和应用软件企业,扶持本省知名企业和中小型企业,加快智能海量数据存储与管理系统、非结构化数据处理软件等的开发及产业化。引进一批云服务相关应用软件开发企业。

推进物联网应用服务发展。在工业制造、农业生产、节能环保、商贸流通、交通能源、公共安全、社会事务、城市管理、安全生产等领域推动物联网的集成应用。扶持一批物联网骨干企业,提高物联网技术应用水平。

(三)数据资源集聚加速工程

建设贵州省大数据平台,整合贵州省政务、公共服务数据资源,建设数据资源灾备中心,不断完善数据资源建设机制,提升数据资源集聚和管理水平。

建设贵州省大数据平台。优先考虑三大电信运营商数据中心设施硬件基础,建立贵州省大数据平台,与政府各部门、公共服务机构信息化部门的信息系统科学对接,实现各部门数据资源的互联互通。指导和支持龙头企业或第三方公共机构以大数据平台为依托,加强数据资源建设。支持和鼓励政府部门、公共服务机构、企业基于大数据平台开发面向特定行业领域和用户群的大数据服务平台,利用大数据平台的数据资源提供服务。

加快整合贵州省数据资源。明确政府电子政务项目建设原则,各省直部门和各市(州)原则上不再新建数据中心,全省各部门(单位)的政务数据、公共服务数据集中存放在省大数据平台。加强与行业企业合作,提升大数据平台的数据采集、数据整合和数据管理能力。

建设数据资源灾备中心。面向国家部委、中央企业等的数据存储和容灾备份需求,积极与国家部委、大型企业对接,引进国家基础数据库入驻,建设国家基础数据备份中心、容灾备份中心和企业数据灾备中心。积极参与国家公安、社保、医疗、档案、税务、财政、工商、国土、统计、水利、农业、商业、文化、民政、司法行政等部门的地方数据中心和数据灾备中心建设,争取国家级数据资源库入驻。

建立数据资源管理与服务机制。立足贵州省大数据平台,建立数据资源管理与服务机制,对大数据平台中的数据资产进行统一管理。制定政府数据资源利用管理办法,推动政府数据资源开放、开发。建立数据资产登记制度和数据资产交易规则,建立数据资产元数据标准,规范数据资产说明,公开数据资产目录,推动形成数据资产交易市场。建立数据资产知识产权管理制度,加强对数据资产的知识产权管理。建设大数据交换平台与数据交易市场,为大数据发展与应用提供数据资源。

(四)重点领域应用示范工程

组织实施重大应用示范项目,推动建设面向政府、公众和企业的云计算和大数据服务平台,探索新的商业模式,及时总结经验并推广。

电子政务云工程。面向政府部门提高职能效率、实现跨部门信息资源共享和推进政府信息公开的需求,建立统一的贵州省电子政务云服务平台,发展电子政务云计算服务。结合党委、政府系统电子政务工程及“金”字工程实施和完善,梳理、整合贵州省各级各部门的数据资源及共享需求,加快建设覆盖全省的跨部门、跨地区的数据资源目录体系与交换体系,推进数据共享。提供以数据为驱动的业务支撑服务,以及城市管理相关决策辅助服务,推进财政税收、行政审批、电子监察、综合执法、数字城管、应急管理、公共安全管理、社会管理以及社会信用信息管理等领域的政务业务协同系统建设,推动精简、高效、廉洁、公平的政府运作模式建立,向社会提供全方位、高质量的管理与服务。

智能交通云工程。面向政府决策、交通管理、企业运营、百姓出行等需求,建立智能交通云服务平台。统筹全省公路、水路、铁路、航空等运输方式及管理部门的数据资源,整合公安、城管、交通、气象、铁路、民航等监控体系和信息系统,通过监控、监测、交通流量分布优化等技术,开展针对车辆属性信息和静、动态信息即时更新的运行平台,实现全网覆盖,提供交通诱导、应急指挥、智能出行、出租车和公交车管理、智能导航等服务,实现交通信息的充分共享、公路交通状况的实时监控及动态管理,全面提升监控力度和智能化管理水平,确保交通运输安全、畅通,推动构建人车路和环境协调运行的新一代综合交通运输运行协调体系。

智慧物流云工程。面向物流作业与行业管理需求,建立智慧物流云服务平台。大力推进物流领域信息基础设施建设,加快物流信息交换平台及第四方物流信息平台建设。整合商品信息、交通路网、货物运输、货物周转等行业数据,实现物流政务服务和物流商务服务的一体化。整合物流行业管理、电子口岸、危险品流通管理、出入境检验检疫监管等业务,建立仓储管理、业务协同、订单管理、运输管理系统,实行统一服务认证,为个人和企业提供统一窗口,开展市场需求信息查询、市场供给信息查询、业务运作管理咨询等服务,满足物流系统中各个环节不同层次的信息需求和功能需求。

智慧旅游云工程。面向日益增长的旅游行业管理、旅游景区信息化发展需求及自驾、自助游爆发式增长的趋势,建立智慧旅游云服务平台。整合旅游、建设、文化、交通、公安等部门和旅游景区、旅行社、酒店等单位的数据资源以及公路、铁路、机场等交通数据资源,建立全省统一的跨地区、跨景区的旅游数据资源交换体系。提供游客、旅游景区和旅行社等旅游企业的管理信息服务,提升景点旅游信息、建设、地貌、民族文化等信息整合程度和创新业态服务水平,提升具有民族特色的个性化旅游体验。

工业云工程。以提升智能化和柔性敏捷生产水平为重点,建设工业云服务平台,面向国防工业、装备制造、轻工食品等行业提供云计算服务,并逐步推广。面向工业企业生产经营的重点环节,提供工业设计、工艺设计、产品研发、企业管理等云服务,提升企业运营管理和研发创新能力。整合工商局、工商联、中小企业协会(联盟)等行业机构及中小企业的数据,搭建企业间数据资源交换体系,提供财务管理、人力资源管理、客户管理、供应链管理等运营管理服务,降低企业发展成本、提高工作效率。

电子商务云工程。面向贵州省电子商务发展需求,建立电子商务云服务平台。依托京东电商产业园、贵阳国际电商产业园等园区,加快电子商务支撑体系建设,整合生产企业、销售企业、运输企业、消费者、电商等方面数据,实现电子商务运行“一站化”,面向中小企业和“淘宝村”建设提供信息发布、商务代理、网络支付、融资担保和技术支持等服务。面向不同行业、区域和消费者,支持支柱产业大中型骨干企业开展电子商务应用,加快推进电子商务在农业、制造业、商贸流通等领域的普及和深化。鼓励金融机构、互联网企业等利用大数据资源开展互联网金融、移动电子商务等业务。大力吸引大型企业结算中心入驻。

食品安全云工程。面向政府有效监管、企业品质提升、公众知识普及科学和健康消费等需求,促进健康消费服务产业的发展,集合全省农产品生产、食品加工企业、流通环节中省内外食品企业、全省餐饮行业中的数据资源,加强食品安全与营养标准及知识库建设。建立基于大数据的食品安全与营养云平台,创新构建全国领先的食品安全政府监管、企业自律、媒体监督、消费者参与的社会管理“贵州模式”,促进健康消费,形成完整产业链,推动贵州食品产业后发赶超。

(五)核心产业载体发展工程

统筹规划,集中资源,重点支持,开展大数据基地建设,加快提升大数据基地服务能力,逐步形成和发挥辐射带动作用,带动全省大数据产业发展。

创建国家级大数据基地。重点支持贵安新区电子信息产业园和中关村贵阳科技园等园区开展大数据基地建设,吸引国内外知名云计算、大数据企业入驻,加快形成集聚效应,打造大数据产业发展高地。积极创造条件,利用省部联席会议机制,争取国家部委支持,与贵州省联合建设国家级大数据基地。

加快产业载体建设进程。创新和运用政策手段,引进国内外知名云服务、大数据企业向产业基地聚集。健全商务、资金、信息、技术开发与交流、国际合作等公共服务,打造“一站式”配套服务能力。建设大数据企业孵化器,设立创业种子资金,加强与创业投资、担保机构和云计算开发平台企业的合作,打造创业型企业孵化能力。支持建设和引进大数据相关的公共技术平台和管理平台,构建公共服务集成、专业服务支撑和应用创新推广于一体的大数据公共服务平台体系,创新基地建设、经营和服务模式,为创新创业企业技术创新和管理创新提供支持。

推动大数据基地智慧园区建设。面向大数据产业基地建设和管理需求,推动大数据基地智慧园区建设。探索产业基地大数据管理机制,建立有效、便捷的数据资源汇聚机制和公平、公正的数据资源交换机制。面向管理层提供行政审批、电子政务、招商引资、工商、税务、质监、开发建设等服务,为开发运作层提供基础设施建设、拆迁改建、公共设施建设等方面的服务。鼓励大数据企业积极参与基地建设,为公共服务平台建设和基础设施建设提供决策支持服务。

(六)安全保障能力建设工程

以平衡产业创新发展与信息安全保障间关系为目标,探索完善云计算与大数据环境下信息安全管理规则、管理模式与管理流程,提高产业安全保障能力。

增强大数据技术保障能力。加强安全测评、电子认证、应急防范等信息安全基础性工作,大力推广国产密码算法应用。加快大数据安全软硬件技术产品研发和标准制定,建立大数据安全评估体系,提高大数据平台信息安全监测、预警和应对能力。加强测试工具研发,开展大数据平台可靠性及安全性评测服务,引导大数据安全可控和有序发展。

开展信息安全保障体系建设。加强大数据环境下信息安全认证体系建设,做好信息安全顶层设计,有效保障数据采集、传输、处理等各个环节的安全可靠。围绕信息系统安全、基础设施安全、云平台安全、网络通信安全、数据安全、身份认证与管理等方面,开展全面系统的信息安全保障试点工作,探索建立信息安全保障体系。

加快制定相关标准规范。制定大数据采集、管理、共享、交易等标准规范,明确收集数据的范围和格式、数据管理的权限和程序以及开放数据的内容、格式和访问方式等。制定出台数据资源开放指导办法和数据资源安全开放标准规范,按照“开放优先、安全例外、分类分级”的原则,对大数据中心的数据资源进行梳理和开放风险评估,制定数据开放目录并及时更新。

加强大数据资源安全管理。面向大数据平台建设和应用服务需求,围绕大数据资源的分级、共享、开放、交易等推进标准规范制定和实施。

五、保障措施

(一)加强组织领导

由省经济和信息化委牵头,建立跨部门、跨地区、跨行业的大数据发展协同推进机制,加强重大问题协调力度,统筹贵州省大数据产业发展和信息化应用。设立贵州省数据资源管理办公室。设立贵州省大数据产业发展专家委员会,为云计算和大数据产业发展与应用及相关项目工程实施提供决策支持。

(二)强化政策扶持

研究制定《关于加快大数据产业发展应用若干政策的意见》,明确大数据战略实施和大数据基地发展的相关政策,在财政扶持、金融支持、用地保障、电力供给等方面加大扶持力度。落实《国务院办公厅关于政府向社会力量购买服务的指导意见》的精神,把云计算服务、大数据服务等信息技术服务纳入政府购买服务的范畴,鼓励政府部门购买信息服务、以租代建,推动省大数据平台为全省各部门(单位)的政务数据、公共服务数据提供信息服务。

(三)健全投融资机制

从大数据产业发展专项资金中安排引导资金,募集社会资本共同发起设立贵州省大数据产业投资基金。创新基金支持方式,综合应用风险投资、股权投资、担保贷款、贷款贴息、科技保险等方式,优先支持重大应用示范类和创新研发类项目。优先支持相关企业参与申报国家专项资金项目。通过政策手段,引导各类风险投资机构加大对大数据发展的投资力度,鼓励金融机构为符合条件的大数据企业提供贷款,拓宽大数据企业融资渠道。

(四)着力市场应用培育

加强对各行业领域重要对象的培训力度,提升其对大数据及其价值的认识。制定政府部门和公用事业单位大数据应用采购目录,引导重点行业、重点领域的企业和机构将非核心的大数据应用业务外包,培育和壮大本地市场。探索政府部门和公共事业单位购买服务方式,支持大数据的产业发展与应用。由专家咨询委员会委员牵头,跟踪整理国内外大数据典型应用案例,收集总结贵州省大数据应用示范成功案例,及时总结经验并加强宣传推广。

(五)支持技术创新

运用市场机制集聚创新资源,吸引国内外知名的大数据分析和应用服务企业在贵州建设大数据研发中心、工程技术(研究)中心,支持信息服务骨干企业、科研机构联合国内外知名大数据企业或研究机构,成立“产学研用”一体的大数据专业研究院或实验室,开展大数据关键技术、解决方案等相关研究,共同推进研究成果市场化应用。

吸引国内外大数据服务供应商、解决方案提供商、硬件设备制造商落户贵州,力争引入一批大数据关键技术,创新集成,形成具有自主知识产权的技术产品。支持本地中小微型信息服务提供商面向细分行业或领域开展大数据应用服务的研究和探索。

成立大数据产业和应用联盟,汇聚政产学研用各界资源,共同推进面向应用的大数据相关理论研究、技术研发、数据共享、应用推广,形成开发合作、协同发展的大数据技术、产业和应用生态体系。

(六)强化信息安全保障

大数据的发展及应用 篇6

【关键字】 大数据分析 Hadoop Spark 内存计算

一、引言

近年来,大数据成为工业界与学术界关注的热点,因为随着存储设备容量的快速增长、CPU处理能力的大幅提升、网络带宽的不断增加,也为大数据时代提供了强有力的技术支撑。从web1.0到web2.0,每个用户都成为一个自媒体,一个互联网内容的提供者,这种数据产生方式的变革更是推动着大数据时代的到来。

二、相关研究

什么是大数据呢?大数据是由结构化与非结构化数据组成的,其中10%为结构化数据,存储于各类数据库中,90%为非结构化数据,非结构化数据如图片、视频、邮件、网页等,现如今,大数据应用以渗透到各行各业,数据驱动决策,信息社会智能化程度大幅提高。目前,国内相关技术主要集中在数据挖掘相关算法、实际应用及有关理论方面的研究,涉及行业比较广泛,包括零售业、制造业、金融业、电信业、网络相关专业、医疗保健及科学领域,单位集中在部分高等院校、研究所和公司,特别是在IT等新兴领域,阿里巴巴、腾讯、百度等巨头对技术发展推动作用巨大,而这些互联网巨头们在大数据处理中,又纷纷采用了Hadoop、Spark这一处理框架。

三、基于spark的大数据处理平台

3.1大数据平台搭建

环境说明:3台装有Ubuntu14.04操作系统的PC机,Hadoop 2.6.0,Spark1.6.0。

Hadoop环境的搭建首先从apache官网下载合适版本的Hadoop代码,本文中安装的Hadoop版本为Hadoop 2.6.0。首先需要在各台实验PC机之间设置SSH免密码登录,无密码登录的原理:用户在 master上生成一个密钥对,包括一个公钥和一个私钥,并将公钥复制到所有的 slave上。然后当 master 通过 SSH 连接 slave 时, slave 就会生成一个随机数并用 master 的公钥对随机数进行加密,并发送给 master ,master用自己的私钥进行解密得到解密数,并将解密数回传给slave,slave确认解密数无误之后就允许master不输入密码进行连接了,通过免密码登录主节点于从节点之间即可进行数据计算结果的快速交互。随后确认本机上是否安装了jdk,如未安装需要先安装Java的jdk,本环境中使用的是jdk1.8.0版本。

然后将下载的Hadoop文件解压到某个目录下,进行Hadoop的配置过程,涉及的配置文件有7个,分别为hadoop-env.sh,yarn-env.sh,slaves,core-site.xml,hdfs-site. xml,mapred-site.xml,yarn-site.xml,具体配置参数可查看相关教程。在主节点(master)配置完毕后,将整个Hadoop文件夹依次拷贝到各个slave节点。Hadoop安装完毕后,即可启动验证,首先格式化Hadoop节点,执行以下命令,只需格式一次:

$hadoop namenode -format

进入Hadoop目录下的sbin文件夹,启动Hadoop,

$./start-all.sh

检查Hadoop进程,

$jps

master节点上有如下进程,如图1:

slave节点上有如下进程,如图2:

表明Hadoop集群已配置完成。

安装完Hadoop后,即可进行Spark安装文件的配置,基本同Hadoop的配置相似,将Spark安装完毕后,可以启动spark-shell查看安装是否成功。

3.2大数据平台分析

spark集群处理环境搭建完毕后,我们可以使用其进行简单的数据分析,spark1.6.0中也为我们提供了示例代码,涵盖流计算、图计算、机器学习、sql查询处理等程序,用户可以方便的参考学习,从而进行自己的开发应用。

参 考 文 献

[1]王珊,王会举,覃雄派,周烜. 架构大数据:挑战、现状与展望[J]. 计算机学报. 2011(10)

大数据的现在及未来发展趋势 篇7

关键词:大数据,云时代,数据分析,数据处理

本文首先从大数据的特征定义出发理解什么是大数据及其特点;再次从对大数据重要价值的探讨来深入了解大数据的珍贵所在;最后从对大数据的现在和未来去洞悉大数据的发展趋势。

1 什么是大数据

云时代的来临, 大数据也吸引了越来越多的关注。大数据不仅是字面意义上的大量非结构化和半结构化的数据, 而是一种新的观察世界的方法, 用数据化思维和先进的处理技术探索海量数据之间的关系, 构筑一个更加透明化的世界。它是互联网发展到现今阶段的一种表象或特征, 在以云计算为代表的技术创新大幕的衬托下, 这些原本很难收集和使用的数据开始容易地被利用起来了, 通过各行各业的不断创新, 大数据会逐步为人类创造更多的价值。

2 大数据的特点

大数据的特点分为四个层面, 业界将其归纳为4个“V”——Volume, Variety, Value, Velocity。第一, 数据体量巨大。从TB级别, 跃升到PB级别;第二, 数据类型繁多。包括有网络日志、视频、音频、图片、地理位置信息等等。第三, 价值密度低。以视频为例, 连续不间断监控过程中, 可能有用的数据仅仅有一两秒。第四, 处理速度快, 时效性要求高。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。这是大数据区分于传统数据挖掘最显著的特征。

3 大数据的重要价值体现

大数据的重要价值体现主要分为四个方面, 第一, 记录。数据本身被记录下来, 并非全部是为了长远的利益所用。很多记录其实发挥的作用是一种操作的基础, 脱离了记录, 后续的操作将难以进行。这点与人大脑的作用有点相似。我们每个人在做一个即时操作的同时, 大脑都会加以记录。然后依据这些记录快速决定下一步怎么做。第二, 备份和监督。数据记录也是对以前操作过程的一个虚拟备份, 记录了各自多方不同的操作过程及次序, 乃至不同环节的具体操作内容。这样一种作用可以看作是记录本身最被认可的初始价值。第三, 纠偏, 一个系统在运行的过程中, 有些时候也会出现一些跟平常不一样的差异所在。当这种差异所代表的数据通过极值等各种方式体现出来的时候, 系统本身的原有平衡可能会被打破, 内部各方面的环节或资源就有可能跟不上。这个时候适当的外力参与很有必要, 从而确保系统的良性运行。第四, 预测。对未来的预测功能是目前业界对大数据最看重的价值之一。基于之前记录下来的各种数据的深入研究、挖掘发现其中的规律特征, 从而进行系统的优化, 甚至升级。如果前面的纠偏只是一些相对较小的指引的话, 那么基于预测的情景研究和系统优化, 则是相对较大的变动。这种基于预测的价值实现对系统的长远运行来说价值非常重大, 因其决定了一个系统是否具有长期的成长性及演变能力。

4 大数据现在及未来发展趋势

目前大数据在当下有许多杰出的表现, 比如大数据帮助政府实现市场经济调控、灾难预警、公共卫生安全防范、社会舆论监督等, 大数据帮助城市预防犯罪, 提升紧急应急能力, 实现智慧交通, 大数据能帮助医疗机构建立患者的疾病风险跟踪机制, 帮助医药企业提升药品的临床使用效果, 大数据帮助航空公司节省运营成本, 帮助电信企业实现售后服务质量提升, 帮助保险企业识别欺诈骗保行为, 帮助运输部门监测分析运输车辆的故障险情以提前预警维修, 帮助电力公司有效识别预警即将发生故障的设备;帮助电商公司向用户推荐商品和服务, 帮助旅游网站为旅游者提供心仪的旅游路线, 帮助二手市场的买卖双方找到最合适的交易目标, 帮助用户找到最合适的商品购买时期、商家和最优惠价格, 其实, 这些还远远不够, 未来大数据的身影应该无处不在, 就算无法准确预测大数据终会将人类社会带往到哪种最终形态, 但我相信只要发展脚步在继续, 因大数据而产生的变革浪潮将很快淹没地球的每一个角落。比如, Amazon的最终期望是:“最成功的书籍推荐应该只有一本书, 就是用户要买的下一本书。”

当物联网发展到达一定规模时, 借助条形码、二维码、RFID等能够唯一标识产品, 传感器、可穿戴设备、智能感知、视频采集等技术可实现实时的信息采集和分析, 这些数据能够支撑智慧城市, 智慧交通, 智慧能源, 智慧医疗, 智慧环保的理念需要, 这些所谓的智慧将是大数据的采集数据来源和服务范围。

未来的大数据除了将更好的解决社会问题, 商业营销问题, 科学技术问题, 还有一个可预见的趋势是以人为本的大数据方针。人才是地球的主宰, 大部分的数据都与人类有关, 要通过大数据解决人的问题。比如, 建立个人的数据中心, 将每个人的日常生活习惯, 身体体征, 社会网络, 知识能力, 爱好性情, 疾病嗜好, 情绪波动……换言之就是记录人从出生那一刻起的每一分每一秒, 将除了思维外的一切都储存下来, 这些数据可以被充分的利用, 医疗机构将实时的监测用户的身体健康状况, 教育机构更有针对的制定用户喜欢的教育培训计划, 服务行业为用户提供即时健康的符合用户生活习惯的食物和其它服务, 社交网络能为你提供合适的交友对象, 并为志同道合的人群组织各种聚会活动, 政府能在用户的心理健康出现问题时有效的干预, 防范自杀, 刑事案件的发生, 金融机构能帮助用户进行有效的理财管理, 为用户的资金提供更有效的使用建议和规划, 道路交通、汽车租赁及运输行业可以为用户提供更合适的出行线路和路途服务安排……

5 结语

可以说, 在IT日益渗透到企业和个人方方面面的今天, 大数据将逐渐成为很多行业企业实现其价值的最佳途径, 大数据的应用也将会全面展开。显而易见, 大数据正以无处不在的发展趋势深入我们的生活, 改变我们的生活。京东首席科学家预测, 未来对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家资产, 大数据将成为国家战略的重要部分。

参考文献

[1]陈如明.大数据时代的挑战、价值与应对策略[J].移动通信, 2012 (17) .

[2]陈庚, 郑纬民.云计算:系统实例与研究现状[J].软件学报, 2009, 20 (5) .

大数据时代信息化教育的应用与发展 篇8

经过多年的发展与应用,当前信息化教育与互联网新技术结合紧密,利用云计算、虚拟化和物联网等而实现校园智能化服务和管理的新模式,实现开放协作的学习、科研、工作环境。 随着数据的汇聚、存储与处理,教育大应用与大数据的出现不可避免,信息化教育的应用已经步入以数据为核心的大数据时代。

2 大数据应用是信息化教育发展的必然结果

麦肯锡全球研究所对“大数据”的定义:大数据是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群。

目前,全国各地的信息化教育的高速发展,积累了种类繁多的海量教育数据。 然而,从本质上说,大数据本身没有太高价值。 通过实践证明,只有对大数据实施分析挖掘并应用于教学过程中才有可能产生效益,快速提升学校在教学、科研、改革等方面的管理能力,有效辅助决策,充分展示校园的“智慧”管理,为智慧教学创造无限可能性。 因此,随着教育智慧化程度的深入,大数据应用是信息化教育发展的必然结果。

3 当前信息化教育的大数据应用现状

近年来,走在信息化前沿的各高校对大数据的应用服务范围不断拓展, 大数据不断地影响着教育创新,为信息化教学创造无限提升空间。 目前主要大数据的应用体现在几个方面。

3.1 校园图书馆服务应用

大量的图书和用户信息存储在服务器云端,利用云技术对其进行分析、挖掘,及时了解掌握读者的借阅行为、习惯、知识水平等,辅助图书馆管理人员进行有针对性的决策,准确预测读者对图书服务的个性需求;同时也可通过大数据建立科学及实用的图书馆馆藏信息安全预测评估模型等。

毋庸置疑,大数据的深度应用提高了图书馆员的思想意识、技术服务、专业能力、管理水平等综合能力。

3.2 校园教学模式转变

在大数据时代, 教育模式由封闭模式走向开放模式,由单一模式走向多元模式。 越来越多的教育网站在大数据的支撑下,不断优化教学内容、教学方式,为学生提供高质量的自主学习内容。 有些在线学习平台, 教师根据自己上传课件视频的点击率获得报酬,这对教师是一种新的挑战和机遇。

3.3 教学评价方式重构

首先,教学评价的方式革新。 通过大量数据的分析挖掘, 找出教学活动的一般规律。 比如新一代在线学习平台, 就多出了行为分析和学习诱导的功能。 通过研究学生鼠标的点击频率和规律,可以掌握学习者的活动轨迹。

其次,可以对学生进行立体的多元评价,而不局限于知识掌握的单一维度。

第三,教学评价不仅要求结果评价,而且要实现过程评价。

4 大数据对未来教育信息化教育的影响

云计算的发展为信息化教育大数据的深度应用提供了有力的技术支撑,伴随存储空间的日益降价,大数据技术的发展必将会影响着未来的信息化教育的发展趋势。

4.1 教育向精准的个性化学习方向发展

大数据时代,高校信息化系统会详尽记录所有登陆学生在资源共享平台留下的上网行为痕迹,并进行数据的分析和挖掘, 进而量身定制每个学生的专用学习计划。 因此,从这个角度来说,未来的教育将是精准的个性化教育,对每个学生的教育都可以建立在对过去行为数据的分析基础上。

不可否认, 教育发展的影响因素有很多,教育也有自身的发展规律。 大数据时代的来临, 将会从整个社会大系统对教育子系统产生巨大影响,并最终通过教育来影响我们的整个社会。

4.2 数据分析能力成为教师必备的技能

在未来的教学活动中,专业能力仍然占据着教师素养非常重要的位置,但是未来的教师还必须掌握一项重要的技能,那就是对教育信息数据的分析能力。

在未来的信息化教育中,教育信息化数据呈现几何级增长,高校必须积极开设数据分析课程,指导教师对学生相关、关联数据进行深层分析,在纷繁复杂的数据中寻找具有教学价值的内容,最终有效地运用到教学课堂中。

4.3 教室管理更高效、更安全、更快捷

在未来大数据时代,信息化教育的教室管理系统会更加智能化。 通过对教室参数的采集、分析,预测教室自身的状况和其内设备的故障情况,负载能力等,反馈系统可使教室管理人员预先做到心中有数,合理安排教室和设备,高效准确保障教学。 在这种趋势下,各类监控报警自动化,将大幅节省学校的人力、物力、财力。

5 结束语

大数据在教育信息化中的应用越来越广泛,推动教育信息化不断革新,受到学术界的广泛关注。 然而大数据本身也面临着诸多技术和管理问题,尤其是国内大数据的研究起步较国外晚,成熟实用的分析与模型还比较少,存储不够高效等问题,但是随着时间的推移,信息技术不断成熟,相信大数据必定会成为信息化教育建设的热点研究。

摘要:经过多年的发展与应用,教育信息化的发展已经步入以数据为核心的大数据时代。通过大数据的分析与挖掘校园实现智能化服务和管理的新模式,推动着教育创新,为未来信息化教学创造无限提升空间。论文重点阐述了信息化教育大数据当前的应用服务,并分析了对教育信息化发展的深远影响。

大数据的发展及应用 篇9

1 大数据时代的发展历程及现状表现

据统计,从“大数据”概念被提出至今,大数据的信息容量和数据交流量在不断上涨,现在大数据容量已相当于每个人每天消耗应用200GB以上数据信息的总和。值得一提的是,2012年3月29日,美国政府在白宫网站发布的《大数据研究和发展倡议》备受其他发达国家关注,认为大数据发展势不可挡,并且国家大数据发展水平可以反映国家的实力和资本能力。所以,很多国家都投入到大数据发展中来。目前,国内也正在积极发展大数据,积极营造良好的大数据环境。

从当前我国大数据环境营造情况来看,大数据已渗透到各个领域当中,改变了数据、信息的本质,使得企业通过利用大数据进行企业业务信息管理,可以提高业务质量、业务效率,同时降低资源耗费。由此看来,目前大数据技术应用现状良好[1]。

2 数据挖掘技术分析

2.1 数据挖掘

诞生于20世纪80年代的数据挖掘是一门新兴学科,主要是面向商业应用的人工智能研究领域。在大数据时代推出的数据挖掘技术具有较高的应用价值,从商业角度来说,它能够在庞大的数据库中探寻、整理、优化信息数据,使其更有价值,为商业决策提供依据,所以,数据挖掘具有较高的应用价值;从技术角度来说,它的应用主要是在大量、复杂、不规则、模糊的数据中探寻有价值的信息和知识,说明其技术应用水平较高,能够克服信息方面的难题[2]。

2.2 数据挖掘的基本分析方法

分析方法是发挥数据挖掘技术作用的关键。因为只有通过运用科学、有效的分析方法来对复杂、不规律、模糊的数据进行分析,找出规律,才能挖掘有价值的信息。目前,数据挖掘基本分析方法有多种,具体如下。

2.2.1 聚类分析

聚类分析就是将物理或抽象对象的集合进行分组,然后组成为由类似或相似的对象组成的多个分类的分析过程。其实,聚类分析就如同划分数据,在各个数据组中寻找有意义的数据。但其又与普通形式的分类不同,它是在不知对象的情况下进行数据划分,相对来说聚类分析更为困难。

目前,数据聚类分析有两种方法,即硬聚类和模糊聚类。硬聚类就是将距离较近的数据分为一类,而模糊聚类则是根据数据的隶属度划分。尽管两种方法的分类方式不同,但目的是一致的。所以,在具体利用聚类分析方法进行数据挖掘时,以上两种方法均适用[3]。

2.2.2 关联分析

其实,在自然界中事物之间有千丝万缕的关系,某事件发生时必然会引发其他事件。数据关联分析就是基于这一自然原理展开的,即利用数据之间的关联性,寻找数据之间的规律,进而通过规律分析获得有价值、有意义的数据信息。所以,关联分析也是数据挖掘中一种切实有效的基本分析方法。

2.2.3 特征性数据分析法

特征性数据分析方法,是通过分析数据特征来挖掘有价值、有意义的数据信息。因为数据资源应用日益广泛,相关学者及研究者通过数据资源的特征分析,提出了多种特征数据分析方法,如利用人工神经网络进行数据分析,也就是通过建立数据模型,利用神经网络进行数据分析,寻找有价值的数据信息;利用遗传基因算法进行数据分析,也就是对数据进行选择、重组、突变分析,寻找有价值的数据信息;利用可视化技术进行数据分析,即通过利用图形、图像、动画等形象的指导操作、挖掘数据,从而寻找有价值的数据信息[4]。

2.3 数据挖掘的基本过程

2.3.1 数据准备

相对来说,数据挖掘技术应用过程中数据准备是非常重要的一环,只有做好数据准备,才能保证后续数据挖掘有效进行,提高数据挖掘质量和效率。那么,如何进行数据准备呢?也就是对原始数据进行处理,因为原始数据并不适合数据挖掘,需要通过数据选择、数据清洗、数据推测、数据转换等操作,使原始数据转化为可以挖掘的数据。

2.3.2 数据挖掘

数据挖掘作为获得有价值的数据信息的关键环节,在具体进行数据挖掘的过程中,首先要明确数据挖掘目标,在此基础上选择适合的分析方法(如上),科学、合理地利用基础分析方法进行数据分析,寻找数据规律,进而挖掘有价值的数据信息。

2.3.3 模式评价与分析

模型评价与分析,简单来说,就是对挖掘数据结果进行解释、分析,提取有意义或有使用价值的规律,转化为人们可以理解的数据语言[5]。

3 大数据时代中数据挖掘的应用

3.1 数据挖掘后数据信息资源的职能范围及表现

目前具有信息化特征的数据挖掘技术已可以更好地融入到当前的社会环境中,考虑社会经济、科技、文化等方面,更加合理地配合企业生产经营活动,解释生产经营活动中物质的性质及价值变化,并找出物质相关数据变化特征及规律,以便使企业能够以此为依据,合理调整生产经营活动目标、方向、方式,改善生产经营活动效果,为企业创造更多的经济效益。由此看来,数据挖掘技术应用,扩大了数据信息资源的职能范围,更好地服务于企业业务,提供企业业务水平[6]。

3.2 数据挖掘技术的具体应用

3.2.1 市场营销领域

相对来说,市场营销领域是应用数据挖掘技术最早、最多的领域。主要是因为在市场营销中利用数据挖掘技术可以进行用户相关数据信息的挖掘,获得有价值的数据信息资源,如顾客消费行为信息资源,为更好地进行产品销售、用户服务提供依据,提高市场营销水平。

3.2.2 科学研究

科学研究中数据挖掘技术相当于辅助工具,用于寻找观测数据的相关规律及知识,为更好地进行科研项目研究提供依据。例如,利用数据挖掘技术进行DNA数据分析等。所以,在科学研究方面,数据挖掘技术的应用也起到非常重要的作用。

3.2.3 制造业

在人们对产品质量要求越来越高的情况下,制造业领域中应用数据挖掘技术也是非常重要的。数据挖掘技术的应用可以对产品相关数据进行分析,获得产品存在缺陷的相关数据、产品生产效率的相关数据,为科学、合理地分析产品缺陷原因及生产效率低的原因提供依据,如此制造企业可以有针对性地调整和优化产品生产,提高产品生产效率,使制造企业创造更多的经济效益,推动制造业不断进步与发展[7]。所以,在制造业领域中科学、合理地应用数据挖掘技术是非常有意义的。

3.2.4 电信业

在电信业蓬勃发展的今天,电信服务的客户群体庞大,这使得电信企业需要为之提供优质的技术服务。但是,因为电信技术与服务已成为一个非常庞大的混合载体,这使得技术服务易受到影响,导致技术服务质量不佳。数据挖掘技术的应用则可以改变此种局面,因为数据挖掘技术可以对电信复杂数据进行有效分析,从中寻找规律和知识,为电信技术服务提供有应用价值的数据信息资源,如此可以优化电信技术服务,使之可以更好地服务于用户,满足用户需求。

3.2.5 教育领域

在教育领域中数据挖掘技术也发挥着不可忽略的作用。数据挖掘技术的应用,可以分析学生的心理特点,可以使教师根据相关数据信息资源调整教学活动;可以利用数据挖掘技术分析学生学习成绩,了解学生学习薄弱之处,以便教师有针对性地教育、指导学生;可以利用数据挖掘技术进行教学资源的优化配置,使得教学资源利用率最大化,为提高教学水平创造条件。

3.3 数据挖掘技术延展方向

基于当前我国数据挖掘技术在各个领域应用实际情况来看,数据挖掘技术在市场营销、科学研究、电信、教育等领域发挥重要作用。基于当前数据挖掘技术应用趋势来看,未来随着数据挖掘技术的不断优化、创新、完善,此项技术将会延伸到更多领域当中,比如生物制药、刑侦调查、航空航天等领域,并发挥更大作用[8]。所以,数据挖掘技术开发和应用是非常重要的。

4 结语

基于大数据时代背景来看,数据挖掘技术符合时代特点,并且满足各个行业应用需求,将其科学、合理地应用到制造、市场营销、科学研究、教育等领域中,利用适合的基础分析方法来进行相关数据的分析,可以探寻到有价值的数据信息资源,为推动各个领域更好发展奠定基础。所以,积极研究和应用数据挖掘技术非常有意义。

摘要:在大数据时代的今天,数据挖掘成为一项非常重要的课题。因为通过数据挖掘,可以影响、改变数据信息在日常信息管理、信息处理中的作用,同时也可以解决信息资源相互干扰等问题。要想充分发挥数据挖掘的作用,需要在大数据时代背景下科学、合理地应用数据挖掘技术。基于此,笔者就以分析大数据时代的发展历程及现状表现展开论述,然后探讨大数据时代下数据挖掘技术及其应用。

关键词:大数据时代,数据挖掘技术,数据信息

参考文献

[1]卢建昌,樊围国.大数据时代下数据挖掘技术在电力企业中的应用[J].广东电力,2014(9):88-94.

[2]肖明.大数据时代下数据挖掘技术在企业中的应用[J].中国管理信息化,2015,18(2):58.

[3]李平荣.大数据时代的数据挖掘技术与应用[J].重庆三峡学院学报,2014(3):45-47.

[4]夏绪卫.大数据时代下数据挖掘技术在电力中的应用分析[J].通讯世界,2016(7):115.

[5]宋志秋.大数据时代营销中的数据挖掘技术[J].数字技术与应用,2015(3):209.

[6]张亮.大数据和数据挖掘技术在烟草行业的应用[J].电脑知识与技术,2014(22):5375-5376.

[7]杨华昆.大数据时代数据挖掘技术探讨[J].电脑编程技巧与维护,2015(24):78-79.

大数据技术及标准发展研究 篇10

大数据是继云计算、物联网、移动互联网之后信息技术融合应用的新焦点,是信息产业持续高速增长的新引擎,将引发各领域、各行业生产模式、商业模式、管理模式的变革和创新,对经济社会发展及人们生活方式产生深刻影响。随着经济全球化的不断深入,大数据标准化已成为各国促进大数据产业发展的重要措施。研究和建立一套比较完整的大数据技术标准体系对于政府宏观指导和促进大数据发展、大数据技术和产品的更新换代,规范大数据行业竞争,有效推进大数据标准化工作有着重要意义[1]。

目前,国内外大数据标准化工作尚处于起步阶段,还未形成一套公认的、完整的大数据标准体系,绝大多数的大数据标准化工作尚处于标准的需求分析和研究探讨阶段。国内外大数据相关标准研究组织主要包括:ISO/IEC JTC1/SC32( 数据管理和交换)、云安全联盟(CSA)、全球网络存储工业协会(SNIA)、加州大学圣地亚哥分校大规模数据系统研究中心(CLDS) 等,国内大数据相关标准研究组织在全国信息技术标准化技术委员会的主持下持续开展数据标准化工作, 在元数据、数据库、数据建模、数据交换与管理等领域推动相关标准的研制与应用。

2 大数据标准化的作用和发展目标

大数据标准化是标准化的一个新兴领域。大数据标准化工作可以理解为围绕大数据技术的研究和开发、大数据产品的研制、大数据系统建设、运行与管理过程中开展的一系列标准化工作。

通过大数据领域标准化以及相关技术政策的实施,可以整合和引导社会资源、激活科技要素、推动自主创新与开放创新,促进大数据产业健康发展;加速技术积累、科技进步、成果推广和创新扩散,从而加速大数据在各行业的广泛应用,促进国内产业升级以及经济、社会、环境的全面、协调、可持续发展。大数据标准化是大数据发展的助推器。

大数据标准化发展可以包括以下几点:

建成大数据标准体系,提升产业竞争力和自主创新能力;

增强大数据标准化参与能力;

构建大数据标准服务支撑体系,推动大数据技术标准有效实施;

培养一批实质性参与大数据领域国际标准化活动的专家、具有大数据以及各类标准化专业知识和技能的标准化工作人才。

3 大数据技术分析

3.1 大数据的特征

大数据是大而复杂、难以用现有数据库管理工具处理的数据集,其特征见表1。广义上,大数据有三层内涵:一是数据量巨大、来源多样和类型多样的数据集;二是新型的数据处理和分析技术;三是运用数据分析形成价值。大数据被视为重要的生产资料和资产,政府和企业把它作为增强洞察力、精确地了解人类需求做出精准决策、提供高效服务、预测防止风险发生的手段和工具。大数据对科学研究、经济建设、社会发展和文化生活等各个领域正在产生革命性的影响[3]。

3.2 Hadoop大数据技术体系

如图1 所示,对于大数据处理Hadoop已经建立了完整的生态圈,基本覆盖了大数据处理的生命周期,其应用面和产品正在快速发展壮大,因此,大数据技术标准体系的建立需要对Hadoop体系进行研究和利用[4]。Hadoop的核心是HDFS和Mapreduce,Hadoop2.0 还包括YARN。Hadoop作为一个生态系统,每个系统只解决某一个特定的问题域,这也是Hadoop的魅力所在:不是统一型的一个全能系统,而是小而精的多个小系统。

Hadoop大数据技术体系主要包括:

(1)数据获取

搜索引擎Nutch,提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫;

日志收集工具Flame,具有分布式、高可靠、高容错、易于定制和扩展的特点;

Sqoop数据迁移工具,主要用于传统数据库和Hadoop之间数据的传递。

(2) 数据预处理

通过Map Reduce进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作,生成键- 值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。Map Reduce这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。

(3) 数据存储和管理

HDFS是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序;

HBase分布式列存数据库是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中保存的数据可以使用Map Reduce处理,它将数据存储和并行计算完美地结合在一起;

Zookeeper分布式协作服务,解决分布式环境下的数据管理问题,主要包括统一命名、状态同步、集群管理、配置同步等。

(4) 数据检索、分析与挖掘

Hive是基于Hadoop的数据仓库,通常用于离线分析。Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为Map Reduce任务在Hadoop上执行;

Pig是基于Hadoop的数据流系统,通常用于进行离线分析;

Mahout是数据挖掘算法库,创建一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout还包含数据的输入/ 输出工具、与其他存储系统集成等数据挖掘支持架构。

(5) 数据可视化

从大数据中解析到模式, 根据对模式的观察选取创造一定的可视化方法,是把表达模式的数值关系通过图像图形空间或色度空间影射到人的视觉空间,常见的大数据可视化工具有R、d3.js、Action Script等。

(6) 数据安全

Hadoop的安全模型采用分层方式进行。在最外层必须进行良好的访问控制,确保只有相关权限的人才可访问Hadoop数据;第二层是网络威胁防御,设定相关机制,防止网络受到入侵;第三层是应用层程序升级,确保没有漏洞;第四层是数据保密,防止数据被窃取;第五层是保证数据的完整性,使数据不会受到篡改。基于上述五层保护策略,就可获得基于Hadoop结构的安全策略模型。

然而, 仅仅参考Hadoop体系是不够的,Teradata、My SQL和“智能聚合技术”的某些安装启用都用不到Hadoop,但它们也可以被认为是大数据。大量的no SQL数据库,其中大部分都是键值配对数据库,同样也能够存储和处理大数据。因此,需要广泛研究和借鉴当今主流和前沿技术、产品和发展趋势,规划和制定大数据技术标准。

3.3 大数据测试技术

由于系统的复杂性和需求的多样性,在大数据系统建立之后,如何评价大数据系统是否满足用户的期望和体验、是否有足够快的响应时间、是否能应付海量的数据存储和访问,已经成为一个困难但无法忽视的问题。

相对于当前大数据产品和应用快速发展,大数据测试方面的进展相对缓慢,目前尚缺乏业界公认的测试标准、体系和测试工具,目前的测试体系基本上针对传统的关系型数据库及其应用。大数据在产生、保存、访问时都对存储系统有较高的要求,这其中包括了高并发、高吞吐量的聚合访问带宽以及高可扩展性。就评测技术和评测体系而言,需要考虑如下四个方面:

评测指标:建立反映海量存储系统特性的、全面的评测指标;

评测方法:根据指标的定义,确定采用何种方法对存储系统进行测试。包括通用和特有的评测方法;

评测工具:采用国际通用或自行开发的工具进行评测,开发各自的评测工具;

应用场景:包括trace采集结果,IO负载模型、故障和可管理事件模型。

目前针对Hadoop体系已经有了一些基准测试工具,包括:测试HDFS IO性能的Test DFSIO、用于测试Name Node负载的nnbench、用于测试小作业的运行效率的mrbench、Hadoop自带的基准测试程序Gridmix等等。其中,较为完整的是Intel开放的一个Hadoop Benchmark Suit(Hi Bench),如图2 所示,包含九个典型的Hadoop负载(Micro benchmarks、HDFS benchmarks、web search benchmarks、machine learning benchmarks和data analytics benchmarks)。 这些测试工具的测试指标、测试方法、测试场景都是规划和制定大数据测试标准时需要考虑和借鉴的。

4 大数据技术标准体系的构成

数据的快速增长和非结构化数据的比重增大给大数据的存储、处理、分析带来了巨大压力,传统的数据处理方式已经无法有效应对海量数据,大数据技术正是在此背景下发展起来的。大数据的技术攻关、产品研制、应用推进、模式创新是大数据发展的重要任务,针对这些方面制定的大数据技术标准体系构成如图3 所示。

大数据通用技术标准

赛迪智库把大数据处理生命周期分为若干阶段:数据的获取( 数据采集/ 数据分享)、数据预处理、数据存储、数据检索/ 数据分析/ 数据呈现( 可视化)、大数据应用、数据安全。以数据获取环节为例,数据的获取分为数据采集和数据分享两类。大数据采集主要通过四种采集方式:系统日志采集、网络数据采集、数据库采集、其他数据采集。大数据分享主要通过数据集市和数据平台等方式实现。大数据采集过程中大数据源的智能识别、感知、适配、传输、接入,在创建数据平台、数据仓库过程中传统数据(如科学研究数据) 的移动、新数据类型模型的整合和表示,以及相关的数据路径、信息生命周期管理都应制定相应的规范。

参考大数据处理的生命周期、Hadoop大数据技术体系和测试技术,大数据通用技术标准的制定可从大数据整个生命周期的大数据获取( 包括采集和分享)、预处理、存储和管理、检索、分析与挖掘、可视化、测试所涉及的数据收集范围和格式、数据管理权限和程序、开放数据的内容和格式以及数据移动、复制、备份和访问方式等方面进行。

大数据产品标准

大数据的容量往往是PB级别,以往的硬件设备和软件产品已无法满足大数据发展的需要,针对大数据应用研制出的硬件装备和软件产品也应有统一标准。以大数据存储产品为例,大数据存储产品显然要比传统存储产品考虑更多因素。存储系统应容量大、易扩展、响应速度快。数据来源广泛与复杂,不同类型的数据访问、处理和分析的方式不同,存储系统应接口集成化以应对不同的数据需求。数据量大幅增加以及数据处理流程、方式更加复杂使存储系统的管理、维护也更复杂。存储系统管理自动化程度要高。确保数据的安全可靠是大数据存储需要重点考虑的因素。这些环节未来都应做出进一步的规范。

大数据产品标准则涵盖一系列适合大数据应用的硬件装备和软件产品标准,例如用于组建大数据平台、数据仓库的有集计算、存储、传输于一体大数据一体机和具有高效能大数据处理器、可重构互连、可变存储结构新型架构计算机及其系统软件的产品标准,以及大数据获取软件、大数据管理产品、大数据分析软件等标准。

大数据行业应用标准

大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。大数据行业应用分成两部分:一是面向电子商务、工业制造、交通物流、商贸零售、金融、电信、能源、传媒等数据量大的行业领域应用;二是面向医疗卫生、社会保障、终生教育等民生服务领域,城市规划、智慧交通、公共安全等城市综合管理领域以及科学研究领域的应用。针对以上行业及领域的大数据应用标准应逐步建立和完善。

大数据安全标准

国家、社会、企业和个人的重要信息安全问题成为大数据信息安全的巨大挑战。探索制定面向政府信息采集和管控、敏感数据管理、数据质量、数据交换标准和规则、个人隐私等领域的大数据法律、法规和标准至关重要。此外由于大量数据的不断增加,对数据多副本与容灾机制提出了更高的要求。可恢复性和高可用性,防止各种自然灾难和人为破坏对生产系统造成不可恢复的毁坏都是大数据安全标准化要考虑的环节。

制定涵盖大数据采集、使用、开放等环节涉及信息安全的范围、要求和责任和数据备份、容灾机制等的大数据安全标准,完善安全测评、电子认证、应急防范等与大数据相关的信息安全基础性标准是大数据安全标准化工作的重要内容。

摘要:分析我国大数据布局和大数据标准化的现状,以标准化为切入点论述了标准化工作对大数据发展的助推作用以及大数据标准化未来发展的目标,并从制定技术标准的角度详细分析了技术标准体系的构建。

上一篇:高职表演艺术人才下一篇:说课促进职业教育发展