大数据研究

2024-06-11

大数据研究(精选十篇)

大数据研究 篇1

一、大数据

1、大数据的由来

大数据具有量词的含义,代表海量数据或海海量的数据。大数据之所以产生,正如美国咨询大师托马斯·H·达文波特所言,是因为今天无处不在的传感器和微处理器,比如物联网、云计算、移动互联网、车联网、手机、平板电脑、 PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。我们正在迈进普适计算的时代。其实,所有的机器或电子设备都可以留下数据痕迹,这些痕迹记录了它的特征、位置或状态。这些设备和使用它的人们,通过网络之间交流,又形成了另外一个庞大的数据源。当这些数据和来自其他媒体、无线或有线电话、有线电视、卫星等等来源的数据相结合的时候,更加显得庞大无比。

2、大数据的含义

大数据是指那些大小已经超出了传统意义上的尺度, 一般的软件工具难以捕捉、存储、管理和分析的数据。但是,究竟多大的数据才能称为“大”,并没有普遍适用的定义。一般认为,大数据的数量级应该是“PB”级(拍字节, 250)的。而麦肯锡全球研究所认为,我们并不需要给“什么是大”定出一个具体的“尺寸”,因为随着技术的进步,这个尺寸本身还在不断地增长。此外,对于各个不同的领域, “大”的定义也是不同的,无需统一。

大数据之“大”并不仅仅在于其“容量之大”,而且还在于数据的收集、保存、维护以及共享等等极具挑战性的任务赋予大数据之“大”更多的意义:人类可以分析和使用的数据在大量增加,通过这些数据的交换、整合和分析,人类可以发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。

3、大数据的特点

业界人士将大数据的特点概括为4个“V”( Volume, Velocity,Variety,Veracity),或者说特点有四个层面:第一,数据体量巨大。从TB级(太字节,240)跃升到PB级(拍字节, 250,1PB相当于50%的全美国图书馆藏书量);第二,数据类型繁多,囊括网络日志、视频、图片、地理位置信息等等; 第三,价值密度低,而商用价值高。大数据多为非结构化和半结构化的数据,用于分析时会花费过多时间和金钱,以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒;第四,处理速度快。大数据的处理是与云计算、“分布式”技术的使用紧密相关,适用于秒级定律,一般要求在秒级时间范围内给出分析结果,时间太长就失去了价值。最后这一点也是和传统的数据挖掘技术有着本质的不同。

二、大数据的文献研究综述

1、大数据研究文献的统计

国外有关于“大数据”的认识与研究要早于我国。早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》 一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。时至今日,以美、欧为首的发达国家在“大数据”研究与应用方面又走在了世界的前列,甲骨文、IBM、微软及沃尔玛全球物联网络都在追逐大数据创造的商机。反观国内,“大数据”的研究又从何时起步,相关研究成果有多少,研究现状又如何?笔者以中国报纸期刊网络出版总库为基本数据来源做了一次较为详尽的文献研究,研究结果综述如下。

在笔者之前,韩芳芳、范群、韩青青联合发表了一篇论文《我国大数据领域研究论文的计量分析》,她们从文献、 作者、关键词三个角度分析了我国大数据领域的相关文献,得出了相关研究结论:“我国大数据研究基本呈平稳快速发展状态,逐渐成为当前的研究热点;形成了较为稳定的核心发文机构,却并未形成核心作者群,研究力量相对分散且薄弱;研究主题主要以资源的管理与利用、信息服务、关键技术为重点”。由于该文的研究视角与笔者尚有出入,因而研究结果也大有不同。

以CNKI(中国知网)的中国报纸期刊网络出版总库为数据源,检索策略为篇名=“大数据”进行模糊检索,检索日期为2013年6月14日,共检出文献1789篇。按文献发表时间统计,时间跨度29年(1985~2013年),按年分布如下(见表1):

在年份分布中,1981~1984年连续四年中未检索到相关文献,因此笔者认为关于“大数据”的研究起步于1985年。从文献数量上看,逐年增加,1997年之后未曾中断研究,尤以最近三年文献数量最多,有陡增之势。根据中国知网学术趋势搜索“大数据”,可得到如下趋势(见图1与图2):

注: 学术关注度是指同一个课题或者题目的期刊更新数。 用户关注度是指同一个课题或题目一定时间内被搜索和浏览的次数

2、大数据研究文献的时间溯源

寻找最早涉及现在意义上“大数据”研究的文献。在以篇名 =“大数据”模糊检索中,包含“大数据”一词的文章很多,时间跨度又很大,那么今天所说的“大数据”是否与10年前、20年前的含义相同呢?如表1所示,1985年仅有一篇论文 《利用磁盘实现大数据量二维快速付里叶变换的方法》谈及到“大数据”,但是我们从题名中可以看到它所言的是“大数据量”,在其关键词中也没有将“大数据”独立提出。以当时的社会条件还不可能形成针对于现在意义上的 “大数据”研究与应用,因此它不是最早关于“大数据”研究的文献。

在1985年之后的20年间里,像这样的文献站了绝大多数,“大数据”常常以“大数据量”、“大数据流”、“大数据群”、“大数据序列”、“超大数据体”、“大数据集”(2002年)、“大数据对象”(2003年)、“大数据块”(2003年)、“大数据中心”(2004年)、“大数据字段”(2006年) 等多种形式出现在在篇名与关键词中,而没有以“大数据”为独立词组同时出现在篇名与关键词中的文献。在此期间,也偶然在 “篇名”中出现了“大数据”字样,比如2003年、2005年出现两则新闻报道,其中言及的是中国经济指标,用“大数据” 来形容指标之大,另有一篇论文 《大数据条件下自适应Huffman算法潜在问题初探》,篇中出现“大数据”,关键词中未有出现,正文中也未涉及“大数据”的正面研究,因此也不是我们要寻找的最早文献。

2007年一篇名为《基于Web服务的大数据访问性能优化研究》的论文在篇名与关键词中同时出现了“大数据”, 文中部分涉及“大数据”的研究,但是并不全面,无法从其研究中看到“大数据”本来的样子。同年,《中国商报》9月14日第C04版应用技术栏的一则“沃尔玛建立超大数据中心”的报道,从其正文内容上看,正式揭开了“大数据”实践应用的面纱。

最近五年,中国才开始关于“大数据”的全方位研究与实践,不论媒体报道还是理论研究,不论应用研究还是实践应用,从前文图1和图2中即可看出。

3、大数据“元年”

有媒体将2013年称之为大数据“元年”,其言不无道理。

第一,从文献研究发表的数量上看,2013年上半年就已经达到678篇,接近上一年的总量(见表1);

第二,从“大数据”的关注度上看,最近十五年的学术关注度到2013年出现一个近乎90度的“陡增”,而用户关注度在最近一年尤其是2013年元月之后也出现了“陡增”。 (见图1、图2);

第三,从“大数据”现象的参与主体上看,理论研究者是最早的参与者,以论文、专著等形式讨论大数据问题,尾随其后的是商业研究机构,开始掘金“大数据”,最后是媒体连篇累牍的炒作与报道,尤其是最近两年,媒体新闻报道占了“大数据”总检索量的一半以上。由此可见,“大数据” 来势之“凶猛”;

第四,从中国对“大数据”的研究与实践上看,2013年中国政府采取了很多关于“大数据”的实践措施,比如从大数据的收集上看,5月4日中国社会科学院全国居民调查网络成立与启动了“2013年中国社会状况综合调查项目”,旨在通过定期、系统地收集中国人与中国社会各个方面的数据,总结社会变迁的长期趋势,探讨具有重大理论和现实意义的社会议题,用准确的数据助力我国社会科学的研究发展。在“大数据”的商业研究中,中商情报网发布了《2013-2017年中国大数据行业发展前景及投资策略分析报告》。

从以上几个角度来看,2013年的确可称之为大数据 “元年”。

三、大数据研究的四大趋势

如果说人们经常挂在嘴边的“数字时代”中的“数字”, 仅是形式上二进制0或1的话,那么“大数据”将这种“形式”给予了充实的“内容”。 正如哈佛大学社会学教授加里·金所说:这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。笔者展望这一进程有如下几个大趋势:

第一,从学界来说,最先研究大数据的是计算机科学、 地质、遥感测绘、理化工程等学科领域,现在的研究趋势已经波及社会科学领域,并逐渐形成了以大数据为中心的数据密集型学科,诸如政治学,科学、广告、体育、公共卫生等大量学科和领域都将在从大数据技术中获益;

第二,从商界来说,以前自然资源是经济,产品服务是经济,技术标准是经济,知识信息是经济,那么现在我们不得不说“数据也是经济”,数据可能成为未来最大的交易商品。市场经济的灵魂是竞争,信息时代的竞争不是劳动生产率的竞争,而是知识生产率的竞争。数据,是信息的载体、是知识的源泉,当然也就可以创造价值和利润,可以预见,基于知识的竞争,将集中表现为基于数据的竞争,这种数据竞争,将成为经济发展的必然;

第三,从政府治理来说,政府需要大数据治理。如果说政府的权威曾经有“神”的赠予,有公民选举的“赋予”,那么现在我们不得不说“政府的权威与公信力需要来自数据的保障”。大数据治理将政府管理的“粒度”推进到数据级, 帮助政府官员开启循“数”管理的新模式。这是由传统的 “大政府”转向“大社会”的集中体现,恰如业界所说“三分技术,七分数据,得数据者得天下”。在未来的中国,也许决定政府执政能力的不仅是民主、智慧或是权威,而且还需要强大的“计算能力”;

第四,从社会个体角度来说,数据对个人生活的影响也非常广泛,人们可以用数据对自我进行量化———“自我量化管理”。自我量化是指利用计算机、智能手机以及各种新的电子便携感应器来记录自己学习、工作、运动、休息、娱乐、 饮食、心情等等个体行为的情况,就像我们需要对体重、身高、血压、血糖、心跳等物理指标进行监控一样。自我量化管理通过数据来记录、研究、分析自己的行为,而更好地了解自我、提高自我。人的感觉往往存在盲点,直觉又不可完全信任,理性思维时常受到局限,大脑即便有惊人的记忆力,也未必具有惊人的信息加工能力。很多时候,我们会高估自己的理性,低估情绪对我们的影响。认识自己很艰难, 但非常重要。基于数据的记录和分析,可以帮组我们走出错觉、认识真正的自己。

摘要:大数据是当下即云计算之后大热的词汇。本文通过介绍大数据的由来、含义与特点,追溯中国学者研究大数据的文献始末。以文献图表统计的方式阐述大数据研究文献的发表情况与研究现状,并对2013年作为大数据“元年”进行解读。最后,从学界、商界、政府以及社会个体四个角度展望大数据研究的未来发展趋势。

大数据时代的大数据管理研究论文 篇2

数据库管理形式是大数据管理不断发展的重要成果,也是到目前为止最后的一个阶段。在计算机技术不断发展的过程中,计算机内部的容量得到了很大程度的提高,并且大数据的管理和维护成本也相应的有所下降。同时,在大数据管理形式不断发展的过程中,对其系统管理内存不足等现象,进行了全面的提高,有效的实现了资源共享,也在最大程度上保证了大数据的安全、稳定等性能。另外,在大数据时代的大数据库管理的过程中,不在近几年只是固定在某一个计算技术应用体系,而是面向整个管理体系,以此在最大程度上提高了大数据共享的性能,使大数据与大数据形成一个独立的个体,对其大数据进行了全面、有效的、统一的管理,为我国信息技术的发展提供了重要方向。

大数据时代的高校共享数据平台研究 篇3

摘 要:在教育领域中,管理和决策越来越依赖于数据和分析,如何利用大数据科学决策是高校近年来信息化建设关注的主题。文章分析了高校共享数据中心平台的理论知识和相关技术,讨论了面向服务的数据交互技术方法及共享数据中心的非技术因素。最后分析设计了面向主题域的常熟理工学院共享数据中心,并对其体系架构及关键业务系统的数据流向做了详细的分析叙述。

关键词:大数据;数据交换;数据中心

中图分类号:TP392 文献标志码:A 文章编号:1673-8454(2015)10-0010-03

大数据科学决策是高校治理体系和治理能力现代化的关键。在教育领域中,管理和决策越来越依赖于数据和分析,而非基于经验和直觉,然而,目前大多数高校的管理模式中信息化的作用尚未充分体现,尽管在长期的办学过程中积累了大量的数据,但这些宝贵的决策信息资源没有得到相应的整合和开发,更谈不上利用这些数据对学校的教学、科研、管理等各项事务进行预测和分析。随着大数据发展而带来的教育政策研究与决策“用数据说话”的趋势亦渐明显,构建共享数据中心,将这些海量、分散、异构的数据资源集成起来达到共享、融合,通过多维度、多层次、多群体、多因素数据分析并形成一定的应用模式,从中分析和挖掘潜在的价值,去解决高校事业的瓶颈问题,是将大数据应用于教育领域的重要举措。

一、大数据时代的高校共享数据平台的相关技术及理论

1.信息编码标准

信息编码标准是做好信息管理的基础,信息只有遵循一个统一的标准进行组织,才可能构成一个可流通、可共享的信息库。信息编码标准是数字化校园中不同层次的系统尤其是应用系统能够相互访问的基础。数据交互过程中,各业务系统数据信息要按照信息编码标准的数据标准进行数据清洗和过滤,处理后的数据才会存储到中心数据库。信息编码标准是学校信息化建设的必要条件;同时信息标准的水平也反映了学校信息化建设的水平和高度。

2.共享数据模型

共享数据中心主要完成学校各类跨地区、跨部门、跨系统的管理数据与信息资源的数据交互和共享,是各个业务系统数据交互的中转站,是信息资源的存储中心。由于各学校早期的信息化建设基本都是由业务部门主导,缺乏统一规划,没有统一标准。同时考虑成本以及推倒重来的建设风险等因素,一般建议采用交集数据中心模式建立共享数据中心,即:各系统间的数据交互完全通过数据中心来完成;共享数据中心只对交互系统之间需要交互的数据建模,各系统沿用原有的权限模型,需要交互的数据在相关系统中独立的存在,但所有数据有且只有唯一的维护源头。

二、大数据时代的高校共享数据平台总体设计

1.共享数据中心体系架构(图1)

(1)数据采集层

采集的数据主要包括基础数据,如人、财、物等基本信息;学校开展教与学主体事务的业务数据,如教师教学、学生选课等;体现教师学生成长与发展的过程数据等。数据采集层主要完成上述相关数据的采集工作,其中大部分数据随着其相关的业务系统日常运作过程而积累下来,还有一部分是相关管理人员手工录入,或者电子表格批量导入。

(2)数据集成层

数据通常存储在很多个不同的数据存储系统中,从所有源中提取数据并将其合并到单个一致的数据集中确实有一定的难度。数据交换工具通过转换功能对数据进行清理、标准化及转换,数据转换为兼容格式后,就可以将其物理合并到一个数据集中,并且数据在合并成功且应用转换后,通常会被加载到一个或多个目标。

数据集成层同时还负责加载数据库中的维度表和事实数据表,处理 Analysis Services 多维数据集和维度,使用 Integration Services 任务和转换来自动处理更新多维数据集和维度,使用户始终获得最新的数据。

(3)管理操作层

管理操作层的基础数据主要来自各个业务系统,有的统计指标类数据是经数据仓库加工提供。管理操作层面向教育治理者日常管理,主要包括师资队伍建设管理、师资结构分析、学业预警、教学考核等。归纳如下:

为满足日常管理,提供了以固定报表为主的综合报表统计平台。

为便于突发性和临时查询需要,提供了各大主题的综合查询平台以及基于数据仓库的灵活查询功能。

为规范对外数据报送,提供了统一的对外数据报送接口。

2.主要业务系统数据流向

共享数据中心本身不会产生数据,所有的业务数据的维护遵循数据生命周期按照“谁产生,谁维护”的原则,各自业务系统分别产生数据,所有数据只有唯一的生产源头。共享数据中心与各业务系统之间进行交互,一方面保证基础数据在各系统中的一致性,同时也对主要业务数据进行积累沉淀。

以学生数据为例,学生的人头数据以学籍系统为准,而学生的其它基础数据又在学工系统中维护完善。数据共享中心既负责从学籍系统中抽取学生人头数据推送学工系统,同时又从学工系统中抽取完整的学生基础数据存储在数据中心,图书系统、一卡通系统等业务系统从共享数据中心订阅学生相关数据。其主要业务系统数据流向如图2所示。

三、共享数据中心的非技术因素

1.数据质量管理

数据是高校有效开展信息化管理和辅助决策分析的依据,是实现高校治理现代化的重要保障,因此其质量和时效性已经越来越受到高度关注。提高数据信息的质量,加强数据管理,不仅需要在高校日常工作中充分利用现代信息技术,强化高校业务与信息技术的融合,还要依靠广大师生的配合参与,必须循序渐进,稳步推进。

(1)从源头治理,从数据录入、内部处理入手,把好数据质量“入口关”;

(2)督促问题治理,部署检查规则,实现问题数据发现、分发、治理、监督、考核闭环管理,把好数据质量“治理关”;

(3)做好规范管理,完善制度、规范流程、系统硬控制,把好数据质量“流转关”。

2.数据安全管理

大数据既意味着机遇,也蕴涵着挑战。数据安全管理问题,是高校应用大数据面临的最大风险。虽然共享数据中心模式数据管理,方便了数据分析和处理,但由于安全管理不当所造成的大数据丢失和损坏,则将引发毁灭性的灾难。在使用数据过程中应遵循以下原则:

(1)使用生产数据必须经过申请和审批,开发测试环境使用生产数据必须进行数据混淆。

(2)对生产用户进行严格的授权管理,防范非授权访问生产数据。

(3)含敏感信息的生产数据应使用专用邮箱传输等。

(4)对生产数据建立和实施严格的备份机制。

四、总结

在大数据的支撑下,高校运行过程的各种元素能够实现数字化的呈现,数据得到实时流转、存储和整合,信息按照权限充分公开。大数据能够聚焦于决策对象的微观层面,将原本模糊的现象通过数据逐步清晰的描述出来,大数据是超越个体与局部的相对静态视野,更容易发现问题所在、可能弱点和盲区的宏观动态视野并且用于各项事务的预测和决策。本文讨论了面向服务的数据交互技术方法、数据流向以及一些非技术因素,设计了面向主题域的共享式数据中心。本共享数据平台成功应用在常熟理工学院数字化校园建设项目中,通过数据交换、主题分析,为学校的科学决策提供了有力保障,推进了学校的现代化治理能力和水平。

参考文献:

[1]姬倩倩,温浩宇.公共交通大数据平台架构研究[J].电子科技,2015,(2):127-130.

[2]陈瑞.大数据时代基于共享平台的信息服务工作研究[J].科技创业月刊,2015,(1):20-22.

[3]赵巍,刘丹,王欢.高等学校共享式数据中心设计与实现[J].长春理工大学学报(自然科学版),2015,(1):132-135.

[4]陈霜叶,孟浏今,张海燕.大数据时代的教育政策证据:以证据为本理念对中国教育治理现代化与决策科学化的启示[J].全球教育展望,2014,(2):121-128.

[5]张建.教育治理体系的现代化:标准、困境及路径[J].教育发展研究,2014,(9):27-33.

[6]阎光才.高等教育治理体系与治理能力的现代化[J].苏州大学学报(教育科学版),2014,(3):1-3.

大数据研究综述 篇4

全球数据量每两年大约增加一倍,根据国际数据资讯(IDC公司监测,估计到2020年,全球将拥有35ZB的数据量,这些数据85%以上以非结构化或半结构化的形式存在。IT界用“Bi Data(大数据)”来形容这个问题。早在上个世纪80年代就有美国人提出来“大数据”这个名词[2]。2008 年9 月,文章“Big Data Science in the Petabyte Era”在《科学》杂志发表,“大数据”这个词开始广泛传播。

大数据[3,4]中的数据其数量级以PB(1 024 terabytes)或EB(1EB=100万TB)或更高计算,它们包括结构化的、半结构化的和非结构化类型,其规模和复杂程度超出了以往。在数据管理中,一方面数据量和业务量双向增长,更重要的另一方面是现代企业向全社会互联互通的交互式云计算[5]业务模式的逐渐演进。传统的数据管理方式在容量、效率、扩展性上存在瓶颈,为了克服以上瓶颈,现代的数据管理需要达到以下目标:海量容纳能力,多类型,多结构,高负载,高可用,高可靠,低成本。为了实现上述目标,诞生了一系列大数据管理技术,其中有代表性的是Yahoo的Hadoop[6]体系,它是对google的Map Reduce[7]和Big Table两项云计算技术开源化后形成的。这些大数据技术成本低,水平扩展性强,能够处理海量数据的计算和查询。

2 大数据的概念

“大数据”的“大”不仅体现在数量庞大,更重要的是数据发生质的变化,即数据具有网络化和交互性特性。

到目前为止,大数据没有统一的定义,比较流行的4v定义[8]:即有以下四个特征的数据称为大数据,这是个v特征分别是Volume,Velocity,Variery,Value。其中,Volume表容量大,Velocity表变化速度快,Variery表种类和结构类型多,Value表价值密度低。这样的定义从数据形态出发,大数据的来源主要有社交媒体上的用户评论互联网上客户交互的行为数据,传感器等机器数据等。

另一种定义从数据处理技术出发,定义所有的数据为大数据,认为所有的数据都应该被以Hadoop为代表的技术体系管理和处理。

以上两种定义都有所片面,大数据现代信息社会的特征是全社会范围内数据的互联互通,数字化程度更广泛更深入。对企业来讲,大数据不单是技术层面,也不单是数据心态特征层面,而主要是实现“数据驱动业务”的相关战略和战术,是一种运营模式的转变,即由数据支持业务转向数据驱动业务。在这种定义下,大数据的特征主要是大,广,联。

3 国内外技术发展

大数据的处理和分析的技术很多,其中比较典型的有分布式计算框架Map Reduce以及在Map Reduce基础上实现的Hadoop技术。

Google公司在2003-2004 年间发表了三篇论文,它们是GFS[9], Big Table[10],Map Reduce,其中的Map Reduce开源实现,成为了针对海量数据处理的一种通用的分布式计算的编程框架。该编程框架以Shared Nothing的分布存储方案来解决数据的存储问题,数据被分割存储到计算机网络中的集群节点上,对外有统一的接口,简单易用。其分布式计算由Map步骤实现,将计算单元(Map步骤)放到数据存储节点上执行。而结果汇总有Reduce步骤实现,将需要汇总的结果按键值Key分成若干“分区”,每个Reduce节点分别对一个分区进行汇总,从而Map和Reduce步骤都达到了分布并行。采用Map Reduce分布式编程框架,程序员只需调用统一接口就能将数据分割后分布存储到集群节点,然后分别编写Map和Reduce算法,从而完成了大数据的采集,清理,分析等步骤,最终获得有价值的数据。数据采用Map Reduce需要有以下特点:a)数据量大,才能有效率;b)批处理。

2006 年Map Reduce,Big Table,GFS被开源实现,从而产生Hadoop体系。Hadoop体系是对多年前三篇google论文Map Reduce,Big Table,GFS的开源的分布式编程框架,三篇论文分别对应Hadoop分布式编程框架的Hadoop Map Reduce,HBase与HDFS[11]三个部件。Hadoop的其他组件包括Sqoop,Zookeeper,Chuwa,但是这些组件不是必不可少。Hadoop的核心组件是Map Reduce,它引领了大数据技术潮流。

Map Reduce和Hadoop无法满足实时计算的要求,目前实时计算主要基于两种模式:一是基于关系型数据库,采用水平扩展(横向增加设备节点)的策略来满足数据量不断增长的需求,基于分布式和并行技术采用的方案架构有Shared Disk和Shared Nothing;二是基于No SQL数据库,典型的No SQL有Facebook Cassandra,Mongo DB,Couch DB,Neo4j等。

在国内,2012年计算机协会成立了大数据专家委员会,《中国大数据技术与产业发展白皮书》在2013年发布,第一届CCF大数据学术会议成功举办。2012年立项6项,到了2013年立项53项,充分体现大数据在科研领域受到的重视程度。

4 大数据处理流程

大数据的处理流程基本可划分为数据采集、数据存储、数据组织、数据分析和数据业务应用5个阶段。

4.1 数据采集

通过传感器收取、射频识别(RFID)[12]、网站电子渠道、手机电子渠道、baidu和google搜索引擎等进行数据的采集。

4.2 数据的存储

采用什么方法存储主要根据业务特征。如果数据不多,可采用传统的存储方式,如果打算存储所有大数据,Hadoop HDFS组件是不错的选择。

4.3 数据组织

采集完进行存储的数据需要进行适当的计算,加工和处理,抽取出统一的格式,从而实现数据的组织。可考虑用Hadoop架构中的HBase组件。

4.4 数据分析

对有组织好的数据进行分析处理,如数据挖掘、机器学习、数据统计等。也可考虑Hadoop Map Reduce组件。

4.5 数据业务应用

数据处理分析的结果通过合适的方式展现给用户,常用的方式有可视化和人机交互方式。

5 面临的挑战

大数据研究有以下几个挑战;1)处理成倍增长数据量存储能力;2)大数据的数据挖掘能力3)大数据的实时处理能力;4)大数据的隐私保护等。

6 结论

大数据将成为一种新的自然资源。随着大数据技术不断发展,未来,实时高效、面向海量数据对象或海量计算任务的分布式并行处理技术成为一种趋势,而Hadoop架构只是大数据处理技术Hadoop生态系统中的一员。未来,大数据的处理技术不同于目前流行的Hadoop/No SQL等开源技术,也不同于传统关系数据库,而是介于两者之间的技术模式。

摘要:该文首先介绍了大数据产生的背景和概念,其次论述了大数据在国内外的发展概况,大数据的一般处理流程,最后阐述了大数据面临的挑战问题,并得出大数据将成为一种新的自然资源[1]以及技术将不断发展的结论。

大数据环境下的数据安全研究论文 篇5

大数据的应用规划以及它的信息安全应要提高到发展战略的高度,对大数据进行系统的分类,明确一些重点的保障对象,强化对数据的监控管理。大数据环境是一个庞大的数据信息系统,要确保数据信息的安全性,需努力建立起一个完整的数据信息安全体系。

4.2 进行数据安全删除

当今信息安全技术当中一个极为关键的问题。所谓的数据安全删除指的就是对数据恢复正常的条件进行破坏,使数据在删除之后无法恢复,无法逆转。相对于部分敏感数据而言,数据安全删除是十分关键的。众所周知,普通文档实行删除操作仅仅是对其标记进行删除;高级格式化同样无法对数据区内的数据信息进行覆盖处理,因此不能将其叫做安全删除。

4.3 对动态数据进行安全监控

相对与静态的信息数据,动态的信息数据更容易产生安全问题。因此需要对动态数据进行安全监控,完善对于动态数据的安全监控机制。在对动态数据进行监控的过程中,必须要对分布式计算系统进行健康监控,以保证其健康运行。在一些大规模的分布式计算中,要对动态数据的细粒度进行安全监控和分析,对大数据分布式进行实时监控。

5 结语

大数据研究 篇6

关键词:数据档案大数据移动终端

在大数据时代,移动终端设备层出不穷,其优势也愈发明显,不仅携带方便,可以随时随地获取数据,而且具备综合信息处理平台的作用,可以简单处理各类数据信息,以及发布和传输数据。更为重要的是,移动数据终端将拍照、通信、网络处理等技术整合,可以满足多种需求。鉴于移动终端的优势,以及大数据时代产生海量数据以后,一些具有长期保存价值的数据将成为数据档案的现状,笔者认为档案部门未来可以利用移动终端来获取数据档案。

一、数据档案的概念和分类情况

数据档案,是指以数据形式存在的具有保存和利用价值的数据资源。相较而言,档案数据则更多地从归档数据的角度进行探讨,其主要包括两大部分,一是归档单位产生和移交的业务类数据。二是档案部门将馆藏档案数字化后产生的数据。而本文所指的数据档案则从档案信息资源的角度出发,主要包括公共档案馆、数据开发商、个人家庭保管的具有保存和利用价值的数据。由于目前没有相关文献涉及数据档案的详细分类,笔者在借鉴有关概念的基础上,结合档案工作,以数据产生的渠道为依据,将移动终端持有者可利用的数据档案资源划分为三大类。一是公共数据档案。这类数据档案是开放获取的,不受具体限制,是指各种具备国家档案属性的各类数据档案资源。例如国家各级综合档案馆保管的数据档案资源,政府机构和国有企事业单位保管的国家所有数据档案资源。二是商业性数据档案资源。是指由各类商业机构,根据商业需要开发的营利性数据档案资源。例如,腾讯公司在全国建立的数据中心保管的各类数据。三是私有性质的数据档案资源。是指属于个人或者家庭、家族、私有机构保管的数据档案资源。例如,个人的摄影电子照片、家族或者私有企业保管的档案数据资源等。

二、各类数据档案资源利用移动终端的条件

(一)档案资源必须为数据档案

档案资源,包括传统档案资源与数字档案资源。传统档案资源一般为非数字环境下的各类载体所承载的档案资源,包括纸质档案、实物档案等,而数字档案资源,包括在各类活动中形成的电子文件直接转化而来的数字档案资源,以及馆藏档案数字化后的数字档案资源。这两种数字档案资源的产生和利用都必须依托数字化背景。档案在线利用可以从文本、声音、图片、影像等方面综合呈现档案信息,但是这类档案资源脱离了传统载体,依托数字环境产生和发展。实现数据档案资源的在线利用,作为信息来源的档案资源必须具有共享性、交互性、异地性、异时性等多种优势。共享性与交互性使数据档案资源在线利用成为开放的、可能的,异地性与异时性保证了数据档案资源利用过程中的便捷与高效。

(二)利用专门的软件和数据平台,才能下载和在线阅读

数据档案需借助中间平台实现其利用功能。软件和数据平台起到了知识信息资源桥梁的作用,沟通了桥梁的两端——作为资源提供方的所有者与作为资源需求方的用户。软件与数据平台开发者根据用户的需求和检索行为模式,在平台的构建过程中实现查阅、在线阅读、下载等多种功能,以便信息资源的获取。利用专门的软件和数据平台,一方面保证了档案信息资源的获取行为是可能的,无论是查阅还是深度阅读,都能有资源的获取渠道;另一方面又限制了获取档案信息资源的渠道,将利用行为限制在一定范围内,防止档案信息资源的滥用与触及法律的行为,如非法获取档案信息资源的行为。

(三)利用方必须获得数据档案资源所有者的授权或支付费用

依托软件和数据平台的档案信息资源在线利用,要符合一定的条件,即档案资源的利用行为需保护数据档案资源所有者的权益,协调好数据档案资源利用者与数据档案所有者之间的关系。在这种前提下,利用者或者经过所有者的授权,保证利用行为符合数据资源所有者的意愿,利用行为未侵犯数据资源所有者包括知识产权在内的各类合法权益;另一方面,利用者可以通过支付一定的费用,购买数据档案。现阶段的万方数据库、维普资讯网、中国知网等各类数据库便是通过收取费用允许用户下载相应文献,鼓励用户以支付费用的形式购买需要的各类信息资源。

三、利用移动终端获取数据档案的模式探索

利用移动终端设备获取数据档案,与传统档案信息获取行为互为补充,形成高效、便捷、多渠道的档案信息获取模式。不同性质的数据档案,也应采取不同的数据获取方式,使数据档案借助移动终端设备,得到最大化的利用。

(一)公共性数据档案资源获取模式

公共性数据档案资源获取模式,是一种用户主动获取公共数据档案资源的模式。由于公共档案数据资源涉及较多政府、企事业单位的档案信息,部分档案数据涉及隐私和安全,因此不便公开。利用者获取公共数据档案资源,不需要支付费用,但需经过在线申请程序,由档案数据资源所有者甄别其隐私性和安全性。对由于各种原因不能推送的档案数据资源,通过移动网络给予申请者及时反馈,并说明理由;对于可公开的档案数据,通过移动网络发送至申请者,申请者便可借助移动终端设备接收数据进行下载利用。

(二)商业性数据档案资源获取模式

商业性数据档案资源获取模式,是一种用户通过在线支付获取商业性数据档案资源的模式。对于商业性档案数据资源,用户需经过在线申请程序,对所需资源进行确认,并由商业机构审核通过。根据申请者想要获取的档案数据资源的数量、价值及商业性机构的有关规定,申请者支付指定的费用购买所需档案数据资源,并利用移动网络第三方在线支付平台,如支付宝、百付宝、财付通、银联在线等,支付一定的费用,实现对数据资源的购买行为。商业机构继而对用户支付的档案数据资源调出并推送至支付用户。支付用户借助移动终端设备接收数据,进行下载利用。

(三)私有性档案数据资源获取模式

私有性档案数据资源获取模式,是一种用户利用专门平台搜索资源门户网站,再获取特定的私有数据资源的模式。用户对私有档案数据资源的获取,首先通过移动网络平台在线搜索,将所需资源限定在一定范围内。私有数据资源的所有权确认是用户获取数据资源的关键环节,基于私有数据资源的私有性和隐秘性特征,其归属权不像公共档案数据资源那样易于知晓,需要用户在经过资源搜索后,对资源的归属权多方查证、确定,防止网络环境下数字档案的复制行为所引起的归属权不明问题产生。其次,对私有档案归属权的确认行为引导用户对所有权人提出申请,获取私有数据资源。用户与所有者达成协议,或者基于商业模式的在线支付,或者通过其他途径获得免费特许,享受指定私有数据利用资格。最后,由所有者进行数据推送,用户通过移动终端设备接收数据信息,实现对私有数据资源的利用。

(四)数据中心主动对特定用户精准推荐数据档案模式

我国的政府机构、企事业单位,在建立数据中心和档案数据化的基础上,可以利用移动网络,由数据中心主动对一些特定用户精准推荐数据档案资源。数据中心通过移动终端精准推荐数据服务,需要具备两个条件:(1)选定特定的数据档案资源。例如,数据中心保存的有关个人的任职、转正、退休、奖励等相关数据,精准推荐给用户个人。(2)选定特殊用户的终端识别号(用户号),例如手机用户的微信号、手机号、手机邮箱等。只有在选定了特殊的用户后,数据中心才能主动给选定用户精准推荐数据档案。精准推荐数据档案的服务,可以提高档案的利用效率,同时也将档案服务方式由被动转为主动。例如,一些高校档案馆,整合数据库中一些教师个人的职称、学历、科研、财务经费等数据,利用移动网络平台主动推荐给教职工,教职工在手机上直接点击就可以在线阅读和下载数据档案。

综上所述,在大数据时代的背景下,必须在原有档案信息资源获取方式的基础上,加强对移动终端获取数据档案模式的研究。同时,也应对移动终端获取数据档案过程中可能出现的问题加以重视,包括移动终端获取档案资源过程中产生的知识产权问题、数据开发商与档案资源所有者之间的博弈问题、档案信息资源提供过程中应兼顾社会服务性与各方利益平衡等问题。

*本文为2015年国家档案局科技项目“大数据时代国家综合档案馆的数据精准推荐及数据专题服务研究”(项目编号:2015—X-16)的阶段性研究成果。

参考文献:

[1]李广都.网络强国战略下区域性数据档案中心建立分析[J].中国档案,2015(10):64-65.

[2]傅荣校.我国国家档案馆公共服务能力评估研究综述[J].浙江档案,2014(6):10-13.

[3]黄丽华,宋华.移动档案馆建设研究[J].中国档案, 2016(6):59-61.

大数据研究综述 篇7

在数据量以几何级数方式迅猛增长的今天,随着物联网数据感知、云计算数据计算、三网融合以及移动互联网的迅速发展,数据增长快、数据类型多、价值密度低,大量的数据信息已不能以传统的计量单位(GB和TB)来衡量,产生更为巨大的计量单位,如PB、EB、ZB、YB等,使用现有的数据库管理工具难以进行数据快速获取、存储、检索等操作。通过对大数据的抓取、管理和处理,挖掘出有价值的数据或信息,可以极大地提升数据的有效率和利用率。

1 国内外研究现状

信息与网络的飞速发展,信息量大量增长;计算机硬件成本逐渐降低,使得昂贵的数据存储和处理变得经济。谷歌的MapReduce、GFS和BigTable等核心技术引起了雅虎、Facebook等互联网公司的注意,为目前应用最广泛的开源大数据框架Apache Hadoop的诞生奠定了基础。联合国发布的《大数据促进发展:挑战与机遇》大数据政务白皮书指出,大数据对人类而言是一个历史性的挑战和机遇。

美国政府耗费巨资投入大数据技术研究,颁布了《大数据研究和发展计划》,目标是通过大数据技术实现感知、认知和预测支持的结合,增强信息提取分析、情报获取和对目标的洞察能力,培养该领域的技术人才。投入155个项目涉及国家多个重要领域,如国防部、能源部以及国家安全及未来发展战略等。主要项目包括:多尺度异常检测项目(ADAMS)、网络内部威胁计划(CINDER)、加密数据的编程计算项目(PROCEED项目)、视频与图像检索分析工具项目(VIRAT项目)等。为实现决策优化,美国还进行了数据可视化、信息安全与大数据结合等方面的综合研究,建立大数据中心,对各类大数据进行整合、分析,并向相关领域提供大数据分析产品。

我国大数据应用还处于起步阶段,但已有国际知名项目投入使用,如Facebook开发的社交图谱数据、NSA棱镜计划、IBM Waston等项目。2013年,我国开始进行大数据专项研究,2014年,国内主要互联网公司已将大数据应用于相关业务中,取得了巨大的经济和社会效益。同年,清华大学开设了大数据相关课程,正式开启了培养大数据领域专业人才的序幕。

大数据作为一个新兴的技术门类,已经渗透到国民经济各个领域。大数据为人类带来了无限的机遇和挑战,是一场即将改变未来的信息革命。

2 大数据特点

大数据无法使用传统数据库工具对其内容进行处理,具有传统数据所不具备的特点,见表1。

大数据定义的5V特征(Volume,Velocity,Variety,Veracity,Value)涵盖了5个层面。

(1)数据量大(Volume)。此为大数据最明显的特点,从传统的MB、TP跃升至PB或更高的EB、ZP级别。数据量的大小决定数据价值和潜在信息,数据表示各种业务活动,推动社会与企业共同进步。

(2)处理速度快(Velocity)。在数据量飞速增长的同时,对数据实时分析和处理要求更高。如果海量数据未能实时处理,将失去其应有价值。

(3)数据类型多(Variety)。大数据来源复杂,数据类型多种多样,包括结构化、半结构化和非结构化的等多种数据类型。传统的数据处理工具已不能对类型多且杂的大数据进行处理。在如此繁多的数据中获得有价值的潜在信息,正是大数据多样性的重要体现。

(4)数据真实性(Veracity)。大数据来源于真实世界发生的各类活动,而高质量的数据是大数据发挥效能的前提和基础。唯有如此,专业的数据分析工具才能从海量数据中提取出隐含的、准确的、有用的信息。

(5)价值密度低,商业价值(Value)高。在大量的数据中只有少数数据具有利用价值。合理运用大数据,提取出能够解释和预测现实的数据,以低成本创造高价值。

3 大数据技术

信息无处不在,海量数据的产生、共享以及交换应用如何实现是大数据研究领域的核心问题。

大数据技术能够实时、高效、可视化地处理各种类型数据,使用户按需求获取分析和预测结果。大数据关键技术是数据的采集与预处理、数据存储与管理、计算模式与系统和数据分析与挖掘,如图1所示。

(1)大数据采集与预处理。数据来源渠道繁多,导致数据类型多样化,包括结构化、半结构化和非结构化数据。非结构化数据价值低、异构且冗余,故首先要对数据进行清洗,以消除相似、重复或不一致的数据,为后续过程提供高质量的数据集合。现有的数据采集手段主要有以下4种[1]:基于物化或ETL引擎方法、基于联邦数据库引擎或中间件方法、基于数据流引擎方法和基于搜索引擎方法。

(2)数据存储与管理。PB或EB数量级的大数据不仅需要上层应用高效的数据访问接口,而且对数据实时性和有效性提出了更高标准。为快速高效可靠地处理大数据,需建立计算编程模式以及相关的优化方法。大数据环境下,目前最适用的技术是分布式文件系统、分布式数据库以及访问接口和查询语言[2]。

(3)计算模式与系统。大数据计算模式是指根据不同的数据特征和计算特征,从多样性的大数据计算问题和需求中提炼并建立各种高层次抽象或模型。大数据计算与计算算法、数据规模、数据分布以及用户访问行为密切相关,不仅从多维度建立大数据计算程序集合,还分析了计算系统之间的相互影响,建立复杂条件下大数据运行的行为模型。典型的大数据计算模式与系统如表2所示。

IBM结合自主计算和大数据技术,提出具备自主能力的“认知计算”,是继制表计算、编程计算之后的第三代计算模式。

(4)数据分析与挖掘。鉴于大数据价值密度低、商业价值高的特点,为提高数据质量和可信度,要求从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过分析数据结构、类型及数据间的关联度,综合运用统计和机器学习,从数据库管理系统的大数据中提取出隐含其中的潜在信息和知识,这就是数据分析与挖掘。在庞大的数据中,数据呈现形式至关重要。可视化借助图形化手段,通过直观传达大数据关键特征,对数据进行可视化表达,呈现数据中隐含的信息,挖掘数据中所包含的规律。数据可视化分为科学可视化、信息可视化和可视化分析。

4 结语

大数据概念日益完善、特点日益突出、关键技术日益提高。大数据作为近年的新兴产业,像互联网、云计算及物联网一样,改变了国民经济和生活,已成为新一轮信息技术革命的发动机,成为社会经济的支柱,带来了全新的变革和机遇。但大数据核心处理技术尚不成熟,大数据产业发展应符合国情,科学规划,形成良好的发展环境,国家要推动大数据领域技术走在世界前列。

参考文献

[1]LI X,DONG X L,LYONS K,et al.Truth finding on the deep web:is the problem solved[C].Proceedings of the 39th International Conference on Very Large Data Bases(VLDB'2013),2013:97-108.

[2]中国计算机学会大数据专家委员会.中国大数据技术与产业发展白皮书[R].2013.

[3]ARASU A,CHAUDHURI S,CHEN Z,et al.Experiences with using data cleaning technology for bing services[J].IEEE Data Engineering Bulletin,2012,35(2):14-23.

[4]GONZALEZ J E,LOW Y,GU H,et al.Power graph:distributed graph-parallel computation on natural graphs[C].Proceeding of the10th USENIX Symposium on Operating Systems Design and Implementation,2012:17-30.

[5]KUMAR R.Two computational paradigm for big data[EB/OL].[2014-08-25].http://kdd2012.sigkdd.org/sites/images/summerschool/Ravi-Kumar.pdf.

[6]KANG U,CHAU D H,FALOUTSOS C.PEGASUS:miningbillion-scale graphs in the cloud[C].IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP),2012:5341-5344.

[7]VICTOR MAYER SCHONBERGER,KENNETH CUKIER.大数据时代[M].杭州:浙江人民出版社,2013:193-232.

[8]李翠平,王敏峰.大数据的挑战和机遇[J].科研信息化技术与应用,2013(1):12-18.

[9]刘军.Hadoop大数据处理[M].北京:人民邮电出版社,2013:45-60.

[10]李纪舟,叶小新,丁云峰.美军大数据技术发展现状及对其信息作战的影响[J].外军信息战,2013(6):34-38.

大数据迁移研究 篇8

随着信息采集机制的演变, 存储和数据库技术的进步, 信息呈爆发式增长, 导致传统的信息和通信技术无法处理他们。据IDC预测, 到2020年, 数据将会从2011年的1.8 ZB (1.8万亿GB) 增长至40ZB (40万亿GB) 。企业或机构在获取、操作、存储、搜索、检索、共享、转移、分析大数据以及大数据的可视化上存在很大难度, 特别是数据体积庞大, 且存在大量异构信息, 数据操作包含繁多和复杂的业务规则时, 整合和使用这些数据就成了巨大的挑战。

迁移是将电子数据从原始系统数据环境移入新系统数据环境中[1], 通常是部署企业级应用的一项子活动。为了保证业务的连续性, 数据迁移过程中要保证没有数据丢失, 没有数据被污染, 并且数据的变化符合规则。

大数据迁移过程分为数据迁移计划、数据迁移分析、数据检测和清洗、数据迁移以及数据迁移后续工作5个步骤。

1 大数据迁移计划

对一个数据迁移项目而言, 首先就是要进行需求分析。大数据迁移计划阶段主要是关注数据迁移的范围、来源以及目标环境。在这个阶段要整理出系统或是数据源的完整清单。

数据迁移计划阶段的任务及具体内容如表1所示。

2 大数据迁移分析

数据迁移分析是一个研究和理解原系统数据的过程, 这个过程需要明确数据的结构、内容、关系、推导规则和数据字典。分析可以帮助理解异常, 评估数据质量, 还可以获取、登记和评估企业元数据。

大数据迁移分析过程分为以下几步:

(1) 初步数据分析

初步数据分析可以帮助数据迁移团队熟悉元数据及数据集合的定义, 并评价样本数据。它能给出一个早期的提示, 正确的数据在程序中是否有效, 潜在的异常是否能马上处理。

(2) 数据分析会议

数据分析会议是数据迁移团队和数据所有者 (技术和商业) 之间的交互式会话, 交流和澄清数据迁移要求和期望, 并研究业务的需求和数据/业务的历史。可以按不同的原系统或是业务模块来组织数据分析会议。

(3) 详细数据分析

详细的数据分析是一个过程, 包括了对每个表的元数据, 检测规则, 行为要求特性的详细分析。详细数据分析过程中要执行多次迭代。

详细的数据分析从研究表的类型开始。表可以分为事务表、不活跃事务表、引用静态表、引用动态表以及临时表五种类型。表类型的研究有助于确定表的处理方式, 根据表的不同类型可以将表的处理方式分为原状态迁移、待清洁、待合并和不可迁移四种。

“待清洁”的表将是处理的重点和难点。凡是被确定为“待清洁”的表, 其元数据会被详细分析, 按照表2所示的分类标准[2]进行检测。

3 大数据清洗

在数据集成和提取时需要对数据进行清洗, 保证数据质量及可信性[3]。数据清洗是一个执行清理规则的过程, 以确认在数据分析中发现的潜在不良和不一致数据, 并进行修正。数据清洗是一个多重迭代, 在每一次迭代中都引入新的数据检测要求去修改或进一步发现潜在的不良或不一致数据。每一次的迭代都是由数据提取和加载开始, 接着执行异常检测, 最后进行异常校正。

3.1 数据抽取载

数据抽取和加载是数据从原系统提取和加载到数据迁移目标系统的过程。实现时可以使用三级数据库:

(1) T1数据库

数据首先使用最小的转换规则加载到T1数据库。T1数据库是原系统中数据状态的最好镜像。在这个数据库中没有数据操作, 除了在完成数据加载必须的修正外。

加载过程中出现的ETL (extract、transform、load) 异常, 应该制作报告并且提交给数据所有者去修正。修正原系统中的异常后, 再重新提取数据加载到T1数据库里。T1数据库的记录数必须与源数据库的记录数匹配。

(2) T2数据库

T2数据库与T1数据库或源数据库中数据结构可能不完全相同。所有的数据操作、转换和检测都在T2数据库中执行。有些表结构会改变以适应检测要求, 比如增加列, 与其他的表合并, 或分割为多个表等等。

(3) T3数据库

T3数据库包含所需的最终表, T3数据库中的数据和信息应该是最终产品数据库中定义的结构和格式。

3.2 异常检测

异常检测是执行在数据分析过程中确定的数据检测规则的过程。异常检测通常会按照表3的标准进行检测。

异常检测的结果通常会有以下几种:

(1) 异常列表中的数据被识别为有效数据。

(2) 异常列表中的数据被识别为无效数据并且需要修正。

(3) 异常列表中的数据被识别为无效数据, 无须修正, 在其他表记录中已存在。

(4) 异常列表中的数据被识别为无效数据并且无法修正。

对于识别为无效并且需要修正的数据, 可以通过预编程序自动执行或是人工干预。为了保证执行效率, 手工更正应该保持在最低限度。还有一部分数据检测和校正活动需要放在数据迁移阶段执行, 因为有些校正不适合在原系统中执行。

4 大数据迁移

数据在进行过初步的清洗后, 就可以进入迁移阶段。数据迁移是一个从原系统中抽取源数据, 在分级数据库环境中清洗数据, 并将被清洗过的数据转换并加载到目标系统的过程。这是整个数据迁移活动中的最重要的过程。这个阶段的目标是为分级数据库环境提供完整的数据集。整个过程包括以下几步:

(1) 限制使用期

限制使用期有时也称为冻结期, 是使用目标系统之前到数据在目标系统中运行起来的一段时间。在这段时间里, 原系统的仅能进行搜索、检索和查看信息, 所有的修改功能 (增加、修改和删除) 都会被禁止。

在这一期限内, 通过原系统对数据的任何改变都不会加载和体现到目标系统中。随着原系统功能的限制, 系统返回到手工处理方式, 对数据的更新和修改都要记录下来, 在目标系统上线后再加入到目标系统里。

(2) 源数据提取

源数据的抽取在限制期内执行, 且所有的迁移数据都包含其中。抽取的源数据将加载到分级数据库环境中以便进行清洗。由于限制使用期短, 涉及数据多, 所以数据抽取应提前开始。

(3) 分级数据清洗

部分数据检测和校正是在数据迁移阶段执行的, 因为有些校正不适合在原系统中执行。检测和迁移活动的关键是确保数据在迁移至目标系统前是一种“干净”的状态。

(4) 转换和加载数据到目标系统

这是数据迁移过程的最后一个阶段。这个阶段包括将“清洁过”的源数据从分级数据库环境中, 根据数据字典目标模式进行转换, 加载到目标环境中。

5 大数据迁移后续工作

数据迁移完成后, 新系统完全取代原系统需要一段时间, 在此期间必须保持原系统和目标系统之间数据的一致性和完整性。其主要工作是从原系统的数据库里识别、检测和提取变化, 通过向前同步提交给新系统, 同时也要从目标数据库识别、检测和提取变化, 通过向后同步过程返回原系统。

数据迁移后续工作在目标数据库启用后立即开始。这个过程使用一个固定周期 (每天、每周等) 迭代执行, 直到原系统关闭, 完全由目标应用系统取代。

结语

随着信息技术的发展, 导致很多机构或企业需要将数据从传统系统迁移到新系统中, 这是一个复杂的过程, 它需要周密的计划和执行, 还要确保信息的完整性和正确性。本文就如何行之有效的进行大数据的迁移, 确保信息迁移的完成以及数据的高准确性和一致性进行了探讨, 对实际大数据的迁移应用能提供一定的参考。

参考文献

[1]孟小峰, 慈祥.大数据管理:概念、技术与挑战.计算机研究与发展, 2013, 50 (1) :146-169.

[2]叶鸥, 张瓂, 李军怀.中文数据清洗研究综述.计算机工程与应用, 2012, 48 (14) :121-129.

[3]王刚, 王冬, 李文, 李光亚.大数据环境下的数据迁移技术研究.微型电脑应用, 2013年第30卷第5期.

大数据环境下数据安全策略研究 篇9

大数据(Big data或Megadata),又称海量数据,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到管理、截取、并处理成为人类所能解读的信息。在总数据量相同的情况下,与独立的小型数据集(data set)相比,将多个小型数据集合并后进行分析可得出许多额外的信息和数据相关性,可用来察觉商业趋势、预防疾病扩散、改善安全和执法、优化机器和设备性能等,这样的广泛用途正是大数据盛行的原因。

“大数据”数据分析的前沿技术,它是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。简单来说,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术,也正是这一点促使该技术具备走向政府和企业的潜力。

大数据背景下数据正在取代人才成为企业的核心竞争力,在进入大数据时代之前,企业脱离于人才而单独存在的可能性基本为零。而大数据时代,企业智商的基础就是形形色色的数据。这些能够被企业随时获取的数据,可以指导企业的运营,帮助企业做出最明智的抉择。

大数据对企业的核心资产也做了重塑,数据资产名正言顺地成为现代商业社会的核心竞争力。互联网行业已经提早感受到了大数据带来的深切变化并完成了核心竞争力的重新定义。这些互联网企业正在发生的巨变,也将成为其他企业在大数据时代的未来。

2 大数据环境下的数据安全现状

随着APT攻击的兴起,大数据分析成为很多企业信息安全部门迫切需要解决的问题。传统安全防御措施很难检测高级持续性攻击,因为这种攻击方式与传统的恶意软件模式完全不同。APT攻击是非常难于检测,企业要先定义正常、非恶意的网络行为,才能确定企业的网络和数据是否受到了攻击。要建立合理的安全模型进行检测和记录并非易事。APT攻击建模不只是针对一个攻击方式或者某一个安全威胁框架,而是针对大量的数据,要想精确地描述威胁特征,建模的过程可能耗费几个月甚至几年时间,必然耗费大量人力、财力,才能达到目的。大数据安全实质是一种自身的对抗与博弈,这也是安全问题自身所固有的特征。

2.1 海量数据使得安全管理成本显著增加

海量数据的安全管理是对大数据运营者的最大挑战。在网络空间,大数据是更容易被攻击者利用的显著目标。一方面,大量数据的集中存储增加了泄露风险,黑客的一次成功攻击能获得比以往更多的数据量,无形中降低了黑客的进攻成本,增加了“攻击收益”;另一方面,大数据意味着海量数据的汇集,这里面蕴藏着更复杂、更敏感、价值巨大的数据,这些数据会引来更多的潜在攻击者。在大数据的消费者方面,公司希望在未来实现不同的部门像财务、工程、生产、市场、IT等之间的信共享,在不破坏壁垒和部门现实优势的前提下更透明地部门之间的沟通,以提高公司的竞争力。

2.2 大数据的低密度价值分布使得网络安全防御边界扩大

大数据单位数据的低价值,使得数据的信息效能被摊薄了,大数据的安全预防与攻击事件的分析过程更加复杂,相当于安全管理范围被放大了。大数据时代的安全与传统信息安全相比,其一,大量的数据汇集,包括大量的客户信息、个人的隐私、企业运营数据和各种上网行为记录,这些数据的集中存储增加了数据泄露风险;其二,一些隐身和敏感数据的所有权和使用权并没有被明确界定,许多基于大数据的分析都未考虑到其中涉及的个体隐私问题;其三,大数据带来对数据的可用性、完整性和隐秘性的全新挑战,在防范数据丢失、盗用、滥用和破坏上存在一定的技术难度,传统的安全工具在应对大数据安全问题上不再像以前那么有效。

2.3 大数据类型多种多样,大大增加了信息有效性验证的工作量

大数据不再局限于收集特定的数据,而是将各种结构化与非结构化的数据混杂在一起。从海量数据中提取我们需要的数据将是关键挑战。很多机构将不得不接受的现实是,太多无利用价值的信息导致的信息不足或信息的不匹配。假设:依托算法处理对大数据进行预测,但如果我们获取的数据本身有问题改如何处理?也许我们可以说一些偶然非人为的错误对于体量庞大的数据规模来说可以忽略不计,但是却没有考虑这些数据如果是对手故意放出的干扰数据改怎么办?因此研究一种相关算法来确保数据来源的有效性,尤其是比较强调数据有效性的大数据领域显得尤为重要。正因为如此,对于已经储存大量客户数据的公司来说,最明显的威胁就是大数据时代存放于企业数据库中数以TB计并不断增加的客户数据是否真实可靠、来路清晰。由此我们可以得出:海量数据本身蕴藏着丰富的价值,但是如何将有价值的数据与没有价值的数据进行区分将是非常棘手的问题,并将引发越来越多的安全问题。

2.4 针对海量数据的收集、存储、管理、分析和共享,使得传统意义上的对错分析和领导决策失去作用

在大数据分析日益成为公司重大业务决策者时,越来越多的决策结果来自于大数据的分析建议,如果大数据系统只是一种辅助决策系统,这还不是最可怕的。事实上,对于领导者最艰难的事情之一,是让我的逻辑思考来做决定,还是由机器的数据分析做决定。可怕的是,如今看来,机器往往是正确的,这让越来越多的决策者产生依赖。我们不妨设想一下,如果收集过来的原始数据已经被修正过,或是系统逻辑已经被人为控制了,那将是一件多么可怕的事情。

2.5 大数据要求相对开放性的网络,使得网络安全加固策略不能过于复杂

在大数据环境下,数据的使用者同时也是数据的制造者和提供者,数据间的联系可持续扩展,数据集可以无限延伸,这也就决定了大数据要有新的应用策略,并要求大数据网络更加开放。并且大数据要对复杂多样的数据存储内容做出快速处理,这就要求很多时候,安全管理的敏感度和复杂度不能定得太高。此外,大数据强调使用者的广泛参与性,对于系统管理者来说很多时候不得不调低许多策略的安全级别。大数据的大小也将直接影响安全控制措施的正确执行,安全防护系统升级速度无法跟上数据量非线性增长的步伐,必将暴露大数据安全防护的漏洞。

3 针对日益严峻的大数据安全问题应对策略

3.1 大数据管理人才储备非常重要

当下国内具备常规数据库管理的人才大多没有大数据管理的相关经验,因此,企业迫切需要找到或引进有大数据安全管理经验高级技能人才对公司现有人员进行大数据安全的相关业务培训,虽然这需要投入巨大的人力成本和培训成本,但这些针对大数据管理人员的教育和培训成本,是一种非常有必要的开销。相对于公司因为大数据安全问题而带来的损失,这部分投入显得微不足道。这样公司有了自己的大数据安全管理人才,将降低大数据安全风险的发生。

3.2 分散存储,准确的评估,精确控制大数据设计规模

在流程的设计上,选择将数据分散存储,使得任何一个存储单元被“黑客”攻破,都不可能拿到全集,同时对于不同安全域要进行准确的评估,对关键信息索引的保护一定要加强,作为数据保全,能够应对部分设施的灾难性损毁。使用更加开放的分布式部署方式,采取更易于扩充、更加灵活的信息基础设施,基于威胁特征建立实时匹配检测,基于统一的时间源消除高级可持续攻击(APT)的可能性,精确控制大数据设计规模,削弱“黑客”可以利用的空间。

3.3 构建数据安全管理体系,网络防护和数据自主预防并重

依据保护要求,加强重点保护,确立有限管理边界,构建一体化的数据安全管理体系,遵循网络防护和数据自主预防并重的原则,并不是实施了全面的网络安全护理就能彻底解决大数据的安全问题,数据不丢失只是传统的边界网络安全的一个必要补充,我们还需要对大数据安全管理的盲区进行监控,只有将二者结合在一起,才是一个全面的一体化安全管理的解决方案

3.4 合理利用大数据系统进行决策

不要片面地依赖于大数据系统做决策。在利用大数据进行分析、决策的同时,还应辅助其他的传统决策支持系统,尽可能明智地使用数据所告诉我们的结果,让大数据为既能为我们所用,又不能让大数据左右我们的思想。

3.5 增加新型防护手段,增强对数据资源的管理和控制

面对大数据所带来新的安全问题,有针对性地改进安全防护手段,增加新型防护手段,混合生产数据和经营数据,多种业务流并行,增加特征标识建设内容,增强对数据资源的管理和控制。

4 结语

大数据背景下,大数据正在对我们的生活产生着潜移默化的影响,并将对我们的社会经济活动带来深刻影响。充分利用大数据技术来挖掘信息的巨大价值,从而实现并形成强有力的竞争优势,必将是一种趋势。面对大数据时代的安全挑战,提高安全保护意识,建立完善的安全管理体系,注重安全人才培养,相信大数据必将为我们带来天翻地覆的变化。

参考文献

[1]张昆.大数据安全的六大挑战[J].中国计算机报,2015.

[2]韩江.大数据安全处理技术研究[J].大数据安全处理技术研究,2014.

[3]陈韵.大数据时代的信息安全问题及对策研究[J].电子技术与软件工程,2015.

大数据领域内数据可用性研究 篇10

所谓大数据是指在一个数的集合体对各项数据以及信息进行储存、查询、计算、整合等。大数据具有以下几个性质。

其一, 一致性。各项数据和信息在大数据环境内都保持一致性, 对于无法与集合体内的数据进行有效衔接的错误信息将会自动进行屏蔽。当大数据内的信息出现错误的话, 就会增加数据集合中的安全隐患问题, 但是安全隐患问题可以进行有效审查。比如某一张信用卡出现问题的判决依据就是消费数据, 如果一张信用卡同时在两个城市进行消费, 但是根据消费记录表明数据不同, 则说明这张信用卡出现问题了。

其二, 正确性。在集合体内, 每一个数据信息代表一个集合, 这个集合体可以真实有效地反映某一事件的真实情况, 进一步确保大数据信息的真实性和准确性。

其三, 完整性。一个完整的数据集合体内需要包括一个完整的数据信息, 为进一步方便人们在数据集合体内查询、计算数据信息提供帮助。比如高校的人事档案管理数据库中, 管理工作人员需要记录完整的数据信息才可以进一步落实人事档案管理工作的有效性和针对性, 从而保障高校管理工作的顺利实施。

第四, 时效性。随着社会经济的快速发展以及现代信息技术脚步的加快, 大数据集合体内的数据信息都符合现阶段的发展情况, 符合时代发展的主流。所谓大数据时效性是指数据库内的信息需要跟得上时代和社会发展的脚步, 确保信息的先进性。

其五, 统一性。数据集合中的各项数据在描述的过程中具有统一性, 享有共同的描述。将以上五种性质的大数据进行整合, 称之为数据的可用性。

二、现阶段大数据可用性中存在的问题

就现阶段的大数据系统而言, 人们在研究大数据可用性过程中, 由于对数据高质量的追求, 导致研究方法还存在一些问题, 还需要科学家们加强技术创新, 改进研究技术, 为进一步健全和完善数据库提供良好的基础。

首先, 大数据质量存在问题。影响大数据质量方面的因素主要包含大数据理论信息的不完整、数据过滤技术不够成熟等。基于这种情况, 需要研究者将不科学、不正确、不完整的数据信息进行剔除, 从而保障高质量的大数据理论。

其次, 大数据可用形象化没有凸显出来。在研究大数据可用性的时候, 人们往往会忽略大数据可用性形象化, 从而导致大数据集合体中的理论研究体系不够清晰。针对这种情况, 研究者们需要在理论方面思考如何判断数据的可用性, 比如对数据进行定量评估分析。

三、优化大数据可用性的研究措施

(一) 大数据高质量整合。一般情况下, 大数据的来源主要来自三个方面。其一, 随着社会经济的快速发展以及现代信息技术的加强, 以多媒体信息技术作为大数据研究的有效载体, 可以进一步提高大数据的质量。比如从 Web网站上建立数据库, 达到获取高质量的数据来源信息。其二, 来自于社会中的各种系统, 比如智能电网系统。其三, 来自科学研究体系中的数据。科学研究体系中的大数据一般是通过科学试验观测和采集而来, 具有很高的实用性和真实性。

就大数据高质量整合而言, 研究者要想提炼高质量大数据信息的前提条件是处理好数据之间的关系。比如采用贝叶斯技术对静态数据进行分析和整合;采用马尔可夫模型方法对动态数据进行分析和整合。通过这两种方法对静态数据和动态数据进行有效分析, 可以大大改善数据之间的关系, 提高数据整合效果。

(二) 建立健全大数据可用性理论体系。建立健全大数据可用性理论体系不仅可以大大提高大数据质量, 还可以提升大数据理论信息的实用性。首先, 研究者需要以语义规则作为理论体系构建的原则, 运用统计学相关理论对大数据进行科学描述, 从而确保数据的完整性。其次, 研究者一旦发现数据库中存在错误信息时, 需要及时将错误信息进行剔除, 并对其修复和完善, 确保数据的时效性和可用性。

结束语

在对大数据进行研究与整合过程中, 需要注重大数据的可用性, 并利用大数据的可用性发挥大数据在不同领域中的作用, 从而保障大数据的有效性和可用性。另外, 还需要利用先进科学技术提高大数据整体质量, 为进一步推动大数据研究工作提供保障。

摘要:本文以大数据相关概述作为出发点, 分析了现阶段大数据可用性中存在的问题, 并探讨了优化大数据可用性的措施, 以期为加强大数据可用性研究提供一些参考和意见。

关键词:大数据,可用性,问题,措施

参考文献

[1]杜华, 孙艳超.教育领域内可用性研究现状与研究演进路径可视化分析[J].现代教育技术, 2013, 08:66-70.

上一篇:DCS与JDT系统下一篇:视觉形象符号