大数据与云计算在教学运用的可行性探究

2024-07-01

大数据与云计算在教学运用的可行性探究(精选6篇)

篇1:大数据与云计算在教学运用的可行性探究

大数据与云计算在教学运用的可行性探究

摘要:

在过去近20年的信息化建设中,人们的生活方式已经发生了巨大的变化,而在教育领域,特别是义务教育阶段学与教的方式改变甚微。进入21世纪,随着云计算技术的发展和在此基础上延伸出的大数据采集、处理、挖掘等技术的实际运用,IT技术的迅猛发展为教育信息化发展提供了强劲的动力,为新时代教学工作带来翻天覆地的变化。

关键字:大数据,云计算,教学运用 什么是云计算技术?从Amazon的“弹性计算云”到IBM的“蓝云”,从Google Apps到微软的Windows Live。对于“云”的解释,众说纷纭,每个人、每个行业都有自己的认识。我的理解是,在义务教育领域,云计算技术提供廉价、安全、科学的数据服务,将学生、教师、家长、学校管理各方面紧密联系起来,提高效率。主要应用有云存储、云教育、云会议。

什么是大数据?大数据并不是简单的名词,在教学过程中,它主要指通过对学生、教师等用户每天通过各种终端在网络上学习、娱乐、交流等产生的大量数据的采集、分析、处理、挖掘,为教学、学生管理等提供指导和预测。

一.利用云计算的功能特点应用教学中:

1、利用云计算技术的网络化特点搭建师生,家校,师校的平台。

云计算、大数据技术依托互联网,并在此基础上进行了极大的扩展和丰富。特别是随着移动互联网技术的运用,各种廉价移动终端的大量使用,云计算、大数据技术为学生、教师提供了随时随地沟通、交流、学习的可能性。

(1)通过云计算网络上的各种应用,可以方便地实现学生与教师之间的交流,这种交流方式更直接、更公平。教师可以通过应用程序发布课前预习内容或者课后作业,甚至直接将教学视频发在网络上供学生随时调阅,学生则可以在评论板块发表自己的意见,教师及时对学生的疑问给予反馈,提高学习效率。在英语教学中,学生既可以在课前网上搜索信息,做好预习工作,将有疑问的内容标记下来,课上做到有的放矢,提高课堂效率,也可以将课后练习中遇到的难题发布到网上供全体学生讨论,集思广益,让大数据成为学生间沟通的桥梁。

(2)建立起教师、家长、学校管理层等各方面的有效沟通,家庭教育是学校教育的基础,建立家-校互动平台将促进家长与教师之间的及时交流。引导家长参与学校的管理,利用移动互联技术实现对学生在家、在学校行为的实时联系和互动,家长可以对学校课程设置、学生管理制度等提出自己的意见,学校予以回应,形成有效互动,共同关心学生的成长。例如,英语学科可以把学生的每天默写成绩通过平台发给家长,让家长了解孩子每天所学内容的欠缺和家长应该配合的部分,初中三年是孩子心里和生理成长的关键阶段,有效即时的沟通可以让家长了解孩子成长的过程及心理的变化,学校,家长和教师三方面共同努力为孩子创造良好的成长环境,让孩子健康,快乐地渡过青春期。

(3)有助于建立扁平化的集体管理模式,创造民主、平等的校园文化。云技术的出现可以改变传统的学校科层制管理模式,构建一个学校内部管理平台,学校的管理制度不再由某个或者某几个高层领导决断,而是大家集体智慧的结晶,创建一个开放、和谐、深度互动的平台。决策的每一步和最终的内容都建立在充分民主的基础上,让学校的每一位教职员工都形成共同的愿景,实现学校和教育事业的可持续发展。

2、结合数据挖掘等技术,云计算技术可以帮助教师实现学生的个性化学习。

(1)在移动网络的帮助下,学生的学习突破了传统学校教育的时间和空间限制,学生可以在任何时间、地点根据自身情况自主选择学习的内容,提出疑问并得到教师的回复。

(2)运用数据挖掘等技术,在教学过程中,教师发现自己录制的一段课程其中的某几个环节或时间点,被学生们反复浏览和点击的时候,他通常会及时地意识到这可能是一个对学生来说难以掌握的知识点,或是一个自己的讲解表述有差失的地方,接下来就可以据此调整讲义。而对考试这件事来说,通过在线模拟测试,大数据可以用来分析和统一某个学生群体或个体对不同知识点的掌握情况,当某个知识点的题目被频繁做错的时候,系统就会在接下来的模拟测试中不断强化出现与这个知识点相关的题目,以巩固学习效果。这不是帮人“作弊”,反而是强化理解知识的方式。

(3)将云计算、大数据技术与学习型组织建设结合起来,更好、更科学地挖掘学生的潜能。由于学生的个体差异很大,通过大数据系统的数据处理,可以帮助教师更好地了解每个学生知识掌握程度,将班级学生分为若干不同层次、不同水平的对象小组,有针对性地进行个性辅导,极大提高教学效率,减少传统的一个班级上一堂课这种难以兼顾高低的低效率教学方式,减轻学生和教师的负担,提高效率。培养学生创新精神与自主性。借用工商管理领域中学习型组织的概念,学校作为一个组织也应该通过培养弥散于整个组织的学习气氛,充分发挥教师、学生的创造性思维而建立起来一种有机的、高度柔性的、1 扁平的、符合人性的、可持续发展的学习型组织。实现民主、平等的校园文化,在对话和交往中完成学习和知识的共享。云计算技术创建了一个自由的学习空间,教师承担的是辅导者和促进者的角色,学生成为主动的学习者,享受更多自由支配学习的权利,有利于发展学生的创新精神和自主性,通过丰富的手段积极引导学生变“要我学”为“我要学”。将相同兴趣的学生集合起来,在班级内部形成多层次的学习小组,将网络学习的单人教育与集体学习结合起来,形成组织内的浓厚学习气氛,促进组织内的每个学生共同进步。同时,教师也应该根据不同年龄段学生的自主控制能力来合理、科学地分配教师在教学过程中发挥作用的比例,不能一味的放任学生自主学习,适当的引导、控制非常重要。

3、云计算及大数据技术在教育领域的大规模应用,其在客户端的低成本优势可带来教育平衡与公平。

(1)云计算与大数据技术的本质,是将教学工作所需的大量计算、存储、多媒体展示等复杂任务交给后台的云端来处理。学校本身不再需要配备昂贵的服务器,仅仅需要配备低功能、廉价的展示平台即可,大大降低了学校信息化的成本。例如:在云计算时代,教师制作的一个包含视频展示、PPT演示、模拟实验等多媒体内容的教学内容,仅仅需要将做好的内容放在云端,由云端将所有内容处理后向各客户端直接输出经过压缩过的视频,学生的客户端仅仅需要配置简单的解压缩功能和视频播放功能即可,不需要更高级的处理能力和视频处理能力。

(2)云计算及大数据技术降低了对教师IT能力的要求,教师不再需要学习复杂的操作,仅仅需要学习一些软件的使用即可,后台如何处理完全交给云端,学校也不需要配备专业性很强的IT教师,节省了大量人力资源。

(3)基于以上两点,云计算、大数据技术在教育领域的大规模应用,还会带来教育的平衡与公平。目前,社会各界都已经认识到教育均衡发展的重要性,教育是“社会发展的平衡器、稳定器,是社会进行再分配的一个调节手段。”随着我国互联网、移动互联技术的发展,利用云计算、大数据技术在客户端的低成本优势,通过资源的共享来实现教育公平。给不同阶层、不同背景的孩子更加公平的学习机会,为社会不同阶层的垂直流通创造可能,促进社会和谐。利用云计算及大数据技术拉近东西部地区、城市与农村教育水平。宏观上看,如果建立某一地区或者省市,大到国家层面这些信息的统一数据库,可以从中分析出哪些地区在某些教育环节上的薄弱之处,可以请先进地区提供经验,对教育不发达地区教师进行培训,甚至直接请名师对学生进行远程教学,拉近不同区域教学水平。(4)、高性能,高安全性,为学生创造一个干净、安全的网络环境。云计算的终端是由Google、IBM等专业的网络公司来搭建的,其后台的数据处理能力强大,而对客户端的要求较低。互联网这样一个自由、开放的平台上很多负面、不健康的内容也会不加选择地呈现在学生的面前,这也是目前困扰家长及教师该不该让学生上网的一个核心问题。很多家长由于IT技术的缺乏,很难做到对孩子上网行为的控制。在云计算、大数据技术下,这些都可以得到专业、系统的解决,由云端对学生的上网行为进行监管,为学生创造一个干净、健康、安全的网络环境。

4、云计算及大数据对学生身心发展的可预见性。大数据技术还可以通过对各种相关因素的分析,找到外界因素与学生行为之间的相关性,为学校管理、学生管理提供准确、科学的依据。教育是按既定目标对人进行德、智、体、美、全面培养的活动过程。它的内涵是依据培养目标塑造一个人。因此,学生在校期间不仅仅要学习知识,更要树立学生正确、积极的人生观、价值观,使之成为一个文明、开放、积极的公民。运用云计算及大数据技术,特别是在长期数据采集、挖掘、分析的基础上,可以为教师在学生各方面发展方面给出指导性、预见性的意见。例如:初中阶段,学生逐步进入青春期,其自我意识开始觉醒,身体、心理方面发生巨大的变化。在这个阶段教师往往疲于应付各种突发状况,处理的方式往往依据教师的主观意愿或者经验,有很大的不确定性。大数据技术根据长期对学生该阶段各种行为及各种网络痕迹的积累,可以预测出哪些学生身上可能会出现某些情况,为教师的提前介入提供建议。二.虽然云计算及大数据技术在教育领域的运用有着非常光明的前景,但是客观地讲,目前,我国在云计算及大数据技术在教育领域方面的运用才刚刚开始,各方面还不完善,主要存在以下几个问题:

1、缺乏变革的动力和决断。

学校作为一种典型的教育组织形式,诞生于工业革命时期,为满足工业化大生产迅速扩张造成的技术人才需求猛增,学校作为一种“批量生产”人才的“工厂”应运而生。在过去的400年发展过程中,学校作为教学组织形式、班级作为授课模式基本上没有发生改变,这与人类社会在其他领域的不断进步和变革形成强烈的对比。21世纪人类进入信息时代,对人才的需求发生了重大改变,教育也应该随之发生改变。可惜的是,很多人对于教育的理解还是老师教好书、学生读好书的阶段,没有意识到以云计算、大数据为代表的新技术为教育工作提高效率,实现学生的个性化发展提供了强大的支持。特别是目前学校管理很大程度上还是沿袭自上而下的方式,新技术的引入、应用,教学模式的转变还缺乏动力和决断力。很多人安于现状,不敢大胆尝试,这是阻碍新技术在教育领域中运用的主要问题。

2、云计算、大数据技术的本土化不够。

云计算、大数据技术的概念及发展基本上由Googel、IBM等国际IT业巨头掌握,其在教育领域的运用也多基于国外的教育模式。目前国内用于教学试验的几个平台如Google101等上面的各种应用还有着浓重的欧美风格,没有贴合国内教学环境,在这方面,应该通过政策扶持、教育资金投入等方式,培养一批专业的应用服务提供商,为中国孩子设计和制作各种教学运用及数据分析、挖掘软件。

3、云技术、大数据技术在教育领域的运用,还缺乏规范和法律支撑。

新技术的运用,涉及到学生的个人隐私、个人数据,学校的敏感数据等保护问题,目前国内还缺乏对于个人、企业敏感数据在云技术应用背景下的规范和法律支撑。很多人都担心自己的数据如果交给云端会不会受到侵害,这是阻碍云计算、大数据技术大规模应用的一个重要问题。结束语:

我国要在21世纪的中期实现中华民族的伟大复兴,实现中国梦,离不开大批掌握先进技术、人格完整、精神奋发的人才。作为一名教育工作者,我承担着为祖国培养新世纪合格人才的重任,在多年的教学过程中,深感教育工作也必须从一本书、一支粉笔、一个讲台的传统低效率模式转入利用多媒体移动终端多层次、形象化、立体化、趣味化、多样化教学。云计算与大数据技术在教育领域的应用,给我们带来的不仅仅是丰富的资源,还有思维方式的转变,更是一种跨越式的变革。未来我们必须以更开放的心态对待新技术在教学领域的应用,不断努力尝试开发更多的贴近中国学生实际的云计算教育应用,充分发挥云计算、大数据技术在教育领域的特点和优势,真正实现教育与时代发展的共振,不辱教师使命!

篇2:大数据与云计算在教学运用的可行性探究

景展望

摘要

随着信息技术的飞速发展,越来越多的企业将信息化作为提高核心竞争力的必要手段。在当前的IT领域,云计算与大数据是最热的话题之一,各个行业都对其投入了很大的关注。而民用航空业,作为一个信息系统密集度、复杂度极高的行业,对于云计算与大数据的应用需求是显而易见的。本文通过对大数据和云计算的应用进行分析,将大数据和云计算在民用航空业的应用变革及发展趋势进行简单介绍。

关键词:大数据,云计算,航空管理系统一、引言

互联网的在全球的广泛应用,每天数以万计的图片、报表、文档等非结构化信息的上传下载,各行各业的信息数据都在不断爆炸性增长。企业内部的经营交易信息、物联网世界中的商品物流信息,互联网世界中的人与人交互信息、位置信息等,其数量将远远超越现有企业IT架构和基础设施的承载能力,实时性要求也将大大超越现有的计算能力。如何整合利用这些数据资源,使其为国家治理、企业决策乃至个人生活服务,是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。“大数据”时代这一概念的最早提出者是麦肯锡咨询公司,它们经过了过长期调研指出数据几乎已经渗透到每一个企业和业务职能领域,21世纪绝大部分企业的经营管理都难以脱离大数据,数据将逐渐成为重要的生产因素,而人们对于海量数据的应用将预示着新一波生产率增长和消费者盈余浪潮。而作为信息化引领的中国航空公司,当前面临着国内竞争国际化、国际竞争深度化的市场环境,除了在传统的枢纽建设、网络构建、运价策略、品牌服务上巩固强化、发挥优势,决策者更应该在大数据的网络时代中谋划创新变革,寻求深层次的转型,实现模式突围。

二、大数据与云计算的概念

大数据或称巨量数据、海量数据、大资料,指指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。第三,处理速度快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。第四,只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。业界将其归纳为4个“V”——Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度低)。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些庞大数据进行专业化处理、分析和挖掘。或者说,如果把大数据比作一种资源,那么这种资源能否被人所用的关键,在于提高对数据资源的“数据处理能力”,通过“数据处理”实现数据资源的“增值”。在基于云计算技术的数据处理模式下,大数据对企业是有价值的,企业才能借助大数据提高企业决策力、调查分析力和流程优化能力。

云计算是一种基于互联网的超级计算模式。即把存储于个人电脑、移动电话和其他设备上的大量信息和处理器资源集中在一起,协同工作。云计算服务模式的核心思想是将海量的由网络连接的计算(包括存储)资源统一起来进行管理和调度,构成一个计算资源池向用户提供即时按需服务。云计算是一种基于互联网的资源使用模式,当用户使用计算资源时,首先通过互联网提交自己的计算资源服务申请,互联网把用户的计算资源服务分解成若干个小程序,然后通过链接在互联网上的成千上万台电脑、服务器资源把程序瞬间处理完成并传回。采用这种方法,用户可以申请调用互联网上庞大的服务器、计算机资源为自己服务相当于用户拥有了世界上运算最快的超级计算机。云计算主要有以下特点:一是计算容量大,借助互联网的资源,云计算可以拥有大规模的服务器资源,使用户具有超强的运算处理能力;二是服务方便,通过连接互联网,云计算的用户可以在公司、家里等地方轻松使用,也可使用手机无线网络;三是稳定性高,云计算通过分布式计算方式,把计算任务分布到互联网上广大的计算节点中,使得云计算的稳定性高;四是成本低,云计算的计算原理决定了企业的硬件设施投入少,成本相对低,而且可以根据用户需要提供服务;五是风险性,互联网的开放性使得用户数据信息泄露可能性增大、风险提高,云计算的服务提供商也是云计算风险性的重要因素。

大数据与云计算的关系很密切,两者互为依存关系,大数据离不开云计算,云计算也离不开大数据,就像是汽车发动机与汽油的关系一样。大数据本身就是一个复杂的问题集,云计算技术是目前解决大数据问题集最有效的方法。如图1:大数据与云计算关系图。大数据必须依靠云计算技术来实现对庞大数据资源的挖掘和整理,这样的大数据才是有价值的。云计算提供了基础架构平台,大数据应用在云计算平台上运行。

图1:大数据与云计算关系图

三、大数据与云计算在航空系统中的应用变革

航空业作为信息化极高的产业之一,实际手中把握大量的数据信息。国内航空公司已经拥有了相当的规模、技术和管理水平,如此庞大的数据库、电子商务库、客户支持平台、收益管理系统、常旅客和高端旅客系统、呼叫中心系统、离岗系统、培训系统、SOC控制系统、非常规运营管理系统、维修保养记录和机组人员信息,以及在网络媒体中网页等等。这些庞大的系统由于目前缺乏有效的相互连接,使得储存的大量信息都分散在各自的孤岛上,很难细化运用这些数据,并把他们运用于日常工作和重大决策上。大数据与云计算的相互整合可以使数据得到有效处理,得到对航空运营有效的数据。

(一)大数据与云计算对于顾客细分的变革

美国著名的战略管理学家波特提出企业竞争战略主要分为:成本领先战略、差异化战略、集中化战略。航空业的客户群体范围极广,随着市场竞争的日趋激烈以及消费者需求不确定性的增加,航空公司逐渐认识到差异化战略的在运营中的重要性。早在2011年,IBM公司就发表了《2020年的航空业:替代化与商品化——全球航空业不能忽视的两个发展趋势》的报告,其在报告中提出,替代化与商品化是未来航空业的两大趋势。替代化,即随着其它旅行方式的出现,尤其是高速铁路的扩张,旅客可以选择更廉价、时间损失更少的出行方式代替航空旅行;商品化,即旅客会发现不同航空公司的产品几乎没有差异,或者不愿意为他们已知的微小差异额外支付。在这两种趋势下,航空企业必须使自己的产品和服务保持同竞争者之间的差异性,并将这种差异性传递给旅客,让其感知到并且愿意为差异化的体验买单甚至是支付高价格。为了实现这种差异化,航空企业需要有针对性地细分旅客的特定需求,使产品和服务尽可能针对特定的目标客户,甚至是提供完全定制化的个体服务。在过去,航空企业往往采用数据分析和专家评定结合的方法,对用户进行分群,构建出大致可以区分旅客群体的模型结构。这种方法在过去不失为一种有效的解决办法。但是它不可避免存在一定的缺陷,例如数据样本小,无法反应动态的旅客行为(旅客价值成长及旅客流失)以及无法做到精准定位到个体等。但是在大数据时代,航空企业的旅客细分,会有质的飞跃。首先,航空业电子直销渠道,可以保留用户的访问记录,记录旅客的购买时间、购买频次、购买舱位以及浏览习惯等行为信息;用户的信息数据库,可以收集和存储用户的年龄、爱好、职业甚至是社交圈子等人口统计学信息;如果航空企业还能做到保留用户的态度信息(用户评价、用户抱怨、用户投诉、用户满意度参评等),那基本上可以做到对用户的精准刻画,并且能够在动态的数据中,监控旅客的价值成长并做出流失预警。总之,通过对旅客购买数据、行为数据、态度数据以及人口统计学数据的收集、存储、动态监控和可视化分析,航空企业完全可以做到实现对旅客的特征描述,可以做到细分群体,可以做到个性化定制服务。

(二)大数据与云计算对于数据收集及处理方式的变革

数据分析的基础来自于数据的采集。当前航空公司也利用历史销售数据分析,为机票的销售提供数据支持。目前航空公司采集的数据有容座率,座公里收入,平均票价和航班各舱位销售明细等指标。历史数据可以帮助航空公司来预测市场的淡旺周期,也可以帮助航空公司来制定机票价格。数据分析也可以帮助航空公司对新的政策进行评估,以帮助航空公司做出决策是否继续实行这个政策。而数字时代的兴起,通信数字化工具的不断更新革命,使人们在消费数字内容时通常是智能手机、平板、电脑和电视混在一起用。在大数据网络时代,出现了大量的跨屏消费行为,它包含两个层面的内容:一是为了完成统一目标从一个设备转移到另一个设备;二是在统一时间内使用多个设备进行内容消费。2012年12月底,国际航协委托市场调查和咨询公司Atmosphere公布了一项题为《展望航空分销领域在未来五年的发展》的独立调查,它提出了一些变革旅游分销领域的主要趋势:旅游业是电子商务领域中规模最大的行业,其中机票销售占据主导地位。2012年,美国的商务旅行者和休闲旅行者在线购买航班产品的费用预计将达到875亿美元。购买旅游产品的消费者在预定前的多次调查和搜索产品阶段平均会访问22家网站,但那些仅依赖于第三方网站的旅行者则无法获得能帮助他们制定全面购买决策的所有相关信息。相比普通消费者,航空乘客拥有智能手机和平板电脑的可能性更高,随着这些设备提供越来越多功能,它们的使用率将大大提升。乘客对使用移动设备计划航班行程和预订产品的次数也将大大提升。用户行为更加个性化,用户选择性更强、更多,导致传统航空公司仅限于订座系统收集的数据将不能再满足网络化下的客户信息分类。数据分析将不再仅限于之前的宏观分析,具体旅客的消费信息的采集将成为航空数据采集的重点方向。面对更复杂的网络化、跨屏化的客户预定方式,航空公司要收集以及处理的数据较以前在成指数化的增长趋势,然而巨大的信息量带来的样本容量的巨大提升也意味着客户需求预测的准确性将大大提升。应用云计算和大数据快速的处理方式,找到客户的需求与航空服务之间的关系,将是未来航空信息系统所要进行的重要工作。

四、大数据与云计算在航空系统中的前景展望

随着大数据时代的到来, 数据的价值被越来越多的企业所意识到, 越来越多的企业在数据的收集和整理上投入了更多的资源。可以说, 拥有数据, 就如同拥有了一座金山。现在的关键问题是, 怎么能够把金山里的数据挖掘出来。大数据技术的特点在于:

1、差异化。大数据能迅速处理大量机构性非结构性数据,将大量数据拟合成数据库进行关联性分析,根据细分后的客户推出更有针对性的、差异化的服务,以大大提高竞争力。

2、提高预测精准度。大数据不再是传统意义上的部分数据,大量的数据覆盖使很小部分的错误在样本中成为可以忽略的部分,大大提高了预测的精准度。

3、推进决策模式的改革。过去对于客户与需求之间的关系,通常会进行因果分析,再得到客户与需求之间的匹配。而现实中很多两种我们认为不可能有因果关系的因素往往有着相关性,大数据将直接跳过原因分析,直接得到我们最终需求的关联性,简化了决策过程。

4、发现机遇。比较以往的海量数据,分析动态数据,发现所错过的机遇,更好地把握当前的发展和竞争机会。

航空公司的经营, 和一般的企业经营活动一样, 核心目标大概有三类一是提高收益水平,二是降低成本支出,三是提高客户的满意度。所以,对于大数据挖掘的目标, 也是集中在这三个方向上。航空收益管理系统作为航空定价优化信息系统的核心系统,对于大数据的需求可以说是显而易见的,无论是预测系统、超售管理系统、座位优化系统、团队管理子系统、还是报告分析子系统都需要大量的数据支持,将大数据与云计算为收益管理系统进行辅助运作,将收益管理系统的作用得到更高的提升,也是将来的一个必然趋势。SOC控制系统,作为安全管理的重要系统,在天气情报采集、预测,以及调度信息等也将依赖大数据和云计算提供的信息作出更精准的预测,以保证公司的平稳运行。

可以说在航空管理信息系统中,每一个系统都需要巨大的数据量来支持,每一个系统在基于大数据和云计算的数据处理之后性能都会得到一定方面的提升。未来的航空管理系统会在现在的数据处理系统上,建立大数据与云计算平台,整合建立大型数据库处理大量数据信息,以提高运营效率,提升顾客满意度,提供更精准安全的服务,从而提高公司的盈利水平。

[参考文献]

[1] 方水良,付伟.基于云计算的云制造及其初步开发应用[J]. 中国机械工程,2013,24(10): 1345 - 1348.

[2] 马建光,姜巍.大数据的概念、特点及其应用[J]. 国防科技,2013,34(2): 10 - 16.

[3] 郭锐.基于大数据和云计算的企业财务管理研究[J]. 企业研究,2014,18 : 109 - 110.

[4] 兰翔.掘金“大数据” 航企的机遇与挑战[J]. 航空运输,2013,157 : 28 - 30.

[5] 王疆民.让“大数据”技术助力国内航企开拓市场[J]. 航空公司,2013,337 : 34 -35.

篇3:大数据与云计算在教学运用的可行性探究

1大数据在医疗行业中的应用

大数据在医疗行业中的应用, 对临床数据进行有效对比, 有助于药物研发工作开展, 使临床决策更加科学。还可以对患者的情况进行实时统计监测, 保证药物临床效果。另外, 患者的病情会在大数据的分析下找到合适的治疗方式。大数据是一种全新的应用于医疗行业中的服务模式, 对大数据在医疗行业中的应用情况进行分析, 能够更好地推动医疗行业发展。

1.1临床应用大数据

患者在临床过程中要接受详细观察, 这样能够保证其病情得到控制。临床观察是患者接受治疗的重要过程。在疗效研究过程中, 电子病历应用较为成熟, 结构化数据对于病情的反映作用明显, 通过电子病历提供的大数据进行医疗数据分析, 能够制定出更多的干预性措施, 能够降低治疗过程中的药物疗效不足、技术较差等情况出现几率。 临床大数据将会系统分析药物的使用情况。通过对药物进行分析, 明确患者存在的禁忌以及与药物发生的反应, 进而提示患者, 避免药物使用之后发生危险, 这样也能够减少医疗事故发生。通过对病历以及影像数据的分析, 能够主动诊断医疗事故, 并且更换治疗路径, 为患者治疗提供参考。经过大数据的分析能够使医疗资源得到合理分配, 并且能够向患者展示治疗费用以及绩效之间的关系。大数据将会实现医疗行业的改革发展, 简化医疗流程, 降低成本投入, 能够使患者获取到最为优质的治疗体验。大数据能够实现对患者治疗的远程监控, 慢性疾病在短时间内不能够进行有效治疗, 需要长时间进行观察, 这时大数据将会对患者的日常情况通过系统传输回健康管理中心, 作为参考数据。大数据能够更好地对医疗服务进行评价。大数据将会对信息进行技术分析, 筛选出能够提升医疗保障的技术, 并且对错误进行申报, 系统分析适合患者的治疗方法, 保证对患者的病情进行实时监测。

1.2药物的应用

对于药物作用的分析主要体现在经济与疗效上, 这是患者选择药物的重要标准, 能够降低治疗风险, 使治疗效果不断提升。在药物选择上要控制医疗成本使药物支出合理化。 对于患者来说, 取得良好的治疗效果并且能够控制药物投入成本特别重要。对药物的基本疗效进行研究, 在控制成本的同时强化治疗效果。通过大数据的统计分析, 将会改善临床过程中实验设计效果, 使临床数据应用作用更加明显。大数据分析将会使仿真运算效果突出, 选择合适的药物进行预期调查, 对于配置患者适应的药物剂量具有重要作用, 能够在根本上提升临床治愈效果。药物的不良反应需要通过大数据进行检测分析, 这样能够进一步确认不同的病情在不同药物作用下的差异性表现。不良的药物反应能够增加患者的死亡风险, 因此, 要科学检测药物不良反应。

1.3个性化治疗

在患者治疗的过程中会使用价格较高的药物, 昂贵的药物会对患者造成经济压力, 但是如果没有及时进行药物治疗将会导致相应并发症出现。经过大数据的分析能够更好地对患者使用的药物进行筛选, 这样就能够节省更多经济投入, 避免医疗资源浪费, 同时也能够遏制不良状况发生, 这是个性化治疗与传统治疗的明显区别。大数据将会对不同的药物以及医疗公司进行分析, 使患者能够得到更加专业的资源匹配, 这也是未来疾病的治疗趋势。

2云计算在医疗行业中的应用

2.1动态扩展

云计算能够自由进行动态扩展。医疗卫生业务量相对较高, 并且系统负荷相对较大, 随着业务的不断开展在整体数量上发生了改变。医疗卫生机构受到计算机技术的影响, 在信息系统的建设中能够对信息资源进行有效评估。在机房的构建、等级以及数量上都有着明确规定。服务器的配置性能以及数据存储情况都会随着系统的要求改变产生变化。针对这种情况, 云计算能够为医疗行业的动态扩展提供参考数据, 并且对于医疗事业的峰值进行深入计算, 能够在一定程度上解决资源的使用限制问题。云计算通过资源服务的形式推动网络技术的应用, 并且获取相对应的利益。按照合适的投入增加客户业务需求, 实现动态扩展。

2.2分布共享

云计算能够实现医疗信息数据的分布式共享。在医疗机构信息系统中计算机技术发挥着重要作用, 能够实现不同地区信息资源的快速传递, 并且能够在特殊环境中避免对于周边自然资源的破坏。传统数据中心不利于医疗主体任务的开展, 并且投入成本相对较高, 利用云计算能够更好地控制成本投入。

2.3系统的医疗卫生信息

传统医疗卫生信息系统需要不同的机构维护, 这样就不能够保证医疗卫生信息系统整体运行效果, 分散式医疗卫生信息不能够实现资源共享以及为医生提供专业指导。云计算能够根据不同的医疗机构特点对卫生信息进行系统整合, 形成统一的医疗卫生信息, 在整合服务标准上将会发挥卫生信息的作用, 更好地指导救治工作的开展。

2.4记录服务

云计算将会构建医疗服务平台, 创新服务模式, 对医疗资源进行集中式管理, 丰富健康档案, 能够将专家看诊记录进行整理。云计算能够在众多信息数据中进行挖掘分析, 使每一个病程更加清晰, 构建科学的就诊流程, 规范服务效果, 使每一名患者都能接受优质治疗。云计算对每一名患者的病情都能够进行详细记录, 构建健康档案。在日常生活中, 患者能够随时查阅健康档案, 并且在紧急状况下健康档案可以为医生提供救治参考。

2.5合理利用医疗资源

各地区经济发展并不均衡, 小地区医疗资源相对不足, 无法满足人们的就医需求。利用云计算对医疗行业分布状况进行整体分析, 形成的医疗服务网络将会实现信息资源共享, 使各地区医疗资源能够得到合理分配, 通过应用渠道将医疗资源快速传递到各个地区中。云计算将会构成完善的信息服务体系, 实现资源合理分配。

3结语

云计算与大数据作为一种全新的模式对于医疗行业的发展具有重要作用, 并且能够带来更多经济效益。发展医疗行业大数据与云计算要构建以服务为目的的区域化交流平台, 积极发挥数据资源的作用。随着网络信息技术的不断发展, 云计算和大数据下的医疗技术实现了动态化远程控制, 对于大数据与云计算的应用情况也在进一步深化。

摘要:大数据与云计算被广泛应用到医疗行业中, 对于医疗行业的发展具有重要推动作用。医疗行业的复杂性特点在大数据和云计算的影响下得以弱化。笔者对大数据与云计算在医疗行业中的应用情况进行相应分析。

关键词:大数据,云计算,医疗行业

参考文献

[1]胡悦.大数据与云计算在医疗行业的应用[J].计算机光盘软件与应用, 2014.

[2]林枫.云计算技术在医疗大数据挖掘平台设计中的应用[J].电脑知识与技术, 2015.

[3]陈华林.云计算在医疗行业的应用[J].科协论坛 (下半月) , 2011.

篇4:高校邦大数据与云计算测试答案

返回 大数据与云计算„ >测验 >结课测验 >结课测验 结课测验(共40道题,满分100.00分)测验截止时间 2016-12-12 23:59 有效提交次数1次,已提交0次。1 多选 云计算的三个层次可以分为: A.IaaS.B.PaaS.C.AWS D.SaaS.2 多选 关于2011年新发布的Cloud Foundry平台下列描述正确的有: A.使用开放源代码 √ B.只支持java C.由VMware公司研发.√ D.支持多语言 多框架.√3 多选 Cloud Foundry公有云服务平台的注册需要用到: A.身份证号码 B.QQ C.邮箱

√ D.手机号码 √ 4 单选 在安装完Cloud Foundry客户端工具以后,在客户端使用以下哪个命令,就可以登录到Cloud Foundry云平台? A.cf login √ B.cf push 5 单选 默认的Cloud Foundry在发布应用的时候,会启动()个应用的实例来提供服务。A.2 B.3 C.4 D.1 √ 6 多选 Cloud Foundry可以通过以下哪些工具来进行日志管理? A.cf logs √ B.cf events √ C.cf log D.cf event 7 单选 在Cloud Foundry里面对应用进行监控使用的是()云服务。A.New Relic √ B.Redis Cloud C.CloudAMQP D.MongoLab 8 多选 Cloud Foundry的可扩展性主要体现在: A.组件的可扩展性

B.底层laaS资源的扩展性

√ C.应用的扩展性

√ 9 多选 Cloud Foundry的设计原则有: A.可扩展性

√ B.异步性

√ C.自愈能力

√ D.安全性

√单选 Cloud Foundry的()负责所有用户的登录和内部模块的调用。A.路由器

B.Cloud Controller C.UAA √

D.Health Manager 11 多选 大数据的用处有: A.市场分析

√ B.产品推荐

√ C.需求预测

√ D.诈骗检测

√ 12 多选 Hadoop的核心由以下哪两部分组成? A.文件系统应用包 B.工作调度 C.HDFS √

D.MapReduce √ 13 单选()是一个实时收集、分析、展示、监控数据的分布式数据库,它基于HBase存储和查询监控数据。A.OpenTSDB √ B.Kiji C.KijiMR D.KijiExpress 14 多选 下来关于Serengeti的描述正确的有: A.一个开源项目

B.基于vSphere自动化部署和管理Hadoop集群的工具

C.支持所有主流的Hadoop版本,还有HBdse,Hive等生态工具

√ D.一个封闭项目 15 多选 想要实现虚拟化HaDoop部署的最优化实践,在选择服务器时建议: A.CPU不要少于2个Quad-core并且激活HT √

B.为每个计算内核配置至少4G内存,并且预留6%的内存给虚拟化的有效使用

√ C.每台服务器配置多块本地存储而不配置少量大存储的硬盘

√ D.推荐使用10G网卡

√ 16 单选 想要实现虚拟化HaDoop部署的最优化实践,在选择服务器时不建议每个计算内核配置超过()块本次存储。A.1 B.2 √ C.3 D.4 17 单选 在大部分应用中,OpenStack都被定义在云计算的哪个层面? A.IaaS √ B.PaaS C.AWS D.SaaS 18 单选 OpenStack的网络资源由以下哪部分提供? A.Nova B.Glance C.Neutron √ D.Cinder 19 单选 Horizon的普通用户可以查看云内所有资源。A.正确 B.错误

√ 20 多选 nova network支持以下哪几种网络? A.FLAT

√ B.FlatDHCP √ C.VLAN √ D.WLAN 21 多选 OpenStack内部会产生一些对象来处理消息发送和接受,主要有以下哪几类? A.生产者

√ B.消费者

√ C.中间站 D.交换设备

√ 22 多选 Swift采用层次数据模型,共有三层逻辑架构分别为: A.环

B.账户

√ C.容器

√ D.对象

√ 23 多选 Glance中的镜像状态主要有: A.Queued √ B.Saving √ C.Active √ D.Killed √ 24 多选 KeyStone的功能可以分为: A.身份验证

B.目录服务

√ C.策略管理

√ D.数据存储 25 单选 KeyStone确认完用户身份之后,会给用户提供一个证实该身份并且可以用于后续资源请求的令牌,该令牌的的有效时间默认为: A.一天

√ B.一周 C.一个月 D.一年 26 多选 KeyStone的提供两种Token,分别为: A.UIUD B.KPI C.UUID √ D.PKI

√ 27 单选 在VIO中每个OpenStack API服务会对外暴露()个服务地址。A.4 B.3 C.2 √ D.1 28 单选 VIO安装部署之前需要用户准备好()个内网IP地址以及2个外网的IP地址。A.12 B.13 C.14 D.15 √ 29 多选 下列关于VSAN带来的好处,描述正确的有: A.操作简单方便 √

B.对正在运行的业务无影响 √ C.无数据损坏的风险 √ D.降低人工成本 √ 30 多选 CAP理论中“可用性”的两个主要指标,分别为: A.响应时间 √

B.可访问级别 √ C.季度可访问级别 D.月可访问级别 31 单选 VSAN强制规定一个磁盘组最多只能包含()块固态硬盘。A.2 B.3 C.4 D.1 √ 32 单选 VSAN建议闪存容量对磁盘容量的总数的比率,至少要达到: A.0.06 B.0.08 C.0.1 √ D.0.12 33 多选 下列属于VSAN存储策略的有: A.允许故障数 √

B.每个对象的磁盘带数 √ C.闪存读取缓存预留 √ D.强制置备 √ 34 单选 如果允许故障数为1,VSAN至少需要()主机。A.1 B.2 C.3 √ D.4 35 单选 VSAN的数据存储是一种()。A.文件存储系统 B.阵列存储

C.对象存储系统 √ D.磁带库存储 36 单选 通过使用(),VSAN具备 提供高可用性和性能最佳虚拟机的能力。A.对象存储系统 B.分布式Raid √ C.VMFS D.组件 37 多选 对象存储的优势有哪些? A.基于虚拟机更灵活的管理 √ B.更高的可用性

√ C.更好的纵向扩展 D.更好的横向扩展 √ 38 单选 VSAN采用()周期性地将缓存中的数据,按照地址顺序冲刷进磁盘中。A.加密算法 B.并行算法 C.临近点算法 D.电梯算法 √ 39 单选 发生主机故障时,VSAN等待主机加入VSAN的集群的时间默认为: A.30分钟 B.40分钟 C.50分钟 D.60分钟 √ 40 单选 发生网络故障时,VSAN会用()来判断那一边的分区具有简单多数的组件,并且基于结果决定哪边的分区获胜。A.对象存储系统 B.VMFS C.见证 √ D.组件 提交

篇5:大数据与云计算在教学运用的可行性探究

简单来说,为何淘宝的“猜你喜欢”总能轻而易举地知道你的近期所需,从而精确推送?为何当当网总能猜到你所感兴趣的书籍?为何你的邮箱里总有一些跟你的生活息息相关的广告邮件?当我们在享受大数据与云计算带来的便捷生活方式的同时,却常常没有意识到这就是大数据与云计算,直到手中的移动硬盘由500G增加至1T,再由1T增加至4T,才恍然大悟:原来大数据与云计算浪潮来势如此凶猛。

我们已经生活在被大数据与云计算笼罩的世界中,比如通过分析大数据,预判犯罪行为的发生、寻找灾难中的生还者,微软研究院正利用来自哈勃等全球太空望远镜搜集来的数据和图像建立一幅宇宙地图。“大数据”绝对是时下最火热的IT行业词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等技术,正在为大数据与云计算在职研究生带来大量的商业价值,逐渐成为行业人士争相追捧的利润焦点。

而与之相关的职业需求也呈爆发式增长,大数据职业的相关人才匮乏,人才缺口非常大。盖特纳咨询公司预测大数据与云计算专业将为全球带来440万个IT新岗位和上千万个非IT岗位。

篇6:大数据与云计算

关键词:大数据,云计算,数据挖掘

一、大数据的价值

根据维基百科的定义, 大数据 (Big Data) 是用于数据集的一个术语, 是指大小超出了常用的软件工具在运行时间内可以承受的收集, 管理和处理数据能力的数据集。换句话说, 在单一数据集里, 数据规模超出目前常用软件工具在合理的可容忍时间里可以访问、管理、处理能力的数据集就是大数据。由于软件的能力是与时俱进的, 因而大数据规模的定量界限就是随着技术进步而不断增大。大数据的规模大小是一个不断演化的指标, 目前范围是指在一个单一的数据集从数十TB到十几PB级的数据规模。大数据逐渐有替代此前类似的海量数据 (Massive Data) 、大规模数据 (Large Scale Data) 、庞大数据 (Enormous Data) 、巨量数据 (Huge data) 等概念的趋势。实际上, 不能简单地以数据规模来界定大数据, 而要考虑满足用户需求的数据处理与分析的复杂程度。针对简单的用户需求 (如关键字搜索) , 数据量为TB至PB级时可称为大数据;而针对复杂的用户需求 (如数据挖掘) , 数据量为GB至TB级时即可称为大数据。存在数据量很大, 计算任务简单的“小数据”;也存在数据量不大, 但数据和计算复杂性高的“大数据”。

大数据的特征可以用所谓的3个“V”表示:体量 (Volume) 、多样性 (Variety) 与速度 (Velocity) 。体量 (Volume) 是指聚合在一起供分析的数据量必须是非常庞大的。无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据, 数以亿计用户的互联网服务时时刻刻在产生巨量的交互。Web日志、RFID、传感网、社会网、社会数据、互联网文本文档、互联网搜索索引、呼叫记录、天文记录、大气科学、基因学、生物化学、生物学、其他复杂的交叉学科的科学研究、军事监控、医学记录、照片摄像档案、视频档案、大规模的电子商务都是大数据的来源。在美国拥有1000名员工的公司有至少200TB的存储数据。例如沃尔玛每小时处理超过一百万客户交易, 这些交易数据放到数据库估计超过2.5PB, 这等价于美国国会图书馆所有书包含信息的167倍。多样性 (Variety) 是指数据类型的复杂性。如企业内部的信息主要包括联机交易数据和联机分析数据, 这些数据一般都是结构化的静态、历史数据, 可以通过关系型数据进行管理和访问, 数据仓库是处理这些数据的常用方法。而来自于互联网上的数据, 如用户创造的数据、社交网络中人与人交互的数据、物联网中的物理感知数据等, 都是非结构化且动态变化, 这些非结构化的数据占到整个数据的80%以上。在金融服务、政府管理、零售业会产生文本和数字数据, 而制造业、医疗保健、新闻传媒等多产生多媒体数据。而速度 (Velocity) 则是指数据处理的速度必须满足实时性要求。像离线数据挖掘对处理时间的要求并不高, 因此这类应用往往运行1、2天获得结果依然是可行的。但对于大数据的某些应用而言, 必须要在1秒钟内形成答案, 否则这些结果可能就因过时无效而失去其商业价值, 例如实时路况导航、全球股价波动。

这些特点也反映了大数据所潜藏的价值 (Value) , 或许可以认为, 这四个V就是大数据的基本特征。

大数据无疑将给人类社会带来巨大的价值。科研机构可以通过大数据业务协助进行研究探索, 如环境、资源、能源、气象、航天、生命等领域的探索。产业方面, 大数据是现有产业升级与新产业诞生的重要推动力量。数据为王的大数据时代的到来, 产业界需求与关注点发生了重大转变:企业关注的重点转向数据, 计算机行业正在转变为真正的信息行业, 从追求计算速度转变为关注大数据处理能力, 软件也将从编程为主转变为以数据为中心。

大数据正在影响企业商业模式的转变, 对数据进行分析、优化正成为提升核心竞争力的有效方式。制药企业可借助大数据进行更多药品实验和分析。对于销售和服务可以提供消费者偏好与需求模式等方面的信息, 帮助企业提高计划、决策和预测的准确性。

当然大数据相关的产业链也必然带来巨大影响。首先, 信息数据产生将会是第一个环节。其次, 信息数据的大量产生需要存储。再次, 信息数据需要采集整理。最后, 信息数据的分析产出。这个环节是整个“大数据”产业链的最末端, 也可能是最具技术含量和产业附加值的子行业。任何数据不经过分析这一环节, 都无法落实到实际应用。在同样的数据面前, 谁分析出的结果最快最有效, 将决定谁才是真正的“大数据”产业领跑者。

二、大数据带来的挑战

1. 描述与存储的挑战

云计算环境下对大数据管理技术提出了新的挑战, 主要反映在传统的关系数据库不能满足大数据处理的需求, 如海量用户的高并发读写、海量数据的高效存储与访问、系统的高可用性与高扩展性等。随着数据规模的增大, 原来高效的算法会变得低效, 关系数据库事务处理要求的ACID特性, 即原子性 (Atomicity) 、一致性 (Consistency) 、隔离性 (Isolation) 、持久性 (Durability) 的开销巨大。目前的No SQL运动正在通过放弃关系型数据库强大的SQL查询语言、事务的一致性以及范式的约束, 或者采用键—值数据格式存储, 以获得高效灵活的大数据处理能力。在业界, 全球著名的Google、EMC、惠普、IBM、微软等互联网公司都已经意识到大数据存储的重要意义, 研发了一批包含分布式数据缓存、分布式文件系统 (GFS、HDFS) 、非关系型No SQL数据库 (Amazon的Dynamo、Apache Cassandra、HBase) 和新关系型New SQL数据库等新技术。Gupta等人提出分析大数据过程中面临的挑战, 包括静态数据与动态数据。对于静态的大数据, Gupta等人描述了面向交互数据服务环境的No SQL系统以及基于Map Reduce编程模式的面向大规模数据分析的系统。

2. 分析与理解的挑战

大数据具有复杂性是不言而喻的, 这种复杂性不仅体现在数据类型的多样性以及数据来源的广泛性上, 更重要的是体现在分布的不确定性上。大数据集往往来源于对多源异构数据的融合和集成, 具有超高维、稀疏、多模态等内在分布特征。这些内部特征导致现有机器学习算法的性能和效率降低, 导致对大数据的理解如同盲人摸象。

3. 挖掘与预测的挑战

大数据中所蕴含的价值需要挖掘。大数据挖掘增加样本容易, 降低算法复杂度难。很多传统的数据挖掘算法不一定能够适用于大数据环境, 目前常用的数据挖掘的算法并不都能够被并行化, 也就是说并非所有的算法都具有高度的并行性, 并行不能降低算法复杂度, 因此需要研究和开发新的适应大数据环境的算法。

三、大数据研究成果

1. 大数据处理技术

由于海量数据的大数据量和分布性的特点, 使得传统的数据处理技术不适合于处理海量数据。这对海量数据的分布式并行处理技术提出了新的挑战, 开始出现以Map Reduce为代表的一系列工作。

(1) 数据并行处理

Map Reduce是2004年谷歌提出的一个用来并行处理大数据集的并行处理模型。而Hadoop是Map Reduce的开源实现, 是企业界及学术界共同关注的大数据处理技术。Map Reduce并行编程模型具有强大的处理大规模数据的能力, 因而是大数据处理的理想编程平台。Map-Reduce通过动态负载均衡及资源调配机制, 可以根据需求的变化, 对计算资源自动进行分配和管理, 实现“弹性”的缩放和优化使用, 对复杂问题采用分而治之的策略, 把问题拆分后进行并行的运算, 再将结果进行整合, 从而得到最终的结果, 表现出良好的扩展性、容错性和大规模并行处理的优势, 在大数据管理和分析等方面得到广泛应用。

针对并行编程模型易用性, 出现了多种大数据处理高级查询语言, 如Face Book的Hive、Yahoo的Pig、Google的Sawzall等。这些高层查询语言通过解析器将查询语句解析为一系列的Map Reduce作业在分布式文件系统上执行。与基本的Map Reduce系统相比, 高层查询语言更适合用户方便地进行大规模数据的并行处理。Map Reduce及高级查询语言在应用中也暴露了在实时性和效率方面的不足, 因此有很多研究针对它们进行优化提高效率。

Map Reduce作为典型的离线计算框架, 无法适应于很多在线实时计算需求。目前在线计算主要基于两种模式研究大数据处理问题, 一种基于关系型数据库研究提高其扩展性, 增加查询通量来满足大规模数据处理需求;另一种基于新兴的No SQL数据库, 通过提高其查询能力丰富查询功能来满足现有大数据处理需求的应用。使用关系型数据库为底层存储引擎, 上层对主键空间进行切片划分, 数据库全局采用统一的哈希方式将请求分发到不同的存储节点以达到可以水平扩展要求, 这种方案一般不能对上层提供原存储引擎的全部查询能力。Oracle No SQL DB、My SQL Cluster、My FOX即是典型系统, 通过扩展No SQL数据库的查询能力的方法来满足大规模数据处理需求的最典型的例子就是Google的Big Table及其一系列扩展系统。

如何处理海量分布式的复杂数据也是目前的研究热点。Google Map Reduce的设计初衷是分析Web Graph, 但处理图数据常常需要大量的迭代运算, 而Map Reduce不是很适合处理这类复杂数据, 已有的并行图算法库Parallel BGL或者CGMgraph又没有提供容错功能。于是Google开发了Pregel, 一个可以在分布式通用服务器上处理PB级别图数据的大型同步处理应用, 与之对应的开源项目Giraph也得到学术界的关注。

(2) 增量处理技术

如何采用增量处理技术来设计高效的增量算法来解决分布式大数据的动态更新问题也是目前的研究热点。Google已经采用增量索引过滤器 (Percolator for incremental indexing) , 而不是Map Reduce来对频繁变化的数据集进行分析, 使得的搜索结果返回速度越来越接近实时。通过只处理新增的、改动过的或删除的文档和使用二级指数来高效率建目录, 返回查询结果。Percolator将文档处理延迟缩短了100倍, 其索引Web新内容的速度比用Map Reduce快很多。

(3) 流式计算技术

目前流式计算是一个业界研究的热点, 最近Twitter、Linked In等公司相继开源了流式计算系统Storm、Kafka等, 加上Yahoo!之前开源的S4, 流式计算研究在互联网领域持续升温。百度已经引入了流计算系统DStream, 能提供灵活的、可伸缩的效率解决方案, 又能在数据完整性、高可用、可扩展性及收缩性方面支撑上层业务。

2. 大数据挖掘

数据的价值只有通过数据挖掘才能从低价值密度的数据中发现其潜在价值, 而大数据挖掘技术的实现离不开云计算技术。在业界, 全球著名的Google、EMC、惠普、IBM、微软等互联网公司都已经意识到大数据挖掘的重要意义。上述IT巨头们纷纷通过收购大数据分析公司, 进行技术整合, 希望从大数据中挖掘更多的商业价值。

数据挖掘通常需要遍历训练数据获得相关的统计信息, 用于求解或优化模型参数, 在大规模数据上进行频繁的数据访问需要耗费大量运算时间。数据挖掘领域长期受益于并行算法和架构的使用, 使得性能逐渐提升。过去15年来, 效果尤其显著。试图将这些进步结合起来, 并且提炼。GPU平台从并行上得到的性能提升十分显著。这些GPU平台由于采用并行架构, 使用并行编程方法, 使得计算能力呈几何级数增长。即便是图形处理、游戏编程是公认的复杂, 它们也从并行化受益颇多。研究显示数据挖掘、图遍历、有限状态机是并行化未来的热门方向。

Map Reduce框架已经被证明是提升GPU运行数据挖掘算法性能的重要工具。D.Luo等提出一种非平凡的策略用来并行一系列数据挖掘与数据挖掘问题, 包括一类分类SVM和两类分类SVM, 非负最小二乘问题, 及L1正则化回归 (lasso) 问题。由此得到的乘法算法, 可以被直截了当地在如Map Reduce和CUDA的并行计算环境中实现[1]。K.Shim在Map Reduce框架下, 讨论如何设计高效的Map Reduce算法, 对当前一些基于Map Reduce的数据挖掘和数据挖掘算法进行归纳总结, 以便进行大数据的分析[2]。Junbo Zhang等提出一种新的大数据挖掘技术, 即利用Map Redue实现并行的基于粗糙集的知识获取算法, 还提出了下一步的研究方向, 即集中于用基于并行技术的粗糙集算法处理非结构化数据[3]。F.Gao提出了一种新的近似算法使基于核的数据挖掘算法可以有效的处理大规模数据集。当前的基于核的数据挖掘算法由于需要计算核矩阵面临着可伸缩性问题, 计算核矩阵需要O (N2) 的时间和空间复杂度来计算和存储。该算法计算核矩阵时大幅度降低计算和内存开销, 而且并没有明显影响结果的精确度。此外, 通过折中结果的一些精度可以控制近似水平。它独立于随后使用的数据挖掘算法并且可以被它们使用。为了阐明近似算法的效果, 在其上开发了一个变种的谱聚类算法, 此外设计了一个所提出算法的基于Map Reduce的实现。在合成和真实数据集上的实验结果显示, 所提出的算法可以获得显著的时间和空间节省[4]。

Christian Kaiser等还利用Map Reduce框架分布式实现了训练一系列核函数学习机, 该方法适用于基于核的分类和回归。Christian Kaiser还介绍了一种扩展版的区域到点建模方法, 来适应来自空间区域的大量数据[5]。

Yael Ben-Haim研究了三种Map Reduce实现架构下并行决策树分类算法的设计, 并在Phoenix共享内存架构上对SPRINT算法进行了具体的并行实现[6]。

F.Yan[7]考虑了潜在狄利克雷分配 (LDA) 的两种推理方法——塌缩吉布斯采样 (collapsed Gibbs sampling, CGS) 和塌缩变分贝叶斯推理 (collapsed variational Bayesian, CVB) 在GPU上的并行化问题。为解决GPU上的有限内存限制问题, F.Yan提出一种能有效降低内存开销的新颖数据划分方案。这种划分方案也能平衡多重处理器的计算开销, 并能容易地避免内存访问冲突。他们使用数据流来处理超大的数据集。大量实验表明F.Yan的并行推理方法得到的LDA模型一贯地具有与串行推理方法相同的预测能力;但在一个有30个多核处理器的GPU上, CGS方法得到了26倍的加速, CVB方法得到了196倍的加速。他们提出的划分方案和数据流方式使他们的方法在有更多多重处理器时可伸缩, 而且可被作为通用技术来并行其它数据挖掘模型。Bao-Liang Lu提出了一种并行的支持向量机, 称为最小最大模块化网络 (M3) , 它是基“分而治之”的思想解决大规模问题的有效的学习算法[8]。针对异构云中进行大数据分析服务的并行化问题, G.Jung提出了最大覆盖装箱算法来决定系统中多少节点、哪些节点应该应用于大数据分析的并行执行。这种方法可以使大数据进行分配使得各个计算节点可以同步的结束计算, 并且使数据块的传输可以和上一个块的计算进行重叠来节省时间。实验表明, 这种方法比其他的方法可以提高大约60%的性能[9]。在分布式系统方面, Cheng等人[10]提出一个面向大规模可伸缩数据分析的可伸缩的分布式系统——GLADE。GLADE通过用户自定义聚合 (UDA) 接口并且在输入数据上有效地运行来进行数据分析。文章从两个方面来论证了系统的有效性。第一, 文章展示了如何使用一系列分析功能来完成数据处理。第二, 文章将GLADE与两种不同类型的系统进行比较:一个用UDA进行改良的关系型数据库 (Postgre SQL) 和Map Reduce (Hadoop) 。然后从运行结果、伸缩性以及运行时间上对不同类型的系统进行了比较。

3. 大数据实践

随着云计算概念的不断普及与推广, 云计算核心技术的不断突破, 云计算应用的不断深入, 云计算得到了国内外工业界、学术界乃至政府部门的热烈响应。国内高校与科研院所针对云计算的不同领域开展了深入的研究。例如, 清华大学的云存储平台着力于构建存储云, 中科院计算所利用云计算开展数据挖掘工作, 上海交通大学注重于数据的安全和隐私关键性技术研究。

清华大学在云存储研究方面, 以分布式文件系统为基础的云存储平台, 为校园网用户设计开发了用于数据存储与共享的云存储服务, 利用底层云存储平台所提供的基础存储服务, 提供用户管理与目录管理功能, 增加了文件检索功能, 并对数据传输进行了优化, 为用户提供简单实用的云存储访问接口。

中国科学院计算技术研究所在Hadoop基础上开发实现了并行数据挖掘工具平台。其数据处理规模远远超出商用软件, 在商用软件能承受的相同数据规模下, 采用相同方法和相同参数设置, 获得了一致的挖掘结果, 实现了高性能、低成本的海量数据挖掘。

上海交通大学针对云计算中存在的数据安全问题, 利用密码理论与技术, 网络与信息安全技术, 编码理论等方向所取得的成果, 解决数据安全存在的一些基础问题, 提高云计算的安全性。

另外, 在云计算大潮中, 许多本土IT厂商或是自主创新, 或是强强联合, 在不同的行业和领域开展了丰富多样的创新商业实践。

2008年底, 中国移动建设了256台服务器, 1000个CPU, 256TB存储组成的“大云”试验平台, 在该平台支持下, 中国科学院计算技术研究所开发了基于Hadoop的并行分布式数据挖掘平台PDMiner, 这是一个集成各种并行算法的数据挖掘工具平台, 包括数据预处理 (ETL) 、数据挖掘算法、结果展示等功能。开发的并行ETL算法达到了线性加速比;可实现TB级海量数据的预处理及之后的并行挖掘分析处理, 且挖掘算法随节点数线性增加, 加速比随之增加。其中的并行计算模式不仅包括算法之间的并行, 而且包括算法内部的并行。该系统具有运行稳定, 容错能力强, 扩展性好等特点。目前已用于中国移动通信企业TB级实际数据的挖掘。图1展示了PDMiner的系统架构图。

安徽科大讯飞公司针对当前移动互联网时代智能语音技术的人机交互需求, 立足智能语音交互和云计算的结合, 实现了面向移动互联网最终用户及开发者的科大讯飞智能语音云平台, 使得手机等各种移动终端均可以通过自然的语音交互方式获取移动互联网上的各种信息和服务, 提升用户获取信息的效率, 以获得更好的用户体验。

四、总结

大数据的超大容量自然需要容量大, 速度快, 安全的存储, 满足这种要求的存储离不开云计算。高速产生的大数据只有通过云计算的方式才能在可等待的时间内对其进行处理。同时, 云计算是提高对大数据的分析与理解能力的一个可行方案。大数据的价值也只有通过数据挖掘才能从低价值密度的数据中发现其潜在价值, 而大数据挖掘技术的实现离不开云计算技术。总之, 云计算是大数据处理的核心支撑技术, 是大数据挖掘的主流方式。没有互联网, 就没有虚拟化技术为核心的云计算技术, 没有云计算就没有大数据处理的支撑技术。

参考文献

[1]D.Luo, C.Ding and H.Huang.Parallelization with Multiplicative Algorithms for Big Data Mining.IEEE 12th International Conference on Data Mining, 2012.

[2]K.Shim.MapReduce algorithms for big data analysis, and storage of big data, In Proceedings of the VLDB Endowment, Istanbul, Turkey, pages 2016-2017.2012.

[3]Junbo Zhang, Tianrui Li andYi Pan, Parallel Rough Set Based Knowledge AcquisitionUsingMapReduce from Big Data, BigMine'12, pages:20-27, 2012.

[4]F.Gao, W.Abd-Almageed and M.Hefeeda.Distributed Approximate Spectral Clustering forLarge-Scale Datasets.In proceedings of the21st International ACM Symposium on HighPerformance Parallel and Distributed Computing, pages 223-234, 2012.

[5]Christian Kaiser and Alexei Pozdnoukhov.Enabling real-time city sensing with kernel stream oracles and MapReduce.Pervasive and MobileComputing (2012) .doi:10.1016/j.pmcj.2012.11.003

[6]Yael Ben-Haim and Elad Tom-Tov., A streaming parallel decision tree algorithm, Journal of Machine Learning Research, 11, 849-872, 2010.

[7]F.Yan, N.Xu and Y Qi.Parallel Inference for Latent Dirichlet Allocation onGraphics ProcessingUnits.In NIPS, 2009.

[8]Bao-Liang Lu, et al.A part-versus-part method for massively parallel training of support vector machines, IEEE International Joint Conference on Neural Networks, 2004.

[9]G.Jung, N.Gnanasambandam, and T.Mukherjee.Synchronous parallel processing of big-data analytics services to optimize performance in federated clouds.In proceedings of 5th IEEEInternational Conference on Cloud Computing, CLOUD 2012, pages 811-818, 2012.

上一篇:英语基础口译——礼宾常识下一篇:安全文化在煤炭企业安全生产中的作用