大数据理念

2024-06-08

大数据理念(精选五篇)

大数据理念 篇1

大数据 (Big Data) , 也叫巨量资料。由于它所涉及的资料量规模巨大, 因此无法通过目前的主流软件工具, 在合理时间内进行撷取、管理和处理, 并整理成更加有助于企业经营决策的资讯。“大数据”是业内的热门词汇, 描述了企业大量积累、存储和挖掘大文件 (400GB到TB级) 的现象。随着信息质量、种类和丰富性达到新的水平, “大数据”的发展日臻成熟。

大数据的特点

对于大数据, 现在比较流行的是用4个“V”来总结其4个层面的含义:容量巨大 (Volume) , 数据已从TB级别跃升至PB级别;数据类型多 (Variety) , 从普通的文字、视频、图片到逐渐增多的地理位置信息等, 类型纷繁, 已无规律可循;价值密度低 (Value) , 以视频为例, 在连续不间断监控过程中, 可能有用的数据也许只有一两秒;处理速度快 (Velocity) , 实时分析对某些应用才更有意义, 而不是批量式分析, 即时处理已经成为一种趋势。

大数据管理技术

人们对大数据的关注度在不断升温, 而大数据管理的技术也层出不穷。在众多技术中, 有6种数据管理技术普遍被关注, 即分布式存储与计算、内存数据库技术、列式数据库技术、云数据库、NoSQL、移动数据库技术。其中分布式存储与计算受关注度最高。分布式存储与计算架构可以让大量数据以一种可靠、高效、可伸缩的方式进行处理。因为以并行的方式工作, 所以数据处理速度相对较快且成本较低, Hadoop和NoSQL都属于分布式存储技术的范畴。

内存数据库技术可以作为单独的数据库使用, 还能为应用程序提供即时的响应和高吞吐量, SAP的HANA是该技术的典型代表。

列式数据库的特点是可以更好地应对海量关系数据中列的查询, 占用更少的存储空间, 这也是构建数据仓库的理想架构之一。

云数据库可以不受任何部署环境的优势, 随意进行拓展, 进而为客户提供适宜其需求的虚拟容量, 并实现自助式资源调配和自助式使用计量。目前微软的SQL Server可以提供类似的服务。

甲骨文在2011年推出了Oracle NoSQL数据库。NoSQL数据库适合于庞大的数据量、极端的查询量和模式演化。企业可以通过NoSQL得到高可扩展性、高可用性、低成本、可预见的弹性和架构灵活性的优势。

移动数据库技术是移动计算的产物。随着智能移动终端的普及, 人们对移动数据实时处理和管理要求的不断提高, 移动数据库具有平台的移动性、频繁断接性、网络条件的多样性、网络通讯的非对称性、系统的高伸缩性和低可靠性以及电源能力的有限性等。

大数据的应用实例

实例1:《纸牌屋》

《纸牌屋》是全球最大的流媒体运营商Netflix首次自行制作, 并且完全依靠网络发行的电视剧, 它的热播使Netflix订户数超越了传统的HBO电视网。

《纸牌屋》的走红是必然的, 它是大数据分析在具体行业成功应用的经典案例。美国新闻网站Salon.com曾这样描述:用户只要登录Netflix, 其每一次点击、播放、暂停甚至看了几分钟就关闭视频, 都会被作为数据进入后台分析。这样一来, Netflix就能精确定位观众的偏好, 比如“最爱Kevin Spacey”, 或者“最爱政治剧”。Netflix在拍摄前事先分析了订阅用户们的观影数据和操作习惯, 保证其首部原创剧集可以精确命中最大量的潜在观众。Netflix在决定投资翻拍《纸牌屋》前做了两件与大数据分析紧密相关的事:挑选演员、决定播放形式。

追踪和分析订阅用户数据并不简单, 基于基础数据派生的扩展数据量非常大。这一过程不仅仅要分析观众喜欢看哪些主题的电影和偏好, 还要统计观众如何观看电影和观影过程、观影过程中暂停的次数、会在看到几分钟的时候关闭视频等等, 这些操作都会被作为数据进入后台分析。过去, Netflix只是用这些数据来做影片推荐。如今, Netflix会投其所好, 根据这些内容拍摄用户感兴趣的电影。

通过数据分析, Netflix发现喜欢观看1990版《纸牌屋》的影迷们同时喜欢看导演David Fincher的作品。另外, 他们会经常观看奥斯卡影帝Kevin Spacey的作品。因此, 新版《纸牌屋》邀请了David Fincher (制作人) 和Kevin Spacey (男主演) 加盟, 这完全是基于影迷数据分析得出的结论。

实例2:从4天到1个小时——大型在线扑克公司的反欺诈术

欧洲的一家大型在线扑克公司的员工在爱尔兰, 而机房却建在加拿大。在这家公司的网站上有虚拟牌桌, 6—10个人一桌在线玩德州扑克。该公司会从赢者那里提成0.5%, 在线玩游戏的人越多、玩得次数越多, 该公司的盈利就更有保障。

除了吸引更多人来玩在线扑克, 公司更重要的是做好反欺诈工作。玩这种在线扑克时的欺诈行为一般有三种类型:第一, 不同玩家线下串谋, 线上打配合以增加玩家自己获胜概率;第二, 洗钱, 通过信用卡故意将钱输给下家;第三, 外挂, 研究算法比较好的人会自己写程序然后挂到网站上, 可以同时玩100桌获得盈利。

该公司需要将这些欺诈行为全部找出来, 识别不同模式。例如, 他们通过分析玩家每一轮下了多少注、不同玩家之间下注的时间间隔以及非常规打法的记录等大量数据, 就可以判断这些玩家背后是真人在玩还是机器外挂在玩、是否有线下串谋等欺诈行为。

为了识别欺诈, 该公司请来了三位毕业于加拿大某学校的扑克牌专业的博士, 通过算法识别欺诈行为, 并开发反欺诈程序。过去, 他们是将这些记录的结构化数据压缩成一个文档放到数据库里, 需要分析时将文档调出, 用他们花费一年半时间开发的Java软件运行分析, 需要4天结果才能出来, 也就是如果星期一有人做了欺诈行为, 到星期五才能发现。而现在, 该公司用两天时间将算法移植到TeradataAster平台之上, 通过一个开源的解压代码把压缩的资料在库内做解压, 然后在数据库系统内运行欺诈分析。这种做法的好处是大批量的数据不用传来传去, 再加上算法优化之后, 原本需要4天的欺诈行为分析只要60分钟就可以完成了。

大数据的未来发展前景

一、推动信息产业创新

据国际数据公司的监测统计, 2011年全球数据总量已经达到1.8ZB (1ZB等于1万亿GB, 1.8ZB相当于18亿个1TB移动硬盘的存储量) , 而这个数值还在以每两年翻一番的速度增长。预计到2020年, 全球将拥有35ZB的数据量。

随着面向大数据市场的新产品、新技术、新服务、新业态的不断涌现, 大数据将加速信息技术产品的创新融合发展。对数据快速处理和分析的需求, 将推动商业智能、数据挖掘等软件在企业级的信息系统中得到融合应用, 成为业务创新的重要手段。同时, 物联网、移动互联网的迅速发展, 使数据产生速度加快、规模加大, 迫切需要运用大数据手段进行分析处理, 提取有效信息。大数据面临的有效存储、实时分析等挑战, 将对芯片、存储产业产生重要影响, 推动一体化数据存储处理服务器、内存计算等产品的升级创新。大数据应用也使基于云计算的业务创新和服务创新成为现实。

二、推动社会发展

大数据作为一种重要的战略资产, 已经不同程度地渗透到每个行业领域和部门, 其深度应用不仅有助于企业经营活动, 还有利于推动国民经济发展。麦肯锡研究表明, 在医疗、零售和制造业中, 大数据可以每年提高劳动生产率0.5-1个百分点。

宏观层面, 大数据使经济决策部门可以更敏锐地把握经济走向, 制定并实施科学的经济政策。微观方面, 大数据可以提高企业经营决策水平和效率, 给企业、行业领域带来价值。

中国农业大数据机遇与挑战并存 篇2

随着互联网、云计算、大数据时代的到来,我国传统的农业生产方式正在向以数据驱动的智能化生产转变,正是在这个由传统农业向现代农业转变的关键阶段,农业信息化建设举足轻重。2004年以来,中央多次在“一号文件”中强调“全面推进农村农业信息化工作”,而被认为农业信息化进程的关键推手正是农业大数据。

大数据是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助决策者决策更积极目的的资讯,是继云计算、物联网之后IT产业又一次颠覆性的技术变革。农业大数据则是大数据理念、技术和方法在农业方面的实践,其涉及耕地、播种、施肥、杀虫、收割、存储、育种等各环节,是跨行业、跨专业、跨业务的数据分析与挖掘,以及数据可视化。我国大数据已经运用到医疗业、制造业、交通业、金融业等不同行业,农业大数据也开始试水。

4月20日,首届中国农业展望大会在京召开,大会首次发布了《中国农业展望报告(2014-2023)》以及粮食、棉花、油料、糖料、肉类、禽蛋、奶类、蔬菜、水果等农产品分品种展望报告,这个报告生成的背后,农业大数据功不可没。

2013年6月18日,我国第一个农业大数据的研究和应用推广机构“农业大数据产业技术创新战略联盟”正式成立。据牵头成立联盟的山东农业大学的校长温孚江介绍,联盟将加强对气象、土地、水利、农资、病虫害防治、生态环境、农业科研成果等诸多信息的收集、整理、研究工作,为政府决策和产业发展提供新方法、新思路,这也标志着中国大数据技术在农业领域的应用有了实质性突破。

今年2月24日,首届中国科学数据大会在京举行,该会议以“科研a大数据与数据科学”为主题,研讨大数据时代科研数据管理、共享与应用的新趋势,并且专门特设“农业与农村信息化大数据技术与应用”分会场,围绕农业大数据,就农业大数据的机遇与挑战、如何有效地收集宏观和微观动态农业数据,提高拥有农业数据的规模与质量,处理数据、发现知识和决策运用的能力等关键技术进行了研讨。与会专家认为,农业大数据作为农业信息化的前沿技术,是新兴科技产业领域,是新一代信息技术的集中反映。

“大数据给中国农业带来机遇,农业会在信息化方面实现飞跃。”吉林省副省长隋忠诚认为,大数据在农业信息化建设进程中起着举足轻重的作用。“国家和省政府每年投资2500万元,形成吉林省土壤的‘大数据’,这些丰富的数据将为农民增收、粮食丰收作贡献。”据吉林省农委主任李国强介绍,吉林省自2004年逐步开展测土配方施肥工作,十年时间摸清了全省大部分土壤的明细账。目前,吉林省农民已经可以在自己的农田上,通过拨打手机接受适合其所在土地特定的施肥指导,有效提高了肥料利用效率。李国强表示,“测土配方施肥手机服务系统”就是基于近十年大范围推广测土配方施肥形成的“大数据”,并结合农村智能手机的普及设计而成。

国家农业信息化工程技术研究中心副主任杨宝祝认为,农业信息化、农业大数据可将市场需求变化和先进品种技术传到田间地头,以帮助农民进行科学的生产决策,不仅能够增强农业生产经营能力,而且能够提高农户抵御市场风险的能力。

然而,与农业相关的信息、数据来源十分广泛,包括气象、土地、水利、农资、农业科研成果、动物和植物生产发展情况、农业机械、病虫害防治、生态环境、市场营销、食品安全、公共卫生、农产品加工等诸多环节,数据的数量之大、类型之多,加上快数据流转的快速程度和数据体系的动态变化,这无疑都给农业大数据的应用带来了许多诸多困难。

中国农业科学院教授孙忠富带领他的团队,正在探索农业大数据如何在农业信息化过程中的应用技术,“大数据在本质上不仅数据量庞大,而且还具有结构复杂、数据类型多样等特征,特别是其中蕴含巨大的应用价值,这类数据依赖传统技术难以处理应用。”孙忠富坦言,由于全国各地农业情况各异、数据收集情况不同、各类涉农数据资源也呈现爆炸式的增长等,所以中国农业大数据的形成和发展都将面临着数据获取、存储、计算和应用等许多方面的挑战。

大数据理念 篇3

2003年,我刚到美国时做的是气侯模型建模,比如说气侯变暖、臭氧层空洞,所有这些结论都是通过气侯模型模拟出来的。我的博士课题研究的就是运用气侯模型对臭氧空洞的形成和进化进行研究。。当时,我们用的数据规模比现在很多公司大得多。我所在的研究生院里,有美国最先进的一个超级计算机中心,都是最快的计算机并行起来运算。我们有很多数据,但那个时候,从来没有人讲过大数据。大概在2009年左右,“大数据” 的概念开始流行起来。第一次听到这个词时,我觉得很有意思,因为实际上从来美国的第一天起,我就在大数据领域工作了。

接下来,我讲下大数据在LinkedIn的商业模型中起的作用。上线之初,社交网络最重要的是让人能进来注册,告诉他们为什么要来注册,能在这个平台上做哪些事情,这是我们最开始注重的地方。当足够多的会员进入平台,他们的行为会产生很多数据,通过数据我们可以了解到:什么样的产品、产品的哪些方面对大家是最有用的。之后根据这些反馈,我们再去做更有价值的产品和服务。

一般而言,大家用LinkedIn是免费的。我们有一些付费服务,比如给招聘人员用的、给销售人员用的、或者给市场人员用的。所有这些都是通过对数据、用户附加价值的分析,做出来的新产品。

我们这个团队具体做了哪些事情?

第一步,把数据做好,包括能够采集正确的数据,保证数据的质量和对数据进行管理。有了这些才能告诉你,公司以前发生了什么事情,数据对公司产生了什么影响。接着,你可以拿这些分析商业回报,毕竟它是有投入的。

第二步,信息和知识。通过数据分析,可以知道以前那些事情为什么会发生?这时对商业的回报会有增加。

第三步,预测什么将会发生。

最后一步,洞察力。这是给能做商业决定的人一些建议,或者一些策略。根据对数据的分析,可以得出怎样的策略能让公司有最好的回报。这时,你会看到在商业回报里达到的最佳值,当然这是循序渐进的过程。现在,我们团队集中精力在做洞察力。

能源大数据管理系统的实现 篇4

集中式的管理和维护模式秉承树立绿色、低碳发展理念, 是响应国家节能减排号召的重要实践。建设基于电信运营商物联网结合云计算技术的能源管理系统非常必要, 以从机房/基站数据中获得能够真正反映设备运行状况的有效信息, 利用在线能耗数据挖掘分析结果, 辅助实现依据用能设备的负荷变化来动态优化用能设备的配电, 大幅度减少电能消耗并为优化能源管理的决策提供科学支持, 在满足通信业务发展的前提下尽量节省资源, 以提升通信运营商的社会形象和竞争优势[1]。

1 数据感知采集和物联网智能网关技术

(1) 数据感知采集[2]

本论文采集数据包括通信机房和通信基站两大类用能场所, 具体为列头柜、机柜、空调、照明、办公插座等设备的能耗, 还可以通过IPMI接口采集服务器设备的功率、温度、CPU使用率、内存使用率、风扇工作参数等服务器状态数据。具体技术设计思路如下。

(1) 通过利用智能电表、传感器、变送器、以及物联网智能网关等采集设备及网络平台, 将机房/基站内空调、照明、电源、主设备和办公插座等子系统联网集成到统一的管理平台进行智能监控、数据分析和调度管理。

(2) 构建更加全面的传感网络, 包括温湿度传感网, 气流传感网, 做到对用能场所的更全面感知。可以通过传感器的安装, 相当于给机房装了一个很精准的CT, 对机房实现多角度旋转、缩放观察的虚拟三维清晰图像, 温湿度怎样, 空调是否处于合理状态, 都能够看得一清二楚。

(3) 对用能场所内的设备全面采用RFID技术进行识别和管理, 以准确全面获取设备的属性及与相关能耗数据的对应关系

(4) 主设备的能耗则是必须要采集到的重要数据, 以支持能耗的精细化分析和控制。比如服务器的能耗数据, 就需要通过各种合适的途径获得。通过ipmi接口可以获得部分数据, 还可以考虑通过硬件芯片的方式获得。

利用IPMI接口可采集到服务器的静态信息, 包括CPU、内存、硬盘、光驱、网卡、显卡、操作系统、RAID卡、PCI附加卡等信息;采集的动态信息包括机箱内温度、主板、CPU、SCSI模组、风扇板等的温度、输入电压、功率、风扇转速、内部直流电压以及CPU利用率、内存利用率、硬盘I/O访问流量等系统资源信息、硬盘驱盘器 (已用空间、剩余空间) 、网络情况 (连接状态、网络带宽、入/出流量、入/出实际带宽) 、平均负载 (指的是在一定观察时间内系统内总进程数、正在运行的进程数平均值) 。通过采集到的服务器的静态信息, 有利于机房将来做资源管理的基础数据;而采集服务器的动态数据, 一方面通过服务器温度信息来实现机房的温度云场, 另一方面通过计算服务器的能耗为设备级的能耗趋势分析提供数据。

(2) 网络层和数据处理层

数据处理服务系统完成数据的预处理工作。从感知层出来的能耗数据, 按规章和策略过滤, 能耗数据在处理中要进行聚合、融合、清洗、压缩、汇聚, 校验等重要工作, 对上层应用系统的有效分析和使用提供了重要条件。

通过能耗专用及多功能智能融合网关能提供统一数据格式转换与传输, 实现物联网能耗数据的收集/下发与传输。实现能耗数据的多路分发。能耗数据除了能为中心云平台分析使用外, 还能为其他系统所用 (比如动环监控) , 实现实时的能耗数据呈现, 监视管理和控制等作用。

海量能耗数据的通信, 实现用能设备间信息的交换, 需实现互联互通, 即非ip的传感网和ip传感网之间, 传感网和ip接入网, ipv4和ipv6协议之间的互联互通, 包括应用协议, 消息格式的互操作。传感器网有专门的路由协议 (能量效率路由协议, 在多数时间处于休眠状态的节点的路由协议, 数据知识路由协议等[3,4]。

在建立用能场所的能耗模型时, 需充分考虑并表达空调、照明、电源、主设备和办公插座等各用能分量单元个体之间的关系特别是直接的关系, 同时把间接的关系通过模型的办法推导出来。各个用能分量单元除实时收集的时空数据之外, 还表达了它们之间的连结关系。模型本身有充分的能力来表达直接关系, 以方便推理间接关系。按业务需求建立模型, 模型优化方案, 提炼模型并验证模型。数据挖掘必须与具体的业务相结合进行应用, 并进行跟踪评估效果, 持续不断地完善模型, 总结和反馈。本论文中通过耗能点分析、耗能量聚类与预测, 发现耗能异常的原因及影响能耗的相关因子, 从而找到改善能耗的节能要素。同时对故障设备进行故障原因分析, 查找设备异常的原因, 及时进行调整以达到节约成本, 提高设备运行效率的目的[5]。

(3) 物联网智能网关

目前获取能耗数据的主要手段是通过智能计量采集装置 (智能电水汽表) 的计量及物联网网关自动采集分量计量能耗数据。作为中国移动及其他电信运营商庞大规模的能耗采集工程, 从工程适用性和投资成本方面考虑, 依据中国移动集团设计院能耗采集规范制定的专用能耗采集设备 (“智能采集终端”设备, 以下简称能耗采集单元ESU) , 本论文采用广东盈嘉科技工程发展股份有限公司的物联网智能网关——MP3000智能协议转换器。如图3所示, 该智能网关设备能够实现同时向多区域能管中心、省能管中心、国家能管中心同时分发报送数据, 支持多种工业协议的接入、智能仪表的接入、采集数据的转换及控制管理, 具有存储1个月以上的数据存储容量, 提供12路数据通讯接口, 满足通过公网或专网、有线或无线发送数据的技术要求。

主要功能如下:

(1) 逻辑控制功能:逻辑控制是可订制的业务功能, 如根据采集器采集的温度数据进行智能控制空调启停。一个DO口的输出可以根据多个AI/DI输入数据进行判断后符合输出条件再输出。

(2) 支持通过以太网口, 将设备采集的数据多路分发的功能。

(3) 设备支持采集的数据本地存储, WEB方式配置, 具备网管功能;

(4) 支持SNMP协议;支持远程在线升级功能;支持时钟同步功能。

2 系统设计

(1) 平台总体架构

大数据能源管理系统采用云计算模式的设计方式[6]。可将平台按Iaa S、Paa S、Saa S分成三层规划, 分别解决资源共享、平台共享、服务共享的问题。该设计模式有利于降低建设成本、提高系统灵活性, 便于数据和服务的管理和共享, 如图4所示。

能耗采集层通过物联网智能感知及虚拟化能源管理平台来实现, 提供按需可配的计算和存储资源, 具备平滑的扩展能力。

能源管理云平台服务层提供应用部署、管理及云平台监控功能, 考虑到技术及业务未来发展变化所带来的平台的弹性要求, 采用SOA理念设计, 减少各子系统在技术上的相互依赖性。

能源管理系统软件服务层由能管中心和第三方软件开发企业开发相应的能源管理分析软件模块, 接入中心能源管理大数据云平台, 实现快速软件开发和部署。该中心软件主要实现数据可视化呈现、检索查询、能耗数据图表生成、数据挖掘、聚类分析、能耗模型预警、能耗数据在线监测, 节能规划业务的办理和流程管理, 对外服务的数据接口, 以及包括监控管理中心、大屏幕呈现、桌面客户端、移动客户端、短信、邮件等各类前端软件的技术实现。

云平台整体提供数据安全管理及用户管理, 由于能耗数据一般都有一定的涉密属性, 需要对能耗数据传输、存储、分析、以及使用的过程进行全流程安全规划和管理, 以保证关键数据及数据接口的安全。平台还具备用户权限管理及审计诊断功能。整个系统以数据仓库为基础[7], 以云计算平台为支撑, 结合ETL和并行数据挖掘开发套件, 打造出高性能, 高实时性, 高灵活性的新一代基于“云”计算的能源大数据综合管理系统云平台。按照技术发展趋势, 采用如图5所示系统技术实现数据流程。

(2) 系统功能模块设计

大数据能源管理中心云平台的主要功能可以划分为五个模块, 包括数据采集模块、能耗综合管理模块, 大屏幕管理模块、系统管理模块和软件平台模块, 功能划分如图6所示。

(3) 系统实现

本论文提出的大数据能源管理系统是以个基于工业物联网与大数据分析的综合能耗管理系统。

大范围、多地域、全网同步的数据采集汇聚集中上传需要性能水平极高的云网络及云存储资源, 整体系统建设和运维最适合由3大电信运营商承担, 何况要对不同用能单位建立一一对应的多维度关联能耗排放模型, 对自控可靠的用能单位要通过模型的仿真模拟计算结果, 对相关用能设备实施反向开关待机操作, 实现用能设备动态能效优化, 这又需要极强大的云计算资源, 这样的操控实施更应掌握在国有主流央企手中, 3大运营商的云计算资源基本有保证。电信运营商已建设的网管系统和动环监控系统负责运营商自身能耗数据的采集及融合接入, 政府发文强制重点能耗企业采用标准化物联网采集网关及国标智能电表无线接入此系统、或企业已有系统按统一能耗排放数据采集及接口标准规范专线转发接入此运营商能源管理云平台, 运营商收流量费及功能费。如用能户使用能源审计诊断功能索取能源使用咨询报告可另收咨询费等, 政府向运营商付财政补贴、维护费、流量费及服务费购买服务, 运营商还可收能耗排放源数据交易费并向政府交管理费等。运营商向系统技术供应商支付开发费及技术支撑费等。

通信运营商能源大数据管理系统实时掌握能耗情况、健全各用能设备实时能耗模型以进行能源使用趋势预测, 实现对各种用能设备的动态优化能耗管理及时采取调度措施, 提高运维部门管理水平, 及时发现提前预报运行设备故障, 实现预防性维护, 使各用能设备尽可能运行在最佳状态, 并将对能耗的影响降到最低, 符合国务院办公厅十二五节能减排提出政策导向, 履行企业节能减排的责任, 为加快建设资源节约型、环境友好型社会做出贡献。

能源管理大数据云平台通过对大规模机房/基站的海量用能数据进行聚类分析、相关性分析、建立用能场所能耗模型, 确立标杆机房/基站。系统通过构建能耗分析相关的理论知识、试验数据、专家经验以及相关的定义、定理等组成知识库, 在计算机中存储、组织、实现和使用互相联系的知识库集合, 有效地实现知识表现和推理, 与数据挖掘和OLAP紧密结合, 帮助用户进行分析, 给出合理的结论和建议, 提高社会经济效益[8]。

大数据分析采用了多种“ETL、分类、聚类、相关性分析”等多种数据挖掘算法[9]。采用的ETL工具有:OWB (Oracle Warehouse Builder) 、ODI (Oracle Data Integrator) 、Informatic Power Cent-er、AICloud ETL、Data Stage和Data Spider等。实现了数据抽取、清洗、选择、转换、知识发现等功能。ETL数据挖掘技术方案如图7所示。基于数据挖掘技术, 项目建立了统一数据整合平台。

数据可视化包括能耗数据分析的结果展示, 提供通用和个性订制化的数据分析服务, 及自定义可视化报表等;以及用能场所3D场景及CFD温度及能效云场呈现等。

3 结束语

本论文设计的能源大数据管理系统以物联网感知采集能耗数据为基础, 以云计算网络平台为支撑, 结合ETL和并行数据挖掘开发套件, 打造出高性能, 高实时性, 高灵活性的新一代基于物联网结合云计算技术的大数据能源管理系统。并逐步实现做为云计算网络平台的具体应用内容实施运行, 利用云计算网络平台的多租户功能, 为通信运营商及全社会其他用能单位, 为节能减排政府管理机构提供能耗分项计量统计分析、节能咨询等服务。

参考文献

[1]钟智.构建在线式电能质量监测网络[J].通信电源技术, 2009, 26 (增刊) :110-112.

[2]宋福峰, 刘宝昌.数通信电源系统设计及运行维护中节能方案探讨[J].电信工程技术与标准化, 2010 (3) :69-71.

[3]Behrouz a.Forouzan.Data communications and network-ing (third edition) [M].Mcgraw-hill, 2004:186-209.

[4]周双阳.全生态移动通信网络建设[J].通信世界, 2009 (42) :28.

[5]毛国君, 段立娟, 王实, 等.数据挖掘原理与算法:第二版[M].北京:清华大学出版社, 2007.

[6]殷正坤.浅析云计算在网络技术中的应用[J].电子制作, 2013 (16) :153.

[7]郭川, 军朱贵.数据仓库技术研究[J].信息技术, 2004 (04) :61-63.

[8]张进京.信息化与节能减排关系分析:上[J].中国信息界, 2009 (11) :43-47.

大数据实例及未来发展前景 篇5

大数据(Big Data),也叫巨量资料。由于它所涉及的资料量规模巨大,因此无法通过目前的主流软件工具,在合理时间内进行撷取、管理和处理,并整理成更加有助于企业经营决策的资讯。“大数据”是业内的热门词汇,描述了企业大量积累、存储和挖掘大文件(400GB到TB级)的现象。随着信息质量、种类和丰富性达到新的水平,“大数据”的发展日臻成熟。

大数据的特点

对于大数据,现在比较流行的是用4个“V”来总结其4个层面的含义:容量巨大(Volume),数据已从TB级别跃升至PB级别;数据类型多(Variety),从普通的文字、视频、图片到逐渐增多的地理位置信息等,类型纷繁,已无规律可循;价值密度低(Value),以视频为例,在连续不间断监控过程中,可能有用的数据也许只有一两秒;处理速度快(Velocity),实时分析对某些应用才更有意义,而不是批量式分析,即时处理已经成为一种趋势。

大数据管理技术

人们对大数据的关注度在不断升温,而大数据管理的技术也层出不穷。在众多技术中,有6种数据管理技术普遍被关注,即分布式存储与计算、内存数据库技术、列式数据库技术、云数据库、NoSQL、移动数据库技术。其中分布式存储与计算受关注度最高。分布式存储与计算架构可以让大量数据以一种可靠、高效、可伸缩的方式进行处理。因为以并行的方式工作,所以数据处理速度相对较快且成本较低,Hadoop和NoSQL都属于分布式存储技术的范畴。

内存数据库技术可以作为单独的数据库使用,还能为应用程序提供即时的響应和高吞吐量,SAP的HANA是该技术的典型代表。

列式数据库的特点是可以更好地应对海量关系数据中列的查询,占用更少的存储空间,这也是构建数据仓库的理想架构之一。

云数据库可以不受任何部署环境的优势,随意进行拓展,进而为客户提供适宜其需求的虚拟容量,并实现自助式资源调配和自助式使用计量。目前微软的SQL Server可以提供类似的服务。

甲骨文在2011年推出了Oracle NoSQL数据库。NoSQL数据库适合于庞大的数据量、极端的查询量和模式演化。企业可以通过NoSQL得到高可扩展性、高可用性、低成本、可预见的弹性和架构灵活性的优势。

移动数据库技术是移动计算的产物。随着智能移动终端的普及,人们对移动数据实时处理和管理要求的不断提高,移动数据库具有平台的移动性、频繁断接性、网络条件的多样性、网络通讯的非对称性、系统的高伸缩性和低可靠性以及电源能力的有限性等。

大数据的应用实例

实例1:《纸牌屋》

《纸牌屋》是全球最大的流媒体运营商Netflix首次自行制作,并且完全依靠网络发行的电视剧,它的热播使Netflix订户数超越了传统的HBO电视网。

《纸牌屋》的走红是必然的,它是大数据分析在具体行业成功应用的经典案例。美国新闻网站Salon.com曾这样描述:用户只要登录Netflix,其每一次点击、播放、暂停甚至看了几分钟就关闭视频,都会被作为数据进入后台分析。这样一来,Netflix就能精确定位观众的偏好,比如“最爱Kevin Spacey”,或者“最爱政治剧”。Netflix在拍摄前事先分析了订阅用户们的观影数据和操作习惯,保证其首部原创剧集可以精确命中最大量的潜在观众。Netflix在决定投资翻拍《纸牌屋》前做了两件与大数据分析紧密相关的事:挑选演员、决定播放形式。

追踪和分析订阅用户数据并不简单,基于基础数据派生的扩展数据量非常大。这一过程不仅仅要分析观众喜欢看哪些主题的电影和偏好,还要统计观众如何观看电影和观影过程、观影过程中暂停的次数、会在看到几分钟的时候关闭视频等等,这些操作都会被作为数据进入后台分析。过去,Netflix只是用这些数据来做影片推荐。如今,Netflix会投其所好,根据这些内容拍摄用户感兴趣的电影。

通过数据分析,Netflix发现喜欢观看1990版《纸牌屋》的影迷们同时喜欢看导演David Fincher的作品。另外,他们会经常观看奥斯卡影帝Kevin Spacey的作品。因此,新版《纸牌屋》邀请了David Fincher(制作人)和Kevin Spacey(男主演)加盟,这完全是基于影迷数据分析得出的结论。

实例2:从4天到1个小时——大型在线扑克公司的反欺诈术

欧洲的一家大型在线扑克公司的员工在爱尔兰,而机房却建在加拿大。在这家公司的网站上有虚拟牌桌,6—10个人一桌在线玩德州扑克。该公司会从赢者那里提成0.5%,在线玩游戏的人越多、玩得次数越多,该公司的盈利就更有保障。

除了吸引更多人来玩在线扑克,公司更重要的是做好反欺诈工作。玩这种在线扑克时的欺诈行为一般有三种类型:第一,不同玩家线下串谋,线上打配合以增加玩家自己获胜概率;第二,洗钱,通过信用卡故意将钱输给下家;第三,外挂,研究算法比较好的人会自己写程序然后挂到网站上,可以同时玩100桌获得盈利。

该公司需要将这些欺诈行为全部找出来,识别不同模式。例如,他们通过分析玩家每一轮下了多少注、不同玩家之间下注的时间间隔以及非常规打法的记录等大量数据,就可以判断这些玩家背后是真人在玩还是机器外挂在玩、是否有线下串谋等欺诈行为。

为了识别欺诈,该公司请来了三位毕业于加拿大某学校的扑克牌专业的博士,通过算法识别欺诈行为,并开发反欺诈程序。过去,他们是将这些记录的结构化数据压缩成一个文档放到数据库里,需要分析时将文档调出,用他们花费一年半时间开发的Java软件运行分析,需要4天结果才能出来,也就是如果星期一有人做了欺诈行为,到星期五才能发现。而现在,该公司用两天时间将算法移植到TeradataAster平台之上,通过一个开源的解压代码把压缩的资料在库内做解压,然后在数据库系统内运行欺诈分析。这种做法的好处是大批量的数据不用传来传去,再加上算法优化之后,原本需要4天的欺诈行为分析只要60分钟就可以完成了。

大数据的未来发展前景

一、推动信息产业创新

据国际数据公司的监测统计,2011年全球数据总量已经达到1.8ZB(1ZB等于1万亿GB,1.8ZB相当于18亿个1TB移动硬盘的存储量),而这个数值还在以每两年翻一番的速度增长。预计到2020年,全球将拥有35ZB的数据量。

随着面向大数据市场的新产品、新技术、新服务、新业态的不断涌现,大数据将加速信息技术产品的创新融合发展。对数据快速处理和分析的需求,将推动商业智能、数据挖掘等软件在企业级的信息系统中得到融合应用,成为业务创新的重要手段。同时,物联网、移动互联网的迅速发展,使数据产生速度加快、规模加大,迫切需要运用大数据手段进行分析处理,提取有效信息。大数据面临的有效存储、实时分析等挑战,将对芯片、存储产业产生重要影响,推动一体化数据存储处理服务器、内存计算等产品的升级创新。大数据应用也使基于云计算的业务创新和服务创新成为现实。

二、推动社会发展

大数据作为一种重要的战略资产,已经不同程度地渗透到每个行业领域和部门,其深度应用不仅有助于企业经营活动,还有利于推动国民经济发展。麦肯锡研究表明,在医疗、零售和制造业中,大数据可以每年提高劳动生产率0.5-1个百分点。

宏观层面,大数据使经济决策部门可以更敏锐地把握经济走向,制定并实施科学的经济政策。微观方面,大数据可以提高企业经营决策水平和效率,给企业、行业领域带来价值。

上一篇:回答提问下一篇:高分子量