主流大数据技术

2024-08-02

主流大数据技术(精选五篇)

主流大数据技术 篇1

关键词:大数据,Hadoop,Storm,Apache Drill

1 引言

大数据是现代信息技术的重要发展方向之一, 实现大数据的共享和分析将带来不可估量的经济价值, 同时也对社会产生巨大的推动作用。美国互联网数据中心指出, 互联网上的数据每年将增长50%, 每两年便将翻一番。I BM的研究称, 整个人类文明所获得的全部数据中, 有90%是过去两年内产生的。而到了2020年, 全世界所产生的数据规模将达到今天的44倍。大数据在现代社会和经济活动中发挥着极其重要的作用, 有效利用大数据会产生不可估量的价值。

2 大数据带来的新变革

(1) 全体数据替代随机样本。在过去很长的时间之内, 由于数据储存和分析能力的缺陷, 人们无法准确地对大量数据进行处理, 只能通过采样的手段用最少的数据得到最多的信息, 但这只是在不能收集和分析全部数据时的折中做法, 本身存在很多缺陷。近些年, 随着云计算的产生和兴起, 大数据的处理迎来了一次巨大的飞跃。通过云计算可以处理的数据大大增加, 用全体数据替代随机样本逐渐成为可能。

(2) 混杂性替代精确性。过去, 由于被采样的数据样本偏小, 则对数据分析就要求精准, 尽可能地减少错误, 因为收集的有限性意味着微小的错误会被放大, 甚至影响整个结果的准确性。而对于“大数据”, 单个结果的精确就显得不那么重要了。与其浪费计算在提高数据的精度上, 不如用来处理更大量的数据。这样, 我们就不需要过于担心某个数据对整套分析产生的不利影响, 而是从这些纷繁复杂的数据中收益。相比小数据时代的精确, 大数据更强调数据的完整性和混杂性。

(3) “是什么”代替“为什么”。我们网购时, 每当买到一件心仪的物品以后, 系统会向你推荐一些其他商品。事实证明, 这个推荐比较准确。而为什么两样不相关的东西会产生关联?谁也不知道, 但事实就是这样。对商家来说, 是什么比为什么更实惠。当然, 其中有些很可能只是巧合, 但基于大量数据时就能筛选掉大多数巧合。而随着计算能力和可用数据的增加, 简单的线性关系向着更复杂的非线性关系转变, 给人们带来更加丰富的结论和新的认识。

3 当今主流的大数据技术

在大数据时代, 对大数据进行统一表示, 实现大数据处理、查询、分析和可视化是亟需解决的关键问题。互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论, 成为了海量信息的多种形式。海量的电子政务数据、移动终端数据、网站日志、社交媒体数据、来自物联网传感器的流式数据、企业长期积累的业务数据等也都是大数据的主要来源。现有面向大数据的研究主要针对存储、处理、分析、可视化等某一方面的关键技术。本文搜罗了如下当今主流大的数据技术。

3.1 Hadoop

Hadoop是目前大数据平台中应用率最高的技术, 特别是针对诸如文本、社交媒体以及视频等非结构化数据。Hadoop可以部署在价格低廉的服务器上, 形成分布式系统, 它提供高吞吐量来访问应用程序的数据, 适合那些有着超大数据集的应用程序。

Hadoop的核心是HDFS和MapReduce。HDFS具有高容错性和高扩展性等优点。Map Reduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。因此, 通过Hadoop可以轻松地组织计算机资源, 搭建自己的分布式计算平台, 完成海量数据的处理。相对当前应用较多的SQL关系型数据库, HDFS提供了一种通用的数据处理技术, 它用大量低端服务器代替大型单机服务器, 用键值对代替关系表, 用函数式编程代替声明式查询, 用离线批量处理代替在线处理, 以高容错的方式并行处理大量的数据集。

Hadoop目前已广泛应用于Web搜索、广告系统、数据分析和机器学习等领域。Hadoop作为网络公司的重要工具, 包括Yahoo, Facebook都利用它处理不断增长的非结构化数据。

3.2 Storm

随着大数据业务的快速增长, 针对大规模数据处理的实时计算变成了一种业务上的需求, 缺少“实时的Hadoop系统”已经成为整个大数据生态系统中的一个巨大缺失。Storm正是在这样的需求背景下出现的, 并很好地满足了这一需求。

Storm是一个自由的开源、分布式的实时计算系统, 它可以快速可靠地处理庞大的数据流。Storm很简单, 支持许多种编程语言, 使用灵活, 它为分布式实时计算提供了一组通用原语, 可被用于“流处理”之中, 实时处理消息并更新数据库。Storm也可被用于“连续计算”, 对数据流做连续查询, 在计算时就将结果以流的形式输出给用户, 它可以方便地在一个计算机集群中编写与扩展复杂的实时计算。Storm处理速度很快, 在一个小集群中, 每秒可以处理数以百万计的消息。

许多知名的企业诸如淘宝、支付宝、阿里巴巴、Groupon、乐元素、Admaster等都基于它做开发。

3.3 Apache Drill

为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法, Apache软件基金会发起了一项名为“Drill”的开源项目。Drill已经作为Apache孵化器项目来运作, 将面向全球软件工程师持续推广。该项目将会创建出开源版本的谷歌Dremel Hadoop工具 (谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速) , 而Drill将有助于Hadoop用户实现更快查询海量数据集的目的。

Drill项目其实也是从谷歌的Dremel项目中获得灵感, 该项目帮助谷歌实现海量数据集的分析处理, 包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等。通过开发Drill Apache开源项目, 组织机构将有望建立Drill所属的API接口和灵活强大的体系架构, 从而帮助支持广泛的数据源、数据格式和查询语言。

3.4 IBM Pure Data System

I BM PureDat a System是Pure Systems系列的成员, 它将系统的灵活性、云的弹性和针对工作负载进行调优的设备的简易性进行结合, 从根本上改变了IT的体验和经济效益。IBM Pure Data System主要面向大数据应用, 帮助企业更加高效地管理、分析海量数据, 并从中获取业务洞察。它以保证简单性、速度和低成本为前提, 向当今高要求的应用程序交付数据服务而进行了优化。

据I BM公布的数据显示, 目前已有60多家独立软件供应商表示将全力支持Pure Data。包括Dyna Front系统和PCCW电讯盈科在内的多个合作伙伴, 已经在其数据中心内部安装了Pure Systems。中国市场的合作伙伴方面, 文思海辉技术有限公司已经推出了基于Pure Data System的金融行业解决方案。

3.5 GFS Map Reduce Big Table

谷歌的GFS Map Reduce Big Table平台是以云服务为主打的新一代搜索引擎, 专为Big Table设计的分布式存储Colossus, 也被称为二代Google文件系统, 它专为建立Caffeine搜索索引系统而用。基于Colossus, 谷歌为用户提供了可以计算、存储以及应用的云服务。为了更好地支持大数据集的互动分析, Google推出了Dremel和Power Drill。Dremel被设计用来管理海量的大数据集 (指数据集的数量和每数据集的规模都大) , 而Power Drill则设计用来分析少量的大数据集 (指数据集的规模大, 但数据集的数量不多) 时提供更强大的分析性能。在谷歌新一代搜索引擎平台上, 每月40亿小时的视频, 4.25亿Gmail用户, 150, 000, 000GB Web索引, 却能实现0.25秒搜索出结果。

4 结束语

大数据:不是技术难题 篇2

虽然眼下十分火热,然而“大数据”概念并没有明确的范畴,时大数据的定义只是相衬于当前可用的技术和资源而言的,因此,某一个企业或行业所认为的大数据,可能衬于另一个企业或行业就不再是大数据,时于大的电子商务企业,它们眼中的大数据要比小厂商眼里的大数据“大”得多;同时,大数据也会特续地演进,现在被我们认为庞大和恐饰的数据在10年之后只是小事一桩,但那时候将会有那个时代的新数据源。然而,面衬这些源源不断出现的“大数据”,哪些事情是希望从中发掘机会的企业需要注意的?

新数据源是核心

欧博思分析师认为大数据的三个“V”特征,即Volume(规模),Variety(种类),和Velocity(高速度),这些只是大数据的第二位要素。大数据真正重要的“V”是Value(价值)。那么是什么带来了大数据的价值?

答案是新的数据源。

过去,获取网络浏览数据的技术门槛和成本都很高,而现在获取这些数据已经很容易,企业可以通过了解消费者浏览数据中展示的偏好以及未来购买倾向,来给他们推出最合适的折扣优惠。这都是新数据源的力量,这才是大数据的价值核心。

但在客户的沟通实践中,常常发现:大多数时候,人们都将精力投注在如何在“大数据”时代优化处理模型,或者升级技术装备以希求能提升分析的效果。

但是真正能提升分析效果的方式,是搜集并加入完全崭新的信息源。一旦新的、和从前不同的数据源出现并且能够被收集,你最好将自己的注意力转到这些新的数据上去一一比起你将精力放在模型优化上,新的数据源将能带来更大的收获。因此,在大数据时代,建议 就是,将你的精力放到不断寻求祈的数据源上吧。如今很多企业都会有很多新的数据源,如果正确使用的话,它们会带给企业非常有竞争力的优势。

小步快跑式

对大数据的另一个误解是,“大数据其实就是一个技术问题”。

事实上90%以上的企业可以用他们90%的现有需求和技术、工具来解决现在的大数据问题。企业并不是缺乏解决这些大数据难题的工具、技术甚至人才,他们真正面临的问题是,如何在公司建立一个和大数据相匹配的文化与流程,是缺乏对技术做投资的公司文化,他们的挑战是做出一个商业案例来证明技术升级是有价值的。

为了促进公司文化的转变,更建议一种“小步快跑”的运作方式,即在处理新数据源的过程中,企业内部的分析专家们应该积极寻找代价小、见效快的方法,不断向企业展示一些有价值的东西,来让人们保持对新数据源处理过程的兴趣。一个跨部门的大数据团队一定不能在组建一年之后,还对外宣称他们“正在试图搞明白”,要不时地迸发出想法,不管这一想法多么微小,然后迅速采取行动。

另外一个建议是,建立类似“创新中心”这样的地方,就是公司内部拿出少量的预算、人力资源、技术资源来做一些有一定未知风险的小实验,以小预算做试点,便于企业快速出击。

主流大数据技术 篇3

我们通常所说的短焦,就是短焦距的意思。焦距,是光学系统中衡量光的聚集或发散的度量方式,指从透镜中心到光聚集之焦点的距离。这项技术在之前主要应用于数码相机中,分为广角镜头和超广角镜头,超广角镜头又俗称“鱼眼镜头”,视角接近或等于180°,为使镜头达到最大的摄影视角,这种摄影镜头的前镜片直径呈抛物状向镜头前部凸出,与鱼的眼睛颇为相似,“鱼眼镜头”因此而得名。鱼眼镜头属于超广角镜头中的一种特殊镜头,它的视角力求达到或超出人眼所能看到的范围。

而在投影机中则是指从透镜中心到投射画面之间的距离。投影机的主要工作原理是通过机身内部的灯泡发光,依靠机身前的镜头对光线进行折射,进而将所需画面投射出来。在成像的过程中,镜头对成像距离起到了决定性的作用,镜头的结构将控制清晰成像的距离。

目前,投影机的短焦技术主要分为两种,第一种是我们前面所说,与数码相机类似的“鱼眼镜头”,这种投影机在市场上的应用较多,产品也比较丰富;另一种是球面镜反射式镜头,采用这种技术的投影机在市场上的数量较少,但因其可以在非常短的距离内就可以投射很大的画面,而被看成最具潜力的技术。对比这两项技术,究竟谁会是未来市场的主流呢?

投射距离谁更短

短焦投影机最重要的技术指标就要数投影距离了,我们也通常用投射比来形容。一台投影机投射画面的大小取决于投影镜头到屏幕的距离,因此投影距离与投射画面的宽度之比——投射比(D/W),就成了投影机的一个重要指标,比值越小说明同等投影距离内投射画面尺寸越大,反之则越小。

普通投影机的投射比通常在1.5-1.9之间,当投射比小于1时,这样的投影机我们可以称之为短焦投影机。当投射比小于0.6时,我们可以称之为超短焦投影机。采用鱼眼镜头的机型投射比通常在0.5-0.6之间,而球面反射式机型的投射比通常在0.28-0.3之间。在这项技术指标的对比中,采用球面反射技术的投影机则具有极强的优势。

从原理上来说,球面反射式镜头是投影机投射出来的画面,通过一个巨大的球面镜反射到屏幕上,从而形成一个完整的大画面。这项技术可以通过调节投影镜头与球面镜的距离,以及球面镜的大小,在理论上可以投射出无限大的画面。

尤其是丽讯最新推出的D795WT机型,机身前端可以与屏幕做到零距离,而远端距离屏幕也仅38厘米,可以说是接近短焦投影机投射距离的极限。前几年日立推出的HCP-A8/A6机型,机身最远端距离屏幕70厘米的距离,也可以投射90英寸的大画面。

而再看鱼眼镜头,就是采用了弧形的镜头,焦距越短,视角越大,因光学原理产生的变形也就越强烈。为了达到180度的超大视角,鱼眼镜头对景物的还原不得不作出牺牲,即允许这种变形(桶形畸变)的合理存在。其结果是除了画面中心的景物保持不变,其他本应水平或垂直的景物都发生了相应的变化。

明基最新推出的MP782ST可以在1米的距离投射95英寸,而爱普生的EB-410W投影机在1.03的距离内,就可以投射100英寸的画面。

在投影距离上,球面反射式投影机处于绝对优势,可以做到在零距离的情况下获得接近100英寸的大画面,而采用鱼眼镜头的机型,通过技术的不断进步,在1米左右的距离,也可以投射接近100英寸的大画面。但除了投影距离以外,短焦投影机的耐用性以及性价比也显得颇为重要。

各种环境下 谁适应性强?

看到前面的对比,可能很多朋友会问,既然是球面反射式技术完胜,为什么我们在市场见到的短焦投影机多数以鱼眼镜头为主呢?

这就是我们接下来要说的适应性。球面反射式投影机,有一个比较大的球面反射镜,每当投影机开机时,这个球面镜就会自动抬起。球面镜与投影镜头之间的角度是固定的,稍有改变就会严重影响画面。而在使用一段时间后,镜面很容易粘上灰尘,并且难以清理。同时,如果在公共场所使用,例如教室等公共环境下,这个脆弱的反射镜很容易被人为损坏。

再看鱼眼镜头,与普通的投影机相比,外观上的唯一不同点就是镜头突起,像一个鱼眼的样子。因此与球面反射式投影机相比,鱼眼短焦投影机更不容易被损坏,因此更适用于一些公共场所的使用。

从这点上来讲,鱼眼镜头在技术上的要求更低,被损坏的几率更小,因此目前市场上应用最多的还是这项技术。

结论:谁将是未来主流?

很多业内人士预言,未来的短焦投影机将应用于各个产品线。虽然目前还主要应用在商务和教育领域,但在家用、娱乐等领域的应用将有着很大的增长潜力。

鱼眼镜头投影机凭借其更好的适应性,可以满足商务、教育等需要放置在公共场所使用的需求,1米左右投射100英寸的画面,配合电子白板使用完全没有问题。

而球面反射式投影机,可以在零距离投射接近100英寸大画面,可以做到像电视机一样的使用,因此更适合个人和家庭使用。球面反射式投影机可以与电视机一样放在电视柜上,机身40厘米左右的长度,与电视机底座相当,而100英寸的画面,在性价比上要超出很多。

主流大数据技术 篇4

大数据在语言研究领域的典型表现形式是语料库。语料库是依据科学的抽样原则而选择的有限话语集, 既要以计算机可处理的形式储存, 又要具代表性, 并最大限度地反映研究对象的特点。近年来, 从语料库的视角进行国际主流媒体对涉华区域国际形象建构的研究已初具规模。然美中不足的是该领域研究总体上呈现重传播策略轻舆情监测, 重“自塑”形象轻“他塑”形象, 重宏观掌控轻数据分析, 重国家形象轻区域形象的现状-。鉴于此, 本研究以江苏为例, 基于大数据提取和分析方法, 以1980-2015年间国际主流媒体有关江苏的新闻标题为语料文本, 探讨国际主流报刊该区域的话语与形象建构, 揭示其背后的意识形态表达。

语料收集与样本描述

本研究采用自建英文报刊涉苏新闻标题语料库 (English Newspaper Corpus of Jinagsu-related Headlines, ENCJH) , 语料选自四个洲最具代表性的英语国家:英国、美国、澳大利亚和新加坡发行量和影响力均居榜首的全国性主流大报, 分别是英国的《卫报》、美国的《今日美国》和《基督教箴言报》 (一家报纸的涉苏报道数量低于平均数, 因此选取两家美国报刊) , 澳大利亚的《澳大利亚人报》, 新加坡的《海峡时报》。新闻样本来自两个数字报纸库:世界各国报纸全文库 (Access World News) 和新加坡国家图书馆的数字化报纸库 (Newspaper SG) 。语体包含硬新闻、软新闻、特别新闻、社论、专栏等, 新闻域涵盖经济、政治、社会等主类别和汽车、健康、科技等次类别。

ENCJH生语料库建好后, 通过德国斯图加特大学计算语言学研究所设计的Tree Tagger附码器对语料进行词性赋码, 然后借助Ant Conc3.4.1w对生语料及赋码语料进行索引、搭配、词表和关键词表等方面的检索。建成的ENCJH语料库中语料的刊载时距为1980-2015年。删除同一主题连续报道的新闻标题后, 新闻条数共674条, 其中型符数为9277, 类符数为2514。最终, 所选主流报刊的标题数分别是:《卫报》104条, 《今日美国》和《基督教箴言报》共117条, 《澳大利亚人报》248条, 《海峡时报》227条。

研究结果与分析

议程设置分析

新闻是根据社会构建的范畴集合而对事件和话题进行的系统性筛选。新闻标题的议程设置反映了该系统性筛选的结果, 也彰显话语权方关注的焦点以及对受众的引导策略。检索结果表明, 含有“jiangsu”的标题共有9条, 直接和间接的新闻报道之比为9:665。从文件视图来看, 这9条标题中2条来自英国《卫报》, 7条来自新加坡《海峡时报》。按主流媒体对江苏的关注度从高到低排序, 四个国家依次为:新加坡、英国、美国和澳大利亚。

新闻域分析表明, 直接报道江苏的国际主流英文媒体设置的议程多为经贸领域, 占总数的一半以上, 且仅出现在新加坡报纸。议程包括江苏与新加坡的纽带关系, 苏州工业园, 旅游与贸易合作, 贸易代表团的目标和地方企业发展。这表明, 江苏在新加坡主流媒体中的形象是中国的“经济发达省份”, 且在中国与新加坡的经贸关系中扮演着重要角色。另外, 新闻域设置还包括社会、政治和体育, 只是散见于英国《卫报》和新加坡《海峡时报》。其中, 仅有的两则社会话题1991年洪灾中的抢劫和2003年百姓选举不称职干部的改革均为负面和消极的主题。媒体通过对议程的筛选来影响受众对现实的解读。英国和新加坡主流报刊呈现出的江苏是一个犯罪率较高、动荡不安的地区, 这无疑说明两国媒体对江苏的新闻议程设定包含某种以偏概全的误解。在美国和澳大利亚媒体选择不关注江苏, 英国和新加坡媒体歪曲报道的国际舆情, 江苏的省区形象被勾画得弱小又有某种消极的意味。

实词频次分析表明, “China”、“Chinese”、“Beijing”的频数高达388, 这表明国际主流英文报刊的涉苏报道大多置于涉华议程设置之下。另外, 高频率词汇诸如市场 (market, 16词次) 、商业 (business, 13词次) 、企业 (firms, 13词次) 和经济 (economic, 12词次) 的词频总合为54, 高于任何一个除区域名词之外的实词, 揭示出经济发展与合作是国际涉苏舆论的中心议程, 这与显性涉苏新闻标题的词频分析结果一致, 也凸显国际主流媒体的报道较多关注中国对外经贸合作的重要省份。

意识形态分析

新闻报道已成为上层建筑领域中控制、操纵社会意识的得天独厚的一种意识形态, 人们没有理由、也无法回绝它的意识形态性质。Van Diik曾经指出, 意识形态不一定都是负面的。因此, 媒体话语的意识形态倾向分析需要从正面和负面两个维度进行。

首先, 从词汇层面分析国际主流媒体积极、正面的报道。对语料库中主题词频数的进一步观察显示, 与“江苏”密切相关的积极词语频率较高, 表明国际主流媒体对江苏的评价总体上是积极正面的, 他们认为江苏虽然在国际舞台上是新兴的 (global, 13词次;new, 23词次) , 却拥有巨大的市场潜力 (big, 14词次;market, 16词次) , 且处于上升之势 (rise, 12词次) 。正面报道主要集中在“走出去”战略、内需增大、经济繁荣、文化传播增多以及体育事业发展等方面。所选标题的报道时距跨越世纪前后的17年, 这与该省在“九五”至“十一五”期间的经济、外贸等方面“硬实力”的快速发展息息相关, 也表明区域经济实力的增强和开放政策的有效实施与国际媒体的关注度呈正相关关系。

此外, 新闻标题同样也暗含了程度不同的负面意识形态。语义分析表明, 隐性负面报道的新闻域多为政治、经济、社会等主类别, 议程包括灾难、盗墓、彩票、食品安全、性别歧视等次类别。刊载时距为1983-2014年。具体来看, 语料库中国际主流报刊对江苏关注最早的媒体当属美国的《基督教箴言报》, 该报在1983年以其主打的社论形式报道了中国的重男轻女思想以及由此带来的严重社会问题—杀害女婴。美国另外一家全国性报纸《今日美国》在2010和2014年分别报道了盗墓现象和昆山粉尘爆炸事件。值得注意的是, 对后者的报道以“通用供应商发生爆炸”为标题, 表明该报道是基于美国的利益, 同时吸引该国受众对此事的关注, 并在无形中给受众传递一种江苏合作方安全隐患大、合作效益可疑的信号。英国《卫报》的负面涉苏报道较早, 在2000和2009年分别聚焦江苏矿难和干部买官现象, 认为许多死亡矿工被隐于公众视线之外, 揭露官员行贿以操纵电话调查的现象。另外, 新加坡的《海峡星报》和澳大利亚的《澳大利亚人报》的负面涉苏议程设置集中在2007和2009年, 话题聚焦动物饲料, 盗窃案和中国经济。多个标题均含有负面词汇, 比如杀婴 (infanticide) 、爆炸 (explosion) 、贿赂 (bribes) 、有毒的 (toxic) 等, 误导受众认为中国及其区域省份社会动荡、经济下滑、缺乏公正、安全隐患巨大。

结语与思考

主流大数据技术 篇5

数据挖掘的过程实际就是对数据进行分析和处理,所以其基础就在于数据的分析方法。要想确保分析方法的科学性,就必须确保所采用算法的科学性和可靠性,获取数据潜在规律,并采取多元化的分析方法促进问题的解决和优化。以下就几种常见的数据分析教学方法做出简要的说明。一是归类法,主要是将没有指向和不确定且抽象的数据信息予以集中,并对集中后的数据实施分类整理和编辑处理,从而确保所形成的数据源具有特征一致、表现相同的特点,从而为加强对其的研究提供便利。所以这一分析方法能有效的满足各种数据信息处理。二是关联法,由于不同数据间存在的关联性较为隐蔽,采取人力往往难以找出其信息特征,所以需要预先结合信息关联的表现,对数据关联管理方案进行制定,从而完成基于某种目的的前提下对信息进行处理,所以其主要是在一些信息处理要求高和任务较为复杂的信息处理工作之中。三是特征法,由于数据资源的应用范围较广,所以需要对其特征进行挖掘。也就是采用某一种技术,将具有相同特征的数据进行集中。例如采用人工神经网络技术时,主要是对大批量复杂的数据分析,对非常复杂的模式进行抽取或者对其趋势进行分析。而采取遗传算法,则主要是对其他评估算法的适合度进行评估,并结合生物进化的原理,对信息数据的成长过程进行虚拟和假设,从而组建出半虚拟、半真实的信息资源。再如可视化技术则是为数据挖掘提供辅助,采取多种方式对数据的挖掘进行指导和表达[1]。

上一篇:生活形式下一篇:新华制药