大数据时代的数据观

2024-08-01

大数据时代的数据观(精选十篇)

大数据时代的数据观 篇1

1 大数据时代背景下新闻编辑工作现存问题

新闻编辑工作在社会持续进步的今天, 已经暴露出许多与社会需求不适应的情况, 造成新闻行业的发展受到严重影响。笔者根据新闻业的实际工作, 找出以下三个新闻编辑工作现存的问题。

1.1 落后性

新闻业中, 传统新闻编辑工作是发事件之后收集资料再编辑新闻。这就会造产生新闻时间同完成报道时间有较大时间差, 从而无法同传输新闻所要求的实时性相符。因此, 新闻编辑工作远远落后于新闻发生时间, 这不但对报道新闻的质量产生影响, 还无法满足受众群体所要的即时性新闻。

1.2 片面性

在一些新闻编辑工作中, 编辑工作者只是凭借着自身掌握的信息来认定新闻编辑工作, 缺乏全方位考量新闻的观念。这不但对新闻报道品质产生较大的负面影响, 同时还会使受众群体对新闻单位丧失信心, 造成新闻编辑工作驻足不前。之所以新闻编辑工作者会片面地理解新闻编辑, 主要是编辑工作者无法全面认识新闻工作特性和新闻专业。

1.3 陈旧性

各个领域伴随着大数据时代来临, 工作效率得到大幅提高。不过新闻编辑工作依然沿用陈旧、传统的工作方式, 工作效率依然原地踏步, 这与高效、时效特性的新闻编辑工作有很大出入。以往的新闻编辑形式不具有创新性, 新闻报道无法满足受众群体的需要。因此, 新闻编辑工作者应当发挥主观能动性, 实时革新老旧的新闻传输方式, 积极把与本时代相符的新闻传输、编辑方法探索出来。

2 在大数据时代背景下转变新闻编辑观的策略

新闻编辑想要在大数据时代环境下得到长足进步和发展, 就必须以大数据时代需求为据转变新闻编辑观, 即依靠大数据时代来实现新闻编辑观的转型, 切实提升新闻编辑工作效率, 达到工作效率和效益稳步提升的目的。

2.1 强化新闻编辑工作数据思维

在现代社会发展中不可或缺的一大因素就是数据, 领先的科技大部分都是依托于众多数据而研发成功的。详细来说, 就是新闻编辑工作者取缔老旧的新闻编辑模式, 运用大数据时代的特性, 与数据思维相融合, 找到新式新闻编辑工作模式。其中, 新闻编辑中呈现的数据发挥着最关键的作用, 最理想的方法是在有效分析和整合数据的前提下将编辑新闻的工作完成, 进而确保新闻报道的品质。新闻业自身就是搜集和归纳数据而完成处理新闻源的工作, 然后展开逻辑性的重组后传播新闻。因此一定的关联性和视觉化思维是新闻编辑工作者必须具备的能力, 另外, 还需要强化预测性思维。这是由于: (1) 新闻编辑工作者拥有视觉化思维可以利用新闻报道把形象、生动的新闻呈现在受众群体眼前; (2) 新闻编辑工作者拥有关联性思维可以重视探索事物间的内在关联性, 利用多维度思索完成编辑新闻的工作, 这可以在编辑新闻工作中全方位地描述新闻事件, 以防片面性的状况产生; (3) 预测性是在掌控数据之后展开相应的预测, 只限制在思想预测的范畴内, 不可以在报道中呈现。

2.2 确保新闻内容价值的实现

新闻业始终秉承内容为王的原则, 这就说明新闻业中要为受众群体提供充足内容的新闻报道, 才可以确保新闻单位的受众数量越来越多。内容为王并非仅仅要求新闻工作者将庞大的新闻量提供给受众者满足他们的新闻需要, 还应当保证提供的新闻内容有较强的吸引力, 能够确保受众十分喜爱新闻报道中的内容, 并引发浓郁的兴趣。在大数据时代背景下, 庞大的信息量将人们的生活填满, 不过这些信息很难引发人们的兴趣。因此, 新闻工作者应当将传统收集新闻的方式加以改进, 通过收集整理引发人们兴趣的内容, 来扩大市场占有额。

3 结语

各个行业在大数据时代环境下, 都十分重视搜集、整合信息环节。并且各企业为了在竞争中占有利地位, 都力争探究在大量信息中筛选出符合自己要求信息的方法。因此, 新闻工作者应当摒弃以往的传统新闻编辑观, 树立新式的以受众群体为导向的新闻编辑观, 才能够在新闻界站稳脚, 并稳步提升自己的能力, 使新闻单位获取更好的效益。

摘要:大部分行业在大数据时代背景下都受到猛烈的冲击。就新闻编辑来说, 传统新闻编辑观已经无法与大数据时代相适应。本文首先阐述了新闻编辑工作中现存的落后性、片面性和陈旧性这三大问题, 然后提出了强化新闻编辑数据思维、确保工作效率提升、确保新闻内容的实现这三种改变新闻编辑观的方法, 希望能够为广大新闻界人士提供帮助。

关键词:新闻编辑观,大数据时代,数据思维

参考文献

大数据时代的“数据解读” 篇2

一、经济数据的知识性解读 所谓知识性解读,指的是教师在教学时,能够从纵横两个视角引导学生对《经济生活》中的数据进行解读,让学生获取相关的经济学知识,以达成思想政治课的知识目标。1.基于纵向视角的知识性解读。从纵向视角对经济数据进行知识性解读,强调的是对一定的经济数据进行历史性考察,并据此解读出相应的经济学知识。如对教科书第10页“2010年4月8日人民币对美元的汇率中间价为682.59,2013年4月8日人民币对美元的汇率中间价为626.5”这一数据,我们的历史性考察分两步:首先是选择四个典型的历史时期来考察汇率情况。一是1953年到1972年,国家实行计划经济,实行严格管制和固定不变的汇率政策,使人民币对美元的汇率基准价长期稳定在246.1上。二是1981年至1993年,国家实行对外开放,发展社会主义市场经济,为扶持出口,增加外汇收入,人民币对美元的汇率基准价控制在149和195.8之间。其中1985年至1993年国家为平衡国际收支,实行官方牌价与外汇调剂价格并存的政策,使人民币对美元的汇率基准价由293.6逐渐上升到576.2。三是1994年至2005年,为进一步完善发展社会主义市场经济体制,国家逐步形成了以市场供求为基础的、单一的、有管理的浮动汇率制。人民币对美元的汇率基准价保持在835与819间浮动。四是2005年7月21日起至今,实行以市场供求为基础的、参考一蓝子货币进行调节、有管理的浮动汇率制度。人民币对美元的汇率基准价水平由797上升到619,并呈稳中有升的特点。其次,在上述四个时期考察的基础上,我们可引导学生解读出这样一些基本的经济学知识:一是我国的汇率政策是为适应并促进不同时期经济社会发展的需要而制定的,期间经历一个由严格管制向市场逐渐过渡的历史过程,并呈日趋市场化开放化的发展趋势。二是汇率是以另一国货币来表示的本国货币的价格,其高低最终由外汇市场决定,但同时也会受到国家政策等因素的影响;三是一国汇率数据的变动会对该国经济发展和居民生活带来一定的影响。我国人民币汇率总体呈上升趋势,这对我国经济发展和人民生活既有利也有弊,需要我国防范汇率风险等。2.基于横向视角的知识性解读。从横向视角对经济数据进行知识性解读,强调的是对经济数据横向间的各类关系进行分析,并解读出其中所蕴涵的经济学知识。如对教材第66页“财政收入”这一数据,我们的知识性解读也分两步进行:首先将教材上“2012年财政收入”来源项目细化,并选择典型项目进行横向分析。一是分析财政收入、税收收入、非税收收入的数量及关系:2012年财政收入117210亿元(不含债务收入),税收收入100601亿元,非税收收入16639.24亿元,分别占全部财政收入的85.83%和14.20%。二是分析税收中几个主要税种的数量及关系:国内增值税26415.5亿元、国内消费税7875.58亿元、营业税15747.64亿元、企业所得税19654亿元、个人所得税5820.28亿元、关税103.5亿元等,其中国内增值税已成为我国目前税收的主要来源,企业所得税次之,营业税居第三,然后是国内消费税和个人所得税,关税数量较少。三是分析非税收收入中主要项目数量及关系:行政事业性收费4579.54亿元、国有企业利润1154.02亿元、罚没1559.81亿元等,其中行政事业性收费最多位居第一,而国有企业上交利润相对比较少,低于各类罚没收入。四是几类主要国有企业利润数量及关系:烟草企业252.64亿元、石油化工企业308.45、电力企业76.74亿元、煤炭企业106.54亿元、电信企业106.90亿元、电子企业1.65亿元、金融企业0.33亿元、转制科研企业1.88亿元等,其中石油化工、煤炭、电力等资源类国有企业利润占总利润的42.61%,而科技为主的国有企业利润只占总利润的9.5%。其次在上述分析的基础上,我们可引导学生解读出这样一些基本经济学知识:一是税收是依法取得财政收入的基本形式,是财政收入的主要来源。二是增值税、营业税、企业所得税等是国家收入的主要来源,但也直接影响企业的生存和发展。当前的税收改革特别是“营改增”,对国家税收总量及企业发展与竞争力影响甚大。三是非税收收入中行政事业性收费太多,而国有企业上交利润偏低,与国有经济的性质、地位及作用不匹配。四是国有企业利润结构不合理,其中资源类国有企业的利润占利润总量过高而科技类国有企业利润偏低,这表明我国仍需要大力推进经济发展方式的转型升级。

二、经济数据的能力性解读 所谓能力性解读,指的是教师在教学时,能够引导学生运用比较、综合两种方法对《经济生活》中的经济数据进行解读,提升学生分析数据和概括数据的能力,以达成思想政治课的能力目标。1.基于比较方法的能力性解读。运用比较方法对经济数据进行能力性解读,强调的是对不同的经济数据,依据一定的标准进行相应的比较,以培养和提升学生分析数据的能力。如对教材第82页虚线框中的“农村居民人均纯收入”和“城镇居民人均可支配收入”数据的能力性解读,可分下述两种情况:首先,对同一经济主体在不同时间点上的数据进行纵向比较性解读,以培养学生纵向分析数据的能力。如可将教材82页上“农村居民”和“城镇居民”两类经济主体的经济数据,分别补充上2013年和2014年的最新数据,形成下述比较表格: 依据上述表格数据,引导学生分别分析从2009年至2014年农村居民人均纯收入和城镇居民人均可支配收入数据变动的特点:城乡居民人均收入逐年增加,但农村居民收入增长速度快于城镇等。其次,对同一时间点上不同经济主体的数据进行横向比较性解读,以培养学生横向分析数据的能力。我们同样可依据上述表格,引导学生分析我国在2009年至2014年期间,每年农村居民和城镇居民人均收入数据的差异情形:城镇居民收入高于农村居民,绝对差距数据在拉大等。2.基于综合方法的能力性解读。运用综合方法对经济数据进行解读,强调的是在一定的范围内对不同经济主体的经济数据进行相应的综合,以培养学生的数据概括能力。一般我们可选择两种主要范围展开综合性解读:首先就同一教学单元中的经济数据进行综合性解读,以培养学生从单元经济数据中概括出相应结论的能力。如对第二单元“生产、劳动与经营”中的主要数据,我们按照因果联系的逻辑原则,将“我国主要产品产量居世界位次”、“城乡居民储蓄存款余额”、“储蓄存款利息和股票价格”、“投资理财的分配数额”、“保险理赔数额”等数据进行综合,形成下述数据体系:依据上述体系,引导学生对①②③④四组原因结果关系进行概括,可得到这样的结论:随着我国我国经济不断发展、经济实力不断增强,居民储蓄余额不断增加,同时由于国家经济的发展和居民储蓄余额的增加,会引起居民投资理财途径的多样,而这会进一步提高了居民的储蓄余额和国家经济的发展,由此在居民投资与国家经济发展间形成了相互促进的良性互动。总之,一国经济的发展与投资间存在着密切的关系,需要我们正确地处理。其次对教材中不同单元中经济数据进行综合性解读,以培养学生从不同单元经济数据中概括出相应结论的能力。如对第二单元“生产、劳动与经营”和第三单元“收入与分配”中的众多数据,我们同样可依照因果联系的逻辑原则,进行综合,形成下述综合体系: 依据上述体系,引导学生对①②③④⑤⑥六组原因结果关系进行概括,可得到这样的结论:第一,随着我国经济的发展,不仅带来居民投资增多和日趋多样,而且还促使国家财政收入、企业收入和居民收入不断提升及财政支出数量的增加。第二,我国居民投资和财政投资的增加,必然促进我国经济的发展。第三,国家财政收入的增加、企业利润、居民收入的不断提升,也必将推动我国经济的发展。第四,在国家财富一定情况下,投资的增加会引起收入的减少,而收入的增加会引起投资的减少,两者存在此消彼长的关系。第五,国家、企业和个人之间收入分配结构的变化会影响国家经济的发展,同样国家投资结构和居民投资变动也会影响国家经济的发展。总之,一国经济的发展既需要投资的作用,也需要消费的作用,因此必须协调好投资与消费的关系,实现经济的转型与持续发展。

大数据时代的数据观 篇3

要解决好这一问题,首先要反思现有监控过程的数据处理的“抽样”观,即如何以大数据时代观将“抽样”式的思考转变为“全局”数据的思考。

教育质量监控的涵义与现状

(一)教育质量监控的涵义

教育教学质量监控就是特定的组织机构,在教育教学质量评价的基础上,按照预先确定的程序,对影响教学质量的诸要素和教学过程的各个环节进行评估、调控,达到提高区域或学校教育教学质量的过程。

从监控工作的流程来看,评估是质量监控必经的关键,而调控是实现监控功能的重要环节。调控一般依赖反馈的信息。

教育评估是根据一定的目的和标准,采用科学的态度和方法,对教育工作中的活动、人员、管理和条件的状态与绩效,进行质和量的价值判断。

中小学教育教学质量监控具有“全要素”“全过程”“全员性”“全方位”等四大特点。(见田芳《浅谈中小学教学质量监控体系的构建》.当代教育论坛.2010.5)

“全要素”是指监控人才培养方案、教学计划、教学设施或教师、管理人员的工作质量、学生的学习质量等所有因素。“全过程”是指对教育教学进行全程监控,有多个不同角度,教学过程方面,一般指从教学计划、教学实施到考核等不同阶段;从学生的入学、学习直到最后毕业考核的全过程;含学期前、中、末,或课前、课中和课后等。“全员性”是指监控学校的教职员工和全体学生的工作或学习质量。“全方位”是指监控既包括对教学过程与教学效果,也包括在科学监测的基础上,对获取反馈信息的分析,对教学过程实施有效控制的过程。

上述四大特点是教育质量监控的理想。然而目前不论是教育质量监控还是监控中的评估手段,离实现四大特点还有很大差距。

从教育质量监控体系上来看,它与以下五个子系统密切相关:(见张忠玉、叶宏光《本科教学质量:从监控到决策支持》.曲靖师范学院学报.2008.5)

教育质量管理理念。它包括现代教育质量信念、教学质量方针和目标,是整个监控系统的出发点和归宿。

组织机构是组织和实施监控的主体。是一个纵横交错、相互作用、相互制约的监控机构网。

资源状况分析。规划与实施教学活动所需的各种资源都应纳入到监控体系中,主要包括人力资源管理、基本设施建设与管理、经费管理等。

教育教学过程分析。教学质量的过程主要包括教学准备与设计、课堂教学过程、课程考试、实践教学等。

质量评价分析。质量评价分析是根据一定的评价标准,对学生的发展变化的主要因素进行分析评估。通过教学质量评价,以评促建、以评促改,确保教学质量的良性发展。

这五个子系统是监控系统必须关注的重心。

(二)目前教育质量监控存在的问题和难点

教育质量监控未能很好地体现前述四大特点,必然导致质量监控出现若干问题:

教育质量监控指标体系还普遍存在科学性、操作性不强的问题。现有的教育质量监控指标体系,以及各种教学评价表,大多存在诸如指标不够全面而且操作性不强等问题,一般性的、笼统的、宏观的指标太多,而刻画这些内容的数据少,导致过于僵化,重静态轻动态。

监控时机及周期选择还存在许多盲区。从基础教育的实际教育情况来看,由于目前的方式方法问题,我们无法做到对教育过程进行即时评估,因而只能有选择地在部分时间段对其进行监控。

质量监控过程中评估结论时效性弱,汇总和反馈往往需要一段时间,最后终流于形式。

对学生的课堂学习质量监控乏力。课堂教学是教育质量监控的基本单位,教师的“教”和学生的“学”是相辅相成、紧密联系的,课堂教学质量的监控体系应该建立在这两个基础之上。但是其抽样点过于随意而产生许多盲区,导致对课堂教学监控乏力。

上述若干问题引起了“两费两差一不足”(即费时、费力,信度差、指导性差,宏观决策作用不足)的现象:

1. 现有的评估工作中受评单位为准备好评估材料,往往在评估开展之前就花很长时间准备材料。2. 评估机构为保证评估工作的权威性和公正性往往要花费很多人力和物力来投入此项工作。3. 由于评估时间和人力的限制,需要进行抽样式监控,导致管中窥豹、评估信度差。4. 由于评估时间的限制,无法观察到较完整的教育过程,所做建议也往往缺乏指导性。5. 分单位之间的评估工作,在尺度上会因人而异,导致不同单位的评估结论可比性差,综述性不强,对区域宏观决策的作用不足。

产生这些问题的因素是多方面的,但是其关键性原因是监控内在观念性有以下缺陷:

观念性缺陷一,重横向比较,轻纵向发展关注。把质量监控仅仅看作是总结性的、甄别性的,就难以完整实现促进教育改革、质量稳步提高的目标。主要是因监控信息多来源于评估材料定性的分析,导致对差异后面发展原因定量式分析不足,最终得到的结果是,调控的粗暴——用“甄别”实现调控。

观念性缺陷二,重检查抽查信息,轻日常过程信息。囿于检查抽查自身的问题,在实际监控过程中,基本上以文字性的纸质材料为主,做一些定性的分析,无视原生数据可能提供的监控信息。这种方式导致被评估体为提供评估材料往往需要人为准备材料,使得评估工作流于教育教学过程之外,作弊的事情也时有发生。

观念性缺陷三,重上报数据,轻日常数据。

因此克服上述观念性的缺陷是解决监控工作的科学性和操作性不强、盲区多、时效性弱、课堂监控乏力等问题的关键。

笔者认为,上述三大观念性的缺陷是监控过程中的“评估”过度依赖“抽样”而造成的缺陷。因此要克服这些缺陷,首先要反思现有的监控过程的数据处理的“抽样”观,即如何以大数据时代观,将“抽样”式的思考转变为“全局”数据的思考。

我们可以想象,当我们的评估依据不过于依赖“抽样”,而是从上述评估流程的角度来设计评估工作,重视以平时学校现有数据为主,利用教育领域已有的各校、各区域管理系统所存储的海量数据,并将数据转变为对教育教学工作有帮助的“监控的信息”和教育内部“自我调节的知识”,才能很好地实现教育质量监控的四大特点,发挥教育过程数据的价值,使数据成为审慎决策、过程优化的重要依据。

(未完,下期待续)

(作者单位:广东省教育研究院)

大数据时代的数据观 篇4

所谓大数据, 指的是无法在可承受的时间范围内, 用常规的软件工具进行捕捉、管理和处理的数据的集合。它的概念意义比实际操作性的意义要大, 但是, 它却给新闻媒体的传播带来额深远的影响, “数据驱动新闻”这一影响受到群众的广泛认可, 因为有了数据的存在, 所以新闻也会随之增多, 各个方面的能力也在不断的提高, 由此, 大数据时代可能会使新闻编辑观发生巨大的变化, 下面我们来探讨一下大数据时代新闻编辑观的转型思路。

2. 大数据时代新闻编辑转型的必要性和不足之处

2.1 新闻编辑观转型的必要性。随着社会的飞速发展, 传统的一些新闻报道思路已不能满足人们的需求, 更加注重于快餐类的新闻, 因此, 新闻业若想得到群众的认可, 及需要利用一些大数据来进行分析和未来预测, 以吸引人们的眼球, 这样, 才能提高用户的效率, 深受群众的喜爱。

2.2 新闻编辑的不足。大数据时代的新闻编辑工作仍然存在着许多的不足之处, 首先是新闻编辑的滞后性, 新闻报道总是在事件发生之后才会进行播报, 不能够满足人们对于新闻时效和即时性的需求。二是编辑方式太过于死板, 总是沿用传统的新闻模式, 群众看后会觉得疲惫。三是缺新闻的编辑缺乏科学性和安全性的需求。

3. 大数据时代新闻编辑观的转型思路初探

针对以上提出的问题, 我们提出了以下几点建议:

3.1 加强大数据的思维模式。在大数据时代的今天, 新闻编辑工作者首先应当具备的就是大数据的思维, 摒弃那些传统的编辑方式, 把数据分析放在首位, 真真正正的从心理和思想上适应大时代的特点, 在编辑的时候更要重视的是对于数据的分析和整理, 充分理解大数据时代的意义。

3.2 最大程度的减缓新闻滞后性的问题。新闻编辑的工作人员一定要紧跟时代的步伐, 从具体的编辑方式上进行转变, 将大数据运用到实际的编辑工作当中, 通过互联网和一些移动平台与新闻报道的配合, 将文字和图像一起呈献给观众和听众, 以满足他们对于新时代信息的需求。此外, 为了使新闻更具即时性和现场性, 还需要记者朋友以及录像工作者的积极配合, 将他们在现场拍到和看到的信息即时的传递给新闻工作者, 即时的进行编辑与播报, 这可以减缓新闻滞后性的问题。

3.3 从数据分析和应用方面提高。新闻工作者应该不断的学习和创新, 这是新闻编辑部门对于新闻工作者最基本的要求, 因为大数据的时代需要工作人员具备对于大数据的分析和研究的能力, 需要新闻编辑工作人员利用自己的创新能力来编辑出迎合广大听众口味的新闻内容, 并对未来的新闻走向做一个具体的研究和预测, 提高人们对于新闻报道的兴趣。

3.4 把编辑的内容放在首位。新闻报道最重要的就是内容, 这也是新闻编辑的工作原则, 在任何年代, 新闻的内容便是新闻界在社会中的地位和价值的象征, 在大数据时代也是一样, 对于复杂多变的新闻内容, 新闻编辑工作者需要结合大数据将主要内容进行编辑和创新, 保证做到内容真实, 不夸大事实、不捏造虚假, 将新闻的内容在保证质量和价值的前提下准确的编辑出来。

此外, 在编辑的过程当中, 工作人员还应当注意一些编辑技巧, 将一些引人注目的关键词突出出来, 以便于人们能够很好的捕捉到新闻的关键内容, 其次, 要看标题是否对仗, 新闻点是否突出等。

3.5 提高编辑工作者的工作能力。新闻编辑的管理部门, 应当聘请专业人员定期对编辑工作者进行培训, 给他们讲解一些重要内容, 拓展他们的思维, 激发他们的灵感, 提醒他们要注重更新知识的结构, 给他们出一些题目, 让他们来进行编辑, 让他们深刻的意识到只有深入人民的生活、贴近人民的生活、不断的积累知识、不断的更新自己的知识结构和提高自己的编辑、应对能力, 才能做一名合格的编辑工作者。

3.6 丰富新闻的表达方式。科学技术的飞速发展, 使得大数据时代一些新颖的符号和表达方式不断的涌现, 比如一些Flash动画和动态文字等等, 吸引了观众的眼球, 因此, 新闻编辑工作者要利用这一点对新闻的内容进行丰富, 比如增加新闻的互动环节, 让群众通过微博、微信或短信的方式参与进来, 从而提升新闻的影响力。此外, 新闻编辑工作者还应当充分的利用线条, 制作出一些有画面感和让人耳目一新的标题等等。

综上所述, 在大数据时代的背景之下, 新闻编辑工作者应当不断的学习, 不断的丰富自己, 在不断创新的基础之上, 做到与时俱进、共同发展, 也只有这样, 才能够展示出新闻的魅力所在, 才能够为群众提供更为优质的服务, 使的新闻业在大数据时代下, 坚持走上一条可持续发展的道路。

结语

新闻媒体是人们获得信息最有效、最便捷的途径, 但是, 传统的新闻播报模式使广大群众的视觉和听觉疲惫, 没有新颖。因此, 在大数据时代的背景之下, 编辑工作人员的编辑工作才是新闻界的重中之重, 编辑人员应当充分的利用大数据资源和传统的播报模式, 创新出一条新的编辑思路和技巧, 在坚持可持续发展的基础上, 着重培养自身的文化素养, 把头脑中的信息的及时更新, 在大数据时代下, 进行新闻编辑观的彻底转型, 才能够给广大群众带来耳目一新的新闻报道, 满足他们对于新闻信息个性化的需求。

参考文献

[1]胡泽国, 秦嵩宁, 韩燕丽.大数据时代新闻学术期刊的挑战与机遇.第十二届 (2014) 全国核心期刊与期刊国际化、网络化研讨会, 2014.

大数据时代的大数据管理研究论文 篇5

2。2 开发与内容的管理形式

在不断提高大数据时代的大数据管理形式的过程中,可以从两个方面进行,一是大数据开发管理,二是内容管理。其中大数据开发管理注重于大数据管理的定义,和管理解决策略,对其大数据的存在价值,进行有效的开发。换句话说,其实也就是在大数据时代的大数据管理的过程中,对其管理形式的开发,对大数据的功能和价值,进行充分的理解。

大数据时代的大数据管理中的内容管理是指:企业对大数据进行不断的获取、使用、存储、维护等工作活动。因此,传统的大数据时代的大数据管理形式,已经无法满足对这个时代发展需求。因此,在时代快速发发展的推动下,要对开发管理和内容管理,进行全面的创新和设计,对需要专门设定的管理形式,要给予高度的重视,可以利用的集合型的保存形式,进行全面的保存。

其实,大数据时代的大数据管理主要是为企业提供重要的发展方向,为企业提供重要的价值信息。大数据时代的大数据管理在数据应用和开发的过程中,起到了重要的衔接作用,也为我国信息技术的发展,打下了坚实的基础。

2。3 对大数据架构进行全面的管理

在大数据时代的大数据管理的过程中,数据框架管理起到了重要的作用,并且与大数据开发的过程中,有很多相似的地方。在传统的大数据时代的大数据管理的过程中,对其数据的开发、处理、保存等形式,都受到了一定程度上的限制。因此,在对大数据时代的大数据架构管理的过程中,对其操作形式,进行了全面的管理创新,避免受到范围的限制。另外,随着大数据不断的增加,大数据构架管理可以根据大数据的用途,质量良好的应用形态。例如:社交网络等形式。

与此同时,在最近几年的发展中,大数据时代的大数据管理形式,也面临着新的挑战基机遇。以此,只有对大数据时代的大数据管理形式,对个人信息、隐私等进行全面的管理,避免个人信息、隐私等发生泄露、不对称等现象的发生,这样不仅仅企业在发展的过程中,提供了最大程度上的安全保障,也为大数据时代的发展,带来了新的发展篇章。

3 结语

大数据时代的数据观 篇6

2.1 大数据数据库的特点

传统的关系数据库,从其创立至现在,长期占据数据库的绝对统治地位。但是,数据挖掘、商业智能和可视化技术的发展,特别是它们处理非结构化数据的能力,动摇了传统数据库的牢固地位。于是善于处理非结构化数据的种种数据库工具大量产生,这其中必须优先提及的便是NoSQL(意为Not Only SQL)及NewSQL(意为New SQL)两大数据库阵营。

现在随着大数据时代的到来,由Carlo Strozzi开创的NoSQL以其技术上的先进性、方便性得到了越来越多的认可。NoSQL改变了数据的定义范围,其“数据类型”可以是文本、图片、影像、网页,也可以是整个文件;NoSQL数据库是非关系式的、数据间的关系更加复杂、多样,类型和相互关系具有多种扩展可能、存储方式也多采用分布式结构。经过十多年的发展,NoSQL取得了成功,采用NoSQL技术的产品也不断增长,目前NoSQL网站上(NoSQL-database.org)已经收集了150余个相关产品,人们也把采用类似NoSQL结构和原理的数据库统称为NoSQL数据库。

最初NoSQL有意排斥关系数据库的ACID规则和SQL特性(后发现其弱点又在一定程度和一定范围内支持数据的一致性要求和SQL特性)。NoSQL坚持分布式领域的CAP理论,CAP的含义为:

Consistency,一致性。数据一致更新,所有节点访问同一份最新的数据副本;

Availability,可用性。对数据更新具备高可用性;

Partition tolerance,分区容错性。能容忍网络分区。

CAP理论主张任何基于网络的数据共享系统,都最多只能拥有以下三条中的两条。而这种“三取二”的法则以及具体理解与执行的争论就一直存在。想同时满足三者,或者过分强化割舍三者之间联系均会破坏数据系统的效率和效果。32岁便获得加州大学伯克利分校终身教授的Eric Brewer提出了BASE理论(Basically Available, Soft state, Eventually consistent;基本可用、软状态、最终一致性),它用一种更注重可用性、更便于理解的方式解释分布式系统的特点。

NewSQL注意到关系数据库的灵活性不足、数据库互锁机制效率低下的特点,同时也意识到NoSQL不支持SQL所带来的不便,它采用了一种近似折中的方案,既支持SQL并保证一定程度的数据一致性,同时也提供NoSQL数据库的非关系数据处理的扩展功能,因而从产生之初便受到业界的喜爱,相关产品不断涌现。NoSQL和NewSQL常见产品及其分类情况如图所示。

2.2 NoSQL及其发展趋势

在NoSQL潮流中,最重要的莫过于Apache基金会的Hadoop。它是一个领导者,是一个典型的分布式文件系统,是一个开源系统。用户可以在不了解分布式底层细节的情况下,借助Hadoop开发分布式程序,它取得了成功,成为分布式数据处理界的巨兽(Hadoop的Logo就是只大象)。 现在甚至出来了“无分布不Hadoop”——每个传统的数据库提供商都急切地声明支持Hadoop。关系数据库的传统霸主Oracle公司也将Hadoop集成到自己的NoSQL数据库中,Microsoft、Sybase、IBM也加入了收纳Hadoop功能的竞赛中。

第二位领导者,MongoDB,是一个成功的文档处理型数据库系统,它被称为“非关系式数据库中最像关系式数据库的产品”。MongoDB查询功能强大,特别适合高性能的Web数据处理。

Cassandra是这个领域中的一个另类产品,它兼有键值数据库和列值数据库两者的长处,它的查询功能很优秀。虽然运行Cassandra集群难度较高,但它升级后的分析能力使得很多人感到惊讶。

Redis也是相当好的一个产品。对故障恢复的良好支持以及使用Lua的服务器端脚本语言是明显区别于其他软件之处。使用Lua确实带来了一些震动,因为更多的人喜欢和习惯JavaScript服务器端语言。但是,Lua是一个整洁的语言,它并为Redis开启了潘多拉盒子。

CouchBase在可扩展性和其他潜在因素,使其看起来是一个很好的选择,尽管Facebook以及Zynga面临着关键开发者离开的风波。CouchDB会变得更好抑或相反?只要数据库做得好受众就会欢迎,现在看来,它确实做的很好。

还需要提及的是Riak,在功能性和监控方面它也有了巨大的提升。在稳定性方面,它继续得到大家的赞美:“像巨石一般稳定、可靠且不显眼……”。Riak 数据模块化方面做得很有特色。

在图中,涉及了多个维度:关系型的与非关系型的、分析型的或操作型的、NoSQL类型与NewSQL类型的。最后的两个分类中,对于NoSQL有著名的子分类“键值类数据库、文档数据库、图存数据库和列存数据库。对于NewSQL本已建立“存储引擎、簇享数据、云服务”等类别。

最初,NoSQL破坏并引以为荣的特点是它不满足ACID(原子性、一致性、隔离性和持久性),这是它的优点,也是其问题所在。据美国Forrester的统计数据,在企业中的业务数据将有25%是结构化数据。无论是传统企业,还是引领技术潮流的大型网络公司,其数据库体系中都不可避免的共存着传统的结构化数据(如用户的标准信息,数据库元数据信息等),也存在着图片、视频、文档或网页等非结构化数据,所以关系数据库与NoSQL数据库并存将是数据库技术发展的基本面。另一方面,关系数据库、NoSQL和NewSQL都充分认识到了对方的长处和客户需求,每一个新数据处理技术都在“拼命地集成”其他范围数据库中的特性。NewSQL系统实现NoSQL的核心特性,而NoSQL越来越多地试图实现“传统”数据库的功能如支持SQL或在一定范围内“有保留地支持ACID,至少是可配置的持久化机制”。

大数据时代的数据观 篇7

1 大数据与动漫剧本创作

大数据的影响极为广泛, 上至制定国家的政策, 下至企业决策和个人的衣食住行, 都受到了它的影响。对我国动漫产业而言, 大数据或许可以帮助解决目前产能巨大, 精品匮乏的现状。相比于日本和美国的动漫产品, 我国动漫产品缺乏精彩又吸引人的故事。动漫产业是文化产业的门类之一, 挖掘其产品的内容价值是重中之重。而内容价值来源于动漫产业的剧本, 优秀的剧本是讲述精彩故事的关键, 只有精彩的故事才能得到观众的认可, 从而为后续产业链条的开发和产业规模化创造条件。以吉卜力工作室为例, 仅2001年的《千与千寻》这一部影片, 就收获约22亿人民币的票房, 而且获得了第75届奥斯卡最佳动画长片奖。《时代》杂志这样评价宫崎骏:“在一个高科技的时代, 这位动画电影导演用老方法创造出不可思议的作品。”这里的老方法, 指宫崎骏在拍摄动画电影时对精彩故事的追求, 可见优秀剧本对动漫的重要性。

在大数据时代, 我们可以通过找出各种数据之间的联系, 满足日常需要。如时下热门的预测分析法, “这可以指一个能发现可能的流行歌曲的算法系统——音乐界广泛采用这种方法来确保它们看好的歌曲真的会流行”。同理, 动漫剧本创作者, 可以通过各种新数据获取观众的口味、需求偏向和流行文化的趋势, 进而创作出精彩而吸引人的故事。据统计, 2011年, 中国网民数量达到4.85亿;2011上半年, 微博用户达到1.95亿, 半年增幅209%, 互联网的普及, 极大地增加了数据量, 而随着网络的发展和数据化进程的不断加剧, 人们的情绪和方位等等内容都可以量化了。在搜索引擎输入关键词;微博、微信等社交软件上的赞、转发和评论都作为数据存储在服务器中, 都可作为大数据分析的原料。近年来, 各地陆续出台云计算发展规划, 又为处理大数据提供了有利的工具。随着技术的不断成熟, 涉足大数据分析的企业日益增多, 大数据分析的门槛将逐步降低, 用大数据算出动漫剧本在一些实力较强的文化企业或在联合制片的模式, 将具有可行性。

2 利用大数据创作动漫剧本的利与弊

任何事物都有其两面性, 利用大数据算出来的动漫剧本有利也有弊。

2.1 利用大数据创作动漫剧本的优势

2.1.1 利用大数据优势, 准确抓住时下受众需求

文化需求受价格、可支配收入和余暇时间的影响, 但他们绝不是简单的线性关系, 文化需求还受文化、经济、政治、地理、宗教等因素影响, 加之在这个碎片化的年代里, 消费者的文化需求更难捉摸。但通过对某一群体或现象的大数据分析, 创作者可以快速而准确地获悉消费者的需求, 从而在剧本创作中加入相应元素以迎合消费者口味。

2.1.2 适应当下动漫产业的激烈竞争

当下, 国产动漫产业产能巨大, 而精品匮乏, 谁能快速地制作出品质精良、受广大消费者欢迎的作品, 将率先抢占市场, 获得极大的竞争优势。这种作品需要一个动人的故事, 但是优秀的创作型人才不是短期可以培养出来的, 文化企业可以利用这种“算出来的剧本”, 在激烈的竞争中积攒实力, 树立口碑, 打造品牌, 同时积累和培养人才。一部动画作品的成功, 不是单靠剧本就行的, 同时需要创作者各方面的努力, 但相较宣传、营销等其他条件, 产品本身的内容起决定作用。以《喜羊羊与灰太狼》系列动画电影为例, 抛开它本身的影响力不提, 从2009年《牛气冲天》到2014年《飞马奇遇记》故事的设定, 都贴合了新年的生肖, 深得贺岁档观众的喜爱。同时, 这种剧本更符合中国消费者的文化需求, 更接地气。横扫欧美荧幕的《冰雪奇缘》, 在中国叫好但并不叫座, 相较全球11.12亿美元的傲人成绩, 大陆2.99亿人民币的票房收入实在有点少, “西南大学传媒学院副院长虞吉表示, 《冰雪奇缘》作为一部舶来片, 因为文化的差异, 没有对上观众的胃口, 票房遇冷并不奇怪。这就如同《泰囧》在内地狂收13亿票房, 在台湾、北美的票房却惨不忍睹一样。”或许, 基于中国消费者文化需求的大数据分析, 会赋予国产动漫文化特性上的竞争优势, 同时, 赋予动漫作品更鲜明、更强烈的中国文化的元素。

2利用大数据创作动漫剧本带来的弊端

2.1不利于创作水平的提升

用大数据算出来的剧本, 很可能让创作者在相关关系分析和因果关系分析的天枰中失衡, 出现过度倚重相关关系分析, 而忽视因果关系分析的情况, 其后果就是剧本在创造性及创新性方面举步不前, 甚至后退。相关关系分析往往快速而有效, 但是因果关系分析是人类普世的认知方式, “是什么”这个问题, 激励着我们更好地理解我们的世界, 从而取得进步。如果一名编剧长期靠讨好消费者的需求而创作剧本, 过分依赖数据进行“讨巧”创作, 那么终将被观众所厌烦, 这对我国动漫产业的发展也是不利的。

2.2 严重的信息安全隐患

大数据时代带来了比以往都严重的安全隐患。数据分析者掌握着我们的消费、上网、出行等数据, 这些分析者本身无意泄露这些数据, 但是互联网中存在各类黑客, 他们以盗卖个人信息获利。只要黑客们得手一次, 获取的信息量将是巨大的, 2014年10月3号, 摩根大通表示公司电脑系统最近发生数据泄露。此次数据泄露将影响7 600万家庭和700万小企业。如果用于计算动漫剧本的数据遭到泄露, 我们的各种信息很可能被非法利用, 轻则整日受推销电话骚扰, 重则蒙受重大财产损失。在大数据时代, 我们无法避免个人数据被他人持有, 但要想保护个人隐私, 我们应该有追究数据使用者责任的权利。这不仅需要政府作为, 还需要数据分析行业和动漫产业的自律。

3 结语

在运用大数据进行动漫剧本创造时, 需要格外注意两点。一是要着重寻找合理的算法, 空有海量的数据和先进的技术而无法提炼出其潜在的价值, 就像是守着金矿而不知挖掘一样无用。要想在数据的汪洋中找出消费者的需求, 需要大数据分析者们发挥其思维的价值, 设计合理的算法和分析方法;二是要重视人的作用。具体而言, 就是始终将创造性作为衡量剧本的重要标准, 不能一味迎合消费需求, 而产出毫无审美价值的垃圾剧本。在大数据时代, 我们信心满满能创造一个更美好的未来, 给我们希望的不是冰冷的数据, 而是人的独特才智和思维火花。

在大数据时代, 国产动漫需要的是能适应快速变化和不同层次消费者的文化需求的剧本, 这就要求剧本创作者, 不断提高自身创作能力。动漫企业应不断创新, 提高动漫产品的内容质量, 打造自身品牌, 进而提高企业的盈利能力和竞争能力, 建立良性循环的经营机制, 打造出既符合文化市场需求, 又具有杰出艺术水平的动漫作品。同时, 在国家政策的引导和激励下, 积极参与市场竞争, 更多地将目光投向海外, 学习借鉴, 自主创新, 长此以往, 相信国产动漫一定会不断进步, 取得长足发展。

摘要:大数据已渗入到社会发展的方方面面, 与我们的日常生活息息相关。随着技术的不断发展, 涉足大数据分析的企业日益增多, 大数据分析的门槛将逐步降低, 用大数据算出动漫剧本在一些实力较强的文化企业或在联合制片的模式, 将具有可行性。但是, 利用大数据算出来的动漫剧本有利也有弊, 需要我们格外注意。

关键词:大数据,动漫剧本,创作,大数据时代

参考文献

[1]维克托·迈尔-舍恩伯格.大数据时代[M].杭州市:浙江人民出版社, 2013.

大数据时代下的数据新闻 篇8

大数据对于新闻的重要作用可以总结为以下几点:

1 构成获取新闻线索和信息的新方法

传统的新闻线索是哪儿来的?一是依靠新闻记者自报选题,或者观众通过新闻热线爆料;二是由主编召集责编、编辑开选题会挖掘选题。大数据带来了新闻选题的新途径,提供了一个获取新闻线索和信息的新方法,开辟出了有别于传统的获取新闻线索的路径。新闻从业者可以通过大数据找到特别贴近百姓的报道话题。

认真关注一下大数据,就会发现有很多让人忍不住想要探寻究底的现象。比如,大数据告诉我们全国比基尼销量最高的省份是离海最远的新疆;再如,宁波女子的撞衫概率为2.31%,也就是说每1000个人当中有23个人的衣服是一样的。大数据往往只会阐述一个事实或者推测会发生什么,但不能说明原因。这就需要新闻记者从纷繁复杂的信息中寻找灵感,去发现其中的新闻点,发掘新闻选题和有新闻价值的新闻。

例如,2013年福建省网购金额最高的生活圈是福州鼓楼六一路的银华村,银华村的消费者人均年淘宝消费金额达到1.7万元;排名淘宝“最土豪”小区榜第5名。根据这个情况,就可以开展一个新闻调查:从这个村居住的人群主要属于哪类,网购的人群年龄分布,主要网购的物品等多角度形象描绘出银华村网购人群的群体形象。例如,采访街道居委会工作人员、采访银华村居民、在银华村发放调查问卷,等等。在此基础上,还可以做系列深度追踪报道,分析银华村网购金额高的原因,以及对周边商家的影响。

2 通过数据分析提供新的新闻报道角度和方式

大数据的分析结果能从另外一个角度反馈出现象和事实,通过大数据,人们可以将原来表面上不相干的信息关联起来,看到原来看不到的东西,而使新闻更加生动可信,可看性更强。比如,关于是逃离北上广,还是逃回北上广的始终是一个新闻的热点。相关的新闻有“北上广:逃离还是死磕?”“就业季‘逃离北上广’二三线城市离梦想更近”“你无法逃离北上广”“年轻人逃离北上广后又逃回:已经回不去了”,等等。那么,现在是离开北上广的人多呢,还是进入北上广的人多呢?大数据分析告诉我们,尽管近年来“逃离北上广”的声音不绝于耳。但北京、上海、广州等大城市人口依旧呈“正向”流入的趋势。由此看来,在80、90后年轻人那里,大城市仍然有其不可比拟的魅力。其中,2013年迁徙人口位居首位的省份为广东,说明广东依然是对务工人员最有吸引力的地区。同时,大数据还告诉我们,80后和90后是迁徙群体的主力。再如,购物行为与睡眠之间的关系。根据深夜逛网店以及购买耳塞、眼罩等外部工具和安神的用品和食物等数据进行分析,可以得出以下结论:上海堪称最严重的失眠城市。江苏、广东、浙江成为睡眠最不好的3个省份。

3 通过对大数据的分析,挖掘出新闻背后的新闻

客观性是新闻的基本准则,也是新闻的难点。特别是在当前的社会背景下,新闻生产常规和新闻价值选择往往为碎片化的现实所牵制,在某一个视野有限的观察点上对事物进行的观察与分析,难以揭示更大范围内的或更接近事实的情状,洞察社会现象背后的潜流。大数据为传统新闻工作方式带来工作层面的一个飞跃,可以在一定程度上可提高新闻媒体对新闻的把握能力,也在一定程度上改进了深度新闻的挖掘方式。大数据可以就当前新闻进行相关数据挖掘,捕捉事实之外的留白,拓展新闻中单一事件和信息的意义,延伸新闻的时空范围,挖掘新闻背后的新闻,深化对新闻事实的认知,发现常规新闻中不能体现的逻辑,从而丰富了单篇新闻报道的内涵,新闻样态也从封闭式告知话语转换为开放式有深度内涵的分析。

2014年4月17日海峡都市报报道了一条新闻《福州乌山小学门前豪车围名校他们都是片内生?》:“记者调查发现,福州多所知名小学,一到上学、放学时间,校园周边的交通就几乎要被堵瘫,接送孩子的车辆中,不乏高档豪车……记者也对开车接送的家长进行了采访,发现他们中既有住金山的,也有住晋安的。其中一位住金山的家长告诉记者,每天接送孩子上学、放学,遇上堵车,一趟要大半个小时,小孩与家长确实都很辛苦,‘为了孩子读书嘛,这也是没有办法的事’。”

上述新闻可以采用大数据进行新闻的深度挖掘。首先,可以将小学的学校资源分布数据与适龄儿童的分布数据对撞,形成小学教育资源分布指数。从分布指数可以看出有些片区的教育资源非常充足,有些片区的教育资源分布不足。还可以在教育资源分布指数基础上分析出适龄儿童上学流动情况,分析出教育资源的不均衡所造成的社会公共资源浪费,比如汽油多耗费、增加交通拥堵程度等。这样可以由点及面,再进行深度挖掘。由乌山小学放学拥堵,到小学教育资源的分布均衡情况,再拓展到节约社会公共资源以及优质社会公共资源分配不公引发的问题等等。

4 在新闻直播中可灵活应用大数据增加直播的现场感

2014年1月25日,央视晚间新闻推出“据说春运”特别节目,第一次采用百度地图LBS定位的可视化大数据,播报国内春节人口迁徙情况。业内人士指出,这也是大数据首次以老百姓能看懂的方式,可视化展现在电视屏幕上。30多年来中国春运大军从1亿人次增长到36亿人次,这36亿人次在这么短的时间内是如何迁徙的,过去很难想象全国会是怎样一番景象。但是,通过大数据的收集、解析,并最终以可视化效果呈现在电视屏幕上,可以给每一个观众带来最直观的感受。

因为特殊的地理位置,福建每年都会遭遇6、7个台风,其中威力较强的通常有2~3个,所以台风直播成为新闻频道每年夏季工作的一个重点。和其他重大事件和突发事件不同的是,因为台风移动路径的变化和登陆时间的不确定性,给台风直播报道造成了一定的难度,尤其是因为台风条件下环境比较恶劣台,跟正常的直播报道相比,台风中的报道更是备受考验。针对台风直播,电视台可以采用多角度,集合多个系统的数据提供相关信息资讯。比如,台风直播中,可以连线福建省海洋渔业厅,出境记者可以通过那里的实时监控画面,报道渔港的动态和海边大潮情况;还可以连线福建省防汛抗旱指挥部,通过ArcGIS时态数据应用,动态展示台风中心轨迹。台风直播中,还可以编制福州防台关注一张图,在图上可以标出出近期台风期间交通事故频发点,内涝频发点,建筑物、广告牌损坏点,树木倒伏点;还可以从防汛办的防汛指挥决策支持系统中获取有关地质灾害的数据并且在主持人的新闻播报中,在地图上标注出来;还可以让市民对防台有直接的认识,并且可以做到心中有数提前规避。

台风天出行是大家非常关心的一个话题。我们可以通过防汛办和交通委的台风天交通情况模型,预测台风天未来几天的交通情况。台风直播中,主持人可以通过播报记者整合后的交通数据,结合图文,提前预警提醒市民哪些路段未来哪些时段可能会比较拥堵,同样时段,哪些路段的交通会顺畅一些,为市民出行提供参考;提醒要前往某些经常容易内涝路段的市民注意,要么尽快通过,要么绕路,即使经过也需要时时关注积水情况,避免不必要的损失;开通热线、微博、微信公众平台等方式与市民互动,市民说出他出行的起止点,由新闻媒体将出行的建议路线和路途注意点(哪些路段要注意哪些问题)反馈给市民,增强节目的现场感和互动性。

最后需要指出的是,大数据新闻是快捷式新闻。如果数据分析流程顺畅,数据新闻可以做到随时随地报道,且能够满足“发生及生产”,极大地节约了新闻从产生到传达到观众处的时间。这种做法是典型采用大数据建模的方法,打破传统流程和组织,直接获得最终的结果。但是,这对新闻从业人员的素质要求变得更高,他们不仅要有新闻专业的敏锐性,还要能理解统计分析、模型设计,擅长与数据、报表打交道。新闻从业人员还需要不断学习新的工具,来满足找寻、编辑、播报大数据时代新闻的需要。因为大数据一般只是“敏锐地”发现问题,基本不会给出合理的解释,也无法提出针对性的对策,所以后续还是需要新闻从业人员分析数据,找出数据结果背后的新闻价值。大数据时代的来临,对新闻从业人员来说,是一个新的挑战。对于处理数据和设计制作发布信息图表的能力的培养,也有可能成为新闻教育发展的方向和重点之一。

摘要:大数据对于传媒行业具有重要意义,催生出了一种全新的新闻形式——数据新闻。本文主要总结了大数据对数据新闻的重要作用,以供参考。

关键词:大数据时代,数据新闻,可视化信息

参考文献

[1]祝兴平.大数据与经济新闻生产方式的颠覆与重构[J].中国出版,2014,(4).

[2]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].杭州:浙江人民出版社,2013.

大数据背景下媒体的新型受众观 篇9

一、大数据的产生

早在1980年, 著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中提及大数据, 并将其热情地赞颂为第三次浪潮的华彩乐章, 可是由于受当时技术发展的限制, 直至本世纪第一个十年的末期, 大数据的优势才开始慢慢浮现。对大数据收集分析并加以利用的设想源于世界著名的非实体管理咨询公司麦肯锡公司, 麦肯锡公司看到了在各种网络平台上记录到的个人海量信息所具备的巨大潜在商业价值, 并在其研究报告中指出:“大数据已经渗透到每一个行业和业务职能领域, 并逐渐成为重要的生产因素。”这份报告首先得到了金融界的高度重视, 之后影响到了各方IT巨头公司, 进而受到很多大型实体企业的重视。随着网络技术的发展, 大数据这个概念逐渐以相对清晰的面目问世。

伴随着自媒体的兴盛、移动终端的丰富多样、交流平台的广阔多元, 人们在工作、生活中各个细节产生的数据正在海量生成, 而分析与数据环境关联性、海量并行处理机构、云计算、网格计算、物联网等信息技术的不断发展, 又使得收集和处理海量数据成为可能。在当下, 可以说大数据正真真切切地充斥在人们工作生活的方方面面, 并在经济、政治、医疗、传播等各个领域影响、改变着固有的产业发展模式, 在带来巨大商业利益的同时, 也为人们创造着更好的生活。

二、大数据激发下的新型受众观

随着移动媒介种类的不断增多, 受众运用媒介的行为具有普遍的公共性, 是人们工作生活中必不可少的一部分。以个人界面制为主要形式的微博、微信以及各类功能型软件, 成为人们的每日必看, 这些平台会定时推送时事、娱乐、生活、旅行、音乐等各色资讯, 由此就大大减少了人们对于固定主题网站的访问次数。基于人们对媒介使用行为的这一特点, 个性化推送、信息高级定制必然会成为此种时代背景下信息传播的主要趋势。

智能移动媒介的推广普及也使传统媒介纷纷通过互联网拓宽原有的传播渠道, 并配合多样化的终端推出自身的新闻产品, 个性化的服务意识初现端倪。由于受众的媒介接触和使用行为日趋多元化、复合化, 其对于网络和媒介的运用已经超越了“拉”的主动选择状态, 而在不断渴望着获得更加丰富、个性的信息享受, 由此“推”的价值被再次提出并重新加以肯定。在信息技术尚未成熟的时期, 媒介的推送行为曾因信息内容与受众需求匹配度低而被排斥, 很多时候受众更倾向于在茫茫的海量信息中主动拉出符合自身喜好的新闻信息或者网络界面, 而在大数据背景下, 强大的数据分析技术可以通过受众上网浏览形成的海量数据, 对其兴趣、爱好以及信息需求类型进行深度分析, 由此建立在科学考量与预测基础上的信息推送完全脱离了受众单纯被动接受的等同含义, “推”的价值被重塑, 媒介对信息的推送可以建立在对生活者数据和消费者数据进行深度挖掘的基础上, 继而为受众量身设计定做更为贴心的媒介产品和服务。自此, 这种被动接受不再是一种强迫, 而变成了一种享受, 真正的消费者中心论开始落地。

三、新背景下媒体的受众策略

传媒业作为生产和传播信息的产业, 在对数据信息的分析、整合和处理方面具有很大的优势。在大数据背景下, 媒介的信息源将比以往更加丰富, 这使得传媒机构可以更有效地利用数据资源去调整传播策略, 为受众推送高品质的个性化信息, 从而扩大受众规模, 形成忠实受众群, 提高媒介品牌影响力。

(一) 挖掘受众喜好实现精准传播

在这个科学技术更新换代周期极速变短的时代, 传播平台高度开放, 移动化手持电子设备广泛普及, 媒介形态丰富多元, 全媒体化进程速度不断加快, 此种媒介环境下, 传统的抢头条、争独家的新闻竞争模式难以为继, 媒介必须不断提高自身素质, 引进、培养能够熟练运用新型信息技术的技能型新闻人才, 充分利用大数据资源掌握受众喜好, 满足受众的个性化信息需求, 从而打造媒介核心竞争力。

如今, 网民使用互联网产生的大量数据为媒介更加深刻地了解受众提供了极大的可能, 每个用户在媒介使用期间都会留下足迹, 每一条足迹也都被完整地记录保存下来, 形成一条条清晰的数据线索, 而每一条线索, 甚至是最不经意的细节都会暴露用户最真实的状况。媒介通过对大数据的提取、整合, 便可对受众的行为习惯和心理需求进行深刻而毫无保留地剖析, 进而掌握舆情民意, 挖掘出受众在问卷调查中不愿透露却是最为真实的喜好, 就像很多时候人们刚刚在视频网站上看完一部电影或者视频, 紧接着就发现页面下方或两侧出现了同类猜你喜欢的影片介绍, 刚刚在淘宝上拍下了一件合适的商品, 打开另一个页面就会出现买过此类商品的人还会买的推荐。同时, 媒介还会利用好友间爱好关联这一共同点, 通过大数据对用户及其好友间的关注及喜好进行分析和对比, 从而在许多社交网站中提供“您的好友正在关注”或“24小时内人们关注最多”等推荐。然而, 不可否认的是, 很多时候这些相关信息的推送及推荐真的贴近甚至完全符合人们的喜好和信息需求, 而且往往能够达到良好的传播效果。

人们在上网时产生的海量数据, 记录着他们最真实的思想、行为, 乃至情感, 这是信息时代现实社会与网络空间深度融合的产物, 蕴含着极为丰富的内涵以及众多的规律性信息, 通过这些数据信息, 媒介可以更准确地把握新闻报道的框架结构和议程设置这二者与受众个体特征的关系, 清楚了解受众的需求、诉求和意见, 有利于实现更有针对性的精准新闻传播。通过分析媒介, 将会实现在最合适的时间以最恰当的方式向受众推送其最感兴趣的新闻, 这无疑对媒介传播效果的提升大有裨益。

(二) 增强内容深度提供增值信息

媒体真正的核心价值在于内容, 而媒体传播的信息内容有大众内容和小众内容之分, 大众内容给媒介带来影响力因而讲求时效, 小众内容关乎受众忠诚度因而要求深度。大数据背景下, 媒介在捕捉用户习惯和需求、为其打造个性化信息的同时, 内容的品质也是不能忽视的。精品化的信息内容不仅会在第一时间引起受众的阅读兴趣, 而且会使其在阅读后产生想要继续关注这一媒体, 深入了解此媒体发布的其他信息的强烈欲望, 这对于形成忠实受众群并不断开发吸引新受众参与十分有利。

既然要实现精准传播, 那么媒介提供给受众的信息内容就必然是与众不同的, 因而在传播之前就要对各种类型的信息进行不同板块的分类和筛选, 但是若认为单纯做到个性化传播就大功告成那就大错特错了, 受众真正需要的并非是花花绿绿的信息外壳, 而很多新闻网站或社交媒体却恰恰偏爱种类繁多但毫无实质的信息, 刻意选取受众感兴趣的话题, 但新闻内容却极为简陋, 有时甚至毫无内容可言。浪费大数据宝贵的资源和价值的传播, 必然不会得到良好的传播收效, 因此无论如何信息内容的深度和新闻品质是不可以忽视的。随着时代的变迁和信息技术的发展, 媒介会愈来愈丰富, 平台会愈来愈宽广, 受众对媒介的要求和期望会愈来愈精确, 但新闻信息的内容品质是一个恒定的量, 是一个不会随着信息的海量增加而降低的重要元素, 故在大数据背景下, 对于信息内容的深度挖掘依然要引起媒体和新闻人的高度重视, 深层次的新闻报道、有价值的信息传播、耐人寻味的精品美文、新鲜热辣的时尚资讯, 以及贴近生活的养生知识, 这些都可以成为个性化传播中的信息增值点, 同时一些可以通过数据分析得出的趋势预测性新闻以及数据驱动型深度报道也是信息传播中新闻业务发展的大趋向。

(三) 量身打造资讯开拓多元服务

媒介在掌握了受众的个性化需求之后就要着手针对受众类型的不同为其量身打造资讯了, 信息的高级定制也由此出现。目前, 门户网站以及网络媒体之间的同质化现象极为严重, 打开网页, 各大网站上的内容都大致相同, 个性化信息的匮乏必然会使许多媒介丧失其在新时代继续存在的价值。因此, 不管是主流媒体还是门户网站, 都应充分利用大数据提供的深层关系链, 为受众量身定制信息资讯, 让受众看到有新意、有特色的媒体, 避免内容和形式的同质化, 使用户体验到信息尊享的感受与高级定制的乐趣。此外, 主流媒体和自媒体之间应扬长避短, 并适当增加媒介交流融合, 大力开发新型的媒介服务, 为受众多提供不一样的感官体验, 如在不同终端的用户个人界面中增加不同以往的功能, 定期对软件及页面设置进行更新, 随时跟进大数据记录的用户使用情况, 并及时通过这一有效反馈对传播的内容与形式进行改进和完善, 为受众提供愈发生活化、人性化、个性化的多元服务。如, 目前欧美的社交媒体已经在“赞”之后开发了“同情”这一评论按钮, 在用户发表具有悲伤情绪的内容时, 这一“同情”按钮就会自动显现, 避免了人们在想表示赞同、支持以及安慰这些情绪时只能点“赞”对于双方情绪上造成的尴尬, 可谓是众多“点赞党”的福音。这种创意服务的开发, 在让用户拥有更加丰富的网络语言表达之外, 也不断地提升着媒介的好感度。

结语

大数据在使媒体面临冲击和挑战的同时也为其提供着自身最为宝贵的价值, 海量的数据记录着用户网上浏览的每一个足迹甚至更加微小的细节, 真实地反映着受众的心理需求和爱好习惯, 使媒介了解受众、深入受众、实现精准传播成为可能, 为媒体提供了未来发展清晰的线索以及传播策略更新的方向性指引。无论在内容的丰富性还是感官体验上, 全新的信息传播方式都将使受众拥有完全耳目一新的感受, 并体会到全面的信息以及多元的服务带来的众多益处。大数据深刻地改变着人们的生活, 并逐渐渗透融入人们的每一个行为之中, 在此背景下媒介的不断转型与开拓也将在最为适合的时间以最为合宜的方式提供给人们最需要的信息咨询和人性化信息服务。虽然大数据对于受众行为毫无保留的记录, 在隐私问题及个人安全问题等方面存在着诸多的疑问和弊端, 但最为重要的一点是人们不能忽视, 即大数据的产生及应用的的确确在使工作变得轻松而便捷, 并不断创造着更加充实而美好的生活。

参考文献

[1]卞友江.大数据概念参考[J].新闻研究导刊2013, (5)

[2]彭兰.“大数据”时代:新闻业面临的新震荡[J].编辑之友2013, (1)

[3]王涛.大数据, 是富矿也是深坑[J].青年记者2013, (7)

[4]曹素妨, 闫城榛.新起点——大数据时代的媒体转型[J].中国传谋科技2013, (7)

[5]王成文.信息权力结构的演变与大数据时代的“编辑智能论”[J].出版发行研究2013, (6)

[6]邬贺铨.大数据时代的机遇与挑战[J].求是杂志2013, (4)

[7]高鹏.当新媒体遇到大数据[J].广播与电视技术2012, (10)

[8]编辑部.大数据时代[J].中国电子科学研究院学报2013, (1) .

[9]彭兰.社会化媒体、移动终端、大数据:影响新闻生产的新技术因素[J].新闻界2012, (16)

[10]本刊记者.大数据时代, 媒体如何转型[J].编辑之友2013, (6)

大数据时代的数据观 篇10

据统计,2011年全球的数据规模为1.8ZB,这些信息将填满575亿个32GB的ipad,倘以这些ipad做砖石,足可以垒建起两座中国的万里长城。2013年仅中国当年产生的数据总量就已超过0.8ZB,2倍于2012年,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量将是2013年的10倍,超过8.5ZB。而届时全球的数据总量预计将达到40ZB,如果将这些数据全部刻录成蓝光光盘,则这些光盘的总重量相当于424艘满载荷的尼米兹级航空母舰。

数据量暴增的速度令人瞠目结舌,我们的确已进入“大数据时代”。

很快地,“地理大数据”、“水利大数据”、“环境大数据”、“金融大数据”、“互联网大数据”乃至“气象大数据”等名词陆续出现在有关媒体上。“大数据”逐渐成为近来人们谈论最多、思考最多的技术话题之一。一些人憧憬于“大数据”可能带来的十分珍稀的高价值信息和珍贵商机,也有许多人困惑于目前所知“大数据”的应用范式,以此研判着可能给本行业带来的变化和新的业务契机——气象部门也是如此。

做为抛砖引玉,笔者拟就如下问题提出自己的看法:

(1)气象数据是否具备“大数据”的核心特征?

(2)所宣称的由大数据引发的思维变革,即:不需要专业知识背景而仅通过单纯的数据分析便可获得新的“知识”,在气象部门核心业务领域(天气预报和气候预测等)中是否适用以及为什么:它与“数据密集型科学发现”之间存在哪些差异。

(3)在大数据背景下,海量气象观探测数据的应用价值范围以及目前价值发挥的可能性。

2. 大数据的现实以及气象数据的特征分析

2.1 大数据的特征和在我国的行业分布

早在2012年前后,业界便已就大数据在体积、类型、速度和价值这四个方面的特征达成了共识,即所谓大数据的4V特征。限于篇幅,不再复述。

一般而言,大数据的起始计量单位至少是PB、EB或ZB级别。

据统计,就数据量而言,中国的大数据近期具有如下行业分布特征:

(1)互联网公司

目前国内互联网公司拥有总计约2E B的数据,其中互联网三巨头BAT (百度、阿里巴巴、腾讯)占有其中的3/4 (约1.5EB)。

(2)电信、金融、保险、电力、石化系统

这些行业及企业数据量分布较为平均,就每个单位而言,大致都拥有10PB以上的数据,且年增量都在PB级以上。总和则有数百个EB的存储数据和数十EB的年增量。

(3)公共安全、医疗、交通、电子政务领域

城市:平安城市、智慧城市等工程的建设,监控摄像头遍布大街小巷。一个中等规模城市每年视频监控产生的数据约300PB。最保守估计(含定期循环清除),全国每年保存下来的数据在数百PB以上。

交通:飞机航班往返一次产生的数据达TB级。列车,水陆路运输每年产生并保存下来的各种视频、文本类数据约达数十PB。

卫生:整个医疗卫生行业,一年保存下来的数据可达到数百PB。

电子政务:一个智慧城市的电子政务所产生的数据每季度约达200PB。而调查显示,未来1~2年中国政府部门的数据规模超过100TB的将达到53.3%,有将近三成(33.3%)的用户数据规模是10~50TB。

(4)其他,商业销售、制造业、农业、物流和流通等领域

随着产业互联网的普及,(线下)商业销售、制造业、农林牧渔业、(线下)餐饮、食品、科研、物流运输等这些传统行业的数据量将呈现迅速增长态势,但目前这些行业数据量尚处于积累期,体量不大,多的达到PB级别,基本约近百TB甚至数十TB级别。

(5)气象数据

气象部门需要永久保存的数据目前约4~5PB,年增量约1PB。

由此可见,以数据量而言,在整个大数据市场中,新兴的互联网行业巨头BAT,以及电信、金融、保险等行业占据比重较大。相对而言,气象数据无论总量还是增量,较这些数据大户至少低3个数量级。

需要注意的是,在大数据的“4V”特征中,“Volume”(体量巨大)仅为必要条件,而非充分条件,如同30mm的日降水,在我国东南沿海地区十分平常,但在西北地区却是极可能成灾的罕见大雨,所以体量大小是相对的。事实上,大数据概念的提出绝非仅因为数据量的暴增,而且是因为数据已多到用传统方法无法处理,导致人们必须采用新方法、新思路乃至新理念予以应对。如果数据量虽大,但却能够处理和掌控,便不能称其为”大数据”。因此,“4V”对于大数据而言,既是特征,也是考量的四个维度。

2.2 气象数据的体量种类分布

气象资料种类繁多,仅气候专用资料,包括冰芯、花粉、树木年轮、历史文献、冰盖、海平面温度、洋流盐度、地表植被等在内的涵盖五大圈层的各种自然界及人类活动的观测资料,已达数十种。而应用于诸如天气、农业气象、人工影响天气、雷电防护、公共气象服务等业务领域的资料,种类亦十分可观(限于篇幅,不予展开讨论)。目前就体积而言,在所有气象资料中,地面观测、气象卫星遥感,天气雷达和数值预报产品四类数据占据总量的90%以上;其中:

地面观测资料:进入本世纪以来,地面观测方法从人工观测改进为自动观测,摆脱了人类居住条件限制的制约,地面气象观测台站数由本世纪初的不到3,000个,迅速扩展到目前的50,000余个,观测频度由最初的3小时/次调整到目前的5分钟/次,因而导致资料量呈几何倍数增涨,月增量由最初的约240MB猛增到现在的约2.4TB《在库容量),增幅约670倍。根据防、减灾以及气象服务的需要,未来扩建计划有可能将台站数继续扩增至70,000到100,000个,观测频度有可能继续加密到1分钟/次;因此未来六年内该类资料总量有可能在现有基础上再行扩增12.5倍,由现在的每天数百万条记录增至超过一亿条记录/天。而此后,由于观测资料的空间分辨率的提升未来主要依靠遥感手段解决,因此台站密度不会进一步大规模增加。具体数据见表1。

天气雷达资料:按照《天气雷达近期发展规划(2005—2010)》以及《气象发展规划(2011—2015)》中"新一代天气雷达建设增补站点布局方案”,目前在全国已布设约200部不同波长的多普勒天气雷达,并为达到雷达资料全社会共享的目的,已基本实现7×24小时全天候不间断观测;日增总量约300GB。近十五年的增幅约40倍。详见表2。

气象卫星资料:根据《我国气象卫星及其应用发展规划(2011~2020年)》,至2020年,我国计划发射11颗气象业务卫星,包括3颗风云二号03批卫星,3颗风云三号上午星、2颗风云三号下午星、1颗降水测量雷达星以及2颗风云四号光学星。此外还将在2020年前发射2颗气象试验卫星。目前的日增总量约2TB,近十五年的增速约40倍。未来(至2020年)由于风云三号D星和风云四号系列静止卫星的陆续发射,气象卫星资料量有可能增加到约30TB/日,即:未来六年内卫星资料的增速约15倍。随着卫星仪器、通道和分辨率的增加,数据量的增幅可能会更大。

数值预报产品:与地面观测、气象卫星和天气雷达等气象观探测资料不同,气象数值预报模式资料属于气象观探测资料的加工产品。以GRAPS、T639为代表的天气预报模式,以及以BCC_CSM2、DERF2.0为代表的气候预测模式,每天都在实时运行,不断产生着数以万计的各类要素场,以供国家级、省级乃至区域级预报员参考使用,日增量接近TB级。近十五年数值预报模式数据量的增速约20倍,未来六年的增速约小于10倍。限于篇幅,气象卫星和数值预报数据涨幅不再列表。

在上述四类数据之外,气象资料中的其它种类如:气候专用,高空探测、地面农气观测、沙尘暴观测、闪电定位观测、风廓线雷达探测等等资料,种类虽多,但就体积而言,较上述四类资料至少低一个数量级,故难以将其称之为“大数据”;在以下不予专门讨论。

因此,如果就体积而言,气象资料可勉强算得上“大数据”,也是因为地面观测、气象卫星、天气雷达和数值模式这四大金刚将气象资料的体积撑大而成的。

2.3 海量气象数据的特征分析

气象数据的体积虽大,却有其独特的特征:

(1)体积虽大但总量可控

地面观测资料数据量剧增的原因,是站点数的增加和观测频度的大幅加密。由于观测资料的空间分辨率的提升未来主要依靠遥感手段解决,因此在地面观测台站达到一定密度,观测频度达到一定程度后,台站数不会无限制持续增加,观测频度也不会无节制地永远加密下去,因此总量既是可预测的,更是可控的。

天气雷达的全国布网工作已基本完成,雷达总量不会再有成倍数的增加。且目前的天气雷达已基本实现7×24小时全天候不间断观测。因此天气雷达的资料量(年增量),将稳定相当长一段时间,不会出现成倍数的增量变化。

未来数年内,我国还将发射数颗气象卫星,每颗卫星都会产生数百TB级的数据年增量。为满足气象卫星资料的应用时效,国家卫星气象中心针对每一颗气象卫星,都建有相应专属的地面接收处理系统,已完全实现所有气象卫星遥测遥感资料的实时接收处理。此外,旧星的退役也会导致部分数据来源的关闭。因此气象卫星数据目前虽以每年数百TB的量级增长,且规模有可能继续扩大,但却始终处于可控可管和完全可用状态。

数值预报模式产品资料是各级预报员最重要的预报参考资料,这些产品甫一生成,便即刻送达天气预报、气候预测专家的桌面,供其业务参考使用;同时以满足业务需求的时效,分发至各省级乃至地市级气象部门,供其本地化应用。且只要模式(软件)和基础资料(观探测资料)存在,数值预报产品资料是可再生的,无永久保存的必要。因此数值预报产品资料体积虽大,却始终处于可控可管和可用的状态,未来也将始终如此。

有可能在未来异军突起的是气象服务领域的受众反馈等信息,随着人们生活水平的提高及气候变化影响的日益显现,人们对气象预报的服务质量将日益关注,经互联网将意见、要求、评价等反馈给气象服务部门的现象有可能越发普遍,这对改善气象服务有着十分积极的作用;而如果这部分信息体积迅速膨胀起来,其管理问题对于气象信息技术部门将是一个挑战——但目前尚未出现迅速膨胀的迹象。

因此,气象资料体积虽大,在量级上算得上”大数据”,但却始终处于可控可管可用状态。

根据摩尔定律,从2000年到2014年的十五年之间,相同体积规模的计算机芯片,其处理能力增加1024倍;从2014年至2020年的6年间,处理能力增加16倍。详见表3。

由此可见,即便在涨幅最高的2000年至目前的这十五年间,气象资料的增幅也未超出摩尔定律所标示的计算机处理能力的增幅,今后可预见的未来期间也不会超过。

(2)种类虽多但内部信息单纯.来源单一

气象资料分为14大类,有数百种之多。每种资料所含信息十分单纯:土壤持水量只记载某时某地某规定土壤深度中水份的持有程度,”云能天”只记录某时某地的云量云状、能见度以及天气现象等信息,近百年来不曾变化。即:气象数据体积的增大,是由于时空分辨率的逐步加大所导致的,而不是其它。

气象观探测业务系统只采集那些能够客观反映自然界气象状态的要素,所以气象观探测数据里包含且只包含丰富的气象信息。因此海量气象数据的直接用途只能是气象业务及与之相关联的领域,即:天气预报、气候预测以及气象服务。

麦肯锡公司和Gartner公司始终认为:“大数据是用传统的架构、传统的技术方法无法解决的数据问题”。由上分析可知,气象数据始终处于可管、控、用状态,虽然随着数据体积的不断膨胀,以及原有管理和处理技术架构的陈旧,逐渐出现性能下降、时效减慢等现象,但并非没有解决的技术手段。从这个观点考察,以体积硕大为由称气象数据为”大数据”十分勉强,而且较易产生观念和认知上的混乱:因为衡量体量大小的标准是不断变化的。信息技术的发展突飞猛进,处理及存储能力依照摩尔定律,每18个月增加一倍;今天的大体量规模数据,如果不具备超过摩尔定律的膨胀能力,数年后便很有可能萎缩成中等甚至中等以下规模的数据;这样的事例在IT界俯拾皆是。

3. 大数据理论的适用性分析

3.1 大数据倡导者的基本论点

近年来有关大数据方面的著作如雨后春笋般不断出现,其中被业界公推最具权威性的著作当属由维克托·迈尔-舍恩伯格等撰写的《大数据时代》(以下简称《大》);该书作者就大数据带给人们思维方面的变革,提出了如下三个观点:

(1)当数据处理技术已发生翻天覆地变化时,在大数据时代进行抽样分析已经过时。人们进行分析的对象已不是抽样数据.而是所有的数据,即:”样本=总体”。

(2)执迷于精确性是信息缺乏时代和模拟时代的产物,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。

(3)知道“是什么”就够了,不必知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。

而对于大数据的价值,该书作者认为,“数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予”,它目前展现在人们面前仅仅是其总价值的“冰山一角”。

根据笔者的理解,大数据倡导者之所以提出上述论点,是基于如下推断,即:人们目前所获得的数据中蕴含的信息已足够丰富,以至于所有知识的相关信息都包含在其中,人们可以通过分析这些信息而获得欲知的任何知识;而目前IT技术的高速发展使得数据处理能力已达到足可对全体数据进行处理的地步,使得人们能够通过处理和分析信息而获得知识;即,人们既可以而且也能够通过处理数据而获得任何信息和知识。由于所有答案都可从数据分析中获得,于是理论研究便不再重要了——毕竟人们关心的既不是数据也不是方法,而是答案,无论实验、理论、计算模拟以及数据,都只是获得答案的途径。

这里需要强调的是,通过对海量数据的分析处理而“获得知识”,是“大数据”理论最具特色之处。如果单单是“获得信息”,则上述的一切便沦为简单的对海量数据的处理,与目前传统方法几无二致。令人叫绝的是,大数据倡导者们宣称,这些知识的获取可以不依赖于任何专业知识背景,仅凭“数理统计方法”便可获得;这是前所未有的,也是“大数据”如此迷人之所在——如果须要凭借专业知识背景方能通过处理数据、获得并分析信息进而得到这些新的“知识”,则“大数据”与现在各行业现行工作方式便并无本质不同,笼罩在“大数据”全身的炫目光环便黯然失色、荡然无存了。

这是一个令业界乃至社会不少人士惊讶和兴奋的未来——大数据引爆了一场颠覆性的革命。我们正在并将永远拥有取之不尽的信息资源,这些资源是如此的神奇,以至于人们不必再去孜孜不倦地追求理论的探索和试验的真实,只要坐下来分析这些数据就足够了——数据可以告诉你一切,并且数据还将告诉你所有未知的一切。

3.2 适用性分析

大数据的倡导者们描绘了一幅令不少人激动万分的景象,但是否适用于所有领域,却值得斟酌,至少就气象领域而言,其适用性有待商榷:

(1)气象观探测数据的应用始终是“样本=总体”

自现代气象学科建立以来,气象观探测数据对于各气象业务及学科研究而言,时空密度、时序长度和数据精准性的不足始终困扰着气象业务和科研工作的深入展开,不存在对花费高昂代价千辛万苦采集而来的无比珍贵的观探测数据,会因其数据量过大、无法全部处理而不得不采取“抽样处理”的情况。即,在气象界的观探测数据处理方面,几乎始终是全数据模式,即所谓“样本=总体”。问题是,目前在体量上已跨进“大数据”门槛的气象观探测数据,其内在信息是否已足够丰富到可以不考虑自然法则和物理规律,单凭对这些观探测数据进行统计分析既能实现天气预报和气候预测。

气象学科所涉及到的空间尺度,小到水滴碰撞凝结等毫米级微物理过程,大到罗斯贝波等数千公里尺度行星物理过程,其间跨度达到8~9个数量级;预报对象从10米量级的龙卷风,到千米量级的沙尘暴,直至数千千米量级的季风和厄尔尼诺,跨度亦达到6~7个数量级。这些尺度中的气象要素实际状况都需要探知,做为气象部门十分重要工作内容之一的气象探测业务,数十年来工作的主要目的之一,就是探索在代价允许的条件下,实时获得更小尺度的气象要素状况、并保障其准确性的各种手段和方法。为此人们应用了许多新的技术手段,最为典型的就是雷达技术和卫星遥感技术的实际应用:目前为止气象卫星及天气雷达的空间精度较之传统地面观测的数十公里,已缩小到数百米。

然而既便如此,那些云水微物理过程、边界层湍流、风向风速随高度的垂直变化等实况数据,却是难以甚至无法全面采集的,海洋中的洋面以及近、深层的温度、流向及盐度等要素更是如此。要想全部获得这些数据,单就海洋而言,以现有已知的技术手段,除非汪洋大海上布满了各类用于探测的漂流浮标和锚定浮标。

所以,由于天气载体(云团、水汽、冰晶等)的空间尺度之间存在极大的差异性,以及大气运动各尺度天气载体在时间和空间的变率差异极大,用目前已知技术手段不可能全部探知各个尺度内的天气信息。气象观测采样时间和空间分辨率的有限性,导致气象观测和产品数据在未来数十年间只能是“抽样样本”,而不可能是包含所有信息的“总体数据”。

气候学科需要长时段(上千年乃至数千年)的气象观探测数据,方能通过分析数据寻找到内在的气候变化规律。由于现代气象科学的创立不过一百多年的历史,积累的气象观探测数据时段十分有限,为此气候学家们不得不寻找各种气候代用数据,如:冰芯、树木年轮、花粉、岩心乃至皇宫文献档案记载等。然而这些气候代用数据的时间精度十分有限(最高仅达十年左右),对于现代气候预测学科的贡献相对有限。气候学家曾指出,只有建立起时间长度至少达到数百年的较为精准全面的气候数据序列,方才可能满足气候研究和预测业务的实际需求。

因此,虽然气象观探测数据的使用一直处于“样本=全体”状态,但其获得途径却始终是抽样采集,且其本身无论空间尺度还是时间尺度,都远远无法满足天气和气候业务/科研工作的实际需求。也正缘于此,当听到社会上一些非气象领域的、以数据分析见长的公司宣称将尝试通过运用统计分析方法处理气象观探测数据来进行天气预报时,气象学家们在愕然之余,更多的是哑然失笑。

(2)气象服务的特点要求必须追求尽可能高的精确性

“允许不精确”,这是大数据倡导者们提出的另一个惊世骇俗的,令不少科学家闻之瞠目的口号。一些大数据的拥趸者以气象业务中的集合数值预报为例,证明“允许不精确”论断在气象界的适用,即:

因研究表明,多个模式集合平均后的效果优于单模式,故在单一模式相对稳定,短时间内无法大幅提高其预报效果的情况下,科学家们提出了集合平均方法以及超级集合的概念。与单模式相比,多模式超级集合可以明显减小单模式和集合平均的均方根误差。目前,多模式集合预报可提高天气预报水平已得到广泛认同。

然而,提出此观点的人也许忽略了一点:多模式集合技术本质上是通过减小因模式自身不确定性带来的误差来提高预测能力的,多模式集合的效果依赖于各单一模式的预测能力;在各单一模式没有预测能力时,多模式集合也不能提供足够有用的预测信息。

事实上,“允许不精确”口号提出的前提基础,是确信数据中正确信息足够充分,以至于虽然人们从中随机抽取的每一个数据都可能是不精确的,但人们却可以通过统计分析方法,最终得到正确(精确)的结论。

然而这一前提是值得推敲的,如同Tim Harford所说,“当数据里的假像远远超过真相的时候,还持有‘数据足够大的时候,就可以自己说出结论了’这种观点就显得过于天真了。”要想使“大数据自己说话”,首先必须保证数据中的“真相”足够多,对于气象界的多模式集合预报而言,这意味着各模式必须具有尽可能高的预测能力,亦即:单一模式的运算结果应当越准确、越精确越好。

诚如《大》书作者所言,“执迷于精确性是信息缺乏时代和模拟时代的产物”,但如果信息始终处于匮乏状态,那么精确性就是不可抛弃的。气象观探测数据就是这样,由于气象观探测数据的获取始终是“抽样采样”,因此每一个数据都被认为是其所在时空范围内气象要素真实状态的反映;由于该数据是其所在时空范围内唯一的数据,它的与真实状态的偏差只有通过更大时空范围其它数据的综合统计分析方才可能校正,而校正后的数据是否真实反映了本时空范围内气象要素的状态,却无法予以验证,因为自然界的时空状态是不可回退的:所以,应当尽可能确保每一个探测数据的精准性。

“大数据的核心就是预测”,这是《大》书作者舍恩伯格的名言。预报(预测)在时间、空间、形式和强度方面的更加准确,一直是社会对气象界永恒的需求,也是百余年来召唤气象工作者孜孜不倦工作的目标和动力。就天气预报(尤其是灾害性天气预报)而言,目前的主要目标之一,是准确地预报天气现象(灾害性天气过程)的发生形式,并将发生的时间精确到小时、发生的地点精确到千米量级,同时准确预测过程的强度等。这意味着精确性要求对于气象部门而言,只会越来越高,而不是相反。

(3)气象理论科学研究不会终结

《WIRED》杂志主编Chris Anderson于2008年曾断言,“现在已经是一个有海量数据的时代,应用数学已经取代了其它的所有学科工具。而且只要数据足够,就能说明问题。如果你有1PB字节的数据,只要掌握了这些数据之间的相关关系,一切就都迎刃而解了。”Chris Anderson此言的核心思想是,身处大数据时代的我们,所有的普遍规律都不重要了。如今重要的就是数据分析,因为它可以揭示一切问题。

Chris Anderson先生的论断是如此的激进,以至于《大》书作者对此也认为实在荒谬;在他看来,首先,大数据自身就是在理论的基础之上形成的,亦即,在大数据形成之初的数据选择过程中,人们就始终被理论所影响着;其次,我们在分析数据时,也依赖于理论来指导我们选择所使用的工具;最后,人们在解读研究结果时同样会使用理论。因此该作者对同为大数据倡导者的Chris Anderson先生的观点并不赞同:“大数据时代绝不是一个理论消亡的时代:相反,理论贯穿于大数据分析的方方面面”

使用理论,但不必或不屑于产生“新的理论”,这是《大》书作者就理论在大数据时代中的地位和作用的看法,即:“知道是什么即可,不必知道为什么”,“一切让数据告诉你们”。

自上世纪二十年代动力气象学建立起,通过对观探测数据进行统计分析而进行天气预报的方法,便逐步被动力天气所取代。而对于我国气候预测业务而言,以多种数理统计方法为基础建立的统计预测模型,正在逐步被物理统计、动力模式、动力-统计相结合的方法所替代。单纯对观探测数据进行统计分析,已根本无法满足预报和预测在准确性和精确性方面的要求。以“蝴蝶效应”为例,如果不了解气象要素和天气/气候状态之间的物理机理,即便观探测数据再丰富,也无法通过对观探测数据的统计分析预测出南美丛林中的哪只蝴蝶、在哪种天气背景下、在哪个时间、哪个位置扇动几下翅膀以及翅膀扇动的角度和幅度如何,方能在几周后的哪一天的哪个时刻引发北美哪个州的哪个位置的暴风雪。

理论的作用在于解释现象并预测和指导未来,由于目前无法全部获得各个时空尺度中天气要素的实况,观探测数据只能告诉我们一定时空尺度范围内的天气实况,次尺度以下的天气过程只能通过理论分析、建模和模拟等方法予以解释,并通过试验予以验证。又因为气象学科所涉及的时空尺度跨度极大,对天气过程中至为重要的微物理过程无法全面探知,观探测数据在可预见的未来始终是“抽样采集”:因此在可预见的未来,对于气象学科而言,试验、理论和模拟这三种科学发现范式将始终存在,不可或缺——尤其是理论。

综上所述,大数据理论的三个主要观点,即:“样本=总体”,“接受不精确性”和“理论不再重要”,并非是普适性的——至少在气象领域存在适用性问题。

4. 气象数据的“大数据应用”价值辨析

4.1“大数据应用”定义的困惑

与云计算类似,业界对大数据的定义不胜枚举;维克托·迈尔-舍恩伯格在《大》一书中是如此定义的:“大数据(应用)是人们在大规模数据基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的”。

然而我们知道,人们对数据规模的认知是根据当时IT技术所能提供的处理能力而决定的:亦即,数据规模的界定是随IT技术发展而动态变化的;表4是不同年代属于“大规模数据”的数据体量量级。

因此,此定义如不设定适用的时间范围,是颇值得商榷的,因为如按此定义,至少就气象部门而言,意味着气象业务和科研工作始终是”大数据应用”;因为在表4所列年代中,气象观探测数据的体量皆达到当时的“大规模数据”标准,而且全部在被充分使用之中;其它如农业、水利、石油勘探、地震、海洋乃至金融、电信等行业也莫不如此。

依笔者对该书作者观点的理解,就数据量巨大,内含信息空前丰富的当下而言,所谓“大规模数据”和“小规模数据”,具体对应的应当是“全体数据”和“抽样数据”,即:“大数据应用是目前人们在‘全体数据’基础上可以做到的事情,而这些事情在‘抽样数据’的基础上是无法完成的”。

令人沮丧的是,以这一经过调整的定义来观察气象行业,依然难以辨识“大数据“与日常气象业务科研之间的本质差异,因为全体气象观探测数据都在被充分使用着,几乎不存在因数据量过于庞大无法处理而不得不使用“抽样数据”的情况。而近年来气象观探测数据体量上的巨大膨胀,也并未给气象业务的发展轨迹和发展形态带来颠覆性的变化。如果说由于目前使用了时空密度更为精细的观探测数据,使得天气预报和气候预测结果更加精准,从而派生出其它新的气象服务领域,那么倒退10年20年,同样也是类似的情形。因为每次采用空间密度更密,精确度更高(自然,数据体量也较原来更大)的观探测资料后,都会对预报结果有所改善,这种情况在过去几十年里一再不断地重复出现着。而如果这就是气象界所谓的”大数据应用”,那么气象界数十年来一直在“大数据应用”——只不过名词不同而已,过去称其为“业务发展”。

气象观探测数据的”大数据应用”,不应是一场文字游戏。

笔者认为,气象数据的“大数据应用”,应当是人们通过对海量气象数据的深入分析,挖掘出有别于目前业务内容和科研学科分支的,崭新的、令人意外且惊喜的业务领域、方法和学科分支——即:通过对海量气象观探测数据的分析,人们获得了崭新的知识,而不仅仅是信息。

所以,大数据应用的标志不止在于对体量庞大的数据的使用,而且在于通过且仅仅是因为通过对这些体量庞大数据的分析处理,人们从中获得了崭新的知识——获得知识,而不仅仅是获得信息,是“大数据应用”区别于“大数据处理”的核心标志。

4.2 海量气象数据的价值范围辨析

沃尔玛能够通过分析得出婴儿纸尿布与啤酒之间销量上的正相关关系,是因为其数据库中包含所有本系统连锁店中所有商品的销售记录,包括啤酒和婴儿纸尿布。阿里巴巴企业能够提前半年预测出2008年北美将爆发经济危机,是因为其数据库中详细记录了数年来世界各地与阿里集团的每一笔订单和询单,可从中统计并发现出其异常变化以及变化的区域分布,并进而做出推断。美国中央情报局能够通过对电子邮件的筛选探知出几十起针对本土的恐怖袭击计划,并提前采取相应措施,是因为恐怖分子使用电子邮件进行通信联络,留下了相关的痕迹。而气象数据与之不同:如前所述,气象观探测数据体量虽大,但与互联网大数据相比较,气象数据的信息种类单纯。无论多么优秀的金融分析师,都不可能单从分析海量气象观探测数据来预测纽约道琼斯股票的涨跌以及沪深股市的未来走向,因为气象数据里根本不含有任何这方面的信息。做个比喻:气象观探测数据是一个含量极纯的“富铁矿”,人们穷尽各种方法,也只能从中冶炼出铁和钢材来。那种企图通过改进冶炼方法来从中提炼出铝、铜、银乃至金的想法是注定会落空的——因为此矿中根本不含有这些物质。

做为“自然界感知信息”的气象观探测数据,产生于自然界,它反映的是自然界与气象有关的各种要素的状态以及变化轨迹:而互联网大数据产生于人类社会,它反映的是人类社会活动的痕迹。自然界与人类社会虽有千丝万缕的联系,但却无法完全等同,否则管理学、心理学、经济学、国际政治学以及社会学等专注于人类社会的学科便没有存在的必要了。正如“丛林法则”不会永久适用于人类社会的高级形态一样,社会学中的一些结论和方法也未必可以简单地套用到自然学科中来——对于海量气象观探测数据也是如此。

大数据时代数据体量迅速膨胀的背后,是信息量的迅速丰富。而导致信息量丰富的原因至少有两种,其一是信息种类的不断丰富,即信息涉及(采集)面的扩大;其二是信息密度的丰富,即信息种类(即采集面)没有明显增加,但同种信息的采集密度却大幅增加。互联网大数据属于前者,而海量气象观探测数据则属于后者。所以,与互联网大数据不同,海量气象数据的核心和基本价值,始终是气象业务的应用,而不是其它。

气象观探测数据时空密度的增加,使得较原来更小尺度的气象要素及变化痕迹得以被探知,从而为气象学家们提供了研究这一尺度内气象规律的实况依据:这是海量气象观探测数据在本领域内的“大数据应用”。此外,如胡小明先生所言:虽然一些数据所蕴含的其所属领域的内部规律(即所谓“首要价值”)已被本领域专家充分发掘,但如果将这些数据与其它领域数据相链接,却有可能发现出许多意想不到的相关关系,即所谓“丰富的未知价值在领域的外部”。气象观探测数据的“新的价值”的发现,或许寄希望于此。但令人担忧的是,数据的社会共享至今仍是一个世界性难题。美国政府多年以来一再发布政令,要求政府部门在规定期限内将与国家安全无关的数据实现社会共享,从一个侧面反映出数据社会共享的难度。在我国,早在二十一世纪初便由科技部主导的科学数据共享试点工作,十余年来进展并不顺利,行业间的数据并未真正实现共享,气象部门获得某些相关部门的观测数据异常困难。因此,气象数据通过跨行业深度结合而挖掘其“新的令人兴奋的应用价值”的必要环境并非已全部具备。

4.3“第四范式”的方向性启示

虽然目前看不到通过对气象观探测数据的数理统计分析,即可进行准确天气预报(或气候预测)的可能及可行性,但气象观探测信息在近年来的迅速丰富,却是不争的事实。由于观探测数据采集密度的不断增大,许多小尺度天气过程开始被探测和捕捉到,动力天气学中一些过去由于信息和计算资源的短缺而不得不采用参数化方法以平均态方式予以解决的物理过程,现在有可能通过较为精确的大规模计算而得到更为精确的积分结果。历史上,每一次观探测密度的增加,都对天气预报的准确性起到一定的积极作用,并在一定程度上丰富了气象学的理论和知识。所以,观探测信息采集尺度的缩小,使得气象学家们通过分析这些小尺度信息,获得较大尺度天气状况以及变化规律的期盼成为可能——需要注意的是,这种分析过程所采用的工具不仅仅是应用数学一门学科,而是数学、物理学、化学、生物学乃至人类学等诸多学科知识的综合运用,此外还需要气象学家们丰富的知识和智慧。

通过综合运用所有已有知识,对信息量迅速丰富的数据进行分析,可以补充完善现有知识,甚至获得新的知识,这是《第四范式:数据密集型科学发现》作者的主要观点,也是《大》书作者极力宣扬的。问题在于该模式(即:数据密集型模式)是否将取代人类历史进程中依次产生的“试验”、“理论”和“计算模拟”这三种模式,而成为未来唯一的科学发现模式?《大》书作者对此是肯定的,所以产生出”理论不再重要”和“接受不精确性”的派生观点;而笔者在上面耗费大量篇幅无非是要证明,这一豪情万丈的结论目前并不适用于气象领域。虽然面对的都是大数据,都是讨论通过对大数据的分析获得新的知识和方法,但《第四范式》的作者无疑是冷静和缜密的,结论令人信服。相比较而言,《大》书作者则显得轻率和极端,得出的结论在不少部门和行业难以现实落地——至少在气象部门是这样。所以,即便是真理,也不能随意向前多迈一步。

如何应对“数据密集型科学发现”在气象行业的具体实现,这是《第四范式》给气象IT部门提出的新的课题。事实上,“海量气象观探测数据的规范化存储管理和高时效应用”这一现实命题,已经挟气象数据的滔滔洪水骤然降临了;随之而来的还有海量气象观探测数据的高速传输、科学分析、处理和高效应用等课题,限于篇幅,笔者将另文详述。

综上所述,可得出如下结论:

(1)目前气象数据体量虽大,但增速缓于摩尔定律。在未来的数年或十余年后,其体量将渐趋适中。同时,由于气象观探测数据中所含信息在空间密度和时序长度方面都与实际需求存在差异,且短期内无法解决,因此无法达到单凭通过对数据的分析处理便可不断获得新的气象知识的程度。以”接受不精确性”和“理论不再重要”为特征的《大数据时代》思维变革观点目前并不适用于气象部门。

《2)现阶段海量气象数据的“大数据应用”,除本行业内深度挖掘之外,最大的可能在于与其它相关行业或领域数据的深度融合,以获得跨领域跨学科的“新知识”。然而这需要科学数据社会共享这一大环境的有效改善。

(3)“数据密集型科学发现”将成为未来气象科学发展和进步的新的途径和模式,气象IT部门应予以充分重视。

5. 结语

信息的迅速丰富,导致大数据时代的来临。面对几乎取之不尽用之不竭的信息,一些人束手无策、一些人欣喜若狂、一些人充满激情地畅想着未来,还有一些人则将其描绘成一面绚丽的大旗,并将其覆盖在自己原本滞销的货物之上,以期连旗带货一同高价兜售出去。

对于气象部门IT从业人员而言,“大数据”不是旗帜,也不是时髦名词,而是一个需要认真思考的现实问题:如何将这些珍贵的气象信息的价值发挥到极致。有一点可以肯定,这绝不是气象IT部门一家的事情,这需要气象学家、IT工程师以及有关职能部门的通力合作,方才可能实现。同时它有可能意味着气象学科传统研究方法乃至机制的变化。

上一篇:提高写作素养的途径下一篇:服务学及其特征