数据驱动创新

2024-07-26

数据驱动创新(精选十篇)

数据驱动创新 篇1

关键词:数据挖掘,精细化运营,客户细分

1 数据挖掘基本概念

随着互联网和移动互联网的不断发展,人们接触到的信息呈现出爆炸式增长态势,“大数据”正以各种方式和路径影响着企业的商业生态,它已成为企业商业模式创新的基本时代背景。

大数据广为人知的特点是4V理论,即Volume、Vatiety、Velocity、Value。由于信息传播媒介越来越丰富,信息存储的体量从MB级别跃升到PB级别,呈指数增长,从原始的机器通信的比特流到较早之前的以文本文件为主的结构化数据再到包括网络日志、语音、图像、地理位置等非结构化数据,数据存储和传输的种类越来越丰富,因此,要求数据传输的效率不断提升,以满足人们快节奏的信息接收和表达的需求。而大数据技术发展到今天,企业更加关注的是大量而丰富的数据所带来的价值和经济效益。正因如此,数据挖掘技术在近些年逐渐被企业重视,作为大数据生态圈的成员之一,数据挖掘技术能够通过丰富的数学工具揭示数据背后的真相,帮助企业提高运营效率、减少运营成本。

2 媒体的数字化运营现状

一方面,互联网和移动互联网的迅猛发展导致了人们的信息获取方式变得愈加丰富,各种各样的可视化设备正在逐步替代传统媒体的地位。相比传统的电视播放节目,移动互联网与大数据技术的完美结合,使其拥有更加丰富的信息资源、个性化的节目点播、差异化的精准推荐,因此,吸引了越来越多用户的关注。利用大数据技术在日常运营中生成、累积用户网络行为数据,探索数据隐藏的用户行为习惯和喜好等大量有价值的信息,通过发掘海量数据背后的有价值的信息,找到更符合用户兴趣和习惯的产品和服务模式,并对媒体产品和服务进行针对性调整和优化,大数据生态系统与互联网的融合也为在线媒体赢得了不可替代的资源优势以及巨大的投资收益。

另一方面,随着三网融合的深入发展,广电行业加快了融合整合的步伐,很多省份都已实现了一省一网的改造,广电系统从原来区县级别的分散式架构跃升到省级的融合平台架构,在数据量上有了数量级的增加,进入大数据时代也是广电的必然选择。以某地级市为例,60万用户的城市产生的内容量大概是100万小时,每个月的点播量为180~200万次,首页的月访问量是4 500~5 000万次,用户每月的订购量在几十万到上百万的规模。广电行业目前已普遍实现了媒体资源的生产、传输全数字化,在原有有线电视传播渠道的基础上,纷纷向互联网视频网站、移动互联网APP等全媒体方向拓展,在大力发展和巩固有线电视收视群体的同时,依托数字化媒体开辟出了一个新的收视群体,这部分收视群体通过新媒体渠道除了产生直播、点播、回放等常规数据外,还有大量交互数据,这势必带动系统数据量的急速攀升。但是,目前传统广电的运营模式对于大数据的应用还相对简单,所以,积极构建广电大数据支撑平台,逐步引入各项大数据应用,广电运营商才能继续在竞争中争取到更多优势。

3 数据驱动精细化运营

3.1 广电网络的客户细分

传统广电运营商提供的电视节目都是各家电视台按自己的计划录制、定时播放,早期开始有客户意识的电视台会综合考虑各个时间段的节目受众,有倾向性地调整节目资源,从而节约成本同时在非高峰期获得一定的收视率。

广电运营商通过多年的积累已拥有了大量用户数据,借助三网融合的战略转型,在现有企业数据仓库的基础上,搭建客户360统一视图,对用户进行多维度细分。深入分析各类用户的收视习惯,并为其提供差异化的产品、差异化的服务、差异化的营销,再通过市场反馈,提升运营能力,逐步实现以客户为中心的运营模式。

传统客户细分方法包括:基于人口统计的细分、基于客户行为的细分、基于客户消费能力的细分、基于客户价值的细分、基于客户生命周期的细分等。通过多种细分方法的交叉使用,能够更准确地回答客户是谁、客户喜欢什么、客户需要什么以及可以提供什么的问题。对于广电网络最大客户群体家庭客群,还可以通过网络账号识别,以家庭为单位将客户细分为不同结构类型的群体。例如:年轻夫妇家庭、中年夫妇家庭、儿童三口之家、学子三口之家、三代同堂等。针对不同类型的家庭定制节目菜单,还可以结合不同时段,家庭收视主体的不同,分时段推送或开放相应的电视节目或频道。

3.2 基于用户喜好的定制节目

2013年,美剧《纸牌屋》的大热让整个电视传媒行业陷入了沉思,同时大数据技术走进广电运营成为全行业关注的话题。它的投资方Netfilx是美国一家在线视频付费服务运营商,通过对3 000万用户的访问规模、用户重合度、用户群和访问深度四个指标进行海量数据分析,得到了拍什么、谁来拍、给谁看、怎么播这四个要素。《纸牌屋》的创造和推出,打开了大数据应用的一扇窗,变革了内容生产模式,根据用户需求而进行精准内容定位正成为现实。Netfilx在行业内掀起的热浪对国内视频网站也产生了影响。国内互联网视频网站也纷纷效仿,通过大数据分析制作了大量网络微电影。国内其他视频网站也纷纷将目光投向大数据,希望利用大数据掘金。

东方卫视的《女神的新衣》是电视、电商两大产业的一次深度试水,传统电视媒体捆绑天猫、明星衣橱等新兴互联网平台,并由互联网平台提供实时、精准的大数据指导电视节目制作,这一模式创造了电视综艺娱乐节目制作的新领域。而广电运营商可以借助大量新媒体数据,综合有线电视、互联网视频网站、移动互联网APP、社交网站等多个渠道形成对影视剧的收视情况进行综合评价,也可以为广电运营商制定影视剧版权购买策略提供重要决策依据,利用相对于收视率更加全面的收视评价数据来引导广电运营的创新发展。

3.3 个性化内容推送

随着大数据技术在在线视频运营中应用的不断深入,越来越多的视频网站或新媒体平台开始关注客户的行为轨迹,探索客户偏好,已逐步形成了以客户为中心的运营模式。对于广电运营商来说,利用大数据实现内容个性化更是有天然的便利,借助三网融合的优势,实现客户身份识别,建立客户统一视图,使在网用户登录后系统会根据用户的浏览和观看行为推荐相关的视频或广告,并且这些定制的推送信息跟随用户的浏览轨迹实时更新,依靠大数据分析实现“千人千面”的个性化内容推荐。

3.4 精准个人广告投放

中国在线视频广告市场规模为21.4亿元,在线视频行业的最主要收入来源依然是广告,其占比高达75.2%。艾瑞咨询认为,在线视频广告市场规模的快速增长,反映出在线视频企业媒体价值的不断提升。未来在线视频广告市场规模的增长动力将来自于广告价格的提升。由此可见,广告对于视频网站来说是赢利的主要途径,通过精准的广告吸引广告主是视频网站想要达到的目标。

而目前传统的电视广告,依然采用分时段插播,按计划循环播放的模式,导致看电视的用户经常在广告时段换台等行为,虽然大多数广告投放已注意到了要与电视节目的内容相匹配,或者按时段不同实行差异化广告投放费用等策略,但客户体验依然较差。

随着网络电视的普及,广电运营商在广告投放模式上,也应借鉴视频网站的经验,大胆创新。配合客户细分技术的使用,为不同偏好的客户在同一电视节目中推送不同的广告内容,并提供一些扩展功能来提升客户体验。通过这些新技术的使用,还可以优化运营资源的结构,同时还能让广告主的投放成本最大效率地应用于有需求的观众。例如:雀巢咖啡的一则网络视频贴片广告,韩寒是广告主角。针对韩寒的忠实粉丝,内嵌的交互广告可以突出韩寒一人,用户点击小贴片进入,点击互动广告,用户可以玩一个小游戏,或者看到广告产品的更多信息,并且通过输入文字点评,在微博上进行互动。这种方式可以充分了解用户,带来广告投放的效益。

4 结语

三网融合、互联网的迅猛发展,都促使着广电运营商的不断转型,以数据驱动的新型运用模式将是广电运营商突破困局、形成独特竞争优势的重要选择。本文通过简要分析大数据技术背景下传统电视运营与新型在线视频运营的发展现状及未来趋势,提供了广电运营创新发展的新思路。

参考文献

[1]李文莲,夏健明.基于“大数据”的商业模式创新[J].中国工业经济,2013(5).

大数据驱动公共管理创新论文 篇2

[关键词]大数据;公共管理;数据管理

随着科学技术的发展,人类进入大数据时代,全世界每时每刻产生海量信息数据,这些数据从各方面完整记录了人类的社会活动。与此同时,人们又可以通过各类工具和平台,从不同的层面、维度和目标对数据进行分析,进而改变了人类对世界的认知。公共管理是指政府公共管理部门整合各类社会力量,通过政治、经济、法律、管理等手段,提升政府绩效、治理能力和公共服务品质。如何运用大数据技术,有效分析并解决当前公共管理中面临的诸多问题和挑战,是公共管理部门探索科学发展、提升治理绩效的重要课题。

1大数据的内涵与特点

深层次意义上的大数据,由Google公司在十周年庆祝大会上提出。传统的数据处理方式更多是基于算法,通常需要预设数据分布和误差结构。而大数据的独特之处在于其不局限于算法和数据本身,在运算前无需假设,以挖掘隐藏在背后的数据价值为核心,数据的运算结果更为精密和准确,并且能从各类型数据中获得有价值的信息。大数据的特点主要表现在:一是数据量大。如今,各类终端设备都已成为数据获取和采集的来源,这些设备随时随地产生大量的原始数据,而这些数据又通过各种通信方式连接并汇聚到各类数据平台。因此,大数据最明显的特征是涵盖了全体数据,且数据体量特别大,其计量单位至少是PB,有些达到EB甚至ZB。二是种类多样。大数据一方面存在着数据获取渠道的多样性,将不同来源的数据进行跨界整合与分析。另一方面存在着数据类型的多样性,在处理各类信息系统所产生的结构化数据的同时,也分析图片、视频、音频、地理位置、网络日志等非结构化数据。三是低价值密度。大数据的大体量造成了数据高度分散,使得单位密度的数据价值较低,如何通过数据挖掘工作,更快速高效地完成信息筛选,发现隐藏在数据关联关系和因果关系之间的客观规律,并将该规律转化为有价值的信息和策略,是大数据的重要使命。四是高速流动。随着数据获取采集能力的提升,快速的数据流动和加载成为常态,人们对实时数据处理的需求也逐渐增多,进而对大数据的高速分析整合能力带来挑战。

2大数据时代公共管理的机遇

作为社会管理的重要范畴,公共管理水平及质量的提升,对全社会的效率提高和治理进步有重要意义,大数据技术为公共管理的发展带来了新机遇。一是使得公共利益各相关方的诉求能够充分表达和交互。公共事物管理的目标是追求公共利益的不断提升,公共利益的满足有赖于各相关方的利益诉求表达。公共利益是民意的反应,民众通过公共利益表达能够对政府的决策行为产生影响。传统的公共管理模式下,社会组织和公民的参与度较低,导致政府在公共资源配置过程中出现权力寻租。大数据提供多样化的信息渠道,使全体公民利益诉求的收集成为现实,可以从满足社会公众利益诉求的角度,形成解决方案的制定和监督。二是提升社会公共管理决策的科学性。决策在公共政策管理中具有重要意义,需要遵循科学、民主、依法和健全的机制和程序。由于缺乏全面性基础性的工作,长期以来在社会管理的决策过程中,普遍存在科学性缺乏的问题,从而导致公共管理政策的绩效水平总体不高。大数据避免了传统方式的弊端,数据的获取更为全面准确,并在数据的基础上,通过人工智能、数据挖掘和建模技术实现动态监测、趋势判断、融合仿真等任务,在最大程度上还原了相关真实信息,使决策部门能够对方案进行有针对性的改进和完善。

3大数据时代公共管理的挑战

大数据驱动产品创新 篇3

许多公司在利用大数据,精确定位客户需求,推出量身定制的新产品,以期提高成功几率。大数据是说公司可以挖掘分析大量各种信息,以改善下一代产品和服务:呼叫中心服务工单、保修记录、在线客户评论、博客、互联网搜索分析、基于位置的服务等。

著名调研机构Ovum Research的分析师托尼·贝尔(Tony Baer)表示,大数据和产品开发“最易见效”的方面就是客户情绪分析:公司密切关注社交媒体帖子、Twitter消息及其他在线信息,了解人们的所思所想。

客户情绪分析基本上将互联网变成了世界上最庞大的专题小组,以便在各种问题和想法完全被意识到之前,及早发现它们。

网上有人议论一家计算机公司的新笔记本电脑存在过热的毛病,该公司发现这个预警信号后,认真分析了原因,发现问题原来出在高级用户将外接显示器连到笔记本电脑上。这些用户在这么做时,势必要关掉屏幕,这就挡住了排风扇,因而导致笔记本电脑过热。该公司马上重新设计了笔记本电脑,以解决这个问题。

为旧产品赋予新含义

大多数公司认为,如果结合来自客户关系管理(CRM)或企业关系管理(ERM)系统等传统数据源的客户数据,通过在线监听收集而来的非结构化数据就能派上最大的用场。

以一家其主打产品销量出现下降的公司为例。该公司利用客户情绪分析工具查看自己的Twitter消息和Facebook页面;发现客户们特别提到一款新的竞争产品已添加了功能。于是,这家公司分析了CRM记录,结果发现同一个问题(缺少功能)是退货的主要原因。它立马给自己的产品添加了相应功能,销量也随之回升。

许多公司有大量的内部数据(现在基本上没有利用起来)可用来指导创新。高科技智囊团Cyon Research的负责人布拉德·霍尔茨(Brad Holtz)举了一个假设的例子:航空公司可以从顾客购买机票时选择座位中获得大量宝贵信息,比如他们是不是宁可以伸腿空间换取靠窗座位。他说:“如果留意一下顾客如何挑选座位,就会发现一些模式,从而可以建立不同的飞机内部布局。”

呼叫中心可以说是洞察客户的基础,是个重要的大数据资源。许多公司在联络中心经常记录下所有的客户对话。处于领先的公司把那些对话自动转录下来,搜寻可能表明需要推出新产品或改进旧产品的常见词,从而满足未得到满足的客户需求。

基于位置的服务是为旧产品赋予新含义的另一种方式。贝尔提到了汽车保险。目前,保险费率是固定的,一方面取决于车主说车子每年要保多少英里。GPS技术可以提供准确信息,了解车主开往何处,这样保险公司就能提供不同的产品,或者为旧产品确定更合理的价格。

托马斯·雷德曼(Thomas Redman)著有 《数据驱动:靠最重要的商业资产获利》(Data Driven: Profiting from Your Most Important Business Asset)一书。他表示,每家公司都需要一个“信息化”战略,通过积聚更多的数据和信息,提高现有产品和服务的价值。

“不管是什么产品,你都可以想方设法让它实现信息化。一个例子就是医院病服。智能病服配备有传感器,可以无线监测病人的血压、体温及其他信息,从而提供更有效的医护服务。” 雷德曼说。

将大数据应用到产品生命周期

不过,将大数据应用到产品创新可不是查看Twitter消息这么简单。首先,公司必须把注意力放在合适的数据上。霍尔茨说:“许多人没有认识到,大数据的关键不是使用海量数据,而是深入分析数据流,解读这些海量数据,从中推断出正确的结论。”

除此之外,将大数据应用到产品创新还需要内部协调达到较高的水平。比如说,客户服务部和市场营销部可能都会发现如果结合起来,能让公司深入了解推出何种新产品和新服务可能比较明智的信息。不过,不同的部门可能有互不兼容的度量标准,所以它们不知道如何轻松地汇集各自拥有的知识。

公司扩大大数据的应用范围时,常常要重新考虑产品开发的基本方法。贝尔说:“只有公司着眼于整个产品生命周期,才会得到最大的好处。但许多公司之前还没有考虑过以这种方式来使用数据。”

不过,如果它们这么做,就会发现众多机会摆在面前。以汽车业为例。霍尔茨说:“曾经一度,我们只分析出现故障后的设备,以便我们能修复。但如果我们着眼于产品生命周期来考虑,就能改变一开始设计产品的方式,从而提高产品在将来的有用性。”

“大数据”如何驱动电影产业创新 篇4

一、引子:用谷歌搜索量化电影魔力

2013年6月, 谷歌的媒体与娱乐业首席分析师Andrea Chen与Reggie Panaligan联合发布了《用谷歌搜索量化电影魔力》 (Quantifying Movie Magic with Google Search[1]) 白皮书。该报告以2012年间美国上映的近百部电影为研究对象, 分析了影片上映前各时间段里用户对各类电影信息的搜索行为数据, 揭示了电影相关搜索量与电影票房成绩间存在的强相关性 (见图1、图2) , 构建了利用搜索数据预测电影票房的数学模型, 并据此提出了若干利用搜索优化电影营销策略的实操建议。由于谷歌在“大数据”时代处于全球领先地位, 该报告一经发布, 旋即引发热议, 有关“大数据”如何影响电影产业发展的讨论一时间成为舆论焦点。

具体而言, 白皮书主要发现包括: (1) 观影是一个需要信息搜索辅助决策的过程, 其中数字渠道所起到的作用越来越大。2012年谷歌上电影相关信息的搜索量较2011年增长了56%, 显示出用户观影决策过程中搜索引擎服务使用率的增长趋势。 (2) 通过分析潜在观影者的信息搜索内容与方式, 搜索引擎服务可以帮助电影营销者更好地理解用户的注意力与意图所在, 为其拓展用户互动空间提供独特价值。 (3) 通过查询量、关键字广告点击量, 结合其它电影相关变量 (如电影院数量、电影类型、是否属于特许经营类电影等) , 可预测某部电影首映周末票房, 其准确率可达92%。利用该模型预测随后一周的周末票房, 准确率也可达90%。利用该模型测算发现, 在新片上映的7日之内, 若某影片比同类影片的搜索量高出25万次, 其票房收入要高出430万美元;若它的关键字广告点击量能高出同类影片2万次, 那么它的票房收入则高出750万美元。 (4) 新片首映前四周电影预告片搜索趋势与首映周末票房成绩之间存在强相关性。结合谷歌上电影预告片的搜索量、电影特许经营状况以及季节性因素, 可预测新片首映周末的票房成绩, 其准确率高达94%。 (5) 由于48%的观影者会在决定去看哪部影片的当天购票, 因此电影推广应在首映周末后再持续一段时间, 而不应止于首映。首映之后周一至周四这段时间里, 付费广告点击率是衡量影片能否持续卖座的重要指标之一。

(数据来源:谷歌)

(数据来源:谷歌)

长期以来, 票房收入预测在电影业界都是个至关重要的终极命题, 它贯穿和影响着电影生产的各个环节, 自然也是从业人员迫切需要解决的现实问题。而随着社会意识形态与消费方式日趋多元, 信息生产与消费方式已发生巨变, 观影决策过程变得更加复杂, 量化票房需要考虑的因素更加复杂, 利用传统思维与调查手段来解答上述问题却愈发捉襟见肘。谷歌利用用户网络搜索数据进行票房预测, 一定程度上验证了利用“大数据”量化电影魔力的可行性。但这个案例只是冰山一角, “大数据”对电影产业的影响并不仅仅止步于此。

二、全景:“大数据”对电影业的量化支撑

一般意义上, “大数据”是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。业界将其特征归纳为4个V, 即Volume (体量浩大) 、Variety (模态繁多) 、Velocity (快速生成) 和Value (价值巨大但利用密度很低) [2]。从“大数据”中挖掘更多价值, 需要灵活运用多学科方法, 目前源于统计学、计算机科学、应用数学和经济学等领域的技术已被开发并应用于“大数据”的整合、处理、分析和可视化。其关键技术主要包括:A/B测试、关联规则挖掘、分类、数据聚类、众包、数据融合和集成、数据挖掘、集成学习、遗传算法、机器学习、自然语言处理、神经网络、神经分析、优化、模式识别、预测模型、回归、情绪分析、信号处理、空间分析、统计、监督式学习、无监督式学习、模拟、时间序列分析、时间序列预测模型、可视化技术等[3]。

抛开复杂的技术术语不表, 电影业最宝贵的“大数据”宝藏蕴藏在用户“大数据”、内容“大数据”、渠道“大数据”三座“矿山”之中。而“大数据”给电影业带来的核心价值在于“洞察”———实时洞察时代变化与社会潮流变化, 实时洞察消费者意识与行为变化。基于实时、细致入微的消费者洞察, 电影业能辨识、锁定新的市场机会, 全面量化电影各环节运营, 从而支撑产品、服务与体验创新, 充分挖掘电影市场的潜力空间。

目前电影业对“大数据”的利用还处于探索初期, 不同环节对数据的依赖程度与运用现状也有所不同。以美国好莱坞为例, 电影产业主要包括五大环节, 分别为电影选题开发、前期制作、影片制作、后期制作与推广发行 (见图3) 。其中, 选题开发与推广发行两个环节对数据的依赖较大, 因此, “大数据”对这两个环节的提升作用最为直接。

首先是电影选题开发环节, 这是电影生产的第一步, 同时也是最需要数据支撑的步骤。选题开发主要包括市场研究、资源分析、概念开发、剧本创作、剧本包装、资金筹措等工作, 需要大量数据支撑将各种想法、创意变成可行性剧本。首当其冲的就是市场研究工作。通过市场研究动态追踪市场需求, 把握消费者口味变化, 从而准确判断市场定位。在选题开发环节, 大数据的运用主要体现在辅助剧本创作、剧本包装、估算影片投资回报率等方面。如2013年2月北美最大的付费订阅视频网站Netflix上线的政治题材剧《纸牌屋》 (Houseof Cards) , 正是利用“大数据”指导内容策划与生产的成功案例———Netflix基于对“电视剧消费习惯数据库”中逾3000万用户的收视选择、400余万条评论、300余万次主题搜索等大数据分析结果, 确立了凯文·史派西主演、大卫?芬奇导演和“BBC出品”剧本的黄金组合, 据此投资一亿美金拍摄该剧。该片被《纽约时报》、《洛杉矶时报》、《经济学人》等海外权威媒体视作“数据革命”的典型案例, 为业界通过“大数据”指导选题开发提供了参考。

其次是电影前期制作、影片制作与后期制作环节, 主要包括: (1) 电影前期制作, 这是影片拍摄前的计划与编制阶段, 主要涉及确立制作核心、拍摄计划编制、剧本内容修订、演员试镜筛选、外景场地选择、确定设计方案等。 (2) 影片制作, 主要涉及实景拍摄、影片粗剪、进度掌控、影片修正等。 (3) 后期制作, 将所有影片元素剪辑成为一个完整的故事, 主要包括最终剪辑、影片混录、影片预映等。在整个制作环节中, “大数据”可以帮助实时洞察消费者变化, 辅助确立主创团队、协助剧本内容修订、提高生产管理效率、优化影片剪辑、量化评估影片预映效果等。

第三是电影推广发行环节, 这个环节是最接近消费者的环节, 对票房成绩能起到关键作用, 同时又是非常昂贵的环节, 其费用支出可能高达影片制作费用的半数甚至以上, 因此, 数据对推广发行的量化支撑至关重要。从营销推广的角度来看, 最深刻的变化来自营销环境和消费者端的巨变。随着用户对新媒体的利用更加普及, 电影营销对搜素引擎、微博、微信、社交平台、移动应用APP等新媒体的依赖越来越大, 而基于新媒体平台的“大数据”是未来实现电影精准营销的基础。通过“大数据”技术, 营销人员能更为深入地理解电影的目标观众到底是谁, 他们有什么消费特征和媒介接触特征, 设置什么样的卖点和策略才能打动他们, 整合哪些媒介才能有效覆盖与到达目标市场。从发行的角度来看, “大数据”能让营销人员实时洞察潜在消费者, 了解不同地域的用户群体在性别、年龄、学历、职业、消费特征、收入状况等方面有何不同, 以此优化院线发行策略、辅助互联网发行以及后产品开发等决策。

以目前最受关注的影片《小时代》为例, 其发行方“乐视影业”在制定营销方案时就参考了兄弟公司“乐视网”的“网络观影调查”数据, 得出结论:“《小时代》40%的受众是高中生, 他们是郭敬明、杨幂等主创的忠实粉丝, 是冲动型消费者;30%是白领, 对《小时代》感同身受, 是营销导航的重点;20%是大学生, 他们是非核心消费者, 但能影响其他受众;另外10%则为目前观影年龄在26到35岁之间的主体观众, 他们是需要消除顾虑, 扩大外延的群体”。基于上述数据, “乐视影业”制定了社会化媒体营销、手机客户端以及地面导购系统的全方位市场营销方案。从营销效果来看, 近日来《小时代》位居百度“搜索风云榜”电影榜单首位, 其“搜索指数”远高于其它电影。当然, 《小时代》的票房成绩也非常亮眼, 首映三日便超过两亿, 截至2013年7月8日其票房累计已达4.19亿[4]。

总而言之, “大数据”对电影业的影响不仅仅局限于当下热议的内容生产领域, 谷歌利用网络搜索数据预测票房也只是电影领域“大数据”的简单利用案例之一。若着眼中长期发展, 从选题开发、影片前-中-后期制作、营销推广再到发行及终端放映, 电影产业的每一个环节都蕴藏着数据化运营的可能性, 而“大数据”对全球电影业的深刻改造也才刚刚启幕。

三、思考:“大票房”时代的“大数据”难题

与成熟的好莱坞体系相比, 中国电影产业还存在不小差距。2012年美国电影总票房约108亿美元, 这一规模约为中国的四倍;2012年美国电影产业规模为900亿美元, 而中国电影产业规模仅为34亿美元[5], 仅为美国的3.78%。尽管如此, 中国电影产业高速成长态势却让人难以小觑。受益于国家深化文化体制改革、推进文化产业大发展大繁荣的政策红利, 中国电影产业持续高速发展, 电影票房连续10年大幅增长。最近3年中国电影票房的增长情况如下 (见图4) 。而据“艺恩咨询”最新数据显示, 2013年上半年国内共计上映影片146部, 其中国产电影117部。截至6月23日, 全国电影市场总票房达102.65亿, 国产片票房累计64.67亿, 全年票房有望突破230亿。中国电影产业已迈入名副其实的“大票房”时代。

(数据来源:国家新闻出版广电总局)

虽然“大数据”已经成为国内“大票房”时代的热门话题, 国内部分电影机构对“大数据”也时有运用, 但在当前阶段盛赞“大数据”对电影的“神话”改造却为时尚早, 其概念营销的意味远远大于实际作用。总体看来, 国内距离真正运用“大数据”全面支撑电影产业创新还有很长的路要走, 目前还面临着诸多现实困难。

首先, 目前国内电影“大数据”来源分散, 类型混杂, 实施“大数据”挖掘需要整合多处数据来源、打通数据平台、吸引跨界合作, 实施难度很大。在当前环境下, 除了电影制作公司、电影院线自行收集的数据之外, 来自搜索引擎、视频网站、门户网站、垂直网站、电影社区、社交平台、电子商务、移动应用商店等渠道的数据都可不同程度地对电影选题开发、前期制作、影片制作、后期制作与推广发行环节的量化运营形成支撑作用。但要整合这些海量、分散、庞杂的数据资源, 并非易事, 也非一家能成之事。

其次, 国内电影“大数据”透明度不高, 真实性难以确定。前文提及的“大数据”资源分属百度、腾讯、新浪、阿里巴巴、优酷土豆等互联网企业。这些“大数据”平台彼此独立, 彼此封闭, 并不会完全透明地开放给第三方电影调查公司, 自然也难以形成“非抽样、而是全体样本”的“大数据”全景。除数据平台难以打通之外, 数据的真实性也是症结之一。长期以来, 国内电影业并没有建立起数据公布共享的行业惯例, 即便是票房数据在前几年都不会被完全公开, 更不谈其它深度运营数据了。因此, 缺乏真实数据的输入, 设计什么“大数据”模型都是枉然。

再次, 光有数据远远不够, 还需要懂得如何建立数据模型, 如何解决中国电影的实际问题, 这样才能避免数据研究失焦、走偏。以开篇《用谷歌搜索量化电影魔力》中提到的票房预测模型为例, 它在解决美国问题时宣称其准确率高达94%, 而搬到中国却面临尴尬。据百度“爱奇艺”创始人、首席执行官龚宇透露, 他曾尝试把中国电影数据套进谷歌的票房预测模型, 但预测结果的准确率却很低, 同时“百度也尝试过预测票房, 但是效果不佳[6]”。同样以电影搜索数据为基础, 同样的数学模型, 准确率却大不相同, 可见照搬国外算法与模型是很难行得通的。据业界资深人士介绍, 现阶段国内约90%以上电影调查公司都以“百度指数”作为研究基础模型, 再综合题材、主创阵容等指标进行定量分析, 其分析深度、数据精度、准确度整体并不高。谷歌模型失效的背后, 暗藏着中美电影市场的巨大差异, 要深度解读这些差异、量化支撑中国影业的发展, 则亟需重塑与构建更懂中国、更适合国情的数据思维与计算模型。而要达成这些目标, 不仅仅需要“大数据”的思维、知识与技能, 更需要懂电影、懂技术、懂数据、懂运营的跨界人才储备来做支撑。而目前国内“大数据”人才非常紧缺, 这也将是未来制约中国影业长期发展的瓶颈所在。

最后, 回归电影的本质, 它不仅是门“技术活”, 也不仅仅只是门赚钱“生意”, 它更是一个艺术乐园, 一个奇幻魔法场, 它为人类创造了丰富的光影时空与奇特的人生体验, 这在“大数据”时代依然历久弥新。也许“大数据”能帮助影人洞察人心、助力新片票房大卖, 但它却永远无法完全取代电影艺术家们的创意、智慧与艺术贡献。

参考文献

[1]Google (June 2013) .Quantifying Movie Magic with Google Search, July.1, 2013, from google site, http://www.google.com/think/research-studies

[2]李国杰, 程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考.《战略与决策研究》, 2012 (6) , 647-657.

[3]McKinsey Global Institute (May 2011) .Big data:The next frontier for innovation, competition, and productivity, June.4, 2013, from mckinsey site, http://www.mckinsey.com.

[4]搜狐娱乐, 《〈小时代〉累计4.19亿》, http://www.dzwww.com/yule/yulezhuanti/mtcbg/201307/t20130708_8641539.htm

[5]中新社, 《中国电影业规模为美国1/26全产业链或成新方向》, http://finance.chinanews.com/cj/2013/06-19/4947437.shtml

数据驱动型团队建设 篇5

这种情况比比皆是,当通过数据测度,将若干关注的指标能够通过数据精确的表达出来之后,所谓的数据驱动假象就开始逐渐扩散,越来越多天马行空的需求不断提出。“既然已经有了数据和专门做数据的人,那么一切数据的获取成本都可以接受”的思想开始蔓延。久而久之,一种不考虑成本情况下希望快速获得目标数据,而不是考虑最终结论/推断的“数据贪心”心理将会对数据驱动型团队建设毁灭性的打击。即便满足了所有的数据需求,那也仅仅是通过满足需求而将问题所掩盖,长期来看,数据工作就像是订外卖一样,按照需求来下单。然而,成为营养师,才应该是数据驱动的目标。

个人看来,提供数据,仅是数据驱动型团队建设过程中的一个结果,远远不是目的。一个成熟、良好、高效的数据驱动型团队的数据建设,宜从如下三个层面深入发展:

1. 数据测度化:也就是有数据,让目标指标测度化,用数据进行量度,并将数据存入数据库,供任何时刻的应用,同时将尽可能多的维度加入其中,经过ETL,以实现理论上的多维度查询和无限度的钻取或切片。有了数据,团队所面临的最紧迫问题也有了答案。(当然,不要忽视数据的检验这一最关键的工作环节)而后,基于团队的规模,对数据进行适当的积累,让数据足以反映现状。对于数据的测度化,这些就足矣。如果在测度化上投入精力过多,比如把理论下的Cube OLAP实时查询,实现最高分辨率的了解数据当作一个目标,那么必然会将有限的资源投入到其中,使得无从进行更为重要的数据探索,进而对N维的数据无从做起维规约,极大降低数据获取和分析效率,让绝大部分精力集中在效果有限的高分辨率的具体数据查询上。届时,数据建设就真成了可悲的外卖,你点什么送什么。虽然能够果腹,但长远来看,却牺牲了数据建设。

2.数据探索及可视化:数据探索是指了解测度化的数据(存储于数据库中的数据)。与不断接受需求来实现了解数据不同的是,数据探索注重的是“聚合”,而非“细化”;而数据需求多为零散而细节的要求,两者恰恰相反。后者虽然能了解到数据的细节,但往往会因分辨率太高,而忽视了整体,

在数据探索中,首先宜用一些描述统计对可测测度的数据进行了解,如求和、均值、方差、众数、各级分位数等等。我们通过求和知道了数据规模,通过均值了解平均水平,通过方差认识到波动水平,通过各级分位数明确了数据的大体分布情况,峰度和偏度则佐证了这个变量的正态性如何。通过这样的“聚合”,数据已经变得心中有数。

其次,在充分了解了数据整体情况后,要对数据中众多的维度进行规约。一种崇拜多维度下交叉分析的情况在数据分析过程中越发明显,多维度分析当然没错,但是教条的多维度分析则是错误的做法。高相关性(无论正、负)的维度变量,应该尽早通过线性组合来实现降维,及早的降维会让日后的工作事半功倍。

最后,在了解了数据总体情况,并将数据的维度减少之后,对全新的数据就要开始可视化的操作了—-将我们已经熟悉的数据通过图形化变现出来,图形是锁在人类内心深处的基础技能,因此,可视化能让数据的阅读门槛大大降低,并提高监控效率。我们的不断努力,就是要将辛苦得来的数据让人无障碍的阅读。复杂的报表,会让人阅读起来无比头痛,进一步致使数据工作人员要不断的进行解读。出于数据工作的整体战略和资源(往往是稀缺的)考虑,为了进一步专题的分析数据和数据挖掘,数据统计结果越能自助处理越好。可视化数据要重点体现的成果是:矩阵散点图来表述不同维度间变量(指标)的分布;柱状图来表达某一个变量(指标)的积累分布情况……

数据驱动型团队需要取舍,就像一切的工作一样。多维度、高分辨率的实时查询诚然有用,但并非在建立数据驱动型团队初期的目标。通过上述三个方面的努力,在数据饥渴的团队中,可以最大程度的满足需求,并不妨碍整个数据战略——去实现数据驱动,用数据来评估运营、市场、产品、人力资源。因此,完成了数据驱动型团队的第一步之后,接下来要用不同的主题分析来对前述情况进行支持。

MediaV:数据驱动营销 篇6

聚胜万合(MediaV)董事长兼首席执行官

毕业于复旦大学计算机软件专业并获得网络营销MBA。2000年加入好耶,2007年任好耶COO兼总裁,全面负责公司业务发展和技术研究。2009年创建聚胜万合(MediaV),负责公司的整体策略及业务运作。

当越来越多的效果类广告主开始注重品牌价值,越来越多的品牌类广告主开始关注效果评估,以往在某种程度上有所割裂的精准营销就已开始聚合——真正意义上的精准营销浮出水面,而作为实现精准营销的重要基础,数据将发挥越来越重要的作用。

为了实现广告主品牌传播与营销效果ROI的有效提升,2011年,MediaV在数据驱动下推出了上下文定向、智能匹配等一系列数字营销服务,通过机器自动识别、智能匹配,把无数创意优化分配到目标人群。而在服务一百多家大型电商企业的过程中,MediaV发现了更多规模较小的长尾电商企业的需求,为了帮助他们更好更快地进入精准营销领域,2012年MediaV将通过免费提供如“聚合分析”、“聚效广告平台”等电商专属的用户行为和分析工具,打造一个按效果结算的开放性、自助性广告平台,帮助他们有效管理数据和用户。

2012年,MediaV还将把电商领域这套比较成熟的营销服务体系向其他行业拓展。下一步MediaV即将推出“多渠道营销归因分析”——这套技术通过分析用户浏览过的所有网站数据,帮助广告主综合分析,以便其更清楚地看到订单的承单媒体和助攻媒体,更好地分析不同媒体带来的不同营销效果,从而更有效地进行营销预算分配。

数据驱动创新 篇7

1 创新驱动发展的测度

1.1 方法简介

这里的创新驱动发展是科技创新驱动发展的简称,目前评测科技创新驱动发展的方法主要有以随即前沿分析(SFA)为代表的参数法和以数据包络分析(DEA)为代表的非参数法。其中,DEA方法无须设定具体的生产函数,采用线性规划技术确定生产前沿面,也无需进行特定的行为假设,避免了主观因素的影响,因此被广泛地采用。这里我们采用此方法,DEA方法由Farrell(1957)[6]首先提出,后经Charnes、Cooper和Rhoades(1978)[7]完善形成规模报酬不变(CCR)模型和规模报酬可变(BCC)模型。

假设有s个决策单元(DMU),使用m种投入要素xij(j=1,2,3,…,m),生产n种产品yir(r=1,2,3,…,n),其中投入和产出都是非负值,那么每一个决策单元o的相对效率衡量指标Eo(u,v)可表示如下:

1.2 投入产出指标的选取

在对创新驱动发展进行具体的测定时,需要选取合适的投入产出指标。对于投入指标,我们选取各地区R&D人员全时当量和R&D资本存量指标,其中R&D人员全时当量指标由《中国科技统计年鉴》直接给出,而对于R&D资本存量指标,《中国科技统计年鉴》并没有直接给出,而是给出R&D流量指标,在此,参考Griliches (1980)[8]的做法,采用永续盘存法进行核算,具体的表达求如下:

式(2)中,Kit和Kit-1分别为i地区的第t期和t-1期的R&D资本存量,Dit为i地区的第t期折旧,以2000年为基期,应用朱平芳和徐伟民构造的R&D支出价格指数=0.55×消费价格指数+0.45×固定资产投资价格指数对名义的R&D支出经费进行调整。

2 模型设定和其他变量说明

2.1 Moran'l指数

在对FDI的进入度和创新驱动发展进行具体的考察前,需要了解创新驱动发展是否存在空间相关性,具体的衡量统计量是Moran'I指数,计算公式如下:

式(3)中,xi和xj表示空间单元i与j的属性值;S2为样本方差;Wij为两地区地理中心位置之间的距离。Moran’I指数的取值范围为[-1,1],当取值大于0时,表明存在正的相关性,相反即表明存在负的空间相关性,并且取值的绝对数表明相关性的程度大小。具体的结果见表1。

注:括号内为显著性概率,*、**、***分别表示在1%、5%、10%的水平下显著。

由表1可知,各地区的创新驱动发展间基本存在着显著的正的空间相关性,即周边地区的创新驱动发展的改善能够带动本地区的创新驱动发展的提高。

2.2 空间模型设定

受制于分析工具,经典的计量模型不考虑空间因素,Anselin(1988)对空间模型进行了系统的研究,考虑空间数据的非同质性,建立了空间自回归模型(SAR)和空间误差(SEM)模型等。如果变量在空间上相关,则为空间自相关模型,如果模型误差在空间上相关,则为空间误差模型。因此,本文建立如下的模型:

式(4)和式(5)分别为空间自相关模型和空间误差模型,TCit为i地区第t期的创新驱动发展。W为空间距离权重矩阵。φ为邻近省份创新驱动发展的空间加权变量;FDit为FDI进入度,用各地区三资工业企业的总资产与工业总资产的比值表示;μit和εit为随机误差项。Xkit为其他的控制变量,包括对外开放度(Open),用各地区的出口总值占地区GDP的比值表示;企业规模(Size),用各地区工业企业主营业务收入除以企业数表示;产权结构(Own),用各地区国有工业资产占工业总资产的比值来表示;地区经济发展水平(Dev),用地区GDP的对数值表示。

FDI的进入对本地创新能力的影响可能受到本地区吸收能力的影响,基于这一点,我们考虑FDI的进入度与人力资本的交互项,因而重新构建模型如下:

其中,FDIHC为FDI进入度与人力资本的交互项,人力资本的具体计算方法参照白俊红(2011)[9],其他定义同上。

2.3 数据来源

由于西藏的年份缺失,这里我们采用除西藏之外剩余30个省份的2003—2012年的面板数据进行分析,数据主要来源相应年份的《中国科技统计年鉴》和《中国统计年鉴》。

3 结果分析

利用matalb软件进行估计,Hausman检验的结果显示,固定效应优于随即效应,因此这里只报告固定效应的估计结果。事实上,当样本由特定的个体组成时,选择固定模型较为恰当,否则选择随机效应。由于固定效应包括地区和时间两类观测效应,因此具体可分为无固定效应(NF)、地区固定而时间不固定(sF)、时间固定而地区不固定(tF)及时间和地区均固定(stF) 4类。具体见表2。

表2报告了空间自相关模型和空间误差模型的回归结果。根据Elhorst (2003)[10]的判断准则,地区固定时间不固定(sF)的空间误差结果具有较高的空间系数,并且在1%的水平下显著,此外从可决系数和似然值来看,二者的数值都是最高的,因此此处采用该模型进行分析。

空间误差系数显著为正,意味着邻近的区域的创新驱动发展存在着显著的正的空间相关性,即周边地区的创新驱动发展的提高能够改善本地区的创新驱动发展,创新驱动发展存在“局域俱乐部现象”。地理距离的邻近不仅可以节约交通成本和方便资源的共享,而且有利于研究人员之间面对面的交流和沟通,从而有利于效率的提高。

注:括号内的数字为显著性概率,*、**、***分别表示在10%、5%、1%的水平下显著。

FDI的进入在1 0%的水平上对创新驱动发展的影响为正,表明FDI在国民经济中所占的比重提高有利于创新驱动发展的改善。究其原因主要有以下方面:一方面,FDI的进入带来了相对于“珠三角”本地企业来说较为先进的技术,特别是近些年,一些大型的跨国公司在本地设立的研发机构越来越多,这给“珠三角”本地企业提供了直接的学习机会,通过与外资企业之间各种直接和间接的联系,在节约本地企业创新成本的同时,大大地缩短了本地企业的创新周期;另一方面,外资企业的进入加剧了本地同类市场的竞争,一些技术水平和效率低的企业面对较大的生存压力,甚至是破产倒闭出局,在这种情况下,本地企业就有较大的动力进行科技创新。

进一步考查其他控制变量对创新驱动发展的影响。从估计结果来看,对外贸易的回归系数在1 0%的水平下通过假设检验,因此创新驱动发展的提高随着对外开放水平的提高而得到改善。通过进口先进的技术设备,直接增大了“珠三角”本地的创新投入。此外,对进口的高技术产品的消化和吸收也能够加快本地的创新速度。从出口来看,“珠三角”本地企业在出口的过程中不但能够得到国外产品购买者的技术支持,而且面对国际市场的激烈竞争,企业更有动力进行创新。企业规模的系数为负,也就是说企业规模的增加不但没有促进反而抑制了效率的提高,可能的原因如下:随着企业规模的扩大,研发要素之间的交流和沟通成本增加,从而阻止了效率的提高。产权结构和地区经济发展水平均通过了1%的显著性检验。产权结构对区域效率有正的影响,也就是说随着国有产权在整个经济中所占的比重不断提高,区域效率也会得到改善,这可能是与研发的特点有关系,作为一项高风险、低收益、高成本的活动,一般的中小企业没有实力进行,并且国有企业有能力引进高素质的研发人员,从而加速创新投入的转化率。地区经济发展水平的估计系数也为正,说明区域经济水平的提高有利于区域效率的改善,随着地区的经济实力的提升,地区基础设施、人员素质等也会得到提高,这些为效率的提升提供硬件和软件基础。

那么,“珠三角”本地区吸收能力的提高是否有助于改善FDI的创新驱动发展的促进作用,见表3。

由表3的结果,我们仍选择空间固定时间不固定(sF)的空间误差回归结果进行分析,具体的选择原因同上。我们看到FDI与人力资本交互项的系数显著为正,意味着本地吸收能力的提高有助于FDI的创新驱动发展效率的提升,表明未来政府在引资的过程中也要注意提高“珠三角”地区的吸收能力,这样才能更好地吸收外资企业的技术溢出。其他变量的解释同上,这里不再赘述。

4 结论及建议

注:括号内的数字为显著性概率,*、**、***分别表示在10%、5%、1%的水平下显著。

本文利用我国30个省区的2006-2015年的面板数据,利用空间计量的方法,实证分析了FDI的进入对“珠三角”区域创新驱动发展效率的影响,主要的结论如下:

不同地区间的创新驱动发展存在显著的正的空间相关性,邻近地区的创新驱动发展效率的提高有助于“珠三角”地区创新驱动发展的改善。FDI的进入可以显著改善“珠三角”地区的创新驱动发展的效率,未来“珠三角”地区的地方政府要出台相关的政策以进一步提高引进外资的质量。对外贸易、产权结构、区域经济发展水平对创新驱动发展的影响为正,而企业规模对创新驱动发展的影响为负,未来应继续提高对外贸易水平、优化产权结构、提升经济发展水平,同时应该避免过于臃肿的大型企业机构的出现。本地区吸收能力的提高对FDI的创新驱动发展的提升作用具有显著的正面影响。

参考文献

[1]Globerman S.Foreign Direct Investment and Spillover Efficiency Benefits in Canadian[J].Journal of Economics,1979(12):42-56.

[2]Blomstrom M,Persson H.Foreign Investment and Spillover Efficiency in an Underdevelopment Economy:Evidence from the Mexican Manufacturing Industry[J].World Development,1983(11):493-501.

[3]Djankov S,Hoekman B.Foreign Investment and Productivity Growth in Czech Enterprises[J].World Bank Economic Review,2000(14):49-64.

[4]Konings J.The Effect of Foreign Direct Investment on Domestic Firms:Evidence from Firm Level Panel Data in Emerging Economies[J].Economics of Transition,2001(9):619-633.

[5]Anselin L Spatial Economitrics:Methods and Models[M].Dordrecht:Kluwer Academic publishers,1988.

[6]Farrell M,J.The measurement of productive efficiency[J].Journal of Royal Statistical Society,1957(120):253-281.

[7]Charnes A,Cooper W W,Rhodes E.Measuring the efficiency of decision making units[J].European Journal of Operational Research,1978(2):429-444.

[8]Griliches Z.R&D and the Productivity Slowdown[J].NBER Working Paper No.w0434,1980.

[9]白俊红.人力资本、R&D与生产率增长[J].山西财经大学学报,2011(12):18-25.

数据驱动创新 篇8

在我国税务信息化快速发展的背景下,实施创新驱动发展战略,对经济发展方式的转变和创新型国家的建设都具有重要意义。Paul Romer(1990)指出,有意识的科技创新投入,能够带来技术进步,而这种内生的科技进步,能够带来经济发展。Lucas,R.E.(1988)仔细分析了3个模型,认为除了国际贸易外,物态资本投资带来的科技变化,和在教育投资中带来人力资本增值一起,都能带来经济增长。Carroll,C.(2011)及其他国内学者均提出了类似观点。但这些研究,大多集中在资本投入到企业后,企业如何通过利润最大化来实现经济增长。本文则探究,投资在政府部门的信息化建设,尤其是税务部门的税源管理系统,在我们会计领域,能否为企业提供高质量的会计信息提供帮助。

2009年6月,为了解决现代税源管理中日益加剧的征纳双方信息不对称的问题,国家税务总局提出了信息管税的战略决策。信息管税,是指“充分利用现代信息技术手段,以解决征纳双方信息不对称问题为重点,以对涉税信息的采集分析利用为主线,树立税收风险管理理念,健全税源管理体系,加强业务与技术的融合,进而提高税收征管水平”。从定义可以看到,信息管税是税务机关进行征税的一种策略性措施。

税收信息化的发展推动了征管模式的变化和税收业务流程的重组,实现了全国税收数据大集中,搭建了统一的纳税服务平台,推行了网络离线申报、微信申报、APP申报等多种现代申报工具,对于进一步规范健全全国税源管理体制、优化纳税服务、提高征管质量和效率的税收征管改革目标具有极其重要的意义。2013年3月7日,国家税务总局又发布了《网络发票管理办法》,决定于2013年4月1日起在全国范围内正式推行使用网络发票,纳税人通过互联网即可完成发票领购、配号、开具、查询等一系列事项,大大减轻了企业在开票管理过程中的总体投入成本负担。对内,建立了规范统一的行政管理平台(也称OA)和工作统筹平台,将综合办公系统、管理辅助系统、信息化管理平台、数据应用平台、内外网门户网站、知识管理平台纳入其中,强化了税务机关纵向、横向沟通和数据共享,大大提高了行政效率。

在上述前提下,我们有条件去探究会计信息质量与信息管税之间的关系。讨论实施信息管税后企业规模与会计信息质量的关系,有利于回答两个问题:一是企业在发票管理和纳税申报中,配合税务机关实施信息管税,客观上企业的会计信息质量有没有提高?二是如果有提高,那么对于哪些企业提高效果更佳?进而,我们可以指出哪一类的企业为了提高会计信息质量,应该在公司内部投资更多资源去配合税务机关开展信息管税工作。

二、文献回顾

随着云计算、大数据、移动互联等先进科技的发展,现代企业的管理模式不断进行调整和变革。美国从20世纪60年代起就逐步建立了税收征管网络,涉及税务登记、申报征收、税源审计和监控、资料检索和收集、人事办公等方面的工作。很多西方国家建立了覆盖面广且完善的税务信息系统,大大提高了收税效果和效率,促进了税务信息化的发展。税务信息化管理水平是征税现代化的一个指标。西方学者关于信息管税的理论研究大多集中于税收征管风险管理、流程再造、信息不对称等理论。美国信息管理专家诺兰(NOLAN)1979年提出诺兰模型,把信息化发展概括为初始、传播、控制、集成、数据管理和成熟六个阶段。在诺兰模型的基础上,米歇(Mische)在20世纪90年代提出的管理信息系统建设的米歇模型更能够反映当代信息技术发展的新特征。此后,诺兰模型和米歇模型被广泛应用到信息管税的研究当中。墨菲在《美国联邦税制》一书中,介绍了提高税务信息化水平的几个要点:将现代化的科技手段运用到税收征管中;制定具有刚性的法律法规;科学设置税务机构;协调部门之间的工作机制。

在中国,信息管税的研究在很长时间的摸索和发展之后,取得了巨大的成绩,信息管税对征管效率的提升作用越发明显。国内部分学者从信息管税的作用,引申出信息管税的内涵,如西安国税樊唯理认为从信息管税的内涵来看,“信息管税是以信息为媒介,促进税收征纳良性互动”“以网络为平台,消除信息‘孤岛’”“以科技为支撑,提高税收征管质效”。国家税务总局宋兰认为,信息管税是全面提高税收征管水平的必由之路,加强业务与技术融合是信息管税的关键,有学者将税源监控和会计规范联系起来。山东国税黄玉远认为,推行信息管税“有利于保障税收收入稳定增长”,有利于“提高税源精细化管理水平”,“有利于提高公共资源的使用价值”。当然,通过对信息管税实践的研究国内一些学者也指出了目前信息管税发展存在的问题及解决方案。刘慧芳对信息不对称理论与税收征管的关系进行了详细分析,提出要解决税收征管中的信息不对称,需要从机制、税收立法、信息化建设等方面完善。朱振国从数据采集和分析的角度指出当前税务部门信息管税存在征纳双方信息不对称、数据信息采集操作不够规范、缺乏数据信息分析应用平台等问题,并从思想、机制、纳税服务方面提出解决办法。

上述观点基于理论和实践对信息管税模式进行探讨,指出了在不同信息时代和不同政治体系的大环境中,这种税收管理活动应用推广的可行性和必要性。后一部分探究了会计信息质量的研究,讨论了会计信息供给和监管方两个不同利益相关者。其不足之处在于:首先,这些文献大多是在传统管税模式下,特别是基于公司内部层面对会计信息质量的影响因素所进行的论证,没有涉及到新型信息管税模式下对会计信息质量的需求;二是没有考虑到这种信息管税模式约束下如何促进企业会计信息质量的进一步提高。

三、研究假设与设计

(一)假设的逻辑

迄今为止,人们用于评价会计信息质量高低的标准依然是:信息是否真实、可靠,是否相关、有用、合规,等等。换言之就是真实程度高、可靠程度高、相关程度高、有用程度高、合规程度高等的会计信息是高质量的会计信息。这也是企业财务报告中对会计信息质量的基本要求,而会计信息质量要求的真实性、可靠性、相关性、有用性、合规性,主要体现在财务报表中。

在广州地区实施信息管税,主要是推行“金税工程”一期、二期和三期,建立电子化的发票管理系统,使得企业的涉税交易,可以在一定程度上控制假发票对会计信息的影响,又可以有效地提供大量真实的业务信息,使得企业可以通过此系统更容易获取准确的三大期间费用信息、原材料采购信息及其他资产负债变动信息,从而提供高真实性、可靠性、相关性、有用性、合规性的财务报表。如果企业本身有足够的专业人员,也配备了恰当的会计信息化软件,此系统对会计信息质量提高效果不大。反之,信息管税,应该可以帮助企业在成本准确性、费用列支准确性和资产负债状况列报准确性三个方面有一定的效果提高作用。因而,本文提出以下假设:

假设A:在信息管税下,企业规模越小,会计信息质量提高效果越好。

假设A1:在信息管税下,企业规模越小,成本准确性的提高效果越好。

假设A2:在信息管税下,企业规模越小,费用列支准确性的提高效果越好。

假设A3:在信息管税下,企业规模越小,资产负债状况列报准确性的提高效果越好。

如果假设A1、A2和A3得到数据支持,我们认为假设A得到验证通过。

(二)研究设计

1. 变量设计。

(1)因变量:本文的因变量包括以下三个:成本准确性的提高效果、费用列支准确性的提高效果和资产负债列报准确性的提高效果。上述因变量用Likert 5级测量,题项中,靠近5的Likert测量值,表示程度最高;靠近1的Likert测量值,表示程度最低;靠近3的Likert测量值,表示程度中等。(2)自变量:企业规模。根据税务机关的常用划分,企业规模我们给出以下三个选项:A.小型(工业企业300人以下;商业企业100人以下;服务性企业400人以下);B.中型(工业企业300—2 000人;商业企业100—300人;服务性企业400—800人);C.大型(工业企业2 000人以上;商业企业300人以上;服务性企业800人以上)。

2. 样本与研究设计。

本研究采用问卷,收集信息管税相关数据,我们的问卷主要通过广州税务机关发放,发放和收集时间为2014年7—10月,调查问卷的填写者主要是广州地区的大中小型企业里的财务人员,被调查企业42家,覆盖了广州市十区两县,分布具有随机性,行业范围广,涵盖了生产制造、交通、旅游、餐饮休闲、医疗卫生、金融商贸等十多个行业,调查的问题设置主要集中于税务机关实施信息管税后企业会计信息质量提高的效果和作用等方面。在调查时,企业专门安排给相关员工填写问卷,基本保证了受访对象意见表达的真实性,本问卷从而具备了可靠性。本次研究,共发出调查问卷450份,收回有效问卷397份,有效问卷回收率为88.2%。

四、实证检验与结果分析

(一)假设检验

采用一元线性回归分析进行建模分析。回归分析是一种统计学上分析数据的方法,目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的变量。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。

假设A指出,实施信息管税后,企业规模越小,会计信息质量提高效果越好。信息管税的实施与对会计信息质量提高效果有三个方面联系:成本准确性的提高效果、费用列支准确性的提高效果和资产负债状况列报准确性的提高效果。因此检验这个假设,首先检验假设A1:实施信息管税后,企业规模越小,成本准确性的提高效果越好;然后检验假设A2:实施信息管税后,企业规模越小,费用列支准确性的提高效果越好;最后检验假设A3:实施信息管税后,企业规模越小,资产负债状况列报准确性的提高效果越好。如果假设A1、A2、A3都成立,那么说明假设A得到支持。

1. 假设A1:在信息管税下,企业规模越小,成本准确性的提高效果越好。把企业规模作为自变量,成本准确性的提高效果作为因变量,运用统计软件spss 17.0进行分析,结果见表1、表2。

如表1结果显示方差分析中显著性水平P值0.0169,小于所选定的显著性水平a=0.05,估计的模型是显著的。

从表2回归系数表中可以看出企业规模的估计值是-0.4063,标准值是-0.3854,T检验值-2.5057,P检验值(Sig)0.0169,小于0.05,说明这些回归系数是统计显著的。当企业规模越小时,成本准确性的提高效果越好;当企业规模越大时,成本准确性的提高效果越差。假设A1得到支持。

2. 检验假设A2:在信息管税下,实施信息管税后,企业规模越小,费用列支准确性的提高效果越好。把企业规模作为自变量,费用列支准确性的提高效果作为因变量,运用统计软件spss 17.0进行分析,结果见表3、表4。

如表3结果可以看出,方差分析P值(Sig)是0.0131,小于所选定的显著性水平a=0.05,估计的模型显著。

从表4中看出,企业规模的估计值是-0.3750,标准值是-0.3991,T检验值-2.6117,P检验值(Sig)0.0131,小于0.05,说明这些回归系数是统计显著的。当企业规模越小时,费用列支准确性的提高效果越好;当企业规模越大时,费用列支准确性的提高效果越差。假设A2得到支持。

3. 检验假设A3:在信息管税下,企业规模越小,资产负债状况列报准确性的提高效果越好。把企业规模作为自变量,资产负债状况列报准确性的提高效果作为因变量,运用统计软件spss 17.0进行分析,结果显示方差分析中显著性水平P值(Sig)是0.0000,这个结果是非常明显小于所选定的显著性水平a=0.05的,估计的模型是非常显著的。企业规模的估计值是-0.6641,标准值-0.6539,显著性水平P值为0.0000,非常显著地小于0.05,说明回归系数统计上具有显著性。当企业规模越小时,资产负债状况列报准确性的提高效果越好;当企业规模越大时,资产负债状况列报准确性的提高效果越差。假设A3得到支持。

基于以上分析可以看出假设A得到支持,即在信息管税下,企业规模越小,会计信息质量提高效果越好。

(二)不同规模企业的会计信息质量提高效果

现实数据也验证了上述模型。从下列会计信息质量提高效果得分表可以看到,无论是对大型、中型还是小型的企业,税务机关实施信息管税对企业信息质量的提高效果得分都超过了3分,得分为2的比例非常低,得分为1的没有;而小型企业的得分更高,约3/4的比例得分为4,1/4的比例得分为5,也就是财务人员(特别是小企业财务人员)很大程度上同意实施信息管税,有利于提高企业的成本准确性、费用列支准确性和资产负债状况列报准确性。

(三)结论

在创新驱动发展背景下,被投放到税务信息化建设中的资金,带来了信息管税的长足发展。发票管理系统、金税工程一期、二期和三期和查税软件的运用和发展,都是科技发展在税务机关的具体体现。而科技的发展,带来了企业的会计质量提升,从而为企业管理决策提供了重要的经济数据。具体而言,本研究采用统计软件spss l5.0进行回归分析,以广州地区的大中小型企业为主要研究对象,对税务机关实施信息管税后企业会计信息质量提高的效果和作用等进行调研,并在此基础上采用回归系数分析的方法,对影响企业科技信息质量的主要内部影响因素进行了实证分析,研究结论如下:

(1)上述统计性描述显示,实施信息管税,对于企业提高会计信息质量效果良好。无论是大型、中型还是小型企业,都认为信息管税对他们的会计信息质量有提升作用。

(2)实施信息管税后,企业规模越小,会计信息质量提高效果越好,反之,提高效果就越小。本文的发现对企业如何提高会计信息质量具有重要的指导意义。规模越小的企业,就越应该积极配合税务机关实施信息管税,以提高自身的会计信息质量。

(3)由于实施信息管税后,企业规模对于资产负债状况列报准确性的提高效果影响是最强的,其次是对于成本准确性的提高效果,最后是费用列支准确性的提高效果,所以,对于自己本身所掌控企业的资产负债状况准确性信心不足的投资者,最应该高度重视信息管税,对于企业成本和费用列支准确性信息不足的报表使用者其次。

企业规模越大,则越有可能雇佣有足够专业水准的财务人员,配备恰当的财务系统,以提供高质量的会计信息。规模越小的企业则相反。本文指出了实施信息管税后企业规模和会计信息质量提高效果之间关系这个客观现象,后续研究可以考虑往这个方面深入开展下去。

参考文献

[1]陈彦.基于信息管税模式的会计信息质量需求研究[J].财会通讯,2012,(6).

[2]樊唯理.对信息管税工作的探讨[J].财经界,2011,(9).

[3]黄玉远.关于完善社会化信息管税机制的思考[J].税务研究,2010,(11).

[4]会计信息质量特征研究课题组.对建立我国会计信息质量特征体系的认识[J].会计研究,2006,(1).

[5]路琳.信息管税问题研究[D].东北财经大学硕士论文,2012.

数据驱动创新 篇9

1 工具实现关键技术

工具实现关键技术如下。

1.1 ETL

即数据抽取、转换、装载的一系列过程。ETL包含以下三个方面。

1.1.1 抽取数据

抽取是捕获源数据的过程,即将数据从源数据库中读取出来,这是所有工作的前提。

1.1.2 转换数据

按照预先设计好的规则将抽取得到的数据进行转换、清洗,处理一些冗余、歧义、不完整、违反业务规则的数据,使数据符合目标数据库的存储格式。

1.1.3 加载数据

将转换后的数据按照计划增量或全部加载到目标数据库中。

1.2 元数据

按照传统的定义,元数据是关于数据的数据。当数据在程序中不是被加工的对象,而是被用来对程序的运行起控制作用,并且可以通过值的改变而改变程序的行为,这样的数据称为元数据。本文研究中的元数据既是程序行为,又是程序处理对象的抽象,核心是ETL处理过程、处理对象、处理规则的抽象。基于这种抽象,元数据仅在工具扩充、工具移植时可能发生修改。本文将元数据分为2类:

1.2.1 支撑元数据

支撑元数据的作用是支撑驱动元数据定制,主要包括:数据字典元数据、抽取规则元数据,转换规则元数据、加载策略元数据。

数据字典元数据:数据字典元数据描述的是源数据库和目标数据库的体系结构信息,如表名、字段名、字段数据类型、字段精度、主外键约束、索引等。

抽取规则元数据:抽取元数据描述的是数据抽取的方式信息,如单表抽取、多表抽取,自动生成抽取数据文件等描述信息。

转换规则元数据:转换规则元数据是源库与目标库之间的映射模式的抽象;映射模式[3]为源数据库数据表字段到目标数据库数据表字段之间的映射关系,每一类映射关系为一类映射模式。而每一类映射模式的实质是一类数据转换的规则,将每一类映射模式抽象为一个数据处理函数,其中函数的名称、位置、函数参数属性、参数值存储位置等信息构成了转换规则元数据;通过对油田A2数据库、勘探开发数据库、A1数据库数据模型的研究,确定了主键映射模式、外键映射模式、拼接映射模式等16种映射模式;抽象出16个数据转换函数。这些函数及参数信息构成了转换规则元数据。

加载策略元数据:加载策略元数据描述的是加载策略信息,如数据替换加载、增量加载、并行加载,是否生成回档数据文件等信息。

1.2.2 驱动元数据[4]是驱动工具行为的元数据

驱动元数据包括:映射模式元数据,ETL流程元数据。

映射模式元数据是由支撑元数据定制而成。映射模式元数据以对应数据库间对应字段的映射模式为核心,描述了抽取数据的数据表结构、抽取方式、数据转换调用函数名称、函数参数值,目标表结构等信息,这些信息集中存储在元模型。

ETL流程元数据主要包含ETL流程函数执行信息及函数执行过程中的异常信息处理规则信息。

1.3 元数据驱动

元数据驱动的ETL方法是指基于元数据进行的数据迁移过程设计和处理控制。本文提出的元数据驱动的ETL方法,是通过读取映射模式元数据、ETL流程元数据驱动ETL各功能模块实现功能,完成ETL流程,实现数据迁移。

2 工具设计及应用

2.1 工具框架结构

工具框架结构图如(见图1)。

工具架构主要模块功能如下:

(1) 数据源,可以是Oracle数据库、其他关系型数据库、纯文本数据等。

(2) 目标库,表示目标数据库或文件,用于存储从源数据库中抽取出来的、经过转换后的数据。

(3) 通用数据访问接口[5]:采用OLEDB和ODBC技术进行透明访问。

(4) 数据抽取模块,按照映射模式元数据提供的源表结构及抽取方式抽取源数据到数据处理区。

(5) 数据处理区,用于数据的转换处理,处理区能够临时保存数据处理过程中的异常数据,生成目标库加载配置文件。

(6) 数据转换模块,获取映射模式元数据,获取源字段、目标字段、映射模式对应的映射函数信息及参数值,调用函数对源数据以一条记录下的一个数据为单位调用函数进行转换处理,处理后的数据以目标表结构的记录形式写到指定数据文件中。

(7) 数据加载模块,按照映射模式元数据提供目标表结构及配置文件信息,负责配置数据加载环境,将数据文件中的数据加载到目标数据库。

(8) 元数据管理模块,该框架的核心是元数据库,元数据库存储了支撑元数据与驱动元数据,驱动元数据由支撑元数据定制而成,元数据定制模块为元数据库管理模块的核心。

2.2 工具元数据库设计

工具元数据库数据模型的设计分为二个部分:(1) 支撑元数据模型设计(见图2);(2) 驱动元数据模型设计(见图3)。

2.3 工具的优越性

工具与数据库自带迁移工具及迁移程序相比有如下优势:

(1) 实用性高,使用数据字典元数据,通过选择不同的数据字典定制映射模式元数据能够实现不同专业数据库到数据中心数据库的数据迁移,同时使工具具有一定的通用性。

(2) 良好扩展性,使用转换规则元数据,不同数据模型之间的数据迁移过程中,映射模式繁多,当出现一种新的映射模式只需要编写单独的转换函数,同时在转换函数元模型中添加函数及参数类型信息,定制之后确定使用函数及参数值即可实现新映射模式的数据迁移。

(3) 易维护,使用元数据驱动的方式实现ETL功能,维护工作大部分为修改元数据,使维护简化。

2.4 工具应用案例

工具在“大庆油田公司井下作业分公司数据中心建设项目”中得到了很好的应用,数据中心数据库数据模型构建完成以后,需从A2数据库、勘探开发数据库、压裂曲线数据库、计划统计数据库、经营管理数据库中迁移业务数据,以保证数据中心的正常启动运行,通过对迁移需求分析,使用本工具完成各个数据库的数据向数据中心数据库中迁移任务。

通过项目实例,说明数据迁移工具具有较好的可行性,工具的功能在应用中能够很好地实现,具有很高的实用价值。

3 结论

本文提出一个基于元数据驱动的数据迁移工具框架结构,构建了元数据模型,用元数据驱动实现数据的提取,转换,加载。该数据迁移工具具有良好的可移植性、可扩展性,能够对新的迁移需求做出快速的反应,很大程度上减轻用户的负担,工具在油田企业信息集成中得到应用,取得了满意成果。

参考文献

[1]宋杰,王大玲,鲍玉斌.一种元数据驱动的ETL方法研究.小型微型计算机系统,2007;28(12):2168—2173

[2]袁满,郭宝祥,孙永东.元数据驱动的个性化查询工具的设计与实现.计算机工程与应用,2007;43(11):185—187

[3]熊辉,刘彦峰,郭大庆.分布式异构数据库迁移系统的设计与实现.计算机工程,2008;34(4)57—59

[4] Christof Bornhovd,Alejandro P.Buchmann.A prototype for metadata-based integration of internet sources.LectureNotes in Computer Sci-ence,Springer Berlin,2005;1 626:439—445

一种元数据驱动数据仓库设计与应用 篇10

随着联入互联网络的发展,主机数、用户数和信息源节点数的爆炸性增长,使数据形式也出现了多样化,不光有结构性的数据,还有许许多多例如TXT文件或者图片视频等非结构性数据类型,但这些分散的数据使人们在信息检索和网络资源管理等方面面临着许多难题。

关系型数据库具有极强的管理能力,数据的安全性高,和可靠的并发机制,一直是结构化数据存储的主流。但各种数据库系统之间的差异,已经所依赖操作系统之间的异构型,严重影响了信息共享和数据交换。

随着应用的不断进步发展,企业已经不能光靠联机事务处理OLAP去应对压力取得行业领先水平,这是他们需要对自身业务的运作及整个市场行业相关的趋势进行分析,做出有利的决策。这时对以往大量的历史数据的使用和存贮就成了势在必行。但实际企业与企业之间,企业内部各部门之间业务、目标以及操作系统、存储方式的不同必然造成数据上的差异,不能提供有效的信息共享,形成数据孤岛,不能满足管理人员决策分析的需求。传统关系数据库依然不能满足以上需求,这时就需要一种能够适应决策分析的数据环境———数据仓库(Data Warehouse,DW)。在本文中建立一套数据仓库系统,完成了多种异构数据的整合,简单的BI分析并用图表显示。第二部分讲述数据仓库整体架构思路,第三部分为本套以元数据为驱动系统的具体实施,第四部分文章总结。

2 技术背景

数据仓库是数据分析和决策支持系统(Decision Supporting System,DSS)在当代海量数据背景下产生的技术。是一个面向主题的、集成的、相对稳定的、反映历史变化的结构化数据集合[1]。数据仓库的建设更像一个过程而不是工程,以现有企业大量历史的数据作为积累,进行归纳重组,运算分析,把计策信息及时地交给企业管理层,这才是数据仓库的根本任务。经典架构见图1。

ETL(Extract-Transform-Load),即从各种异构数据源中抽取数据,并按照预先设计好的规则进行转化清洗,处理一些冗余、歧义、残缺、违反业务逻辑的数据,统一数据粒度,最后加载到目标数据仓库中,是建立数据仓库的必要基础。ETL设计和开发占整个数据仓库系统开发量的60%~80%[2],一般有两种工具方案供选择:一种使用数据仓库引擎厂商提供的ETL工具进行数据的加载;通过ETL工具提供的编程API进行数据的加载。前一种更加简便快捷,后一种更加灵活,性能也有一定的提升。此外最主要的问题就是如何建立有针对性的ETL过程模型,研究组织对早期建立ETL过程模型也给出了很多建议[5]。还有国外著名数据仓库软件厂商,如Informatica的powercenter,IBM的info Sphere Data Stage,Oracle的Oracle Data Integration,Microsoft的SSIS都是优秀的数据仓库工具,其中也有源工具Repository Explorer,Beeload,Kettle,Data Spider集成整套的DW和BI功能。

ETL过程的设计需要对数据结构,不同的主题也需要设计专门的ETL的过程。所以当需要转变商业规则或数据结构,就需要重新设计ETL过程,重用性很低。为了解决以上问题,设计一种新的ETL应对方案,解决的了过程核心的重复编写,提供了重用性,采用了ETL工具和API接口相结合的架构方式,能够满足大部分的数据源和多样的处理过程,在保证数据加载性能的同时更灵活方便,以元数据为驱动,实施了一整套数据仓库系统并研究分析。

3 系统设计

本系统主要以意大利Pavia大学IRMA项目为背景,实现一套交互性的城市助手系统,建立数据仓库,提供分析图表,帮助行政人员更好的管理城市基础设施。市民也可以使用手机APP主动的加入到城市的监控,对公共设施出现的问题可以立即拍照上传,并根据位置信息显示在地图上,不同用户间可以相互评论。城市管理人员在web端监视到出现的问题,就会派专人去查看、确定问题,之后会有维修人员到现场去处理,并使用App追踪维修进度。当事故解除,市民能查看到问题已处理,可以放心出行。城市管理者也会收到反馈,这样管理者可以对事故做进一步的预测、预防。

首先以事故为主题确立需求,建立异构数据整合架构———即ETL过程设计,包括源数据确立、元数据驱动、ETL流程包。接着选择维度属性建立数据仓库,包括事实表维表属性选取、虚实多维数据库设计。

3.1 异构数据整合架构

源数据———本文的系统主要由三种异构数据源,文本、xls、xml和数据库,文本数据源和Xl S文件,一般为业务部门常用数据格式,其中文本数据属于非结构化数据;XML源数据主要是从新浪微博上根据关键字抽取的数据。传统数据库一般为系统内部结构化数据和外部开放API的DBMS数据,主要抽取跨业务的结构化数据。

元数据———是关于数据的数据,通过扫描数据字典来加载源数据库和目标数据库的体系结构,表相关信息等等。元数据库管理模块对元数据库中的元数据提供修改和维护管理并写入日志。中间件是转换过程中的重要部件,减少对数据库的操作,增加转换效率,提高数据操作的可靠性和一致性。见图2。

ETL———数据的抽取是ETL过程的第一步,从多种异构数据源根据规则抽取数据,系统中三种主要源文件:文本数据为非结构化数据,作者主要采用正则表达式和语义词典相结合的方式抽取;数据库数据抽取方面直接使用ETL的工具抽取;XML和XLS的文件需要进行预处理,抽取模式和数据库基本相同。

把多个功能相近的translater根据功能组成job,多个job组合实现了整个ETL过程。如图3。两个内部关系数据库在抽取时先过滤掉重复记录与空白记录,xls文件要先设定数据字段的映射,文本文件需要进行字段操作提取所需的信息。分布式平台上抽取的数据需要先进行字段拆分以便于文本字段整合,最后再通过相应的转换流程与结构化数据整合。

3.2 多维数据仓库数据库

多维数据模型———主要包括事实表和维表,每个数据仓库都包含一个或者多个事实表(见表1),它是每个多维模型的核心,不应该包含描述性的信息,以及除了数据度量字段与维度表中相关索引字段外任何的数据。维度表可以用来看作用户分析数据的窗口,表中包含事实数据记录的特性,提供信息并包含帮助汇总信息特性的层次结构。(见表2)

CUBE———区域查询时数据仓库中进行OLAP分析的重要操作,为了提高查询速度及分析性能,我们根据主题和需求定义分析模型,建立CUBE。常用的Cube分为三种:物理Cube、虚拟Cube、物理结合虚拟Cube。作者采用物理虚拟相结合能很好的发挥两者的优点。把常用的时间维度、事故维度、区域维度等数据一次性装入到原理立方体中建立物理Cube,这些特征变动量少、查询量大。虚拟Cube事前并不建立任何Cube,而是根据用户需求实时生成虚拟立方体,方便对于实时数据的更新,如一定维度下事故发生频率。使用灵活但网络负载大。如图5

3.3 验证

数据仓库就是决策支持系统和联机分析应用数据源的结构化数据环境。为了给用户提供更清晰、简洁、易于理解和操作的界面,我们做了表单、报表和各种图形来显示我们的数据,并提供一定的CRUD功能。把移动设备用户的上传消息根据地理位置聚类,对区域中有明显消息增加的地点做实时的线状图显示,当曲线的到达一定斜度,便生成提示信息,警告管理人员。如图6。根据单位时间类事故发生的频率作了统计分析,如图7。选择查看地点维度,如选取城市维度,发现paiva事故发生率高于napol。选择时间维度观测到pavia下午4点的问题发生率是全天最高。

4 结束语

本文提出一种较灵活的ETL方式,该方式采用手工编码与Kettle工具相互协作,以元数据为驱动对于多种异构数据源进行整合利用,从数据源的记录、抽取规则、多维数据库模型等全程监视,为数据仓库提供更加全面、更加丰富的源数据,并以报表、数据图和仪表的形式展示在web端。管理人员可以及时地检测到事故的发生,也可以对区域的问题进行总结分析,做出有效的预防工作。进行数据挖据和BI分析,最大限度的利用好企业的大量数据。

摘要:数据仓库技术广泛服务于业界信息系统建设之需求,大数据分布式架构的兴起也促进了数据仓库技术带的发展。文章结合一个应用项目的需求,设计开源技术方案,实施多种异构数据整合、元数据驱动、主题标签及Extjs架构的图形显示。实现了一套可视化的数据仓库系统,用以解决复杂的异构数据以及数据的展示,也为后续的决策支持系统构建和数据挖掘工作提供基础。

关键词:元数据,ETL,异构数据,数据仓库

参考文献

[1]Inmon W H(2005)Building the data warehouse.Fourth Edition,Wiley.

[2]P.Vassiliadis,A.Simitsis,and S.Skiadopoulos,Conceptual modeling for ETL processes,Proc.5th ACM Intl.Workshop on Data Warehousing and OLAP(DOLAP),pp.14-21,2002.

[3]J.Trujillo and S.Lujan-Mora“.A UML Based Approach for Modelling ETL Processes in Data Warehouses”.In I.-Y.Song,S.W.Liddle,T.W.Ling,and P.Scheuermann,editors,ER,volume 2813 of Lecture Notes in Computer science,Springer,2003.

[4]Gianmario Motta,Thiago Barroero,Giovanni Miceli and Yuwei Yin.“Design of performance aware service systems:A Case study”.Service Sciences(IJCSS),2011 International Joint Conference on.25-27May 2011.

上一篇:和谐思维下一篇:求新意识