数据流程分析

2024-07-13

数据流程分析(精选十篇)

数据流程分析 篇1

随着计算技术的飞速发展, 工作流技术在各个领域得到了越来越广泛的应用[1]。工作流的性能直接关系到应用领域的服务质量和工作效率, 因而工作流性能分析成为改进和优化业务过程、提高服务质量的关键途径。目前, 工作流领域在工作流性能分析方面提出了多种模型和方法, 主要分为基于流程定义的分析和基于业务数据的分析, 其中后者更侧重通过实际应用数据来反映性能, 并建立了工作流性能方面的量化标准。然而依然存在以下问题:1) 现有工作流分析过程将工作流数据置于用户不可见的各种计算模型和计算方法中, 关注分析算法而忽略了分析内容的可视化表达;2) 对于工作流关键性能指标, 如各活动的时间性能、成本和资源利用率等, 往往以脱离工作流流程图的表格或文本形式呈现, 由于人脑在处理图像方面的速度远高于处理文本的速度, 这种呈现方法没有充分发挥人脑的认知特长, 从而限制了用户对运行阶段工作流性能的观察和把握能力。

目前国内外对工作流分析技术的研究主要分为两个方面即基于流程定义的分析和基于业务数据的分析;基于流程定义的分析主要集中在工作流设计阶段[2,3], 通过分析工作流过程定义在逻辑上的正确性来消除异常结构, 对过程定义的正确性进行形式化验证[5,6,7,8], 包括语法正确性和语义正确性的分析。基于业务数据的分析主要在运行阶段, 通过仿真数据或实际数据来分析动态性能指标, 如Van der Aalst提出了从工作流运行数据挖掘流程性能的方法[9], 通过算法从日志提取过程模型并结合Petri网表达分析结果;文献[10]提出了基于系统资源状态的性能分析方法, 讨论了工作流模型分析的相关问题, 并给出有向网络图模型到自由选择工作流网模型的映射。以上各方法主要偏重工作流性能的计算模型和计算方法, 往往忽略了分析内容的可视化表达。针对该问题, 本文提出了一种基于三维管道隐喻的工作流可视化方法, 首先, 分析工作流性能, 提出一个面向流程优化的工作流评估模型。其次, 结合评估模型, 提出一个三维工作流可视分析框架。其三, 分析运行阶段工作流模型, 以及运行阶段的可视隐喻策略;讨论了三维空间图元布局算法和三维可视形态交互技术。最后, 通过实例验证, 将用户感兴趣的工作流性能指标结合三维可视形态进行展示, 并用视觉显著特征进行编码, 帮助用户在观察过程中迅速发现性能低下的环节, 定位到关键瓶颈活动, 增强用户对运行阶段工作流的把握能力, 从而提供一个对工作流进行分析和改进的有力工具。

1 面向流程优化的工作流评估模型

从工作流的特点考虑, 工作流性能分析主要分为三个层面:时间性能、成本估算和设备利用, 下文从较为关键的几个角度对工作流性能展开讨论。

1.1 时间性能与瓶颈分析

对于业务流程来说, 时间性能往往是工作流的首要指标, 它直接影响生产率、服务质量或产品开发进度, 缩短工作流实例的完成周期对于提高业务效率有着极为重要的价值。

将工作流表示为自由选择Petri网, 对每一变迁tj计算其采纳指数Pj:

式中分母表示获得的Petri网Token个数, 分子为变迁tr分流到的Token个数, 该参数反映了在tr的所有共享相同输入库所集合的变迁中, tr被执行的概率, Aj反映出从整个流程的角度来说, 该变迁被执行的概率为其所有上游变迁集合Tr被采纳的概率之积。定义TWi为ni进入就绪状态到开始执行之前的时间, TXi为ni的执行时间。考察所有以ni为起始节点的变迁, 构成集合, 该集合中变迁的终止节点构成的集合为NEi={na, nb, …}, 定义Bi为节点ni的瓶颈系数,

其中, Bi反映了直接下游节点集合等待ni以及ni自身执行时间的情况, 若ni在不等待其他活动情况下的执行时间较长, 并对直接下游节点的开始时间有较大的影响度, 则该节点的瓶颈系数较大。对于整个流程, 若定义中的某活动在各个实例中都有较大的瓶颈系数, 则应引起注意, 该节点执行效率的提高会很大程度上提高整个流程效率。

1.2 活动成本估算

活动的资源成本作为工作流活动的一个重要评估参数, 对整个业务流程的收益能力有着至关重要的影响, 是工作流分析的关键内容。成本主要包括人力资源成本、设备成本、材料成本和其他成本等, 当前工作流实例的活动集合N={n1, n2, n3, …, nk}, H为活动使用的人力成本, M为材料和其他成本, 流程实例由k个活动组成, 各活动的资源使用矩阵为Rp×k, 活动总时间矩阵为T1×k, 等待时间矩阵为W1×k, 设备和材料成本矩阵为:

计算活动成本矩阵C:

其中Ki为设备Ei的单位时间使用成本, 活动成本反映了该活动对整个流程的负担, 按活动成本分析, 如果发现某些非增值活动的成本过高时, 则依据实际情况考虑减少此类活动的数量或成本。

1.3 资源利用率

分析资源利用率能够得到各种资源的关键程度, 以促进关键资源的合理配置。首先, 依照工作流过程定义中活动对资源的需求程度列出活动-资源矩阵Mr×k反映各活动对不同资源的需求情况。

大量工作流实例运行过程中, 各类型活动执行频率不尽相同, 甚至往往差异很大, 由于不同活动需要资源种类和数量各异, 对资源利用率的计算需充分考虑实际运行中各类活动的出现比例。通过统计工作流管理系统中各类型活动的执行记录, 得到工作流中各活动执行次数矩阵A, 该矩阵体现出不同活动的执行频率, 每个活动是否用到某项资源是预先定义好的, 可以得到资源利用表:

其中, D为单位时间完成的实例数量, 资源Ri的利用率ηi为:

2 工作流可视分析框架

结合前面的分析, 本文提供了一个工作流可视分析框架, 该框架分为四层, 如图1所示。

数据源层主要从信息环境的各个异构系统中提取过程数据, 进行数据整理, 转化为与最终用户具备一一映射关系的工作流实例数据, 提供上层分析和利用。

工作流评估层的职责为负责运行阶段流程模型组织与计算, 建立工作流性能评估模型, 对影响流程性能的关键指标进行量化分析, 为可视化层的图形展示提供数据支持。

可视形态层通过建立可视化策略, 给出三维空间工作流可视符号集, 继而借助三维管道隐喻将医疗工作流模板与实例映射至三维空间中, 利用三维空间流程图元布局算法对图元进行布局, 使之达到合适的空间利用率和视图清晰程度, 在尽量不损失信息的情况下提供清晰的视图。

交互层面向用户提供自然直观的交互方式, 形态中展示的三维图形并非静态图片, 而是支持用户进行旋转、放缩、变更视角和点击等交互方式, 使用户能够按照自己意图进行有针对性的分析。

3 面向流程优化的工作流可视分析技术

3.1 工作流业务数据模型与组织方法

工作流是包含多维度要素的综合体, 在分析和呈现工作流性能指标之前, 需要提供一个运行阶段工作流数据的标准模型对其进行一般性描述。模型主要包括工作流定义数据和工作流实例数据两方面内容, 将运行阶段工作流视为一个二元组 (Wfp, Inst) , 其中Wfp为工作流过程定义的Petri网表达, Wfp= (P, T, A) :

P={p1, p2, …, pw}表示库所 (Place) 集合, 用来描述工作流形式化定义中的活动模型;

T={t1, t2, …, tm}表示变迁 (Transition) 集合, 用来描述工作流形式化定义的变迁, 满足;

A集合是连接库所和变迁的有向弧集合, 且满足;

Inst={I1, I2, …, In}为实例集合, 其中每个实例Ii (0

Workflow Instance=

下面对描述进行详细说明:

1) 节点 (Node) 为流程中的活动, 是构成工作流的主体要素, 包含了该节点的类型, 在该节点处进行的操作等;

2) 变迁 (Transition) 用于描述活动连接弧, 为流程实例的推进提供导航依据, 是流程中的业务规则和节点间逻辑上的上下游关系信息;

3) 角色 (Role) 描述工作流实例中的角色集合;

4) 表单数据 (Data) 描述工作流转中的表单, 可以看作一张表单数据的流动过程;

5) 时间 (Time) 即活动进行的时间。

业务数据模型整体示意如图2所示。

3.2 基于三维管道隐喻的可视化策略

在工作流的运行阶段, 大量实例并发进行, 由于传统的二维可视形态信息密度较低, 难以图形化展示全部流程实例的详细信息, 也无法从全局视角呈现当前各流程的任务进度及对比情况。由于三维形态比二维形态具有更高的信息密度, 即在同等显示媒介下能够展现更多的信息, 在用户获取相同信息量的前提下能减少用户操作次数。而且, 三维形态比二维形态具有更强的视觉感染力[11], 接近真实世界, 符合人们对客观世界的认知习惯。因此, 本文选取三维形态呈现工作流以展示运行阶段的多工作流实例和反映全体实例情况。

表1给出性能分析结果与三维形态中编码方案的对照关系。

3.3 三维空间图元布局算法

为了在三维空间中能有效地展示可视化图形元素, 需要着重解决图元在界面中的布局分布问题, 即如何在给定的有限空间下, 将待布局元素合理地置于其中, 从而能够均匀展现视觉效果和高效利用有限空间。

下面提供了增量式图元三维空间布局方法[12], 其基本思想为在考查已知前k-1个图元分布的基础上, 再考量第k个图元的位置。布局算法兼顾总弧长和均匀度两个方面, 其评价函数为:

上式表示布局均匀度, rx、ry、rz分别表示三维空间中各个方向最大坐标与最小坐标之差, h越小, 表明图元占有的空间越接近正方体, 当缩放到合适比例时, 能更充分地利用各方向空间。算法根据已知的k-1个图元的中心位置, 为第k个图元提供一组候选坐标, 然后对每个候选位置进行评价, 评价结果最小的坐标为第k个图元的空间位置。对每一个图元都进行迭代, 直至完成所有可见的可视符号布局。通过上述方法, 将数值形式的工作流性能分析结果排布至三维可视形态中。

3.4 三维可视形态交互

为了执行可视分析活动, 用户需要在可视化基础上, 分析用户的交互目标, 并构建用户交互任务集。用户需要能够进行工作进度趋势查看, 活动关联关系查看和性能参数分析, 为达到上述交互目标在可视形态中提供鱼眼视图, 该视图在保持总体视图可见性的前提下, 将焦点区域放大显示, 在相对小的空间内呈现更多的图元内容。鱼眼视图主要采用映射变换实现图形的变化, 设三维空间任一点W在鱼眼镜头下的成像为Q点, OXYZ为鱼眼镜头坐标系, d为P到坐标原点的距离, 为建立图像像素位置与空间位置之间的映射, 进行如下变换:

其中, (xw, yw, zw) 为空间点在绝对坐标系下的坐标, (xf, yf, zf) 表示在鱼眼镜头坐标系中的坐标, r矩阵为径向距离变换参数矩阵, 设F为焦距, 鱼眼图像坐标系到二维笛卡尔坐标系之间的转换为:

二维笛卡尔坐标到像素坐标 (u, v) 的变换关系为:

从而得出转换公式:

鱼眼视角的空间利用率较高, 在有限的显示媒介内, 呈现尽可能多的可视符号, 便于减少用户的操作次数。

通过上述方法, 将数值形态的工作流数据和性能参数以直观的可视形态呈现出来。可以看出, 在本文给出的可视形态下分析工作流性能能够为用户提供更为明显的信息呈现效果, 符合人脑的认知特长, 为引导用户改进和完善工作流提供了有力支持。

4 应用实例

本文以心脏房间隔缺损诊疗为应用背景, 基于.Net平台开发了面向医疗工作流的交互式可视化工具。心脏房间隔缺损诊疗工作流可视化工具是面向医生进行心脏房间隔缺损患者诊疗流程观察的支持工具软件, 旨在帮助心内科医生直观了解和掌握其负责的患者诊疗进度和当前健康状态, 减轻多患者管理引起的人脑认知负担, 提高不同医务人员间的交流效率, 以下介绍可视化工具和可视形态的应用。

如图3所示, 工具视图的左侧主视图区域中, 地面放置的三维符号及其连接线构成的是整个诊疗流程的规范定义模板, 包括了查体, 各项医学检查 (如心电图、胸部X线平片、超声心动图、心肌酶检查、血电解质检查) , 初步诊断, 术前方案制定, 房间隔缺损ASD手术, 术后检查等医疗工作流中的环节, 地面模板是患者诊疗的参照形态, 一般覆盖了预见的所有情况。空间中的管道代表流程实例, 每一组折线代表一位患者的诊疗实例过程, 为在视觉上进行区分, 不同患者采用不同颜色的管道折线, 相邻的实例使用较大颜色差的连线进行排布。在每个实例的折线序列中, 圆柱或立方体表示流程中的任务节点, 该节点在竖直方向上投影到地面模板即流程定义的对应活动上, 从竖直方向向下观察可以得到该活动对应流程定义中活动的哪一个。节点颜色表示该活动的时间属性, 绿色 (R:162-173, G:251-255, B:47-52) 表示该活动的瓶颈系数较低, 该节点占用流程时间比例较小, 橙色表示该活动瓶颈系数较高, 是值得引起关注的模式, 红色表示该节点在时间上效率较低, 可能是整个流程的瓶颈活动。活动半径表示活动的单位时间执行成本, 一个活动半径越大, 意味着该活动使用的资源 (设备、人力) 等成本较高, 应尽量控制该种类活动的执行时间, 由于高度代表活动执行时间长度, 整个图元的体积表示一个活动总的执行成本, 对于体积较大的元素, 应该引起注意, 降低其时长或采用其他优化策略。

5 结语

针对当前工作流分析方法的不足, 提出了一种基于三维管道隐喻的工作流可视分析方法。首先从工作流特点出发, 给出一个面向流程优化的工作流评估模型;其次, 结合该评估模型, 提出一个三维工作流可视分析框架;其三, 提出实现三维工作流的关键技术, 包括工作流运行阶段数据模型, 三维管道隐喻, 三维空间图元布局算法和三维可视形态交互技术;最后, 以医疗为应用背景开发了原型化系统并加以验证。

当前对工作流可视分析的研究尚处于初步探索阶段, 对三维可视化技术和可视分析手段, 还需要结合应用领域进一步研究。

参考文献

[1]Tayade S M, Chavan V.Challenges in Flexible Workflow Architecture:A Review[C]//Mauritius:Emerging Trends in Engineering and Technology (ICETET) , Washington:IEEE Computer Society, 2011:39-42.

[2]Van der Aalst W M P, Hirnschall A, Varbeek H M W.An alternative way to analyze workflow graphs[C]//Toronto:Advanced Information Systems Engineering.14th International Conference (CAiSE) , London:Springer-Verlag 2002:535-552.

[3]Wei L, YuYue D, Chun Yan, et al.Soundness Verification and Analysis of Interorganizational Logical Workflow Nets[C]//Wuhan:Education Technology and Computer Science (ETCS) , 2010:354-357.

[4]Bianculli D, Ghezzi C, Spoletini P.A Model Checking Approach to Verify BPEL4WS Workflows[C]//Newport Beach:IEEE International Conference on Service-Oriented Computing and Applications, 2007:13-20.

[5]Bendaly Hlaoui Y, L Jemni Benayed.Symbolic model checking supporting formal verification of Grid service workflow models specified by UML activity diagrams[C]//Tozeur:New Technologies of Distributed Systems (NOTERE) , 2010:255-260.

[6]Rabbi F, Wang H, Mac Caull W.YAWL2DVE:An Automated Translator for Workflow Verification[C]//Singapore:Secure Software Integration and Reliability Improvement (SSIRI) , 2010:3-59.

[7]Hou H, Wang S Y, Hao K G, et al.A Business Process Modeling and Verification Architecture[C]//Anya:Future Information Technology and Management Engineering, 2009:3-76.

[8]Onoda S, Yumoto M, Maruta T, et al.Bottleneck detection analysis for workflow improvement[C]//Orlando:Computational Cybernetics and Simulation, 1997:331-3337.

[9]van der Aalst W, Weijters T, Maruster L.Workflow Mining:Discovering Process Models from Event Logs[J].Knowledge and Data Engineering, 2004, 16 (9) :1128-1142.

[10]Wang Dongqing, et al.Historical Information Based Workflow Process Evolution Method[J].Computer Simulation, 2005, 22 (4) :46-48.

[11]Ruddle R A.INSPIRE:A new Method of Mapping Information Spaces[C]//Los Alamitos:Information Visualization, 2010:273-279.

运营分析报告数据处理流程 篇2

1、将每日运维发来的四张表累加,整月数据加总完后,如有字符型数据,将字符型数据转

换成数字型。

2、注意串行数据,运维导出的txt数据,会有少数数据串行,可以在最后一列加字段,筛

选出串行数据,调整成正确格式。

3、将每条数据分类贴标签,根据通讯录中的销售人员划分事业部,及下属部门,如李某某,电话会议运营部通信增值事业部,体现在插入的列中。需要注意离职人员的客户归属,要和运维部门的刘文朝确认。

4、测试数据确认。销售人员含bjyt,账户含yuantel.com,客户名称含远特、yuantel,电话

事业部、北京等不正常客户名称的,都是测试数据。

5、传真部共享 5元及以下划到测试数据中,5元以上划到老客户运营部。

基于大数据的出版流程变革 篇3

[关键词]大数据;数据类型;出版流程;流程变革

[作者简介]向安玲,武汉大学信息管理学院;沈阳,清华大学新闻传播学院。

大数据掀起的变革浪潮从学界、商界席卷到社会生活,部分出版企业已开始挖掘数据价值,探索多元化的业务变革。美国学乐(Scholastic)出版社通过在线游戏追踪人气线索和角色,由此创作了畅销全球的《The 39 Clues》系列小说[1];Coliloquy 出版社让读者参与情节和角色设计,通过数据分析调整内容,迎合大众口味[2];亚马逊的Kindle阅读器可以记录读者反复标注和强调的内容,对出版企业来说价值巨大[3];谷歌的图书数据库将1500-2008年间出版的各类图书数字化,通过文本分析揭示文化发展趋势[4]。国外出版传媒企业在数据创新中不断拓展出版价值,逐渐勾勒出大数据背景下图书出版的全新业态。相比之下,国内的出版企业则多处于驻足观望阶段,对大数据的设想远多于实践。在此背景下,本文对基于大数据的出版流程变革进行了分析,以求推动出版企业在大数据时代的创新和发展。

一、综述

关于大数据对出版行业带来的变革,业界的探索多于学界的研究。国外学者多从相关案例出发,总结出版企业利用大数据创造商业价值的实践经验。英国学者维克托·迈尔一舍恩伯格(2013)在《大数据时代》中对亚马逊和谷歌的图书数据化进行了评价。他认为亚马逊拥有大量数据化内容却没有通过文本分析发掘更大的价值,这对于出版企业而言是一个很大的损失[4];亚历山大·奥尔特(Alexandra Alter,2012)在文章《当心,电子书也在“读”你》中提到,包括Nook、Kobo、kindle在内的电子阅读器都开始记录读者的阅读行为,这些电子阅读数据已对出版流程带来多方面的变革[5]。

国内相关研究则主要集中在大数据时代下的出版企业转型和产业重构、商业模式构建、大数据技术应用等方面。张宏伟在国内首次明确提出“大数据出版”的概念,他认为大数据出版是构建在云出版之上的一种出版形态[6];吴赟对大数据时代出版产业重构所面临的问题做出思考,指出大数据将革新出版业对信息的搜集、储存和传播方式[7];刘鲲翔等人对大数据技术在出版行业中的应用前景做出展望,认为大数据在图书精准营销、生产过程优化、用户体验评估、数字教育等方面有很大价值[8];刘灿姣等人对云架构下出版企业大数据服务的动因进行了分析,并提出了搜集-分析-挖掘三个层次的大数据服务模式[9];张博等人对出版行业大数据的来源、分类和价值特点进行了分析,在此基础上对出版大数据的应用方式进行了探索[10]。

二、数据基础分析

传统出版企业所掌握的数据资源通常是系统的、结构化的,数字出版和媒介融合使得出版数据不断拓展,大量非结构化数据被提取出来,出版企业需要通过过滤整理和关联分析去探索更深层次的价值。读者群体、专业团队和机器设备是出版过程中不可或缺的几大主体,他们参与到出版的各个环节并形成大量的出版数据。按数据来源本文将出版大数据分为用户生成内容(User Generated Content)、专家生成内容(Professional Generated Content)和设备生成内容(Device Generated Content)三大类,具体来源、分类和内容组成如表1所示。

对出版过程来说,用户生成内容(UGC)是一种驱动因子,可拓展出版内容广度,形成精细化市场;专家生成内容(PGC)是一种引导因子,可维持出版内容深度,形成品牌价值;设备生成内容(DGC)作为辅助因子对于发掘潜在读者群体和出版热点方向有预测导向作用。三种类型的数据对于出版企业都具有巨大的价值,本文将其价值挖掘和使用方式总结如图1所示。

三、流程变革分析

大数据以不同形式根植在图书出版的各环节中,逐步实现对出版流程全方位、多角度、深层次的渗透。本文从选题策划、内容生产、编排制作、营销推广和读者服务五个基本环节出发,分别阐述了大数据对出版流程的渗透方式和特点,得出以下流程图(见图2)。

1. 数据驱动选题策划

大数据作用于图书选题策划的过程,但并未改变选题的基本目的,需求驱动、价值导向、热点预判仍是其出发点。一方面,出版社从大数据分析中挖掘用户需求、进行趋势预判,利用专业经验获得更加精准的策划方案;另一方面,通过大数据的开放共享,让用户也参与到选题过程中,逐步形成具备自组织性、开源性的图书选题策划模式。这种读者参与度的变化也体现了选题策划从web1.0到web2.0、web3.0时代的转变,大数据的催化剂作用也将日益明显。

2. 读者深入内容生产

大数据时代“作者”的概念将被不断拓展,图书内容生产将更多地以读者为中心,让读者从出版产业链的终端参与到出版的各个重要环节中。通过量化分析读者的阅读题材、场所、时常、强度、情绪起伏等主观感受可以形成内容生产的“模范结构”。通过这些数据分析可以对作品篇幅长度、角色设定、文字风格、情节发展等方面做出人气评价,形成人气素材库、情节发展范式等储备资源,从而实现半自动化的流水线生产。

3. 机器智能编排制作

利用协同编纂平台进行编纂和交互的过程中会产生大量非结构化数据,比如文稿修改记录、易错文本记录、专家评审记录、编辑交流记录、时间进程记录等等。出版企业需要对这些“废弃数据”进行二次开发利用,从中发掘编纂过程中的问题环节、各环节的效率控制、需要注意的文本、编辑能力欠缺、专业经验和技巧等等,从而有针对性地进行编排过程优化和时间进度管理。此外,通过大数据技术探索图书编排设计的美学规律,从标签化的作品内容和设计风格的关联性分析中形成自动匹配机制,简化设计流程。

nlc202309051340

4. 精准定位的营销推广

出版企业根据用户消费数据(如价格接受区间、优先选择因素、常用支付方式等)可选择合适价位和类型的图书以合适的渠道进行推送;根据用户阅读偏好、职业信息和专业领域等数据,实现分类图书的按需推送;根据用户阅读行为数据(如阅读时间、场所、强度、终端选择等)也可确定推送图书的载体、篇幅、类别以及推送时间等要素;此外,通过对阅读同好圈内的活跃分子进行赠阅,还可实现口碑营销。除了静态数据,根据地理位置、时间、情绪等动态数据了解用户所处环境因素和心理需求,还可突破图书销售的时空限制。

5.“人”“文”交互式读者服务

出版大数据的深度开发、二次利用和开放共享让读者的消费形式发生变革,消费产品不再局限于图书内容,知识要素、关联数据、交互式信息等都被纳入出版企业服务范围。对出版大数据最直接的利用方式就是提供交互式信息服务,例如,谷歌的图书数据库提供了词频查询功能,用户可通过输入特定词组获取其历年(1500-2008)来的使用频率。虽然出版企业掌握的图书内容数据量有一定局限,但谷歌的数据服务模式是可以借鉴的,读者可通过I/O(输入/输出)方式实现对出版大数据的重组和利用,这也为出版企业开辟了新的收费空间。

6. 出版流程变革“5P模型”

结合上文的分析,本文构建了基于大数据的出版流程变革“5P模型”。归纳总结了大数据对出版各环节的变革方式和优化方向,如图3所示。

大数据渗透到图书出版各环节。概括来说,数据驱动的选题策划将更具预判性(Perspective),更能把握读者潜在需求和社会发展趋势;众包模式的内容生产让读者的意愿能直接地反映在图书内容中,读者不再仅仅是知识信息的接收者,也是作品创作的参与者(Participation);从大数据中挖掘图书编排制作的经验模式和美学规律,打造机器主导、人工辅助的模式化(Pattern)编排流程;基于大数据分析实现读者市场定位、推广平台定位、时间空间定位、关联圈子定位,在精准定位(Positioning)的基础上提升图书营销推广的效率和准确性;出版内容作为一种高质量的大数据可为读者提供多元化(Pluralism)的信息服务,通过交互式服务进一步实现用户与文本的深层次对话。

四、数据使用之博弈

大数据威胁论令很多出版人惶然,但大数据给出版带来的不利影响并非大数据本身的缺陷,而在于出版人对大数据的利用是否合理。面临数据使用上存在的多面利弊博弈,出版人必须做好权衡选择。

1. 数据开放VS隐私保护

电子阅读器在不知不觉中窥视着读者的阅读过程,将阅读行为逐渐转变成一种可测量、半公开的数据化信息。很多情况下用户只能被动地成为数据源,对于企业而言这可能是价值衍生过程,但对于用户来说这很可能是隐私的二次利用。并不是每个读者都愿意公开自己的阅读行为和消费行为的,网络安全专家布鲁斯·施奈尔就表示“我们读的东西有许多是不想让别人知道的”。除了相关法律保障,出版企业也必须尊重读者私人阅读空间。

2. 需求驱动VS创意风格

大数据中蕴藏的商业价值在一定程度上扼杀了文化从业者的创造力和艺术追求。诸如Coliloquy、Scholastic的流水线生产模式虽然取得了不错成果,但这种程序化内容生产对作者的构思、创作、个人风格都带来了很大的干扰,不仅使得作品质量难以突破现有水准,也可能让读者产生一种审美疲劳和倦怠感。当然,读者需求和创意风格之间并不存在绝对的对抗性,出版人在利用大数据的同时,维持好内容把关者的角色,在两者间寻求最佳平衡点。

3. 内容生产VS数据服务

是专注于内容生产还是拓展数据业务,是选择合作共享还是把握数据所有权,大数据背景下出版企业的角色定位也面临着新的选择。无论是内容、数据、技术三足鼎立的旗舰式出版集团,还是精细化作业、分众化生产、专注于内容的小型工作室,都有自己的独特优势和发展空间。尽管大数据给出版业务带来了各种可能性,但选择最适合企业的发展方向才是最重要的。

4. 海量数据VS信息筛选

大数据强调的是混杂性而非精准性,但对于出版来说,知识信息的精准性至关重要。数据样本质量良莠不齐,分析过程也可能出现偏差,这使得大数据分析结果并不可靠。例如,读者的消费和阅读行为往往掺杂着很多非理性因素和偶然因素,根据数据分析结果进行定向推送很可能成为一种骚扰广告,使用户产生厌烦心理。尤其是在读者市场不成熟的情况下,出版企业更应慎重地利用大数据,加强数据分析团队的建设,从海量数据中挖掘真正有价值的信息。

五、 展望

大数据的运用是创意思维驱动的,出版企业在数据利用上存在很大的想象空间,本文对出版内容、阅读模式、销售模式、知识关联数据化发展做出了展望。

1. 出版内容:从批量到个性

大数据提供了一种新的按需出版模式。一方面,通过交互式选项获取读者偏好自动形成“私人定制”内容;另一方面,基于数据关联进行内容集成,为读者提供专属的“知识套餐”。从市场整体到垂直领域,再到特定群体和个体用户,精细化的数据分析让小众需求甚至是个体需求得以发掘,批量化的出版内容在分众市场不再具有竞争力,个性化定制将成趋势。而就短期发展来看,面向精英群体和专业领域的数据挖掘和内容定制将成为出版业务的一个新方向。

2. 阅读模式:从私密到共享

出版企业对用户数据的需求日益膨胀,个体、私密的阅读行为已无法满足企业的数据需求,在开放共享的阅读平台上去测量读者群体的行为数据和心理数据已成趋势。社交媒体和专业网站为我们提供了一种共享阅读模式,出版企业要做的则是将阅读与社交融合起来,打造开放性、社交化、分众化的阅读平台,实现媒介融合之上的平台特性融合。与此同时,针对敏感性读物或特定用户的私密化阅读空间也将独立出来,满足读者对隐私保护的需求。

nlc202309051340

3. 销售模式:从固化到碎片

大数据时代,出版企业面向的不再是“受众”,而将是“用户”,他们有权选择自己真正所需的内容片段,实现知识信息的高效率、低成本利用。出版物的售卖单位也不再局限于“一套”“一本”“一章”“一篇”或者“一段”,而将突破文本章节限制,根据用户需求实现信息内容的智能筛选和自动集成,甚至可提炼出主题思想、结论观点、写作模式、故事线索、人物特征、经典语录等内容单独出售,在人与文深层次交流的基础上实现具有针对性的碎片化销售。

4. 知识关联:从平面到立体

海量数据的关联将不再局限于表象,信息知识网络也将更加错综复杂。出版人要突破常规,形成思维的联动,为读者打造立体化、深度化、动态化的知识图谱,从而实现知识要素的关联推荐和打包出售。知识网络的节点将不再局限于图书、网页、多媒体等内容载体,一句话、一个人、一则新闻、一件历史事件、一个游戏产品……世间万物均可被提炼成相互关联的知识要素,共同构成以特定出版物为核心的知识网络。立体化的知识关联加强了出版企业与其他产品提供商的合作交流,也为用户提供了更深入的阅读体验和更全面的解决方案。

[1] 刘志伟. 云计算大数据升温中探模式[N]. 中国出版传媒商报,2013-11-08.

[2] Coliloquy:读者和作者互动,换个方式讲故事[EB/OL]. 腾讯网, http://tech.qq.com/a/20120119/000286.htm.

[3] 维克托·迈尔-舍恩伯格,肯尼思·库克耶. 大数据时代[M].杭州:浙江人民出版社,2013 .

[4] 杨鑫倢. 终有一天 大数据会“颠覆”出版业[N]. IT时报,2013-08-19.

[5] Alexandra Alter. Your E-Book Is Reading You [N]. The Wall Street Journal,2012.

[6] 张宏伟:出版业迎来“大数据出版”的新模式[EB/OL]. 中国经济网,

http://www.ce.cn/culture/gd/201307/09/t20130709_24555744.shtml.

[7] 吴赟. 产业重构时代的出版与阅读——大数据背景下出版业应深度思考的五个关键命题[J]. 出版广角,2013(12):32-36.

[8] 刘鲲翔,杜丽娟,丁雪. 大数据技术在数字出版中的应用前景展望[J]. 出版发行研究,2013(4):9-11.

[9] 刘灿姣,叶翠. 基于云计算的出版企业大数据服务研究[J]. 出版发行研究,2013(11):59-62.

[10] 张博,乔欢,李武. 基于大数据的出版内容价值发现与应用[J]. 出版发行研究,2014(3):5-8.

数据流程分析 篇4

1 工作流程

1.1 准备阶段

1.1.1 组织专业队伍。

资源监测中心为业务科室, 共有8人分成4组, 将全县22个乡镇 (街道) (下称乡镇) 分成4片, 每组2人分片负责, 进行技术指导、质量检查、材料验收。林业站抽调1~2名技术人员, 由站长负责, 对该乡镇变更的小 (细) 班 (下称小班) 进行登记, 并适时地进行外业补充调查。

1.1.2 技术资料和仪器工具。

(1) 技术资料:复印山林现状图1套, 为乡镇的工作底图;准备小班卡, 打印变更小班登记表格;重点生态公益林增划资料;3年内每年营造林完成面积、森林采伐、森林灾害、林地征占用、重大林政事件、林地面积增减情况统计资料。 (2) 仪器工具:罗盘仪、测高仪、计算器、皮尺、工作包、地形图筒、讲义夹、档案袋、铅笔盒、HB铅笔、红色铅笔、三色 (红、蓝、绿) 油性笔、刀片、创口贴、手套、汽车等。

1.1.3 技术培训阶段。

由参加省森林面积、蓄积双增指标考核学习的资源监测中心主任, 对乡镇林业站长和技术人员集中授课。明确时间要求和工作步骤, 统一调查方法与技术标准, 讲解表格填写及疑难问题的现场解答。

1.2 外业补充调查和检查验收阶段

林业站开展外业补充调查和变化小班内业登记。对该乡镇自存档数据基础年至当年, 按年度对各类变化的小班进行实地核查并完成变更登记。

各督导组做好技术指导与质量检查验收。对小班登记错误的及时更改, 不规范的及时调整, 不完整的及时补充。对碰到的实际问题及时解答, 对疑难的问题及时反馈、讨论、请示、统一。对上交的材料按技术要求严格审核, 不足的退回修改, 确保验收质量。

1.3 数据汇总、录入阶段

已验收的变更小班数据, 按年度录入电脑系统模块, 逐年更新, 更新过程中对不合理的数据进行求证、分析、修正, 最终获得当前年森林资源数据库。

1.4 成果上报阶段

系统自动更新模块对3年的录入数据进行逐年更新, 得到当前与存档数据基础年的一个比对数据组, 并填入成果汇总表格, 根据成果值结合指标评分要求, 完成自评报告, 提交编制成果。包括: (1) 林业基本统计数据:营造林完成面积、森林采伐、森林灾害、林地征占用、重大林政事件、林地面积增减情况统计表。 (2) 森林资源档案更新结果统计表:土地面积统计表1、2, 各类森林、林地面积蓄积统计表, 乔木林面积蓄积按龄组统计表。 (3) 森林增长指标测算统计表:森林面积、林地面积和森林蓄积年度动态表。 (4) 自评报告和《浙江省森林增长指标年度考核评价结果表》。

2 影响测算的因素及处理

2.1 影响测算的因素

2.1.1 数据因素。

2008年森林资源普查及2009年补充调查形成的森林资源数据库为存档基础数据, 2010年以来3年的森林经营活动、人为破坏及自然灾害等引起的小班变化为数据源。具体影响因素有: (1) 首次开展且跨度3年, 上交资料不完整, 记载内容与测算表格填写内容不匹配, 如:森防病虫害, 只有汇总数据, 没有按乡镇分年度的各项数据;林业总站营造林, 每年的统计表格格式、栏目内容及名称各不相同, 上报数据少于实际完成;村庄、四旁绿化, 绿化办统计的数据与各乡镇上报的不尽一致。 (2) 2010、2011年林业站作业山块未落实到小班, 因部分原始材料缺失, 在补充调查时的时间和精力不能保证到位, 具体分解到各个细班进行变更登记, 数据的真实性、准确性受影响。 (3) 片林、林带及树带概念混淆, 记载不准。 (4) 按年度落实到细班, 但未做到在工作底图上着色。 (5) 未成造及灌木已转化成乔木林的未及时更新。 (6) 遗留的小班调查错误的记载, 未及时进行统计和更改。

2.1.2 技术因素。

(1) 未进行系统培训, 业务科室1名技术人员参加省里培训, 粗略地传达精神及技术标准和操作规范, 即开展工作。 (2) 该工作首次开展, 具体操作细节和技术处理较生疏, 在不断摸索和总结。 (3) 涉及林业所有工作, 各相关科室提交的材料质量有差异。 (4) 统计跨度大, 时间紧, 材料不完整。 (5) 力量不平衡, 大部分林业站确保人员精力到位, 且工作经验丰富, 个别林业站不能保质保量按时完成任务。 (6) 系统录入及数据更新、合并由科室1名电脑熟练人员操作, 省里未派人现场指导, 进度受一定影响。

2.1.3 保障因素。

林业站是数据更新调查的主体, 确保其精力到位, 是保质保量完成任务的重要保证。原定2012年12月底上交调查资料, 因涉及面广、内容生疏、年关工作多、精力不到位等因素, 造成整体工作滞后。相关业务科室, 资料不完整, 档案不专人, 收集较麻烦。无资金保障, 工作难以开展。

2.2 处理

2.2.1 技术处理。

对收集的材料按乡镇分年度进行分类, 分组检查、验收, 疑难问题集中讨论, 确定统一的处理规范, 包括:需调整的小班, 要按年份、分乡镇以村为单位记载清楚, 小班因子变更, 要落实到细班;跨小班作业, 要分别记载各个细班变化后的当前状态;细班变化达到一定面积 (用材林1.0 hm2, 经济林0.4 hm2) , 应在工作底图上勾出作业范围, 红、绿、蓝三色油性分别代表不同年份;存档数据基础年未成造、其他灌木林地、撩荒地、坡耕地进行系统筛选, 发给乡镇核对, 对细班因子发生变化的, 在变化年份的表格上做好登记;片林、林带林网、树带、散生木的登记都归入村901小班, 其中片林、林带林网统计在林业用中, 地类为乔木林或未成造, 面积为各块面积之和, 树带、散生木统计在非林地中的四旁占地, 散生树只记株数;对小班调查记载错误的 (如:小班卡及林相图标注为生态林, 实际是用材林, 或原调查树种错误等) , 及时核实并修改。

2.2.2 系统处理。

把技术处理后得到的完整、真实、全面、准确的调查数据分年度录入系统生长模型, 录入1年, 按省里指定的符合当地实际的生长模型参数, 对县森林资源数据库逐年更新。浙江省森林资源监测中心提供生长模型系统, 负责新增生态公益林小班批量更新及技术指导。获得当前年森林资源数据库与存档数据基础年进行比对, 以反映资源动态变化。

3 森林增长情况分析评价

存档数据基础年至当前年指标变化情况:森林覆盖率由77.85%增到77.91%, 净增0.06个百分点;林地面积由164 580.4 hm2增加到165 030.7 hm2, 净增450.3 hm2;森林面积由156 735.3 hm2增加到156 850.9 hm2, 净增115.6 hm2;森林蓄积量由5 858 152 m3增加到6 578 285 m3, 净增720 133m3;林地生产力由40.665 m3/hm2提高到45.645 m3/hm2。

3.1 结果分析

3.1.1 林地面积保有量增加。

林地面积净增加450.3 hm2, 其中森林面积 (指有林地和特灌林) 增加115.6 hm2, 其他类林地面积增加334.7 hm2。表现在:平原绿化、村庄绿化、通道绿化、河道绿化、城区绿化等使林地面积增加728.9 hm2, 林地征占用及其他使林地面积减少278.6 hm2。

3.1.2 森林面积和蓄积。

森林面积净增加115.6 hm2, 其中有林地面积增加99.1 hm2, 特灌林面积增加16.5 hm2。森林蓄积净增720 133 m3 (包括:四旁树蓄积增加4 436 m3, 散生木蓄积增加5 354 m3) , 其中净生长量937 566.8 m3, 采伐量217 433.8 m3。

按林种分:森林面积净增加115.6 hm2, 蓄积量净增加710 343 m3。防护林增加16 582.9 hm2, 蓄积增加990 758 m3;特用林增加33.3 hm2, 蓄积增加22 737 m3;用材林减少15 976.6hm2, 蓄积减少300 485 m3;薪炭林减少368.6 hm2, 蓄积减少2 734 m3;经济林减少155.4 hm2, 蓄积增加67 m3。

按乔木树种分:乔木树种面积减少18.1 hm2, 蓄积增加710 317 m3 (注:疏林蓄积增加26 m3) 。松木减少993.1 hm2, 蓄积增加365 187 m3;杉木减少225.2 hm2, 蓄积增加121 342m3;柏木减少26.8 hm2, 蓄积增加41 828 m3;阔叶类增加1 012.7 hm2, 蓄积增加182 347 m3;乔经类增加214.3 hm2, 蓄积减少387 m3。

3.2 原因分析

3.2.1 强化资源管理, 确保森林增长。

严格执行森林采伐限额, 有效保证森林增长。3年森林采伐限额446 600 m3, 实际发证蓄积量217 434 m3。完善发证管理制度, 规范台帐。采伐推行伐前设计、公示、签订造林更新协议。

严厉打击破坏森林资源违法活动, 保护森林资源安全。3年共查处盗滥伐案件91起, 涉案立木材积1 000 m3, 查处违法使用林地案件11起, 涉案林地面积3.3 hm2, 确保无重大乱砍滥伐和非法占地事件发生。

加强森林消防, 减少森林资源损失。建立县、乡、村3级森林消防机构, 实行行政首长负责制;加强队伍建设, 组建26支专业和半专业森林扑火队伍;大力宣传消防, 局里安排2辆防火宣传车广播、巡查[1,2]。3年森林火灾损失面积85 hm2, 损失森林蓄积3 350 m3。

加强有害生物防控, 减少森林资源损失。仙居县森林总面积201 318.3 hm2, 3年发生森林病虫害849.4 hm2, 成灾面积26.7 hm2, 防治面积1 567.9 hm2, 成灾控制率0.42%, 成灾率0.013%, 成灾防治率185%。

3.2.2 大力绿化造林, 加强森林抚育, 促使森林增长。

开展“国家级生态县”、“省级森林城市”建设和“四边”绿化。造林更新1 630.7 hm2, 完成总任务 (1 213.3 hm2) 的134.4%。平原绿化面积244 hm2, 村庄绿化建设34个, 面积43.3 hm2, 建成省级森林村庄3个, 市级森林村庄6个, 市级绿化示范村32个。通道绿化24.1 hm2, 河道绿化94.7 hm2, 城区和城镇绿化30 hm2。

新增划省级生态公益林面积8 400 hm2, 使全县省级以上 (含省级) 生态公益林达到69 000 hm2, 占林地总面积的41.8%, 名列全市第一。森林抚育试点1 457.3 hm2, 完成任务 (1 333.3 hm2) 的109.3%, 其他森林抚育4 786 hm2, 完成任务 (4 000 hm2) 的119.7%。

3.3 动态分析

森林覆盖率由77.85%上升到77.91%, 增加0.06个百分点, 林木绿化率由79.3%上升到79.4%, 增加0.1个百分点, 森林面积、蓄积双增, 生态林地质量 (特别是阔叶林地) 普遍提高, 用材林地质量大幅下降。

按林种, 森林面积净增量以100%表示, 则各林种面积增量与净增量比值分别为:防护林增加14 336.71%, 特用林增加28.82%, 用材林降低13 812.62%, 薪炭林降低318.56%, 经济林降低134.35%。森林蓄积净增量以100%表示, 则各林种蓄积增量与净增量比值分别为:防护林增加139.48%, 特用林增加3.2%, 用材林降低42.3%, 薪炭林降低0.39%, 经济林增加0.01%。

按乔木树种, 松、杉、柏面积减少1 245.1 hm2, 蓄积增加528 357 m3, 阔叶类、乔经类面积增加1 227 hm2, 蓄积增加181 960 m3 (其中乔经类蓄积减少387 m3) 。

森林面积、蓄积增加体现在防护林地面积蓄积及特灌林面积增加, 森林面积、蓄积减少体现在用材林林种的转化及用材林林木的采伐。森林面积的增加主要是阔叶类面积的增加, 表现在:生态公益林增划、自然保护区扩面、海护林及森林公园建设及非林地的转化;森林蓄积增加主要是阔叶类及防护林中松、杉、柏蓄积的增加。乔经类面积增加较大, 主要是杨梅产业的大力发展;乔经类蓄积的下降, 主要是板栗的退化及采伐。

4 措施和建议

4.1 措施

4.1.1 建立仙居县森林资源动态监测体系。

以此次森林资源增长指标试点为契机, 形成一整套的动态监督测工作程序, 以2012年森林资源动态监测成果为依据, 逐年进行森林资源动态更新, 建立完整的森林资源地理信息系统。

4.1.2 推进绿化造林工作。

以创建“国家级生态县”、“省级森林城市”为目标, 结合“新农村建设”, 推进永安溪滩林湿地河道绿化、村庄绿化、城区城镇通道绿化以及平原片林、林带、林网绿化。确保迹地更新、宜林荒山绿化, 加大政策扶持力度, 强化监督管理长效机制。大力开展中幼林抚育、低产 (效) 林改造, 促进后备资源培育, 提高林分质量[3,4]。

4.1.3 强化依法治林, 保护森林资源。

严历打击非法占有林地和毁林开垦事件, 实行林政、木材巡查、公安联合执法, 严厉打击涉林违法犯罪行为。加强森林消防和林业有害生物防控, 确保森林资源安全[5]。

4.1.4 加强队伍建设。

1998年后林业系统停止进人, 队伍年龄老化, 特别是乡镇林业站人员, 5年内45%要退休, 10年内78%要退休。林业人员实践能力强, 系统操作弱。应引进一批年轻、素质高的专业人才, 强化岗位培训和继续教育制度, 开展科研活动, 引进先进技术, 提高科技人员素质, 提升科技服务能力。

4.2 建议

建立省、市、县3级森林资源动态监测联动制度;定期开展培训, 加强交流与合作;落实资金, 保障森林资源动态监测的顺利进行;加强对基层具体业务指导。

参考文献

[1]仙居县森林资源规划设计调查工作全面完成[EB/OL]. (2009-05-26) [2013-08-26].http://www.yuanlin365.com/news/108766.shtml.

[2]刘杰, 刘永敏, 刘国良.森林多目标可持续经营规划研究——以白河林业局为案例[J].林业经济, 2012 (7) :105-108.

[3]王年锁.关于加强森林资源管理的几点思考[J].山西林业, 2003 (2) :11-12.

[4]郑新安.加强森林资源管理实现森林可持续发展[J].科技创业家, 2013 (1) :192.

工地数据传递流程规定 篇5

为确保各部门、各项目部数据信息上报渠道畅通,做到信息资源共享,特制定工作流程规定如下:

一、数据信息传输渠道

项目部数据信息传输及原始单据和凭证,可采取邮件、短信及邮寄等方式。一是所有生产施工数据信息,传公司经营部造价员处;二是所有工程内业资料信息,传经营部资料员处;三是所有物资采购申请与消耗数据信息,传经营部物资助理处;四是所有行政、人事信息资料,传综合部人力资源助理处;五是所有原始单据和凭证,邮寄财务部出纳处。

二、数据信息传输时间规定

(一)生产日报表

项目部出纳(或指定人员),每天的产值、点工及运输等日报表,务于次日12点前上传公司经营部;同时,将现金日记帐上传财务部。

(二)票据报送

项目部出纳(或指定人员)每月3号、15号、25号前,将所有原始单据和凭证(包括费用报销单、供应商送货单、与甲方有关业务单据、出入库单及相关统计报表等),寄回公司财务部。

(三)验工计价单

项目部出纳(或指定人员)每月28号前,将甲方验工计价单及班组、点工结算单上传公司经营部。

(四)材料消耗表与物资计划、采购申请单

每周一,项目部出纳(或指定人员)将生产消耗主、辅材料统计表上传公司经营部;每月15号、30号前,项目部出纳(或指定人员)将物资计划、采购申请单上传经营部。

(五)考勤表与请假单

每月3号前,项目部出纳(或指定人员)将项目负责人审核签字的上月考勤表及请假单一并上传公司综合部;每月10号前,综合部统计核实完毕各部门及项目部考勤,一并交到财务部,作为发放工资的依据。

(六)会议记录

项目部每周必须召开一次工作例会,出纳(或指定人员)务于次日12点前,将会议记录上传公司综合部。

(七)考核表(具体考核目标,视各项目而定)

每月30日前,分管副总负责对所属项目负责人(项目经理、副经理)当月完成目标产值、安全文明施工等情况进行考核,项目负责人对所属现场管理人员履行职责、生产施工监管等情况进行考核,并于次月3号前将考核结果上传公司综合部。

(八)用工协议与离职报告

项目用工需与项目部负责人签订用工协议,辞职需写离职报告并经项目负责人签字同意,并在第一时间将当事人用工协议、身份证件、离职报告等人事资料,扫描上传公司综合部。

上述报送内容,不按规定时间报送的,延误一天/项处罚50元。此规定自二0一四年元月一日起执行,执行中若有不妥之处,请各部门、各项目部及时提出,以便修订和完善。

综合部

数据流程分析 篇6

关键字:数据构面;属性录入;建立拓扑关系;数据投影变换;数据格式转

城市和工程建设一般需要大比例尺地形图,其中比例尺为1:500和1:1000的地形图一般用平板仪、经纬仪或全站仪等测绘 。大比例尺城市地形图数据是城市空间信息基础设施最重要的基础数据之一,是数字城市的重要组成部分。随着我国经济的发展和城市建设的加快,大比例尺城市地形图在城市规划和管理中的作用越来越重要。因此,针对数据的特点和应用需求,如何高效快速地组织与管理这些数据是一个值得关注与研究的问题。

大比例尺城市地形图对客观世界的抽象概括程度低,表达细化,结构零散,数据量大,一般以图幅为单位进行管理,由于数据获取、数据处理等方面的原因,跨图幅的空间目标往往被分割成不同子目标。

大比例尺地图数据处理的关键问题,在上世纪70年代以来历经了两个发展阶段:文件系统阶段和数据库系统阶段。大比例尺地形数据管理只能使用在文件系统水平上。有序列文件、直接存取文件、关键字存取文件等几个文件类型。系统文件有着较多的弱点,只有几个应用程序存在于数据文件中,其中管理功能存在弱点,空间浪费较多,同时文件也不容易扩充,修改起来较非时间。计算机硬件提供了大容量的直接存取设备磁盘,随着计算机软件系统提供了数据库,与此同时大比例尺地形的管理数据也跟着进入了数据库阶段。

复杂的模型数据、数据构造的组织存储和管理是大比例尺地形数据管理的基本管理特点。数据库中的各种数据只能按照规定的数据进行组织、存储、管理,只有这样才能确保共享数据的完整性得到合理的发挥,用户才能够直接与数据打交道。

大比例尺地形数据是管理数据类型的主要方式,其中空间位置数据、专题属性数据是是各种制图要素的两大类型。空间位置数据可以归纳为点、线、面。线是基本,点是线的坐标点,面是由线围成的。三者之间可以概括为弧段节点模型。二维表中点的特征主要包括点序号和用户识别号,以及它们所对应的专题属性数据项;二维表中线的特征主要包括线序号、用户识别号、起始节点号和终止节点号。专题属性对应的数据项是线的长度;面的特征是二维表中的主要特征,包括多边形序号、用户识别号、周长、面积以及各自对应的专题属性数据项。

建立拓扑关系、数据投影变换、数据格式转换等工序,整理地形图的步骤大体有以下几步:

1、 首先地图数据库、图形特征层、分区和命名、文件索引结构是确定地图数据库的要素层,其次要建立控制点文件,数据库的基本框架形成是必不可少的。

2、 描述數据的信息、图形特征需要一个与之相对应的数据字典,编写数据字典规定出了图形特征层的详细属性。

3、 在确定的系统规模和数据量估算基础上必须依靠机助地图制图系统的支持,地图数据库才能合理地得以利用。,系统硬件和配套软件才能合理的建立和实施。

4、 建库范围和使用目标的确立、查询的方式以及数据库大致规模的完成期限。

5、 广泛的资料源调查,编制目标资料的评价表,确定基本地图,估算数据量,最后登记造册。

6、 净化数字文件,按照确定的数据库框架插入规定的位置。

7、 资料编辑加工。

8、联机编辑和脱机编辑两种方式反复检查同时采用、修改,产生净化的数字文件,从而实现图形数字的转换,做好插入数据库前的准备工作。

9、 定位查询、定性查询和逻辑查询是地图数据库提供的各种查询方式和显示方式,要及时地更新数据库,以确保数据库中数据的时效性和可靠性。

10、 对数据库进行实际测量和评价还应该返回核对原始资料,再重新组织入库,进而确保数据库的数据质量。

如何对数据进行预处理?

(1)删除伪结点:删除图面上伪结点;

(2)删除复合线多余点:删除图面中复合线上的多余点;

(3)删除重复实体:删除完全重复的实体。

构面数据需要对要素进行构面。要素构面核查通过后,表达为多边形的基本类型。以下是cass软件的构面功能介绍:

①手动跟踪:构面将连续不断的复合线连接起来构成一个面,像花坛、道路边线、房屋的边线等等这些断开的线,可以经过手动构面,将它们围成的领域构造出来;

②搜索封闭:自主搜索某一图层上重复围成的领域,并自动生成房界面。

③要素构面完成后,运行“封闭检查”功能。该功能的面状地物封闭检查是入库前所必须进行的步骤。

大比例尺数据管理需要建立拓扑关系,建立拓扑关系的具体方法如下:

①数据转入arcgis系统由于后期将对cass软件成果数据新建拓扑关系和检查拓扑关系,因此建立arcgis geodatabase数据库,将cass软件成果数据转入至arcgis geodatabase数据库。

②应用cass软件的shp文件接口输出shp格式,将cass软件的成果数据转换为shp格式的点、线、面简单要素类型数据,再将shp格式数据转入arcgis geodatabase数据库中。

③cass软件成果数据转入arcgis数据库后,按《城市地理空间框架数据标准 (cjj 103-2004)》要素类型定义重组分类。

④由于arcgis数据库对数据有较高的要求,如图形实体放错图层、代码值错误、面状地物不封闭即有悬挂点、伪节点等错误均不能转入arcgis系统数据库。因此,还需要进行arcgis拓扑关系检查。

nlc202309012351

拓扑关系检查拓扑是 gis 在数据管理和完整性方面的关键要求。通常,拓扑数据模型通过将空间对象(点、线和面要素)表示为拓扑原始数据(节点、面和边)的基础图表来管理空间关系。这些原始数据(连同它们彼此之间及其所表示的要素边界之间的关系)通过在拓扑元素的平面图表中表示要素几何进行定义。拓扑用于确保空间关系的数据质量并帮助进行数据编译。

创建拓扑规则后,进行拓扑检查,在容限内进行修改调整数据。利用ArcCatalog中所提供的规则,建立好拓扑关系后,就可以在ArcCatalog软件中打开拓扑规则,根据提示进行修改错误。ArcCatalog软件拓扑检查功能有对线拓扑(删除重复线、相交线断点等)、线拓扑生成面、共享编辑、拓扑错误显示、创建合理的拓扑规则,进行拓扑错误的重新验证,刷新错误记录。

数据格式和投影转换

数据格式转换由于采用Geodatabase作为后期地理信息数据处理的平台,因此最終成果的数据格式转换非常方便,将Geodatabase数据库中的要素数据按feature Geodatabase 或 feature class导出为shp格式文件,即完成最终成果数据的格式转化。

导致坐标缩放倍数的原因可能是投影参数中单位的变换,举例来说如果当前投影参数为毫米,则目标投影参数为米,那么坐标会自动缩小5000倍,如果目标投影参数比例尺为1:5000,会是相同的效果。 如果地理坐标不是直接转成,也可以进行“输入编辑----整图变换----其它”的功能。

如果在MapGIS的主界面选择菜单项,进入文件界面转换,再进行“图形处理”→“文件转换”,然后在主菜单中选择“文件”,这时候就可以选择要装入的文件类型〔点数据、线数据、面数据),最后在装入完文件之后,选择菜单“输出”,并根据所装入的文件类型提示选择输出点的数据,线的数据或者面的数据进行E00格式。

转换某种坐标信息数据源向另一坐标系统进行的投影方法,并进行修改源数据中的x值和y值。具有空间参考价值的创构时,对空间的参考定义做了详细的分析。那么该数据集的地理坐标系统或投影坐标系统便没有了坐标系统的详细地理数据, 在生产应用的过程中就是没有一点可利用的意义了,只不过对数据格式转换和转库过程中可能会造成坐标系统信息的丢失,也可能会在创建数据库的内容时忽略了坐标系统的定义。故而需要对没有坐标系统的信息数据集进行坐标系统定义,在不改变当前数据集中x值 y值的特征的情况下,对该数据集进行指定坐标系统信息。

参考文献:

[1] 《城市地理空间框架数据标准 (cjj 103-2004)》

[2]吴秀芹、张洪岩、张正祥、李瑞改、董贵华.arcgis9地理信息系统应用与实践.北京.清华大学出版社.2007

[3]潘正风、数字测图原理与方法[M].武汉大学出版社.2004

[4]龚健雅。地理信息系统基础[M].北京:科学出版社.2001

数据流程分析 篇7

关键词:BI,流程,BAM

引言

参考文献1主要论述了工作流技术在电力系统流程的重要性,参考文献2使用流程挖掘技术对电力系统进行分析,流程挖掘技术主要是对流程进行的挖掘,效果是对流程进行的优化。参考文献3将多维数据分析技术应用到电力企业管理中。而本文主要是研究多维分析技术在管理流程当中的应用,通过对数据的分析,为管理者的决策提供了帮助。

随着电力行业信息化建设的深入,越来越多的大型电力企业开始梳理自身业务流,希望把可提供决策的多维数据分析和自身相关业务流程相集成。这种业务流程和集成是未来绩效管理的一个核心要素。另一方面,随着越来越多的BI和业务流程管理软件商认识到了两者之间集成的重要价值,“流程到数据”的解决方案将逐渐流行。电力部门正在寻找一个更好的方式把决策流程和现有的业务流程结合起来,以便企业绩效。因此,BI解决方案必须包括一个连贯的机制来定义和使用业务流程,同时BI也必须包含有分析和报告企业绩效的机制。

1 以服务为中心的业务流程活动管理与监控

1.1 电网接入评估流程

电网接入评估涉及的用户及部门主要有用电用户、市供电公司营销部、市供电公司发策部、省电力公司发策部、省电力公司营销部等,在建模的时候,需要把各个部门的权限和主要工作考虑进来。主要流程如下:用户填写初步资料由市营销部进行审核,如果通过,用户向市发策部提交接入方案进行内部审核。当电压等级小于35kv时,市发策部直接给出方案的批复,若通过,则由市营销部出具用电方案。当电压等级大于35kv时,由省公司各个部门进行联合评审,满足要求,由省公司发策部进行方案批复,再由市营销部出具用电方案。

1.2 流程监控的业务目标

为提高效率,需要对上述流程进行监控。流程监控是对于业务操作的记录,它一方面保存了业务运行的业务数据,如在某个节点上所消耗的时间,另外一方面也保存了流程本身的信息,如时间信息和所属行业等。从运行的角度来看,流程监控软件会按照分析人员规约的流程监控模型收集系统业务事件,加以分析处理,进而将其转化为对于业务人员具有明确含义的关键业务指标,并以图形化的方式将分析结果展现在用户面前。

业务目标是整个业务流程管理构建过程的起点,它描述了为提高效率所需要达到的条件,其描述方式通常是使用自然语言,如“在某一节点上所消耗的时间缩短10%”、“2013年总的消耗时间缩短5%”等。业务目标可以认为是高层管理人员按照战略规划为整个组织所设定的里程碑,它不仅可以作为业绩的体现,也可以作为员工绩效考核的基础。

为了实现以上需求,从运行层面来看,面向服务的业务流程管理需要提供如下功能:

首先,业务流程管理必须支持从各种数据源提取有意义的业务数据,并将它们组合成为具有明确业务含义的关键绩效指标(KPI),这些数据源主要是关系型数据库。

其次,业务流程管理需要针对流程运行的异常情况及时发送相关预警消息。业务人员在访问界面上设定某些关键绩效指标的阀值,当指标取值一旦超出预期范围,系统需要为业务人员发送预警消息,其手段可以是在操作页面上进行报警提醒、采用邮件、即时消息或是短消息等;

最后,业务活动监控需要以报表的形式对于历史数据做出相应的统计,系统按照特定的纬度对于数据做分类计算,如按照产品种类、时间范围或是空间范围等,这些统计数据以为管理人员提供了直观的交互界面。

2 业务流程管理与商业智能结合

商业智能为高层管理人员提供了一种量化的决策分析支持手段,它从历史业务数据入手,通过挖掘当前数据模式与预测未来趋势,BI为管理人员制定长期的宏观调控奠定了良好基础。而业务流程管理则关注流程执行层面,它注重的是短期战术的执行,提供了更加精细的监控手段。从本质来看,商业智能关注的是长期规划的问题,而业务流程管理解决的是短期战术执行的问题。

通过流程的建立,在不同流程上进行的操作得到数据。在根据这些数据建立起相应的多维分析模型,从而有机的把业务流程管理与商业智能结合起来。本流程的设计主要从业务指标规约、数据维度分析和预警消息定义三个方面进行考虑。对于流程中的一个节点而言,首先设计事实表与其他属性进行关联。其中,在当前节点的消耗时间作为度量值,并作为KPI衡量业务绩效。其他属性包括行业id、类型id、区域id分别作为其他表的外键。还有时间key作为秒表,同时也是时间表的主键,包括开始时间和结束时间。即通过时间key作为外键关联到时间表。触发器体现在程序中,并为不同的节点设定不同的阀值。设定两个级别的阈值,当消耗时间超过第一级别的阈值时,启动低级别的预警。超过第二级别的阈值时,启动高级别的预警。

3 OLAP多维数据分析

3.1 多维数据库的建立

常用的多维数据结构主要有星形架构和雪花型架构。雪花型架构适用于业务关系较为复杂的情况,由于电网接入业务相对较为简单,所以采用星形架构更能直观的表现业务数据之间的关系。星形模型通过数据仓库建立起基于数据的集成系统,可以为用户提供报表服务,并分析服务对象。星形模式由一个包含主体的事实表和多个维度表组成。采用关系数据库结构,处于核心位置的是事实表,并通过外键与维度表相关联。事实表将各种不同的维度表连接起来,维度表中的对象通过事实表与另一维度表中的对象相关联,从而建立起各个维度表对象之间的关联。如图1所示:

事实表主要包含了特定事件的度量值,是可以用于衡量业务质量的关键属性。维度表主要包含了存储在事实表中的特征数据级一些拓展属性。每一个维度表利用维度关键字通过事实表中的外键约束于事实表中的某一行,实现与事实表的关联。这种结构的优点是使用户能够很容易的从维度表中的数据分析开始,获得维度关键字。再通过这些关键字连接到中心的事实表进行查询,这样就可以减少在事实表中扫描的数据量,以提高查询性能。

电网接入流程的主要数据包括用于存储流程相关数据的接入流程表CI_Process,所属行业表CI_Industry Type,接入类型表CI_LoadType,所属地区表ZC_Unit。用户最关心的数据就是在某一流程上消耗的天数,所以把该数据作为度量值。同时把所属流程、接入类型、时间、所属地区、所属行业抽取到事实表中并建立事实表CI_OLAP_FACT,并把这几项作为不同的维度建立多维数据,同时在接入流程表中抽取出时间作为时间维度表Time_OLAP。结果如图2所示:

3.2 对不同维度数据的分析

下面通过SQL Server的SSAS工具,展示了如何通过企业业务流程进行多维分析。一部分维度是进行多维数据分析的基本维度,除此以外,流程数据的多维分析包含了自身特有的维度,这些维度体现了工作流多维数据分析的特征。不同的维度,流程多维数据建模的指标也不同,下面以电网接入流程为例,对这些维度进行分析。

(1)时间维

任何一个流程节点都有一个开始时间,这是时间维重要的一个属性。时间维是多维数据模型中最基本的维度之一,通过设置时间维度,可以对不同时间段同一流程进行比较,或者是同一时间段内的不同流程,可以更加直观和深入了解特定时间段的流程进展情况。时间维一般是和其他维度一起作为条件完成切片工作的。

(2)信息类别维

接入申请可以在不同的地区。地区维也是多维数据模型中常见的维度之一。由于不同地区的条件不同,发展也有快慢之分,都对电网申请造成了不同程度的影响。从数据角度来讲,不同地区处理的数据是不同的。通过设定这样的维度,决策者可以观察和分析由于流程处理数据的不同,而产生的处理效率不同的情况。在接入流程的多维数据中,信息类别维还包括所属行业维和接入类型维。从不同的信息类别维度中,可以通过切片操作,具体了解不同地区、行业或者是接入类型的流程进展情况。

图3中Type Id对应了不同的接入类型,通过该切片,可了解不同的接入类型的消耗时间情况。

(3)流程维

流程维是工作流多维数据分析所特有的维度。建立流程维度,可以直观的比较不同流程的执行效率,在电网接入里用户最关心的数据是消耗的时间。流程最基本的组成元素就是状态,在电网接入流程中包括待审批状态,分为审批通过和审批不通过,通过分析流程中这些活动消耗的时间,发现影响整个流程效率的状态:首先是在一个流程中反复出现某一种状态,这说明流程存在冗余,导致效率低下。但要想找出具体原因,到底是电网设备的问题还是员工素质的原因或者是其他原因,就需要通过进一步分析该任务的详细信息;其次可以发现流程中消耗时间很少的活动,则说明该活动存在的意义不是很大,通过进一步的考察和对足够时间该活动的数据的分析,可以考虑去掉该状态或将活动归并到其他流程中,从而精简流程。

图4中OPID表示不同的流程所对应的ID,从图中可以看出每个流程的消耗时间情况。

4 结语

通过商业智能和业务流程的结合,不仅优化了接入流程,还可以帮助决策者更准确的做出判断,关注于优先处理的事情,在整体上大大提高了电网接入评估的效率。

参考文献

[1]杜旭,葛少云,李小宇,赵洪刚,巩向兵.应用一体化工作流的电网规划管理信息系统.电力系统及其自动化学报,2013,(1):120-123

[2]黄素君.通过电力系统绩效考核流程挖掘绩效考核系统的新功能.管理学家,2010,(12):24-27

[3]顾牛.基于数据挖掘的电力企业联机分析处理系统的设计与应用[硕士学位论文].山东:山东大学,2010

[4]郑代峰.基于JBPM的业务流程系统的研究与实现[硕士学位论文].武汉:武汉理工大学,2009

[5]马志程,杨仕博.基于SOA/EDA的电网企业应用集成架构研究[l].电力信息化,2010,(09):33-36

数据流程分析 篇8

关键词:大数据,价值链,流程再造,纸牌屋

伴随着海量数据及处理技术的飞速发展, 大数据时代已经来临, 并对每个领域都造成了影响。各行业之间的竞争愈演愈烈, 对企业价值链进行重新审视和设计, 使企业原有的经营运作流程适应新的竞争环境, 已经成为企业打造核心竞争力、实现战略目标的必然要求。因而, 研究大数据时代基于价值链分析的企业流程再造具有重要的意义。

1 文献回顾

研究机构Gartner认为, “大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。自2009年以来, IDC、麦肯锡、普华永道等咨询公司, 《科学》、《自然》等杂志, 都连篇累牍地介绍了大数据, 认为“大数据”将成为下一个创新前沿。未来国家与企业的核心竞争力将很大程度上依赖于将数据转化为信息和知识的速度与能力, 而这种转化速度和能力, 实际上则取决于大数据方面的技术能力。因此, 大数据必将引起全球各行业的重大变革。

业务流程再造 (BRP) 由Michael Hammer首次提出, 并对其做了如下定义:“企业流程再造是对企业的业务流程作根本性的再思考和彻底性的重新设计”。从此以后, BPR就成了一种风靡全球的管理理念。基于价值链分析的企业流程再造 (VC-BPR) 是指企业在经营决策过程中, 通过市场反馈及成本价值分析, 对企业各种经营流程进行重新思考和再设计的过程。

VC-BPR理论深刻地揭示了价值活动之间相互关系的重要性, 所有的业务流程相互促进和配合, 以使共同产生的价值远远大于各价值活动自身价值之和。在日益激烈的竞争环境中, 企业只有依托其价值链, 不断地建立、整合和重构其内外部资源和能力, 进行流程再造, 才能在动态环境中获得持续的竞争优势。

2 研究方法与数据来源

案例研究法能获取丰富、详细和深入的信息, 让人们透过事物表象看到隐含的深层因素。一方面, 通过单一案例研究, 可发现大数据、价值链与企业流程再造过程的作用关系模型;另一方面, 单一案例研究能更加深入地进行案例调研和分析, 更容易把“是什么”和“怎么样”说清楚, 故本文采取单一案例研究方法。

本研究选择Netflix公司推出的大数据制作电视剧《纸牌屋》是因为: (1) 企业具有代表性。Netflix是全球最大的在线影片租赁服务提供商, 是典型的影像行业巨头。 (2) 高风险性。影视投资收视率、票房与投资回报率的可预测性很差, 这也是企业在进行商业决策时所面临环境的典型特点。 (3) 资料丰富。《纸牌屋》运用大数据模拟实境, 在全球40个国家已经成为网络点播率最高的剧集。本研究小组取得了关于案例研究的大量资料, 便于进行全面深入分析。

3 案例分析

3.1 第一阶段:大数据技术能力的形成阶段

在搜索引擎、社交网络等互联网应用盛行, 数据量迅猛增加的同时, 以Hadoop HDFS、HBase、Hive、No SQL等为核心的开源生态圈和以SAP Hana、HPVertica、Tableau等为核心的商用生态圈, 为大数据技术能力的形成奠定了基础。

在美国众多的视频服务商里, Netflix是最早将大数据和媒体行业的结合起来的。推荐引擎是Netflix的一个关键服务, 1千多万顾客在同一个个性化网页上对影片做出1~5的评级, 并将这些评级放在一个30亿条以上的数据集中。Netflix使用大数据算法和软件来标识具有相似品味的观众对影片可能做出的评级。多年来, Netflix已经使用该方法提高了影片推荐的效率, 得到很多影片评论家和用户的好评, 大数据技术所带来的消费体验提升和商业价值远超过其技术成本。

3.2 第二阶段:利用大数据解决方案进行价值链分析

价值链分析理论认为, 每一个企业的价值链都是由以独特方式连接在一起的九种基本价值活动构成的。价值活动可以分为两大类:基本活动和支持性活动。价值链产生于企业中各自独立运作的价值活动之中。

在《纸牌屋》的制作中, 价值链活动是涉及到《纸牌屋》的投资决策、开发设计、市场投放、商务支持和顾客服务的一系列活动。

投资决策阶段, Netflix通过大数据技术, 集中分析了3000万次用户体验, 400万条用户评价, 300万次用户搜索操作, 以及用户观看视频的时间和使用终端等数据。通过对用户观看习惯的了解, 发现那些喜欢观看BBC老版《纸牌屋》的用户, 同样也喜欢大卫·芬奇导演, 及演员凯文·史派西。正是这个分析结果, 最终促成了他们决定花一亿美元来购买1990年BBC的同名电视剧《纸牌屋》的版权。

在开发设计阶段, Netflix灵活运用大数据, 分析用户偏好、市场时机, 对用户非常有针对性。与其他传统电视运营商不同, Netflix不需要把内容先放出去后才知道用户喜好程度, 它在内容发给用户之前就已经知道这些了。

在市场投放、商务支持和顾客服务阶段, Netflix利用大数据分析技术, 结合自身价值链, 发掘新的需求, 提高投入回报率。实时地把用户使用数据、交易行为数据进行储存和分析, 并进行数据挖掘。通过模型模拟来判断不同变量的情况下何种方案投入回报最高, 从而实现其价值链的优化。

3.3 第三阶段:基于价值链分析的企业流程再造

Netflix此次在《纸牌屋》上的尝试, 开启了影视创作行业的流程再造———利用基于大数据分析的推荐引擎, 自制剧集;直接向用户推荐他们喜欢的节目, 打破传统电视节目的捆绑模式。大数据分析不仅对将来整个影视创作行业从剧本选择, 导演演员的选择, 拍摄和后期制作, 乃至营销, 都会产生深刻的影响。而且, 《纸牌屋》绕开有线电视公司, 完全通过互联网播出。被《福布斯》杂志描述为:可能会动摇美国传统电视产业。捆绑模式一直是电视行业赖以生存的基础, 然而随着互联网服务的发展, 观众的自主权越来越多, 以及第二屏设备的逐渐普及, 捆绑模式正开始被打破。在大数据的基础上, 进行价值链分析, 促进企业的流程再造。既加强了已有的产品和服务, 又创造了新的商业模式。

三个阶段循环往复, 便能综合改进企业战略与组织结构, 并最终实现企业绩效的提升。

4 研究结论

本研究选取Netflix公司推出大数据制作《纸牌屋》进行典型案例研究。从企业战略的视角出发, 创新性地提出大数据、价值链与企业流程再造的作用关系模型。通过该模型, 适应不断变化的市场环境, 从而打造企业的核心竞争力, 实现其战略目标。

参考文献

[1]王团苗, 胡耀光.基于价值链的企业流程再造与信息集成[M].北京:清华大学出版社, 2002.

[2]Hammond.J.H, Obermeyer.W.R.Making supply meet demand in an Uncertain World[J].Harvard Business Review, 1994, 32, (6) :81-93.

海洋地质数据库数据处理流程 篇9

海洋地质数据库是国家级基础数据库[1], 其建立的最终目的是实现数据的共享与重利用, 为推动我国海洋地质事业的发展而服务。从上世纪80年代, 我国关于海洋地质数据库的建设进入起步阶段。近10余年, 随着国家专项的支持, 海洋地质数据库建设进入快速发展阶段。其中数据库标准规范、元数据标准建设、数据库模式设计、服务系统设计与实现等方面已取得一定的成果, 但是海洋地质数据库数据处理这一基础环节, 工作繁杂、琐碎, 鲜有人问津。本文结合实际工作经验, 介绍海洋地质数据库数据处理过程, 以期望对相关工作人员有一定的参考价值。

海洋地质数据库数据处理主要是指充分利用各数据处理软件、数据库技术进行数据处理和管理, 完成我国海域海洋地质的调查数据、分析数据、成果报告、成果图件以及元数据的整理、编辑、存储。数据处理过程主要分为四部分:一是根据项目需求, 进行数据收集;二是对这些数据进行分组;三是对数据进行分类加工, 主要包括属性数据、空间数据、元数据的加工处理;四是必须严格遵守质量控制体系, 进行数据质量检查。

1 海洋地质数据库的数据实体

海洋地质数据主要包括调查数据、分析数据、成果报告、成果图件和元数据等, 如图1所示。

调查数据是指外业获取的原始调查数据;分析数据是指外业调查数据经室内分析获取的原始分析数据;成果报告为处理原始数据生成的综合研究文字报告和报告附图及报告附表;成果图件是经过专业软件处理得到最终成果图。

其中, 调查数据中的地质取样数据包括表层取样、柱状取样、水体取样、大气取样数据;地质钻探包括地质浅钻 (钻孔) 、钻井、录井、测井数据;地球物理分为:单波束测深、多波束测深、侧扫声纳、浅地层剖面、单道地震、多道地震、重力、磁力等数据;岸滩地质调查是指岸滩地质踏勘、岸滩剖面监测、岸滩地质取样等;沉积动力测量数据包括走航海流、定点海流、温盐深、浊度、现场粒度、悬浮体取样的数据。

地质和钻孔、录井样品分析数据包括岩性描述与送样、粒度分析、碎屑矿物鉴定、粘土矿物分析、全岩矿物分析等;资料解析是指重力、磁力资料处理结果解释、浅地层剖面、侧扫声纳剖面、地震剖面、测井等的解释数据。

文字报告、报告附图和附表是每个年度调查数据、分析数据和成果图件等在处理数据前后及过程中编织的报告、附图和附表, 是项目进行中年度成果的体现之一。

成果图件是海洋地质数据库的重要数据之一, 它直观地展示出海洋地质数据, 主要包括:沉积类型图[2]、地形图、地貌图、断面图、构造图、地质类型图、沉积厚度图、水文地质图、重力异常图、磁力异常图、天然气水合物资源系列图、古环境图、灾害系列图、沉积成因图、盆地分布图、矿产资源系列图、油气资源系列图、环境系列图、卫星遥感合成图、海岸带变化图等。

2 海洋地质数据库的数据处理

本文主要针对从数据收集到数据入库这之间的过程展开介绍。数据处理过程是指各种数据的处理和加工, 需要熟练掌握数据库技术、Arc GIS技术和各类处理软件的综合应用。常用的软件除了oracle和Arc GIS外, 还有excel、access、Map Info、PRJMDPPSEC.exe (平面绘制软件) 、Map GIS、Photoshop等。海洋地质数据库的数据处理过程如图2所示。

2.1 资料收集与分组

海洋地质数据库的数据按照不同的实体类型展开数据的收集并以数据集为单位进行分组。依据调查类型, 分配数据集名称及编号, 以数据集为单位进行数据的整理。将原始数据分解成以数据集为单元的子包, 每年度的每一类调查为一个数据集, 每一类分析为一个数据集, 每个年度成果报告为一个数据集, 每一幅成果图件为一个数据集。

2.1.1 调查与分析数据集内容

调查与分析数据集是调查与分析原始数据的分类集合, 应收集资料如下:

(1) 野外调查或样品实验分析过程中产出的原始报表及文档资料, 如原始记录、施工报告、资料处理报告、样品鉴定报告、实验分析报告等;

(2) 调查数据集的站位、测线或覆盖区的空间信息数据表;

(3) 调查或分析原始记录数据表;

(4) 多波束、侧扫声纳、浅地层剖面、海流等原始数字记录大对象如果不提交, 应在数据表中说明数字记录介质的现存馆所及索引信息。

2.1.2 成果图件数据集内容

成果图件数据集是专题研究的成果图件, 应收集资料如下:

(1) 成果图件的位图;

(2) 矢量格式的图件提交成果图件的矢量图, 格式为Arc GIS格式的规范化分类矢量图数据;

(3) 成果图件说明书文档。

2.1.3 成果报告数据集内容

成果报告数据集是项目的综合评价成果报告, 应收集资料为:成果报告文档, 要求word格式, 可以是多个word文档的组合。

2.2 分类加工

整理后数据集主要包括的内容有:excel表 (.xls) 、access库 (.mdb) 、元数据文件 (.xml) 、空间数据 (.shp图) 、图像文件 (.jpg) 等。从数据实体类型上看, 海洋地质数据库的数据类型基本分为三大类:属性数据、空间数据和元数据。一般地, 属性数据以excel表和access库来存储;空间数据以.shp图的形式存储, 其中站位信息和成果图件都属于空间数据;元数据以.xml文件为载体进行存储和发布。

2.2.1 属性数据的获取和加工

属性数据的数据格式通常为.xls/xls, 或.mdb, 其获取方式主要通过三个途径:直接收集获得 (原始资料中已存在) ;依据纸质资料按格式要求填写完成 (纸质资料生成电子资料) ;通过批量处理得到 (仅提取所需资料并直接生成属性数据表) 。

部分调查数据是船载仪器自动生成的数据, 例如原始导航数据, 其数据量庞大, 但只需要提取经纬度、时间、水深等信息并结合部分处理数据, 形成完全符合数据库要求的数据形式。因此通过数据的批量读取能够高效地完成数据加工, 其流程图如图3。

2.2.2 空间数据的处理加工

空间数据[3]是指点、线、面、体等图形数据和对应的属性数据的统称。空间数据入库时格式为.shp, 对于有站位信息的数据 (如走航测线、站位信息、覆盖区等) , 因不存在.shp文件, 需创建空间数据文件;对于成果图件, 如不符合入库标准, 需进行格式转换、数据分层、图面检查编辑、属性赋值、MXD编辑等处理。

2.2.2. 1 站位信息的处理加工

点、线、区的shp图创建在实际应用中存在多种方法, 下面只分别介绍其中一种。

(1) 点空间数据的过程:

1) 将excel文件 (.xls) 中的经度列、纬度列 (以度分秒表示) 转换成十进制度表示形式 (此过程可以通过批量处理来实现) ;

2) 打开window菜单下的Arc Toolbox, 点击Data management Tools→Layer and Table Views, 双击Make XY Event Layer, 选择坐标文件, X、Y Field, 并赋予空间参考系;

3) 在新生成的图层上右击, 选data→expot data, 导出成.shp文件。

(2) 线空间数据的过程:

1) 将走航测线的数据存储在.txt文件下, 利用项目组开发的小软件“平剖面绘制 (PRJMDPPSEC.exe) ”进行检查和画线, 生成“航迹线”, 最后“DXF输出”;

2) 如无错误, 则打开Map Info工具/通用转换器, 将.dxf文件转换成.tab, 然后继续用通用转换器将.tab转换成.shp;

3) 将转换后.shp文件加载到Arc Map中, 补充测线的属性信息。

(3) 区 (面) 空间数据的过程:

1) 在将区空间数据中边角的经纬度填写在.txt文件中, 按a, b, c......代表序号, 格式为如图4所示。

2) 打开Arc Map工具箱, 通过samples→data management→create feature from text file命令来创建新区图层;

3) 导出.shp文件的区空间数据。

2.2.2. 2 成果图件的处理加工

收集的成果图件格式为.wt/.wl/.wp、.mif、.jpg等, 矢量要素存在拓扑问题, 由于数据入库有一定差距, 因此需对图件进行加工处理, 统一为.shp格式的图件。

依据《海洋地质数据库空间数据结构》、《中国地质调查局数据库建设技术标准》、《海洋区域地质调查数据库数据处理与质量控制规程》等相关标准和规程, 制定合理的处理方案后对成果图件进行一系列处理, 其处理流程图如图5所示。

(1) 格式转换。

海洋地质数据库需要的空间数据格式为Arc GIS的.shp文件, 针对不同格式数据制定不同的转换方式。

1) 对于Map Info格式的原始图件, 在Map Info中定义投影、坐标系, 通过通用转换器, 将.mif数据转换为Arc GIS的.shp文件;

2) 对于.jpg格式的原始图件, 先在Catalog建立新的点线面图层.shp, 然后在Arc Map中定义投影、坐标系并进行配准, 其次对点线面要素进行绘制;

3) 对于Map GIS格式数据, 先转换为Map Info数据, 之后转换为.shp文件。

(2) 要素分层整理。

对于Map GIS、Map Info格式的图件直接转换得到的.shp格式图件, 图件已经分层, 只是分层与数据标准中的要素分层规定不尽一致, 因此分别提取各类型要素, 调整要素所在图层, 确保各要素对应的图层文件的正确性。

(3) 图面检查编辑。

此环节是在Catalog中根据相应的拓扑规则对图面的线数据进行拓扑检查, 保证线数据不存在悬挂、未封闭、重叠等情况。在图面检查修改完成后, 对图形中的面域填充做拓扑重建, 建立图形的拓扑关系, 通过拓扑错误检查无误后, 使其符合入库标准。

(4) 属性赋值。

对不同专题的数据图层, 依据《海洋地质数据库数据模型》的要求, 建立不同的数据属性结构并依次对要素赋属性, 同时需注意数据集编号依据空间数据结构中的编码规则编写。采集属性数据, 根据上述规范, 对所有图件进行属性赋值操作。

(5) MXD编辑。

由于转换格式而来的.shp文件并未保存原图形的符号、样式, 因此, 需要对转换后的.shp格式矢量文件进行图形图式还原。主要是对所有图幅要素的区、线、点、注记进行符号、颜色、大小等样式的定义。以海洋地质数据库空间数据标准中对图元显示规定的属性结构, 作为图件图式还原选取属性结构的依据。数据标准中未有规定的要素, 用Arc GIS符号库中的符号还原图形。

2.3 元数据的处理过程

元数据 (Metadata) 是描述数据的数据[4], 用于描述海洋地质信息的内容、结构、项目信息和访问方式等, 在一定程度上能够消除数据资源之间的语义独立性和异构性。元数据的处理流程图如图6所示。

首先制作元数据信息采集表;依据收集的内容, 利用“元数据编辑器”, 参照元数据编写要求, 编写相关元数据信息, 并输出.xml文件。除建立.xml文件外, 还要补充建立相应的内容解释文件 (.html) 、位置图片文件或仪器设备照片 (.gif或.jpg) 。其中, 图片加工可以利用Photoshop对图片进行处理, 调节图像大小适合显示或添加文字等。

3 数据质量控制

质量检查方式包括自查[5]、互查、核查和审查, 自查与互查是作业组内部的全面检查;核查是作业组负责人对作业组数据产品的全面检查;审查是项目组质检负责人对核查后数据产品的抽样检查。每级检查发现的问题要求进行全面修改, 并经复检后方可提交下一级检查。质量检查可以通过机助或人工判别方法进行, 其中基于拓扑规则的拓扑检查和导入地图模板的图形显示检查是最直观的质量检查手段。

质量控制以数据质量元素基本单元来实现数据的检查。数据质量元素包括数据完整性、逻辑一致性、定位准确性及专题正确性。数据完整性指数据包、数据集、数据实体和数据属性的存在或缺失程度;逻辑一致性指与数据结构及定义的符合程度;定位准确性指野外定位数据的准确程度;专题正确性指数据内容在专业领域的合理程度。表1显示了海洋地质数据库数据质量检查项和检查方法。

4 结论

本文的主旨是介绍海洋地质数据库数据处理过程, 主要内容如下: (1) 指出了海洋地质数据库的数据实体, 主要分为5大类:元数据、调查数据、分析数据、成果报告、成果图件。 (2) 给出了海洋地质数据库数据处理的详细过程, 主要分为4大过程:数据收集、数据分组、数据分类加工、数据质量检查;并展示了属性数据、空间数据、元数据的处理加工过程。 (3) 质量控制对数据的完整性、可靠性及可重利用性起着举足轻重的作用, 论文展示了海洋地质数据库数据质量控制的方式和质量元数据的检查项、检查内容及方法。

摘要:本文的主要内容是介绍海洋地质数据库数据处理过程, 其目的是对数据库建设的基础环节有更一步的认识, 以期对相关工作人员有一定的参考意义。文章先介绍海洋地质数据库的数据实体;然后通过数据分组和分类加工、属性数据的批处理、空间数据处理和元数据处理等方面详细阐述了数据处理过程;最后指出数据质量控制是数据处理过程中的重要环节, 是数据完整性、可靠性和可重复利用的根本保障。

关键词:海洋地质数据库,数据处理,空间数据,成果图件,数据质量控制

参考文献

[1]苏国辉, 魏合龙, 戴勤奋, 等.海洋地质数据库建设现状及经验[J].海洋地质前沿, 2012, 28 (12) :10-16.

[2]魏合龙, 戴勤奋, 林峰, 等.区域海洋地质数据库建设纲要[J].海洋地质与第四地质, 2004, 24 (1) :139-142.

[3]罗云启, 曾琨, 罗毅, 等.数字化地理信息系统建设与MapInfo高级应用[M].北京:清华大学出版社, 2003:132-140.

[4]Martin Fowler.Using Metadata[J].IEEES of software, 2002, 19 (6) :13-17.

数据可视化技术实现流程探讨 篇10

在研究过程中, 人们发现不但需要通过图形图像来分析已经计算出来的数据, 而且还需要了解在计算过程中数据的变化。因此, 将局限于对计算结果展现的科学计算可视化扩展为数据可视化, 使它除了包括科学计算数据的可视化, 还涵盖工程数据和测量数据的可视化。数据可视化技术指的是运用计算机图形学和图像处理技术, 将数据转换成为图形或图像在屏幕上显示出来, 并进行交互处理的理论、方法和技术, 涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域, 是一门综合性的学科。

下面将结合笔者在实际的项目开发过程中对数据可视化的处理流程的一些经验, 探讨如何具体实现数据的可视化。

初始的数据可视化是单一地从视觉设计、数据挖掘、图像设计和信息视觉化等领域获取解决方案。但在当前日益复杂的数据面前, 这种单一的解决方案已无法满足用户的需求。例如:视觉设计, 通过把数据映射到一个视觉表上, 很难表述怎么处理成千上万的数据项;数据挖掘有能力解决视觉设计不能完成的工作, 但在与数据的交互方面无能为力;基于软件的信息视觉化能够增加和各种形式的抽象数据的交互来表述这些数据, 但这种方法低估了视觉设计中的美学原理, 无法将视觉设计作为一种有效的交流方式吸收进来。如果要很好地实现数据可视化, 必须将以上几个领域统一起来。整个过程由以下7个步骤组成: (1) 获取:得到数据, 无论是数据库的表或者来自网络上的源文件; (2) 分析:为数据的意义构造一个结构图, 并按分类排序; (3) 过滤:删除多余的, 只保留感兴趣的数据; (4) 挖掘:应用数学、统计学或数据挖掘方法来辨析数据格式; (5) 表述:选择一个基本的视觉模型, 比如一个条形图、列表或树状结构图; (6) 修饰:改善基本的表述方法, 使它变得更加清晰和更容易视觉化; (7) 交互:增加方法来操作数据或控制其可见的特性。

本文结合一个可视化A公司在北京地区的销售、维护网点的例子, 贯穿讲解各步骤处理的内容、使用方法、注意事项。

1.1 获取

数据获取, 又称为“数据采集”或“数据收集”, 是指对现实世界进行采样, 以便产生可供计算机处理的数据的过程。这个过程可以极度复杂 (例如:从一个大型系统中收集有用的数据) 或非常简单 (读取一个可用的文本文件) 。但不论对数据的获取简单与否, 都必须考虑以下两个问题:

(1) 获取的数据不是越多越好。在收集数据不困难的情况下, 人们习惯一开始就着手积累一些海量的数据, 但过多的数据不但对真实反映事物没有明显的帮助, 还会让人淹没在数据中, 不知所措。寻找最小的数据集来揭示数据集内容中的意义, 是获取数据应当遵循的原则。

(2) 确保数据的质量。在获取的数据集中有太多的坏数据, 不但导致整个展现工作毫无意义, 甚至对用户产生误导, 因此获取优质数据是数据可视化的基础。

本例中的A公司网点的数据, 是从数据库的A公司网点表 (A_WDB) 利用SQL语句直接读取。A公司网点表包含:网点编码 (WDBM) 、经度 (JD) 、纬度 (WD) 、网点类型 (WDLX) 、建立时间 (JLSJ) 、是否营运 (SFYY) 、网点负责人 (WDFZR) 等字段。其中网点负责人在本例中不关注, 可以认为是冗余数据, 不予读取。SQL语句如下:

Select WDBM AS网点编码, JD AS经度, WD AS纬度, WDLX AS网点类型, JLSJ AS建立时间, SFYY AS是否营运from A_WDB;

提交数据库后获取如下数据:

1.2 分析

在获取数据后, 所得数据需要被分析转换, 让数据按照其使用目的标示格式。在这阶段, 数据被分为独立的列, 每一列都被格式化为将在数据转换过程中处理的数据格式。注:此处的分析与前章节中的数据分析的概念不同, 此处的分析是根据数据的内容对数据格式进行整理, 为可视化的下一步操作做准备。

常用转换的数据格式有6类: (1) 字符串:一个字符集构成一个单词或者句子。表1中“网点类型”被指定为一条字符串。注:有些数字组成的数据并不表示数量的大小, 因此也可以看做字符串, 例如邮政编码:430010; (2) 浮点数:一个包含小数点的数字。表1中“经度”、“维度”是浮点数; (3) 整数:一个没有分数的数字, 与浮点比没有小数点。例如:-15、24; (4) 布尔:Y/N判断逻辑的是和否。表1中“是否营运”是布尔类型; (5) 时间:按照一定格式排列的数字, 表示时间。表1中“建立时间”是时间类型; (6) 索引:数据对应于另一个数据表中的映射。表1中“网点编码”就是一个索引, 指向A公司固定资产表。固定资产表中存放所有厂房、仓库、网点的编号、名称、所属地等信息, 用于对各种固定资产集中管理。

表1中的数据经过分析, 格式化后得到表2。

1.3 过滤

过滤就是删除数据中不使用的部分。在数据可视化的获取阶段, 本文已经讨论了过多冗余数据的害处, 并要求在获取阶段就尽量减少冗余数据。但有些数据只有通过分析和表示, 才能判断它们是否有冗余, 因此我们在分析和挖掘的步骤之间增加过滤操作, 删除冗余数据。

在本例中, 我们感兴趣的是北京范围内的网点, 因此, 根据北京地区经纬度的范围, 删除表中的一部分数据。北京地区的经纬度大致范围为:经度 (115.2541, 117.5015) , 纬度 (39.2600, 41.0482) , 编号为101345的网点经纬度不在此范围内, 因此删除该记录。

1.4 挖掘

挖掘是在大量的数据中寻找某种规律的行为, 涉及数学、统计和数据挖掘等多种学科的知识。在数据可视化过程中, 挖掘是一个重要步骤, 通过它才能在一堆杂乱的数据集中, 找出规律, 为数据表示提供有组织的数据, 让数据对于用户变的有意义。可以不夸张的说, 挖掘是可视化的灵魂。

本例的挖掘采用一种简单数学处理:程序通过遍历整个数据来确定经度和纬度的最大值和最小值, 确定在屏幕上显示地图比例尺, 达到以最大比例尺的地图显示全部网点图标的目的。通过挖掘处理后, 得到的屏幕地图比例尺即不会因为太大无法全图显示所有的网点图标, 又不会太小使网点图标无法清晰显示。

1.5 表示

该步骤将数据集中的数据, 按照挖掘得到的规律, 以一定的格式映射显示。可视化设计者在该阶段, 需要结合用户的需求, 找出数据的主要描述属性, 选择最佳的可视化显示方式。

在本例中, 我们选取二维数据可视化, 每个网点都有一个经度和纬度, 所以将网点以类型定义的图标格式映射到二维地图上显示, 如图1所示。

数据的表示是一个关键环节, 因为该步骤完成后, 你可以重新审视早期所完成的工作质量, 判断是否达到需求, 如果不符合要求, 可以返回各步骤重新处理。

1.6 修饰

数据可视化主要旨在借助于图形化手段, 清晰有效地传达与沟通信息。因此可视化的美学形式与功能需要齐头并进, 直观地传达信息的关键方面与特征, 从而实现对于数据集的深入洞察。设计人员往往并不能很好地把握设计与功能之间的平衡, 常常要么创造出华而不实的可视化形式, 要么展现的图形粗鄙简陋或者过于杂乱, 让用户难于解读。可以说设计人员如何协调两者的关系, 是数据可视化能否成功的重要因素。

在本步骤中, 视觉设计的方法被更多的关注, 如通过颜色、大小、形状等等, 使之符合美学原理, 提高数据的可读性。如图2为修饰过的图, 从网点在图中所显示的图标大小, 可以看出网点的级别 (大的为一级网点, 小的为二级网点) ;从颜色上可以看出网点当前状态 (黑色为正常, 红色为暂定营运) 。图2同表示阶段的图1相比, 易读易懂, 信息量也更大。

1.7 交互

在交互部分, 用户能够控制和探索数据。用户通过交互在已有的数据集中选择子集或者改变观察数据角度, 关注自身感兴趣的内容, 获取最大信息量。

在本例中, 通过用户的选择, 地图中分别显示销售点、维护站 (如图3所示) 。此外, 用户还可以通过“放大”、“缩小”功能, 通过改变地图的比例尺, 观察网点的具体方位 (如图4所示) 。

1.8 各步骤相互影响和联合

前面介绍的数据可视化步骤并不是顺序不变的, 每个步骤是相互影响而紧密联系的。图5不仅顺序列出每个步骤, 而且显示了后面的步骤是如何影响到早期的。

(1) 表示阶段是一个关键点。在这个阶段, 用户能够通过初步的视图来了解所显示的数据是否是满足需求, 是否有冗余。如果显示的数据不满足需求, 可回到获取步骤重新获取数据;如果显示的数据中包含有大量冗余, 从而淹没有用信息, 分散用户注意力, 应当返回到过滤阶段, 设置条件进行删除。

(2) 交互阶段是最终阶段。用户在这一阶段常常需要调整数据显示的内容和角度, 试图获取最大的信息量。因此需要返回到挖掘阶段, 改变数据的排列、统计方式或者维度等等;返回修饰步骤改变数据在图形中的颜色、大小和形状等等。

可视化流程的各个步骤之间的相互联系表明, 在处理一个可视化项目时必须将它视为整体。这与程序员只负责技术部分, 比如获取和分析数据, 而视觉设计者只负责选择颜色和字样的流水线方式不同。各步骤所涉及的视图设计、数据挖掘、软件设计等领域必须形成一个交集, 表明出结合的优势。

2 结束语

数据可视化的设计者在实际应用过程中, 要综合应用视觉设计、数据挖掘、图像设计和信息视觉化等领域中已有的方法, 得到想要实现的结果。也就是说, 将数据可视化整个实现步骤看着一根线, 把各领域中现有的方法串起来, 才能很好地将数据进行展现。

摘要:数据可视化技术广泛应用于各个领域, 备受人们关注。阐述了数据可视化的概念, 结合对数据可视化应用的实例, 详细论述数据可视化技术展现数据的工作流程。

关键词:数据可视化,获取,分析,过滤,交互

参考文献

上一篇:农机监理人员下一篇:体育审美观