数据资源安全

2024-07-22

数据资源安全（精选十篇）

数据资源安全篇1

关键词：数据交换,资源整合,物理隔离,数据二极管

0引言

中央人民广播电台作为国家级新闻媒体, 不但承担有党和国家政策宣传、舆论导向的重任, 还有满足国内外听众信息交流和丰富文化产业的要求。随着电台网络建设规模的扩大, 网络间分散的信息资源缺乏有效合理利用, 越来越难以适应日益增长的应用需求。因此, 通过技术手段提高台网综合安全运行能力, 推动网络信息资源整合就成为十分紧迫的任务。

1台网信息资源整合需要解决的主要问题

与各省、地市级电台不同, 中央台由于受到历史条件、覆盖范围, 政策等多重因素的影响而形成了目前节目播出网、综合业务网、编辑制作网、办公内网等多个各自独立运行的网络以及节目采集、制作、播出、运行和管理环节相互分离的现状。网络资源的分割造成了业务与数据不一致, 音频与文字稿件内容不统一, 操作流程复杂, 工作效率下降, 缺少综合管理平台等一系列问题。出于安全考虑, 处于物理隔离环境下的信息孤岛甚至无法支持外界提供的系统补丁和升级服务。随着电台数字化、网络化规模的扩大和办公自动化水平的提高, 跨网、跨系统、跨地域的信息互联互通和资源共享需求迫切, 需要对分散的网络资源进行有效整合。但是, 通过公共网络获取和传递信息的渠道存在着很多安全隐患, 为避免风险而重新组建专网或租用专线成本过高。如何在保持业务安全、稳定、高效运行的前提下, 降低网络连接的风险和隐患, 分离、过滤和阻隔无效不良信息, 实现信息实体间数据安全交换成为目前台网资源整合中亟待解决的问题。

2台网信息资源复杂性分析

电台网络资源不仅包括通信设备、服务器、磁盘阵列, 还包括节目资料的生产、运行、存储和消费等流程构成的一系列复杂应用。共享平台的建立改变了新闻传统的单一发布方式, 使得信息资源的利用率提高, 互动性增强。新闻节目素材资源分布范围广, 形式多样。有来自全国五十多个记者站、地方台和新华社的稿源信息数据库, 内容含音频和文字, 且多种数据编码标准并存。台网信息资源划分存在多种方式。

1. 按应用层次

如自下而上依次为网络基础设施 (最底层) , 稿件素材资源管理 (数据层) , 内容编审 (控制层) , 节目发布播出决策 (核心层) 等。相应安全等级逐层上升。

2. 按业务功能

不同类型业务间可能存在互操作与协同工作, 如新闻素材入库与版权信息注入同步。特别的涉密业务必须与公共网络资源进行物理隔离。

3. 按网络结构性质

有共享式、交换式和分布式结构。也可根据安全级别划分多个域。数据交换可能经过多重路由或安全网关。

4.按用户角色

用户通过和资源之间建立某种角色关联而被授予特定的访问权限。例如, 在某一系统中拥有上传、下载、审批等管理权限, 而在另一系统中只有预览、检索等普通权限。

3数据安全交换隔离设计原则

3.1 安全性原则

对于网络隔离系统来说, 笼统地讲安全是没有意义的。事实上, 任何系统都不可能达到100%绝对安全。只要能保证隔离防线被突破所要付出的代价比其获利更大, 就可认为该设计是具有安全性的。

1.防病毒

计算机病毒对网络系统具有巨大的破坏作用。简单的校验或过滤机制难以识别隐藏其中的病毒和后门程序。安全漏洞检查和隔离机制必须能够防止病毒和恶意代码传播扩散。

2.防攻击

防止可能的入侵手段, 包括电磁干扰, 蓄意删除、篡改未授权信息, 通过设置陷阱、地址和身份伪装来嗅探、扫描内部网络系统等。

3.防泄密

防止通过伪造身份获取授权信息, 非法登录、窃取和备份重要信息和保密性文件, 或内部人为操作造成的重要信息流出, 尤其是含敏感内容信息。

4.防瘫痪

防止由于单一节点数据流量过大或超负荷工作造成连接故障甚至系统瘫痪。

3.2 兼容性原则

应兼容开放的网络通信协议和数据编码标准。封装和屏蔽因私有协议造成的冲突和差异, 提供统一数据交换接口。对不符合要求或格式不一致的台网资源数据形式进行归类、转换、提取和集成。采取灵活的和可定制的数据交换模型和接口适配规格, 以适应电台网络业务应用模式的变化和功能扩展需求。

3.3 可控性原则

数据同步协商控制机制应实现数据状态、连接保护和权限控制, 如用户对资源的访问控制权。应切断并关闭不必要的网络连接和服务控制端口, 避免不合理设计造成功能冗余和性能瓶颈, 使传输效率降低和处理开销加大。应控制响应时间、并发访问和突发性数据带宽变化, 如遇重大新闻事件和活动时, 保证台网业务不间断运行。

4数据安全交换隔离控制策略

4.1 台网边界安全过滤和域控制

在电台网络实际环境中, 构筑了统一的网络边界安全防御体系。我们采用了思科PIX535系列防火墙、Catalyst6500系列核心数据交换设备和Catalyst3560系列网络交换机。在防火墙DMZ区 (非军事化区) 设置了FTP、Email、DNS等公共服务器。通过在交换机上进行VLAN划分可控制事故对内部网络的影响范围, 如隔离广播风暴等。通过AD域控制器实现台网不同安全域间数据安全交换和资源统一管理, 如域成员帐号、权限设置、组策略设置等。防火墙通过设置地址转换规则屏蔽不信任站点, 保护台网内部资源;通过配置服务端口访问规则, IP包过滤等安全机制来控制通过网络边界出入口的数据交换。但是, 防火墙只是一种网络层边界检查工具, 无法防范来自网络内部的攻击, 对可能出现的新病毒和木马来不及作出反应。

4.2 内外网物理隔离网闸

网闸是一种带有双向控制功能, 在物理链路上断开网络连接的隔离保护技术。网闸在内外网之间扮演类似“信息渡船”的作用, “船闸”通过高速电子开关控制。可利用网闸实现台网不同安全域间的数据交换。例如, 将OA办公内网连接网闸内网端口、外网端口与业务外网连接。其专用隔离控制开关在任一时刻仅连接内网单元或外网单元, 实现数据切换。隔离关键在于将外网单元和内网单元分离成为两套独立系统, 分别控制外网和内网端口, 在内外网之间进行数据双向“推”、“拉”, 实现双机之间互斥访问。这样, 即便外网系统被攻破, 攻击者仍然无法控制内网系统。与防火墙或路由器不同, 采用网闸技术, 内外网间不存在直接数据通信和依赖开放通信协议的数据包转发。所有的连接控制请求都由网闸主动发起。当数据从一端通过网闸传递到另一端时, 网闸会将数据包层层剥离, 并对裸数据采用私有通信协议进行重新封装, 实现数据静态“摆渡”。

网闸在防入侵方面有其优点, 然而在实时性、交互性、吞吐量, 粒度控制以及数据内容过滤等方面还略显不足。

4.3 隧道和虚拟专用网

“隧道” (Tunneling) 基于信息封装的原理, 通过在公共网络基础设施上建立私有通信协议将数据包重新打包封装在其内部一道传递, 并在到达目的网络后才解除封装。虚拟专用网 (VPN) 就是一种在穿越不可靠公网上建立临时的加密隧道技术。

为满足电台外出采访、驻地记者通过公网对稿件上传、下载以及远程办公的要求。采用SINFOR DLAN M5100, 支持IPSEC、SSL两种VPN协议, VPN远程连接隧道建立后, 分配客户端授权证书, 自动获取内网IP地址, 如192.168.0.0/24。通过VPN方式提供加密的数据访问通道, 在传输数据时防止被窃听和篡改。通过配置USB Key, 采用和密钥PIN码双因素认证方式实现访问控制, 以确保发稿源的身份合法性, 限制访问内网资源权限, 以保证电台外部跨公共网络接入访问的安全性。

4.4 音频数据转码

音频转码是指改变某种音频内容的格式、码率或采样参数等。一种是通过D/A和A/D控制芯片、数字采集卡 (如电台DIGIGRAM PCX专业声卡) 将数字音频信号模拟化再重新采样数字化。可以实现电台音频资料数据迁移。但这种1:1的转码效率较低, 容易出现性能瓶颈。另一种通过等值变换算法, 将其中的音频数据部分解码并以新的格式 (参数) 重新编码生成另一种格式。例如, 将MP3、WAV等编码格式都统一转换成播出系统可识别的MP2 (48k Hz, 256bps) 格式。可选择AES/EBU数字接口、利用DSP数字音频信号并行处理技术, 提高转码的效率。这样, 即使原来素材含有恶意代码, 经过转码以后重新生成的音频数据码流都已改变, 从而实现电台音频节目跨网安全传输并播出。

4.5 音频水印特征码 (加扰)

数字水印技术是用信号处理的方法在数字内容中嵌入隐蔽的标记。数字音频水印技术利用了人耳对声音的掩蔽效应, 通过对声音信号频谱的分析, 在音频码流中嵌入不易察觉的特征码, 以达到信息隐藏的目的。

由于水印特征码信息存在于原始素材样本频谱之中, 具有鲁棒性、隐蔽性和抗攻击能力。嵌入的水印特征码可以用于数字内容的合法性鉴别、非法数据过滤 (如插播广告) 、拷贝控制、标识节目内容的唯一性和进行相关信息检索 (如著作权信息) 。例如, 通过素材DCID标签生成水印特征码, 实现电台音频稿与文字稿内容之间的数据关联。在需要时 (如节目播出后) , 提取水印特征码进行匹配以确定节目信息内容的准确性。此外, 由于水印码对样本加扰具有随机性分布, 还可以对藏匿在数据码流中的病毒等恶意代码进行粉碎性破坏。

4.6 单向隔离传输控制

在电台涉密业务内网与外网间可以考虑采用单向隔离传输控制策略。即只允许单方向地传送数据, 反方向没有任何反馈信息, 即便是确认信息。具有这种原理和机制的单向装置称为“数据二极管 (Data Diode) ”。其单向控制技术核心采用的是光电耦合器, 数据转换过程是不可逆的。数据二极管在数据通信中只选择一个方向, 单入单出, 实现数据单向推送。例如, 在数据二级管入口接入电台公共业务外网FTP服务器, 出口接入涉密业务内网FTP服务器, 实现稿源资料信息收集或系统升级补丁发布。由于数据二极管的单向无反馈特性, 取消了反向的通信信道, 掐断了黑客的控制方式和获取途径, 自然也就使其攻击失去了的意义。与双向网闸不同, 数据二极管最大的优势就在于防泄密。

由于是单向的“盲发”, 发送方不确定对方是否收到, 被动一方也无法得知接收到的数据是否完整。为了保证数据同步的完整性, 发送方应适当增加数据的冗余度以减少出错的概率, 尽管这样会损失一定的有效数据带宽。如接收方通过对比连续收到的三个副本, 取其中完全相同的两个。同时, 可在数据流中定期插入数据校验码序列, 如CRC码。若接收方发现数据异常, 则放弃该检测码之前某固定期间内收到的数据。

5结束语

台网信息资源整合是一个庞大的系统工程, 不可能单靠某一项技术, 应根据电台网络系统的运作规律和具体情况综合运用。目前国内技术条件还远不成熟, 广播业界行业规范不健全, 技术标准不统一。就电台特殊环境下安全应用来说需要一个逐步完善的过程。

值得提出的是, 由中央人民广播电台承担的“广播电台节目采集平台关键技术 (内外网隔离传输技术) 研究”项目目前已经通过广电总局技术专家鉴定。该研究成果经过国家信息安全部门测评, 相关技术性能指标通过了专业质检部门测试, 符合中央台实际环境要求。特别是实现了隔离环境下跨网数据安全传输, 为台网资源整合提供了关键技术支持。

必须改变现有网络体系下形成的信息交互模式, 将分散独立的广播网络整合成为互连互通无缝连接的大网络。在此基础上, 通过建立全国广播电台新闻信息共享一体化服务平台, 形成规模化效应和资源优势互补, 从而提高和丰富新闻节目的质量和内容, 增强广播的整体竞争力和影响力。我们已经看到, 原始的信息孤岛时代已经过去, “三网融合”是未来大势所趋, 广播电台也不例外。限制和隔离只是保护手段, 而信息沟通才是最终目的。

参考文献

[1]苑拥军, 李志杰.广播电台网络化建设和管理[J].广播与电视技术, 2008 (04) .

[2]黄胜召, 赵辉, 鲍忠贵.网间安全隔离技术分析研究[J].通信技术, 2010 (05) :100-102.

[3]王能辉.浅谈网络安全的隐患与防患措施[J].科技创新导报, 2010 (11) :24.

数据资源安全篇2

建设工作方案

根据省安监局《关于加快建立安全生产应急预案与应急资源数据库的通知》（鲁安监发„2010‟）65号）文件精神，为全面掌握全市各类应急资源，尽快建立我市安全生产应急预案与应急资源数据库，切实提高安全生产应急管理和应急处置能力，现结合我市实际，制定本工作方案。

一、指导思想

以科学发展观为指导，认真贯彻《安全生产法》、《突发事件应对法》等相关法律法规和国家、省、市关于加强安全生产应急管理工作的决策部署，按照“分类管理、分级负责、属地为主”的原则，依靠信息技术，依托网络平台，尽快建立我市安全生产应急预案与应急资源数据库，夯实安全生产应急管理基础，实现应急预案的动态管理和应急救援队伍、应急专家、应急物资和装备等应急资源信息的动态更新，为全面提高我市安全生产应急救援和应急管理能力，最大限度地减少人员伤亡和财产损失提供支持和保障。

二、组织领导

为确保我市安全生产应急预案与应急资源数据库建设工作取得成效，市安监局决定成立全市安全生产应急预案与应急资源数据库建设领导小组。领导小组成员名单如下：

组长：董世武市安全生产监督管理局局长副组长：常成武市安全生产监督管理局总工程师成员：毕元新市安全生产监督管理局办公室主任

王会贤市安全生产监督管理局协调科科长

史衍市安全生产监督管理局科技培训科科长

高原市安全生产监督管理局二科科长

赵方惠市安全生产监督管理局危化科科长

邹本政市安全生产监察支队副支队长毛可桢市安全生产监察支队副大队长

领导小组下设办公室，办公室设在市安监局安全监督管理二科，高原同志兼任办公室主任，具体负责安全生产应急预案与应急资源数据库建设工作。

三、目标任务

至2010年底，市、县（市、区）两级要初步建立安全生产应急预案与应急资源数据库（包括应急预案数据库、应急救援队伍数据库、应急专家数据库、应急物资和装备数据库），统一纳入省级安全生产应急预案与应急资源数据库，做到各类应急预案与应急资源信息及时采集、更新、查阅、审查、统计分析和资源共享。

四、建设内容

（一）建立应急预案数据库

按照国家安监总局《生产安全事故应急预案管理办法》、《生产经营单位生产安全事故应急预案评审指南（试行）》等有关应急预案管理规定和“分级负责、分类管理”原则，严格实行应急预案报备管理制度，进一步规范全市安全生产应急预案体系建设和管理。安装并运行“安全生产应急预案管理系统”，逐步建立市、县（市、区）应急预案数据库，积极推行全市、县（市、区）、部门、高危行业和规模以上企业预案网上报备。在开展全市应急预案报备管理工作的同时，积极探索预案编制、评审、报备、发布、宣传、演练、评估的闭环管理及全过程常态管理，建立和完善应急预案管理体系。

应急预案数据库主要内容包括：预案名称、预案类型、版本号、版本状态、编制单位、发布单位、预案文本、适用领域、发布文号、发布日期、签发人、预案状态、修订日期、地区编码、附件等。

（二）建立应急资源数据库

1、应急救援队伍数据库

按照应急救援队伍性质、承担救援任务类型、综合性或专业性等标准建设应急救援队伍数据库。

应急救援队伍数据库主要内容包括：队伍名称、队伍类型、所属单位（主管部门）、地址、队伍资质、专长描述、行政区划代码、邮政编码、队伍人数、成立日期、负责人、联系电话、分管领导、联系电话、值班电话、传真等；装备名称、装备类别、装备功能、计量单位、数量、购买日期、出厂日期、装备描述等。

2、应急专家数据库

依靠现有应急专家数据库，按照事故分类完善不同专业的应急专家数据库，为市、县（市、区）安全生产应急救援指挥机构提供技术服务，实现对专家信息的采集、查阅、更新和维护。

应急专家数据库主要内容包括：专家名称、性别、民族、出生日期、政治面貌、健康状况、专家类别、专业领域、专业特长、身份证号、技术职称、行政职务、参加工作时间、最高学历、毕业院校、工作单位及主管部门、是否在职、单位地址、通信地址、邮政编码、办公电话、移动电话、家庭地址、家庭电话、电子邮件、传真、工作简历和参与事故案例概述、备注等。

3、应急物资和装备数据库

按照生产安全事故、其它突发事件（如自然灾害）引发生产安全事故类别，掌握市、县（市、区）政府各有关部门应急救援重点物资和装备储备情况，实现对各类应急物资和装备信息的采集、查阅、更新和维护。

应急物资和装备数据库主要内容包括：物资名称、物资类别、所属单位（队伍）、行政区划代码、负责人、负责人电话、传真、计量单位、物资数量、仓储地址、邮政编码、物资描述、行业主管部门等；装备名称、装备类别、所属单位（队伍）、规格型号、行政区划代码、联系人、联系人电话、传真、计量单位、数量、购买日期、出厂日期、地址、邮政编码、装备描述、行业主管部门等。

五、实施步骤市、县（市、区）两级同步推进，共分为三个阶段：

（一）准备阶段（2010年6月）

1、县（市、区）安监部门、高危行业和规模以上企业要配备办公电脑，接通互联网，落实具备电脑基本操作能力的专人负责安全生产应急预案和应急资源数据库建设工作。各县（市、区）明确工作人员。

2、市安监局信息平台部署应急基础信息资源库系统，具备数据录入功能。

（二）学习阶段（2010年7月）

市、县（市、区）安监部门、高危行业和规模以上企业，通过学习省局开发的应急基础信息资源库系统有关软件，了解和掌握系统的操作知识。

（三）实施阶段（2010年8月-12月）

数据收集录入。市、县（市、区）安监部门、高危行业和规模以上企业数据库建设工作人员，登陆市安监局信息平台应急基础信息资源库系统，按照系统要求，进入安全生产应急预案与应急资源数据库完成数据录入工作。市以上企业单位要在2010年10月底前完成全市安全生产应急预案与应急资源数据库建设工作；各县（市、区）要在2010年12月底前完成本辖区高危和规模以上企业安全生产应急预案与应急资源数据录入工作。

六、工作要求

（一）提高认识，加强领导。建立安全生产应急预案与应急资源数据库是全面加强应急管理工作的需要，是安全生产应急平台建设的基础性工作，也是今年安全生产应急能力建设的内容之一。各县（市、区）、各有关单位要充分认识到开展此项工作的重要意义，结合安全生产“三项建设”，将安全生产应急预案和应急资源数据库建设作为一项重点工作，切实加强组织领导，健全工作机构，落实工作责任，制定工作方案，明确建设目标、建设内容和保证措施，确保应急预案与应急资源数据库建设工作扎实推进。

（二）突出重点，注重实效。要按照“统筹规划，分步实施”的原则，结合实际情况，周密部署，精心组织，突出重点行业领域和高危企业的数据采集，做到数据准确，内容全面。

数据资源安全篇3

关键词：大数据；数字档案信息资源；传统档案数字化副本；存储备份；信息安全；数据安全

1 数字档案信息资源数据风险概述

我们已经进入了大数据时代，2013年中国产生的数据总量超过了8亿TB，并且每天以倍数递增，大数据相关的技术蓬勃发展，技术应用随处可见，我们经常上网使用的百度搜索就是用Hadoop大数据技术管理数据的。与此同时，每年全球数据安全问题损失已经达到万亿美元数量级，我国也有数百亿美元的经济损失，对于档案行业，大量的档案数字化副本、电子文件、音视频文件组成巨量的数字档案信息资源，档案馆虽然安全意识越来越高，但远远没有满足现实要求。

1.1 风险的原因。风险的原因来自多方面，忽视硬件故障、忽视软件崩溃、人为失误造成数据丢失、缺乏管理措施造成恶意被盗、对电脑病毒熟视无睹、面对潜在危险抱有侥幸心理、自然灾害直接导致数据丢失、在恢复工作中不能定期对恢复机制进行测试、想当然认为能写入磁带就代表能随时读取、想当然认为管理面板显示成功就能顺利从备份文件中恢复资料。

1.2 风险的危害。不要认为数据存储已经非常安全了，就规避了数据风险，风险的危害是多方面的。目前，数据泄露的问题非常突出，人们一般对黑客攻击总能引起高度重视，人们也不能容忍IT人员的恶意违规行为，但实际上，人们经常忽略的最有可能泄露数据的却往往是那些没有丝毫恶意的员工。对数据库没有非正常访问的监督，没有为不同用户的当前可用访问权设定限制，这样系统就很容易出现特定工作的员工访问超出了工作范围的数据；没有使用防数据丢失工具，个人数据在通过电子邮件、打印或者复制到笔记本电脑及其他外部存储设备时很容易发生数据泄露。

1.3 风险的种类

1.3.1 自然环境风险。计算机机房不符合规范要求，存在环境风险因素。

1.3.2 硬件系统风险。网络、服务器、客户端、存储设备等损坏、故障、老化风险。

1.3.3 应用系统风险。应用系统架构、应用系统功能、应用系统性能等方面，不完备、设计存在缺陷。

1.3.4 网络信息安全风险。计算机网络缺乏安全设施防护，没有防火墙、防病毒、IDS、PKI、攻防技术等。

1.3.5 人为管理风险。人为因素带来风险，缺乏制度管理。

2 构建数字档案信息资源安全保障体系

2.1 构建可靠数据中心为核心的数字档案信息资源安全管理体系。现阶段，大多数的数据中心并不是规划好而建设起来，通常是随着数据积累、设备增多而逐步装备起来。这样做出现很多问题：办公室改成机房，空间狭小，电力不足，承重不够，民用空调24小时超负荷运转，消防措施不到位，监控手段缺乏等。以往对数据中心机房的建设往往只注重利用计算机技术、网络技术来实现网络层的可靠性，而忽略了基建、供电、消防、环保、制冷等方面的影响，其中任何一个环节都有可能会导致系统瘫痪甚至数据丢失。

因此，数据中心是数字档案信息资源安全管理体系的核心，数据中心建设应以实现技术标准化、能力服务化、提供快速化、资源弹性化、管理自动化、管控集中化为目标，从管理、技术、运维多层面保障系统安全、数据安全。

数据中心从规划、设计、建设到设备的安装、调试、运维都必须遵守行业的规范标准，应该按照三级等保要求，把数据中心建设达到科学、安全、经济、绿色、环保的标准。

2.1.1 构建数字档案信息资源安全管理体系

2.1.1.1 安全策略与管理制度。总体安全方针及安全策略必须包含安全管理策略、安全技术策略、安全运维策略。

2.1.1.2 系统建设管理。系统建设包含：系统定级、方案设计、系统交付、系统备案、软件开发、工程验收、产品采购和使用、安全服务商选择。

2.1.1.3 安全管理组织机构及人员安全管理。安全管理组织机构和人员安全管理分为三个层级：信息安全决策层、信息安全管理层、信息安全执行层，内容包含：人员录用、人员离岗、人员考核、人员培训、访问管理。

2.1.2 构建数字档案信息资源安全技术体系。体系划分为安全计算环境、安全区域边界、安全通信网络三部分。第一部分指用户身份鉴别、自主访问控制；第二部分指安全区域、结构安全、区域边界强制访问、区域边界包过滤、区域边界安全审计、区域边界完整性保护；第三部分指通信网络安全审计、通信网络数据传输完整性保护、通信网络数据传输保密性保护、通信网络可信接入保护。

2.1.3 构建数字档案信息资源安全运维体系。体系内容涉及安全规划、安全控制、安全监控、事件响应、灾难恢复、信息安全事件管理、信息安全问题管理、信息安全配置管理、信息安全变更管理、信息系统配置管理。

2.2 数字档案信息资源在业务流转中的风险控制。数据流转过程中的风险控制就是对数字档案信息资源安全的日常防护，一般毁灭性的灾害百年不遇，而数据流转中的风险，就隐含在日常工作中，时有发生，却往往被忽视。先从数据流转规律加以分析，在馆藏数字加工、系统内调用、常规利用、档案接收、移动介质拷贝、整体存备环节之中数据流转规律：移动设备→系统；系统→移动设备；移动设备→移动设备；系统中调用即系统→系统。再观察数据存储状态它们有逐层包含关系：网络与系统包含数据中心、库房，数据中心、库房包含硬件设备、移动介质，硬件设备、移动介质包含数据。表1、表2、表3、表4分别对四种存储状态列举了风险与控制情况。

2.3 数字档案信息资源的容灾备份。数字档案信息资源的容灾备份是档案信息系统抵御灾害的能力，是保证数字档案信息资源安全的重要举措，是对信息安全的底线防备，是构建数字档案信息资源安全保障体系中重要一环。当档案馆受到毁灭性灾害时，馆藏档案信息或历史记录得以保存下来，并能够用异地保存的数字档案信息资源，以数字形式恢复档案馆运行。以对全部馆藏数字档案信息资源进行容灾为原则。

针对局部出现故障、本地发生事故、本地域受到灾害，分别选择本地、同城、异地备份。目前这三种备份所用的介质主要选择硬盘、磁带和光盘，这三种介质在存取速度、存储容量、保存时间、备份成本、管理难易程度等方面的性能，各有所长，基于条件，不可取代。可根据存备的内容、不同的用途和客观条件选择介质，通常用磁带和光盘为主备份介质，硬盘作为应急备份介质，三种介质配合使用，使不同介质的优势可以互补，最大可能地保证数字档案信息资源的安全。国家档案局《档案馆防治灾害工作指南》中，将档案信息系统的容灾等级划分为七级，其中，0级为无异地备份；1级为实现异地备份；2级为热备份站点备份；3级为在线数据手动恢复；4级为定时数据自动备份；5级为实时数据远程异步备份；6级为零数据丢失数据远程同步。档案馆通常采取1级容灾并参照2级容灾管理为最基础策略。即：将数字档案信息资源数据、备份数据处理系统及系统环境参数数据备份到选定介质上，送往异地保存，制订有相应的灾难恢复计划，灾难发生后，利用通用的硬件设备，调用异地备份的数据，按照预定的恢复计划实施业务恢复。根据数据量、载体类型，选择数据运送的交通工具，应尽量避免托运，推荐采用汽车方式运输。可根据备份介质不同，选择不同的更新周期，光盘介质可采取每年抽检并增量备份，五年做一次全备方式。

2.3.1 本地备份。以北京市档案馆为例，依托档案馆设施，对馆藏电子文件采用磁带介质备份，对其中重要内容进行缩微化异质备份，两种备份介质分区域保存。

2.3.2 同城备份。北京市档案馆依托城市应急备份机构，北京市容灾备份中心设施，选用“介质备份业务”服务模式，对全部电子文件采用磁带介质备份。

2.3.3 异地备份。北京市档案馆依托异地备份合作伙伴，陕西省档案馆的设施，对电子文件重要内容，采用磁带介质备份。

3 研究意义

3.1 构建数字档案信息资源安全保障体系必须服从和服务于档案信息化的发展。随着档案信息化的发展，档案馆已经成为档案数据存储与利用、发挥档案社会服务效应的重要部门，不再仅仅是提供服务支持保障的角色。数字档案信息资源安全体系的建设要站在业务发展的角度来研究，以档案业务的连续可用性为出发点，以给业务提供7×24服务支持为目标。

3.2 健全的安全管理体系是数字档案馆稳定运营的保障。数字档案信息资源安全体系的建立对于档案信息化的发展起到了很大的促进作用，数字档案馆的安全运营关系到档案馆全部业务的顺利进行，关系到社会各界是否能及时获得档案咨询服务，关系到档案部门的形象及保存城市记忆，服务社会发展的重要功能，为了规避数据集中带来的生产运行风险，数字档案馆不仅要在技术层面通过基础设施的建设来化解集中的风险，还要从管理角度通过分析和细化风险，建立以安全防范、安全制度管理和安全控制管理为核心的安全管理体系，为业务的稳定运营提供可靠的保证。

3.3 数字档案信息资源安全保障体系是档案资源开发利用的保证。优质的档案馆数字资源是政府管理的基础、决策的前提和为社会服务的依据。电子文件具有纸质文件难以比拟的优越性，理应成为现代社会的优质战略资源。加强电子文件的科学管理，数字档案信息资源安全体系就能为信息资源的开发利用创造条件，由此带来可观的经济和社会效益。它是数字档案信息资源开发利用的保证。

4 结语

总之，数字档案信息资源的长期保存是我们的终极目标。采用技术、管理两种手段，实施对信息网络、业务系统、档案数据、中心机房设备、终端设备等的安全防护；从应急、日常维护两方面，加强容灾和数据流转过程的保护措施，筑牢数字档案信息资源安全的防护体系。

数据资源安全篇4

随着社会的进步和发展, 我国广播电视行业得到了快速的发展, 尤其在信息时代, 网络起到了前所未有的重要作用, 网络建设日趋庞大复杂, 对网络资源的管理逐步得到网络公司领导层的重视。为使网络能够有效发挥作用, 对资源管理的方式也发生了革命性的改变, 最初基本都是把资源信息记录在纸上, 大量信息处理靠人工完成, 随着计算机技术的发展以及各行业外部环境的改变, 对资源管理由纯人工管理转为人工管理与传统的电子化管理相结合的方式, 也就是基本依靠计算机及相关软件对资源信息作保存。目前全国一些省市的有线电视网络公司已开始使用基于GIS技术的网络资源管理系统, 加强有线电视网的管理。通过调查, 无论是已经使用还是准备使用网络资源管理系统的网络公司, 都意识到网络资源管理在整个网络管理过程中的重要性, 但在使用和建设过程中, 对于具体系统的建设和使用还存在很多疑惑, 数据的安全管理就是其中一个大家重视程度很高的问题。

1资源分类及特点

在有线电视网络资源管理系统中, 来自于地理信息、设备设施、线路等信息是系统建设和管理的基础。信息的处理可以说是设计有线电视网络资源管理系统的重要工作, 需要一个系统的分层和分类活动。

1.1系统数据分类

有线电视网络资源管理系统中的数据按照其属性关系分为基础地图数据和业务数据两大类。

1.1.1基础地图数据

基础地图数据主要指基础地理数据, 如行政区域、河道、公路、山川等。数据类型根据测绘方式一般包括栅格地图、矢量地图和影像地图等各种类型的地理数据, 用来为有线电视网络资源管理系统提供地理基础, 并在此基础上从事设计、资源布放、维护巡检的服务。根据有线电视的工程及管理特点, 一般需要使用民政设施、楼栋、公路、行政区划、山地河流等图层。

1.1.2业务数据

业务数据是指有线网络运营商在使用资源时产生的数据, 如网络项目管理数据、新设计的线路设施数据和已经在运营状态中的网络资源, 都由图形数据和属性数据构成的。

1.工作区边界数据

有线网络运营商为了缩短服务半径, 会成立省、市、区多级层级, 同一层级有若干片区, 每个片区具有行政上的权责分工, 因此在地图上也会划分出不同的工作区边界, 产生工作区边界数据。

2.网络规划数据

网络规划数据是指新项目在规划阶段所产生的数据, 包括规划管线数据和规划设备数据。

3.网络设计数据

网络设计数据是指网络进入设计阶段后所产生的数据, 包括设计管线数据、设计器件、设计设备数据、设计楼栋结构数据。

4.网络资源数据

网络资源数据是指已经进入运营阶段的网络资源状态的数据, 包括用户社区数据、分配网数据、干线数据、设备设施数据、机房数据、管道数据。

专业数据是以地理信息系统数据方式存储和进行显示的, 地理信息系统数据类型主要有点数据、线数据和面数据三种:

1) 点数据, 主要是独立设备或地点, 前端、光交接箱、接头盒、放大器等;

2) 线数据, 主要是管线资源, 如光缆、电缆、管道等;

3) 面数据, 主要是同级各片区的范围, 如工作区边界等。

1.2数据分层

有线电视网络资源管理系统中可将数据分为四层, 从下到上依次为:空间资源、支撑资源、物理资源和逻辑资源。

空间资源包括公共资源和基础地理信息资源两部分。在有线电视领域, 大量的数据信息包含地理成分, 特别是网络信息, 其分布与走向均与地理位置有关, 建设有线电视网络资源管理系统需要充分应用地理信息技术, 进行信息的可视化管理, 因此基础地理资源数据是系统最基本的数据层。

管道、人手井、电杆等虽然不是有线电视网络的专属设施设备, 但它承载了有线电视网络资源, 我们称之为支撑资源。支撑资源不属于有线电视网络资源, 却是进行有线电视网络资源管理的必要支撑, 与有线电视网络的建设、运行和维护密切相关。

对于有线电视网络本身, 我们将其数据分为两层, 即物理资源层与逻辑资源层。物理资源和逻辑资源是有线电视网络资源管理系统在进行日常管理和维护时最基础的网络资源, 是进行系统工程设计、维护、查询和分析的基础数据。

对基础地图数据和专业数据进行分层, 有利于系统建设时功能模块设计和开发, 使系统数据管理更加方便有效。

2数据部署

根据我国有线电视网络的管理模式, 较大的网络公司涉及省、市、区县三级网络公司, 地域分布广, 使用部门多, 所以需要对资源数据和地图数据进行部署。

根据运营单位规模、系统架构不同, 数据部署方式也不同。对于多数区县等小规模有线电视网络公司, 在建设有线电视网络资源管理系统时, 一般只需要本公司进行系统的使用和数据存储, 由于没有几个分公司或子公司在多地同时进行使用的需求, 所以系统不需要进行分布式部署和数据同步, 对数据进行备份即可。但是对于一些规模较大的运营单位, 尤其随着我国三网融合的推进, 各省、地市网络公司纷纷进行整合, 网络资源管理系统的建设和部署模式越来越多的从单机系统发展为分布式系统或者集中式系统, 使用模式从以前的单一部门使用发展为分区分级、分部门使用。本文就以分布式部署的网络资源管理系统的数据安全管理为研究对象。

分布式部署是指系统数据在核心服务器和所有的节点服务器都进行部署, 客户端只保留用户执行相关任务的数据。一般情况下, 系统采用分布式的数据环境部署数据, 核心服务器和节点服务器部署的数据可以有所差别, 核心服务器保存完整的网络资源数据, 各节点服务器保存的网络资源数据为核心服务器的一个子集, 保存各节点服务器所管理的地理区域内数据, 例如, 核心服务器存贮了整个运营单位的所有数据, 而各节点服务器存贮了不同分公司或者子公司的数据。

由于核心服务器和各节点服务器保存的数据不同, 是全集和子集的关系。核心服务器保存完整的网络资源数据, 各节点服务器保存并维护本节点服务器所管理范围内的网络资源数据。当核心服务器网络资源数据发生改变时, 为了保持核心服务器和各节点服务器中数据的一致性, 需要做相应的数据同步操作, 同步操作由运行在核心服务器中的数据应用服务来完成, 核心服务器将向相应的更新区域所在节点服务器发送更新的数据, 使节点服务器上的数据和核心服务器上的数据同步;当节点服务器网络资源数据发生改变时, 也需要将数据与核心服务器进行同步。

3数据安全策略

3.1数据定期备份

为了保证数据的安全性问题, 需要对数据进行备份, 以防止运行数据发生丢失或灾难性事件时数据的破坏。

数据的备份主要包括数据库数据的备份与文件数据的备份。

3.1.1区县分公司数据备份

区县分公司的数据, 数据库数据都有上传到地市分公司的服务器中, 因此该部分数据就不需要再进行备份, 当然如果区县与地市分公司的网络状态不好的情况下, 也可考虑在区县分公司进行备份, 以保证系统还原的效率。

文件数据主要存放在区县分公司的本地数据库服务器中, 因此需要在本地对该部分数据进行备份。

3.1.2地市分公司数据备份

地市分公司的数据, 包含有本地市分公司数据之外还有所辖区县分公司的数据, 数据量较大, 节点也较为重要, 因此需要在地市分公司进行数据库备份与文件数据备份。

3.1.3省级数据备份

省级存储了全部的网络资源数据、关联业务数据, 数据量较大, 而各地分公司数据已各自有进行备份, 因此省级主要备份关联业务数据, 网络资源数据不需要频繁备份, 可与地市级公司的备份策略互相补充。

3.1.4备份策略

为了确保数据的安全, 数据库需要分自动和手动两种方式对数据进行备份保存;备份的数据保存在服务器或磁盘阵列数据库中, 要求对所有的数据进行分时期分阶段保存, 防止因不可意料的情况发生对数据产生的破坏, 造成不必要的损失。

区县分公司的备份策略:通过FTP文件服务每天对文件数据进行备份, 备份存储在不同硬盘上, 条件允许的情况下, 可备份在不同机子上, 为了避免磁盘空间超负荷运行, 需要定期进行磁盘空间的清理, 建议每个月清理一次, 只保留最近一个月的数据, 较早之前的数据每个月仅保留最后一次的备份, 每年数据仅保留最后一次的备份。

地市分公司的备份策略:地市分公司本地文件数据每天备份一次, 数据库增量数据每天备份一次, 为了避免磁盘空间超负荷运行, 需要定期进行磁盘空间的清理, 建议每个月清理一次, 文件数据与增量数据库数据只保留最近一个月的数据, 较早之前的数据每个月仅保留最后一次的备份, 每年数据仅保留最后一次的备份, 完整数据库数据每年也仅保留最后一次的备份。

省级的备份策略:省级每天备份一次增量数据, 因为每个地市分公司每天都有进行备份, 因此完整全部数据库备份可考虑一个月备份一次, 为了避免磁盘空间超负荷运行, 需要定期进行磁盘空间的清理, 建议每个月清理一次, 增量数据库数据只保留最近一个月的数据, 较早之前的数据每个月仅保留最后一次的备份, 每年数据仅保留最后一次的备份, 完整数据库数据每年也仅保留最后一次的备份。

人工备份:考虑到数据的灾备及数据存储容量的问题, 需考虑购买外接存储设备, 每个月维护人员人工拷贝一份备份数据, 放到其它机房里进行存储, 以起到灾备作用。

3.2权限管理控制

作为三级网络资源管理, 所要管理的数据量巨大, 对用户权限的控制是非常有必要的, 省、市、县三级用户的权限设置建议如下。

3.2.1通过区域权限控制对各区域范围内数据的读写

区域范围内数据的读写可分为可读、可写、不可读写, 可读是指可看到区域内的数据, 可写是指可对区域内的数据进行修改, 不可读写是指不能看到该区域内的任何数据。

省级领导及相关技术人员可对全部数据都能进行查看, 一般不需要对数据进行直接修改, 因此可对全省区域权限设置都为可读不可写 (当然个别需要也可设置为可读可写) 。如果某些人员不希望其看到某些市县网络数据, 可对该市县的区域权限设置为不可读不可写。

地市级公司相关人员, 一般只关心本地市分公司的网络数据, 因此一般只对本地市区域权限范围设置为可读可写或可读不可写 (根据实际需要进行设置) , 其它地市区域权限设置为不可读不可写。当然如果地市级分公司需要对所辖区县网络进行查看, 也可对该所辖区县的区域权限设置为可读可写或可读不可写。

区县级分公司相关人员, 一般只对本分公司的数据有权限读或写, 对其它区县分公司都可设置为不可读不可写。

区域权限设置界面可参考图1 (该市级用户可对太原市内的数据进行修改、查看, 但对其它地市范围内的数据不能修改也不能查看) 。

3.2.2通过对数据使用权限管理, 控制数据的读取

区域权限管理主要是控制对某个区域内所有数据的读写, 而数据使用权限针对的是对区域范围内某类设备数据的读取, 包括图层数据、设备属性数据等, 可对一些敏感数据进行限制, 不同级别的人员允许读取到的数据不同, 达到数据保密的目的。一般针对的是同个分公司不同职位权限的人员。

如图2所示的人员, 只能查看到光缆的验收长度、光缆芯数与光缆编号, 其它光缆的信息就不能查看到, 比如生产厂家、光缆型号就查不到。

数据使用权限也可应用于对外单位的数据保密性, 允许其参与某些操作, 但对某些敏感参数进行保密, 不让其看到。

3.2.3通过功能权限管理控制用户的功能操作

功能权限主要指系统可使用的功能, 大到子系统能否登陆, 小到某个具体菜单项、工具条, 用户在登入时, 依据管理员赋予的功能权限定制界面, 从而达到控制用户操作权限的目的。

功能权限主要针对的是同一分公司不同部门不同岗位的人员的权限管理, 比如光缆设计人员只能对光缆设计竣工子系统进行登陆并操作, 而不能登陆分配网设计竣工等其它子系统, 防止不同职位的人员超出其职位权限进行操作, 如图3所设置。甚至可以控制某个人员能操作的更细致的内容, 如不允许某个光缆设计人员对光交接箱进行放置与设计, 见图4。

总结以上, 区域权限主要控制不同级别公司人员的管理区域范围, 数据权限与功能权限更多主要控制同一分公司内部不同部门不同岗位人员的权限。

3.3服务器安全性防护措施

为了保证服务器不被病毒和其他非法手段入侵, 在服务器方面可以用以下的防护措施:

1.在进行程序部署前, 保证服务器的操作系统安装了全部的安全升级补丁, 关闭了所有不需要的系统服务, 只对外开放必须的端口。

2.设立检测机制, 根据规则查看系统安全通告, 根据国家网络安全中心完善安全补丁。

3.设立检查机制, 研究系统日志, 分析可以操作, 定期汇报。

4.服务器程序在服务器中文件系统中的目录结构位置应该尽量清晰。命名目录时要有所指便于运维人员理解和操作。

5.在操作系统安装必要的杀毒软件, 定时对操作系统进行入侵检测、漏洞扫描和病毒防治, 保证操作系统正常运行。

3.4网络安全防护措施

为防止网络的内部关键资源 (服务器、数据库等) 遭受攻击, 提高整个网络资源管理系统的网络安全性, 在核心网和资源管理系统专网之间采用防火墙, 对病毒、垃圾邮件、非授权访问等进行实时监控, 为用户提供全面的保护。

3.5物理安全措施

对应物理性安全而言, 主要应该从以下两个方面进行防范:

1.服务器应部署于专业的数据机房, 做好机房管理工作。

2.对于服务器支持热插拔的各种接口, 需要在部署前在系统BIOS中关闭, 服务器在运行过程中, 应该做好各种防护措施。

4结束语

网络资源的分级管理是中国有线电视网络资源整合后即将面临的管理和技术问题, 而数据的安全将成为广播电视安全播出的任务之一, 数据的安全更应该引起有线电视网络运营商的重视。综合上述五个大方面的考虑, 可以有效的防止病毒的入侵和非法的入侵, 可以有效的保证数据的安全, 可以保证有线网络资源管理系统正常的运行。

参考文献

[1]王新喆, 石慧.有线网络资源管理系统现状分析及架构设计[J].中国有线电视.2013 (11) .

[2]任宁宁.有线电视网络资源管理系统建设规划[J].电视技术.2013, 37 (4) .

[3]杨秋菊, 何慧燕.探讨有线电视网络资源数据管理[J].数字通信世界.2013 (03) .

[4]潘茜.基于IPSec VPN的安全策略研究[M].西安:西安电子科技大学, 2013.

数据资源安全篇5

应该做好设备等硬件设施的维护工作，及时发现存在的故障隐患，保证其能够正常运行。对于微机操作人员，需要做好上岗培训工作，能够及时对计算机运行中出现的异常情况进行处理。做好软件的维护和相关备份工作，在工作过程中，还要建立工作日记制度，对于设备管出现的故障及维护修理情况要及时进行登记，检查机房和操作台，保证机器正常运行，确保社保系统应用软件在系统设置、运行维护、技术管理和数据库系统性能上都能够达到最优化。同时还要为各部门及各操作员分配相应的软件操作权限，并针对工作岗位及职能变动情况来及时进行调整，保证社保软件数据库的安全性和完整性，及时对数据库存在的无用数据进行清理，对社保软件及数据管理系统运行状态进行监控，确保整个系统运行的高效性和稳定性。

2.2做好数据库管理

熟悉和掌握ORACLE数据库的体系结构，及时对数据库管理系统进行安装和升级，严格按要求启动和关闭数据库，认真做好管理和监控数据库用户，依法合理管理好数据库特权、存储空间，严格按要求建立数据库、备份和恢复数据库。

2.3做好网络管理

加强对网络的运行安全管理，制定完善的安全管理制度，工作人员要严格按照安全制度操作。办公网络只可用于与工作有关的事项处理，严禁从事与工作无关的活动。为确保网络设备的安全稳定运行，需要加强日常的维护管理，定期进行软硬件的检测、升级和维护，及时更新系统。对于特殊机器的使用应该进行完整的记录，最大限度的确保网络的安全性。

3结束语

人力资源与社会保障信息网络作为为公众提供优质服务的重要平台，需要做好该系统的安全和维护工作，确保为社会公众提供高效、严谨、准确及及时的社会保障服务。

作者:曲国强单位:大兴安岭地区行署人力资源和社会保障局

参考文献:

[1]桑卓.人力资源和社会保障信息化建设数据安全研究[J].电子技术与软件工程,2014,10,10.

[2]顾洪清.刍议人力资源和社会保障信息化建设系统[J].电子技术与软件工程,2013,12,23.

大数据“绝缘”人力资源管理？篇6

可是，虽然很多专业HR擅长利用数据，也有不少HR认为自己已经把大数据工作方式引入企业，但事实绝非如此。

何谓人力资源管理的大数据化

大数据有4V特点，即Volume（大量）、Velocity（高速产生）、Variety（多样性）、Veracity（真实性）。由于它是自动提取，保证数据源充分，随时刷新等特点，在大多数领域都能够精准地指导资源分配。

人力资源管理是关于分配人和相关资源（培养、激励资源）的工作，如果借助大数据，将人和其他资源数据化，再用算法进行匹配，显然有无限的想象空间。那具体该怎么操作？

首先，应该把人数据化，清楚地知道“人是怎样的”。这包括，他的能力如何？行为特征如何？绩效表现如何？

第二，将岗位数据化，明确每个岗位需要什么样的人，进而使组织机构、业务流程、岗位系统不再成为员工释放能力的边界，员工还能跨岗位担纲其他角色，以网络化的方式无边界协作，进一步将人用到极致，将人工成本投产比放到最大。

第三，将培训资源（培训内容、形式等）数据化，便可组织、推送员工最需要的培训支持，每个人获得的培训都是高度定制化的、自己最需要的，且学来能用，用来能好，从学习到实践产出的过程几乎没有损耗。

第四，将激励资源数据化，每个人获得的激励都是高度定制化的、自己最需要的，同样的成本支出，每个人对于全面薪酬的感知可以放大到极限。

HR误会了大数据

事实上，专业HR都玩数据，他们测试员工的胜任力、评估岗位、考核绩效，利用数据进行决策。用数据分析来为自己的岗位建立“技术刚性”，难道这就是大数据吗？

大数据是指一般软件工具难以捕捉、管理和分析的大容量数据，数据量大到以“TB”为单位。而一个万人的企业，即使你把胜任力、绩效、岗位、SOP等传统数据完全纳入，顶多只能用“GB”为单位，体量相差甚远。HR们以为数据量已经足够庞大，难以处理。可实际上，这种数据量通过本地软件的计算能力（甚至直接用excel表）就可解决，根本无须运用到互联网上的云计算，这显然不是大数据。

为何达不到大数据的体量？关键还在于HR对于数据的理解。HR采集数据的传统思路是“先有思考框架，再收集相应数据”。数据大多来自数据生成之后，才用报表要求基层有选择地逐级上报，这大大损耗了数据量。例如，考核某个员工的绩效，HR会在其工作完成之后才要求直线经理根据考核指标进行数据收集，而后计算汇总，最后上报人力资源部。

这种思路使得传统数据具有典型的“非大数据特征”，这大大制约了数据所能发挥的威力。

其一，这些传统数据是“冷备份”而非“热备份”。冷备份即生成之后再调用，成本极高，收集数据的过程已经让HR苦不堪言，他们需要不断催告业务部门，还要一遍一遍地付出教育成本，确保统计口径统一。热备份则是数据随着工作流无意识产生，只要员工开展工作，自然有数据往“云平台”上跑，而且这些数据也能被平台的计算功能即时处理。

其二，这些数据是“报表数据”而非“源数据”。报表数据是经过处理后的数据，例如某餐饮企业里，员工某天接待顾客的数量。而源数据则是指未经过处理的数据，是对于工作流全面的呈现。而员工在某个具体时点接待了某个年龄层的顾客，很大程度上意味着服务难度（如接待时长多少，提供服务次数）。员工A某天服务顾客数可能是员工B的两倍，如果我们仅仅关注这个报表数据，可能得出A绩效优于B的结论。但若关注源数据就可能发现，B服务每个顾客的接待时长是A的三倍，为每个顾客提供的服务次数是A的两倍……这些都是有价值的信息！NBA球队休斯顿火箭队的总经理莫雷正是基于这些源数据的分析，从低顺位（选秀时靠后的选秀机会）中选出了那些被报表数据淹没的高潜质球员。

其三，这些数据是“样本”而非“全貌”。由于是在某个时点上针对某些领域提取数据，数据仅仅是样本，而非全貌。只要是样本，就可能出现偏差。例如，有的咨询公司在为企业进行敬业度调查时，采用了采样方式，即使样本特别庞大，这也不是大数据。这种情况下，可能有抽样偏差，员工可能被问卷带着走，被访谈的气氛诱导，尽管我们可以通过各类技术减少这些干扰。但如果他们在论坛、微博、微信等社交工具上对所有员工的发言进行关键词的抓取和分析，甚至对于员工的行为进行各种分析（如出勤时间、加班时间、协作次数、申请培训数量等），那才是大数据。这种情况下，几乎不可能出现偏差。

HR跨不过的三道坎

那么，HR能不能推动大数据走入人力资源管理呢？

我认为，很难！这绝不是因为硬件的制约，不少企业已经具备了吸纳数据的可能。但这些数据为何进入不了人力资源管理信息系统？原因有三：

第一是部门博弈问题。业务部门将生产数据导入人力资源管理信息系统，对于部门来说，意味着权力空间被挤占。以前部门争取机构、编制、人员都可以保留一定的裕度，可以和HR们谈判。我调研的一个企业，HR意图建立大数据云平台，这意味着几个生产信息系统要与人力资源管理信息系统整合，业务部门几乎变成透明的了，以致部门领导以安全性为由拒绝了该要求。

第二是HR的恐惧。让打篮球的人去踢足球，他们不会愿意。面对庞大的数据，HR们对于数据的处理能力决定了他们的地位。尽管前景广阔到可以让他们成为企业内的“上帝”，但这种角色的转换也让他们不安，倒不如固守在自己的“安全区域”。

第三是领导思路问题。当前，重视数据的老板不多，是源自内心对传统玩法的依赖。即使在最前沿的互联网行业，也有凡客这样因为不玩数据而使供应链失控的企业。这也难怪，他们过去的成功本来就不是靠数据。所以，这些企业中，一线的业务尚且不玩数据，更何况二线的人力资源管理？但部门博弈和HR的恐惧，偏偏需要一个强势的老板来做顶层设计，如同亚马逊偏执狂一般的贝佐斯。

所以，那些主动拥抱大数据的500强的HR们，不愧是业界先锋，也许，只有当他们用大数据把人力资源管理的大未来实现时，人力资源管理才将真正迎来下一站的“云时代”！

数据资源安全篇7

1 国土资源政务信息的界定及其网络架构

国土资源政务信息覆盖了众多的政府公文数据、国家基础地理数据、国土专题数据, 其中不乏重要情报信息, 有的甚至涉及国家机密和国家安全, 这些信息以满足国家经济社会发展的需要为宗旨, 以全面提升国土资源管理工作的科学性、规范性和提高国土资源服务水平为目的。

以广东省为例, 广东省国土资源电子政务的网络环境由省电子政务内网、省电子政务外网、国土资源业务网三部分组成, 省电子政务内网是全省各级行政管理部门的办公网络, 用于省直单位间的信息交换, 信息只能够在内部流动;省电子政务外网与互联网逻辑隔离, 用于公共信息的发布与更新;国土资源业务网用于连接部、省 (区、市) 、市、县四级国土资源主管部门, 与互联网等公共网络物理隔离。

2 跨网数据交换安全性威胁

跨网数据交换安全性威胁主要分为以下几个方面:第一, 不同安全等级网络间的数据交换存在风险。如:省电子政务内网和省电子政务外网, 由于省电子政务内网是涉及到涉密数据的办公业务网络, 故省电子政务内网安全级别要高于省电子政务外网, 在高安全网络与低安全网络间进行数据交换时, 如未采取任何安全措施, 低安全网络的潜在安全威胁易扩散到高安全网络, 需采取网络隔离交换等措施。第二, 其他涉密网络的接入。由于不同的涉密网络间的采取了不同的安全手段和不同的管理体制, 缺乏有效的信任机制和有效评估。第三, 病毒的蔓延与破坏问题。

3 跨网数据安全交换需求

安全性最终基于保密这个简单的概念, 一般来说, 可以从四个方面来对安全性进行解释:一是数据的完整性, 表达的是数据接收者在接收到数据时, 能够保证接收到的数据是最初从数据发送者发出的版本;二是身份的确认性, 意思是数据接收者能够明确的知道数据的来源;三是数据的机密性, 只能够被授权的用户能够接收和访问敏感数据, 安全性不够的用户无法接收和访问;四是不可抵赖性, 表达活动完成者不能否认执行过的操作。与普通系统间的数据安全交换不同, 国土资源电子政务系统跨网数据安全交换, 指的就是要合理解决网络开放性和安全性之间的矛盾。国土资源电子政务数据跨网安全交换特殊的安全需求主要表现在以下几个方面。

3.1 内外网间的数据安全交换

基于数据安全保密的考虑, 国土资源业务网、省电子政务内网、省电子政务外网之间采用物理隔离的方式, 不被暴露在外界环境中, 但是这三个网络之间必然存在数据交换需求。通过采用安全岛的方式可以合理解决两者之间的矛盾, 一方面将内外网物理隔离, 可防止外网的攻击;另一方面可在内外网间进行数据安全交换。

3.2 传递过程中信息加密

国土资源政务信息涉及到保密等级的问题, 在信息传递的过程中, 可采用一定的加密方式加密信息, 确保国土资源政务信息在各级行政管理部门、各部门、各地区之间流转的安全性。采用信息加密的方式对信息加密, 可以保障信息传递过程中的安全性。

4 跨网数据安全交换的技术与方法

纵观现有的各种网络安全隔离与交换技术, 如加密、数字签名、访问控制、防火墙技术、网络病毒的防治等, 纵然每一种技术都能够在一定程度上保障数据跨网交换的安全性, 但是都存在着不同程度的局限性。因此, 跨网数据安全交换机制需涉及多种技术, 这些技术优劣互补, 即充分发挥每一项技术的效力, 又能够保证整个跨网数据交换机制的安全性。下面就跨网数据安全交换机制涉及的技术与方法进行阐明。

4.1 安全岛理论

所谓安全岛, 表达的是物理隔离的内外网络间的一个过渡网络, 在国土资源业务网、省电子政务内网、省电子政务外网数据传输的过程中充当“渡船”的作用。此过渡网络基于内部网络不能够在对外环境中暴露和内部数据保密的前提, 独立各套网络, 被置于各网络相交的边界位置。通过设置安全岛的方式, 一方面将各套安全等级不同的网络隔离开, 另一方面又相当于数据的中转站, 可在内外网物理隔离的前提下, 以及其安全策略的控制下对信息进行过滤, 完成内网络之间的数据安全交换。

4.2 隔离网闸技术

隔离网闸技术实现安全岛的关键技术。当有外网访问时, 隔离网闸会从访问包中抽取数据, 并对抽取的数据进行一系列的检查和过滤, 加之隔离网闸采取的独特的开关切换装置, 一方面保证了对进入内网的数据进行严格审查, 另一方面保证内网不受网络层的攻击, 可以保证国土资源内网、外网不同安全等级的网络之间实现物理隔离的同时实现信息安全交换。特别是近年出现的单向光闸, 利用光纤通信和光分路器的技术特性, 通过单向分光传输技术, 从最底层切断通信“握手”, 形成无反馈的单向传输, 实现涉密与不涉密两个网络之间高效海量数据传输的单向数据传输。

4.3 密码技术

密码技术是一种最基本最常用也是最主要的安全保密手段, 它主要是通过技术手段将重要的信息转变为乱码传送, 到达目的地后再用相应的解密技术对信息进行还原。目前, 通用的加密技术可以分为两种:一种是对称加密技术, 这种加密方法的加密密匙与解密密匙相同或者通过加密密匙可以很容易得到解密密匙;另一种是非对称密匙, 这种加密方法使用了两个密匙, 一个“公钥”, 一个“私钥”。“公钥”加密的信息只有对应的“私钥”可以解密。由于国土资源电子政务系统比较庞大, 对于应用系统透明且安全性能有保障的IPsec加密方式可以很好地被应用到国土资源政务信息传输的加密中, 这种加密方法即免去系统开发过程中对加密过多的考虑, 也便于部署和维护。

4.4 数字签名技术

在国土日常办公业务中, 一份公文或者简报通常需要领导签字审核签发来建立发送方对于报文不可推卸的责任。数字签名亦然, 附加上了数字签名, 数据接收者可以识别数据是否有伪造的嫌疑, 确保信息的来源与完整性。

4.5 公钥基础设施 (PKI) 技术

PKI (Public Key Infrastructure) 技术, 即公钥基础设施技术。简单地说, PKI是发布、管理和为用户验证数据证书提供的功能, 一方面可将用户的公钥与用户的特征信息绑定, 这些特征信息可以是用户的身份信息或者角色信息, 可以起到证实的作用, 另一方面可以起到验证证书是否有效的作用。

通过隔离网闸技术实现安全岛, 结合密码技术、数字签名技术、公钥基础设施技术, 这一整套跨网数据安全交换机制, 可以保障国土资源政务信息在国土资源业务网、省电子政务内网、省电子政务外网间物理隔离的同时, 实现安全交换。

5 结语

国土资源综合监管与信息资源共享服务的需求越来越迫切, 加之国土资源政务网络及其信息安全的特殊性, 导致国土资源政务信息跨网安全性交换成为一大难题。该文针对国土资源电子政务跨网数据交换的安全性问题, 研究各类数据信息在国土资源系统各套网络环境之间进行数据交换的安全性威胁, 阐明了国土资源政务信息跨网安全交换机制涉及的技术与方法, 为提高国土资源综合监管能力和政务信息共享服务体系建设提供了有力支撑。

参考文献

[1]聂元铭, 韩惠良, 顾力平.跨网数据安全交换技术研究[J].计算机安全, 2013 (4) :50-52.

数据仓库与森林资源数据动态更新篇8

一、数据仓库的特点

(一) 仓库设计思路

第一步:首先建立森林资源调查数据的应该以二类调查数据为主, 其中所包含的所有资源信息。按照实施分布的细则, 将调查数据分成林种面积和森林林木面积等模块, 建立数据集合。

第二步:就是森林资源具有一定的空降概念, 主要表现是空间分布上的渐变特性。

第三步:一般情况下, 林业资源数据的时间粒度可以设定为1年的时间, 但是全国林业资源数据信息的变化情况时间粒度可以设置为5年。因为森林资源数据仓库的数据集合是按照一定的时间顺序和历史数据、现状数据组合而成的。

第四步:森林资源数据仓库的部分描述性能很难实现量化, 而且数据仓库的标准化程度不是很高。

第五步:森林资源数据仓库建立完毕之后, 其中包含了所有的林业资源数据, 由此就可以建立一个面向主题的分析性数据环境, 随时随地都可以观察到林业资源的环境问题。

(二) 仓库设计框架

数据仓库的建立是面向主题组织的, 也是整体应用的一种高度集中集成, 可以满足每个林业部门的不同分析要求。数据仓库的开发方式和OLTP系统不一样, 因为数据仓库的开发过程是一个数据驱动的过程, 下图就是一个标准的林业数据仓库示意图:

存储层:国家森林总局和各个地市的林业部门可以从这个存储层中掌握森林资源的现状和发展的动态, 对经营活动进行相关的分析和评价, 对资源数据进行获取和清查, 所需要的数据都会被存储在这个分层中。

分析层:主要要是借助于OLAP分析和数据挖掘的技术对森林资源数据进行统计, 信息的获取也可以在这个分层中实现。

表示层:对分析进行可视化的创立和表达, 主要是将可视化的结果数据传达给中高层的管理人员, 供管理人员进行决策和规划的一个科学依据。

二、森林资源数据动态更新

(一) 数据更新流程

第1步:实时更新。实时更新必须和每项生产活动结合在一起, 才可以实现数据更新的时效性。对检查验收之后的业务数据进行相应的更新, 其他的数据都是在年底的时候才进行统一的更新。两项或者两项以上的、连续生产经营活动的变化和更新, 都会被看作是多次变化, 需要分别进行更新。

第2步:自然更新。其中包括了自然增长的更新、自然消耗的更新和自然进界、退界的更新。增长更新就是对于区域性的不同林木类型, 符合二类小班标准的进行树高、年龄等一些自然增长数据的更新。消耗的更新就是符合砍伐条件和自然毁灭条件的都进行更新。进界和退界的更新就是根据树木的树高和直径初始表数据, 符合条件的对其进行进界更新。退界更新就是人工造林没有形成林地的或者是三年之内没有任何的经营活动的林地进行退界更新。

第3步:平差发布。平差就是更新前行政区域的国土总面积为主要依据, 然后更新之后的国土总面积必须和之前的总面积相同。最后数据发布是通过相关的服务接口向林业部门发布信息, 而且归档为年度版本数据, 整个过程由数据中心和资源处共同完成。

(二) 数据更新方法

1. 主键关联法

主键关联法就是要求被更新的数据库和更新数据库具有相同标识的小班唯一键值, 然后才可以进行一对一的关联, 最后才可以进行数据仓库数据的更新, 主要更新的手段是字段更新。

2. 地理位置关联法

这种更新方法需要一定的地理坐标。然后系统通过小班和标识点数据进行一对一的关联, 然后才可以更新。无论是什么方式的关联, 都必须保证的是一对一的关联, 要不然会产生错误的逻辑关系。

三、数据仓库与森林资源数据动态更新的主要问题

(一) 更新系统太落后

因为传统的更新系统过程太过复杂, 在森林资源更新的时候, 小班编号生成本来就可以在两步之内完成, 但是因为系统批量属性的修改限制太大, 所以在修改小班属性的时候太多麻烦。而且更新系统数据太多, 对于计算机配置的要求非常高, 因为较差的兼容性, 使得很多林业系统进行单机操作的时候, 档案管理系统和营造系统等出现排斥性。

(二) 技术人员缺乏

数据更新和管理要求工作人员具备非常高超的操作能力, 而且还需要有很强大的计算机操作能力。但是现在的林业部门很少再引进先进的技术性人才, 使得技术人员非常匮乏。

(三) 人为干扰因素大

受到不合理因素的影响和制约, 个别部门随意调整林业数据的现象时有发生, 严重破坏了林业资源系统数据的真实性。

四、解决方法与途径

(一) 完善更新系统

因为林木在生长的时候, 同龄阶段的树木会有一定的生长率, 不同年龄段的树木生长差异会很大。我们可以根据不同时期的林木群进行顶点的数据观察和检测, 建立一种反映生物变化的生长数据库, 而且在这个基础上建立起各种类型的树木收获周期和类型等, 借助模型的收获和生长实现森林资源的数据更新, 提高了数据更新的科学性和可靠性。

(二) 强化业务培训

森林资源数据管理和更新是一项技术要求非常高的工作, 所以各级的林业部门必须引进一批高专业素质人才的队伍, 进行有针对性的技术培训和计算机操作培训, 为做好林业资源数据的更新提供坚实的可靠性人才。

(三) 强化监督力度

因为森林资源是二类调查数据, 但是因为人力和财力等方面的限制, 二类调查10年才会进行以此, 所以在年度数据更新的时候, 必须强化对基层林业资源的监控力度, 配备专业的技术人才对管辖范围内的森林资源进行全程跟踪监控和及时上报, 这项措施也是提高数据更新质量的核心保障。

五、总结

通过上述材料的分析, 将数据仓库技术引入到森林资源的分析统计当中, 会给相对应的林业管理部门提供宏观的统计数据, 便于日常的森林资源的管理和调查。

由此我们预见, 数据仓库技术在林业资源方面的有效应用, 可以推动我国林业信息化的发展进程。

参考文献

[1]杨卫民, 谭骏珊, 汪斌.数据仓库和数据挖掘技术在DSS中的应用研究[J].计算机工程与设计, 2010.

[2]吴达胜, 范雪华, 姜真杰, 曾松伟.分布式数据挖掘在森林资源信息管理中的应用[J].福建林学院学报, 2012.

[3]宋连公.数据仓库技术在森林资源信息管理中的应用[J].内蒙古林业调查设计, 2011.

科技资源数据库元数据注册系统研究篇9

河北省于2005年启动了科技资源数据库建设项目[1]，旨在对现有的科学数据资源进行整合,更好的实现科学数据资源共享。

信息技术的发展趋势是数据信息的标准化。没有基础信息的标准化，对科技资源数据库群开发深层次的资源整合、数据共享和高级服务将是困难重重。元数据理论和技术是实现数据标准化以及数据共享、交换和整合的重要手段。

河北省科技资源数据库已经制定完成了科技资源数据库元数据体系当中的核心元数据标准以及以它为基础的多个面向具体应用的扩展元数据标准。而各种类型的元数据标准常常缺少兼容性的要求。因此，如何实现科技资源数据库中多种元数据标准的相互兼容，进而按照不同元数据标准著录的数据之间能够相互访问和检索成为了目前亟待解决的问题。

2 科技资源数据库元数据标准框架

2.1 科技资源数据库元数据标准分级

科技资源数据库元数据标准按照标准的来源和产生方式可以分为三个等级，如图1所示。

1)都柏林核心元数据标准(Dublin Core,DC)

DC元数据术语词表是目前DCMI推广的一套元数据标准规范体系，它是一个动态的、依照一定程序不断扩展的词表，目前，DC元素集由15个元素组成。DC已经被看作是一种国际或广泛遵循的元数据标准，它也是科技资源数据库核心元数据标准中的核心部分，是制定所有其它元数据标准的基础，具有很强的通用性。可以被认为是一种通用元数据标准[2]。

2)核心元数据标准

由于资源的特殊性，目前没有相应的国际标准可以直接应用于科技资源数据库，因此需要根据科技资源数据库资源的特点，以DC元数据标准为基础制定科技资源数据库标准，使其在科技资源数据库范围内具有很强的通用性。

河北省科技资源数据库核心元数据标准是由数据集元数据做主要部分。数据集元数据是一个面向数据集层次的科学数据资源的元数据标准，定义了一组通用的元数据模块和元素。

3)专业元数据标准

专业元数据标准是针对应用的需求，基于DC元数据标准和科技资源数据库核心元数据标准,设计适合于应用系统的元数据元素集。以农作物资源数据库为例，农作物资源元数据标准就是在DC及科技资源核心元数据标准的基础上，结合农作物信息的具体情况，运用DC和核心元数据标准的扩展原则建立的。

2.2 科技资源数据库元数据标准互操作策略

根据元数据标准的三级结构，科技资源数据库应该能实现两个层次的互操作。

1)在DC元数据标准层，实现与科技资源数据库以外的系统进行数据交换和共享，目前国际上其它项目大多数都是基于国际标准，因此，通过采用或映射到DC元数据标准，可以方便的与其它系统实现互操作。

2)在科技资源数据库核心元数据标准层，实现在科技资源数据库内部不同学科、不同资源类型之间进行数据交换。因为该层的元素集在科技资源数据库内部具有通用性，是该学科或该类资源类型中多个应用纲要共同包含的元素的汇集，所以在这一层可实现科技资源数据库内部的互操作。

3 元数据注册系统体系架构

元数据注册系统又叫元数据登记系统(Metadata Registry,简称MR)是对元数据的定义信息及其编码、转换、应用等规范进行发布、登记、管理和检索的系统。它从元数据的开发、管理、利用等环节为元数据的互操作提供了一个开放式的操作平台。

科技资源数据库元数据注册系统采用四层的体系结构：网络层、信息资源层、核心服务层和界面层。如图2所示。

网络层在逻辑架构中处于最底层，是科技资源数据库元数据注册与使用系统的重要基础设施和物理平台。

信息资源层构建于网络层之上，为核心服务层提供信息资源。

核心服务层在整个框架中起承上启下的关键作用，为信息资源层提供实现各项服务的接口，包括注册接口、浏览/检索接口和映射接口;对界面层提供对元数据进行注册、浏览、检索和映射的服务。

界面层为用户提供用户界面。

4 元数据注册与使用系统关键技术

4.1 元数据注册

在对元数据进行注册时，分为对元数据元素的注册和对元数据标准的注册。在对元数据元素注册时提供两种方式对科技资源数据元数据进行注册，一是在线的对元数据元素及其属性进行编辑，直接注册;二是通过提交元数据元素的XML文档进行注册。在对元数据标准进行注册时，通过提交元数据标准的XML文件进行注册。通过操作已注册的元数据元素及标准，方便对科技资源数据库元数据标准中的元素信息进行增加、修改、删除和更新操作。

根据科技资源数据库元数据标准管理的需要，对元数据的注册流程如图3和图4所示。

在图3中，从客户端提交XML文件到服务器端，服务器端通过DOM[3]解析器，对元数据元素的XML文件进行解析，验证，若验证结构正确，则为解析后的元素分配唯一标识符，并存储到SQL Server数据库中，同时，对XML文件进行重命名，防止上传不同元数据元素而采用相同文件时将原有文件覆盖，重命名后保存到文件系统。

在图4中，客户端通过在线编辑元数据元素及其属性，将元数据元素信息提交到服务器端，服务器端进行判断，若不存在相同元素，则为该元素分配唯一标识符，将元数据元素信息保存到SQL Server数据库同时，将元数据元素信息生成XML文件，并对XML文件进行重命名，防止同名覆盖，同时保存XML文件到文件系统。

由于XML Schema文件采用XML语法，本身也是一个XML文件，因此，对元数据标准的注册流程与对元数据元素注册信息的XML文档注册流程一样。

4.2 元数据标准转换

目前实现元数据互操作的方法很多，普遍采用的一种方法是通过建立映射表来完成，但是这种方法在映射量较大时会出现较大的成本和维护开销[4]。因此，本论文采取基于语义层的映射，在系统内建立一个语义层，先将元数据元素与语义层建立映射关系，这样两者之间的映射就方便许多，维护开销和成本也很小。

在进行元数据标准转化时，首先，系统管理员选取2个有待转换的标准，然后，察看元素语义层映射情况，当标准A中所有元素在标准B中找到对应元素映射，即标准B中的对应元素与标准A中每个元素属于同一语义层。当元素间全部建立起对应关系，则调用系统转化模块，该模块根据元素间关系生成XSLT文件。最后导入XSLT文件，实现元数据标准间的互操作。转化过程如图5所示。

5 结束语

元数据在科技资源数据库中正在发挥越来越重要的作用。针对河北省科技资源元数据标准管理的需要，通过元数据注册系统从管理途径上解决元数据互操作问题，为数据资源的有效利用、共享、交换和整合奠定坚实基础。

摘要：首先介绍了科技资源数据库中元数据标准的分级和互操作策略,根据科技资源数据特点,提出元数据注册系统体系架构。分析并解决了元数据注册系统中的关键技术。研究表明,元数据注册有助于元数据标准管理,促进科技资源数据更好的利用、共享、交换和整合。

关键词：科技资源数据,元数据,元数据标准,注册,解析

参考文献

[1]The Hebei Province Scientific Recourses Database'S Network[EB/OL].http://202.206.45.2/kjzy.

[2]张崇.DC元数据在国内的应用及思考[J].现代图书情报技术,2004(14):6-9.

[3]戴蓓洁,余双,金蓓弘.基于DOM解析器的XML编辑器研究[J].计算机工程与设计,2007,28(22):5334-5338.

浅析人力资源数据挖掘中的数据清理篇10

1. 数据清理简介

数据清理 (Data Cleaning) [2]是指根据需求，对日志文件进行处理，包括删除无关紧要的数据，合并某些记录，对用户请求页面时发生错误的记录进行适当的处理等等。例如，数据清理可能涉及纠正错误数据的变换，如将日期字段变换成共同的格式。其目的是通过分析用户请求的文件序列，获得用户的行为模式，以了解用户对哪些内容真正感兴趣，从而显著地提高挖掘模式的总体质量和/或减少实际挖掘所需要的时间。

2. 人力资源中数据清理

在企业人力资源数据挖掘中，假设你负责分析公司的职员信息数据。你立即着手进行这项工作，仔细地审查记载公司职员信息的数据库，识别并选择应当包含在分析中的属性或维，如学历, 年龄结构和薪酬水平。你会发现许多元组在一些属性上没有值，你希望使用数据挖掘技术分析的数据是不完整的（缺少属性值或某些感兴趣的属性，或仅包含聚集数据），含噪声的（包含错误或存在偏离期望的离群值），并且是不一致的（例如，用于职员分类的部门编码存在差异）。

2.1 数据变换操作

回到数据，如果你选择诸如神经网络、最近邻分类法或聚类这样的基于距离的挖掘算法进行分析。如果待分析的数据已经规范化，即按比例映射到一个特定的区间[0.0, 1.0]，这些方法能得到更好的结果。例如，你的职员数据包含年龄和年薪属性。年薪属性的取值范围可能比年龄大得多。这样，如果属性未规范化，距离度量对年薪所取的权重一般要超过距离度量对年龄所取的权重。此外，分析得到每个部门职员的工作年限这样的聚集信息可能是有用的。这种信息不在你的数据库的任何预计算的数据立方体中。由于高质量的决策必然依赖于高质量的数据，因此，数据变换操作，如规范化和聚集，是导向挖掘过程成功的预处理过程。

数据清理作为过程的第一步是偏差检测（discrepancy detection）。导致偏差的因素可能有多种，包括具有很多可选字段的设计糟糕的数据输入表单、人为输入错误、有意的错误（例如，不愿意泄露自己的信息）、以及数据退化（如过时的地址）。偏差也可能源于不一致的数据表示和编码的不一致使用。记录数据的设备错误和系统错误是另一种偏差源。当数据（不适当地）用于不同于当初的目的时，也可能出现错误。数据集成也可能导致不一致（例如，给定的属性在不同的数据库具有不同的名称）。

作为开始，使用你可能有的关于数据性质的知识。这种知识或“关于数据的数据”称作元数据。例如，每个属性的定义域和数据类型是什么？每个属性可接受的值是什么？值的长度范围是什么？所有的值都落在期望的值域内吗？属性之间存在已知的依赖吗？对于把握数据趋势和识别异常。例如，远离给定属性均值超过两个标准差的值可能标记为潜在的离群点。在这一步，你可以写自己的程序或使用我们将讨论的某些工具。由此，你可能发现噪声、离群点和需要考察的不寻常的值。

2.2 商业工具的应用

有大量不同的商业工具可以帮助我们进行偏差检测。数据清洗工具（Data scrubbing tool）使用简单的领域知识（如邮政地址知识和拼写检查）检查并纠正数据中的错误。在清理多个数据源的数据时，这些工具依赖分析和模糊匹配技术。数据审计工具（Data auditing tool）通过分析数据发现规则和联系及检测违反这些条件的数据来发现偏差。它们是数据挖掘工具的变种。例如，可以使用统计分析来发现相关，或通过聚类识别离群点。

想像你需要分析某职员的销售和顾客数据。你注意到许多元组的一些属性，如顾客的收入，没有记录值。怎样才能为该属性填上丢失的值？我们看看下面的方法：

(1）使用一个全局常量填充缺失值：将缺失的属性值用同一个常数（如“Unknown”或-∞）替换。如果缺失值都用“Unknown”替换，则挖掘程序可能误以为它们形成了一个有趣的概念，因为它们都具有相同的值“Unknown”。因此，尽管该方法简单，但是它并不十分可靠。

(2）使用属性的均值填充缺失值：例如，假定某职员的顾客平均收入为56 000美元，则使用该值替换收入中的缺失值。

(3）使用与给定元组属同一类的所有样本的属性均值：例如，将顾客按credit＿risk分类，则用具有相同信用度给定元组的顾客的平均收入替换收入中的缺失值。

(4）使用最可能的值填充缺失值：可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。例如，利用数据集中其他顾客的属性，可以构造一棵决策树来预测income的缺失值。

方法1～4使数据偏置。填入的值可能不正确。然而，方法4是流行的策略，与其他方法相比，它使用已有数据的大部分信息来预测缺失值。在估计收入的缺失值时，通过考虑其他属性的值，有更大的机会保持收入和其他属性之间的联系。

有些数据不一致可以使用其他外部材料人工地加以更正。例如，数据输入时的错误可以使用纸上的记录加以更正。然而，大部分错误需要数据变换。这是数据清理过程的第二步。即，一旦发现偏差，通常我们需要定义并使用（一系列）变换来纠正它们。

商业工具可以支持数据变换步骤。数据迁移工具（Data migration tool）允许说明简单的变换，如将串“gender”用“sex”替换。ETL (Extraction/Transformation Loading，提取/变换/装入）工具允许用户通过图形用户界面（GUI）说明变换。通常，这些工具只支持有限的变换，因此，我们常常可能选择为数据清理过程的这一步编写定制的程序。

偏差检测和数据变换（纠正偏差）的两步过程迭代执行。然而，这一过程容易出错并且费时。有些变换可能导致更多偏差。有些嵌套的偏差可能在其他偏差解决之后才能检测到。

3. 结束语

新的数据清理方法强调加强交互性，已经能集成偏差检测和数据变换。用户在一个类似于电子数据表的界面上，通过编译和调试每个变换，一次一步，逐渐构造一个变换序列。变换可以通过图形或提供的例子说明。结果立即显示在屏幕上的记录中。用户可以撤销变换，使得导致的额外错误的变换可以“擦掉”。该工具在最近一次变换的数据视图上自动地进行偏差检测。随着偏差的发现，用户逐渐地开发和精炼变换，导致更有效的数据清理，从而为企业使用数据挖掘进行人才的选用提供可靠保证。

参考文献

[1]邹燕.如何设计人力资源管理体系[M].经理人.2008-10

[2]毛国君.数据挖掘原理与算法[M].北京:清华大学出版社.2007-12

[3]孟庆伟.人力资源管理通用工具[M].北京:清华大学出版社.2007-04

[4]王宏.基于粗糙集数据挖掘技术的客户价值分析[M].北京:经济科学出版社.2006-09

[5]张云涛、龚玲.《数据挖掘原理与技术》.北京:电子工业出版社、2004

[6]萧鸣政.人员测试和选拔[M].上海:复旦大学出版社.2005-02

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处

【数据资源安全】相关文章：

教学数据资源05-11

数据资源利用05-29

数据资源描述06-07