分布式数据保护技术

2024-08-21

分布式数据保护技术（精选十篇）

分布式数据保护技术篇1

Network Attached Storage (NAS) 是目前极具发展前途的一种存储技术, 安装简单、易于管理, 并且具备高扩展性等优点, 适用于局域网使用, 但成本较高;Storage Area Network (SAN) 是指由光纤通道FC (Fiber Channel) 连接的存储设备网络, 具有高带宽、低延迟、低误码率等优点, 但是成本较高, 因此不适用于本文的研究方案;Internet是一个Overlay网络[4], 其本质上是通过Internet互联各种底层网络构成IP层, 底层网络包括以太网、令牌环网络等。

P2P (Peer-to-Peer) 计算也称为对等计算, 是指两个节点进行资源共享, 尽可能减少中心控制, 其中节点称为Peer。与P2P模式相对应的是CS模式, 相对于P2P而言, C/S模式中客户端是一个哑设备, 所有计算和处理均在服务器端完成, 而P2P中的节点处于对等位置, 并不区分是客户端节点还是服务端节点。

P2P网络是指节点处于对等位置, 并不区分服务器节点和客户端节点, 通过P2P模式进行连接形成网络, 例如Chord和Tapstry都是P2P网络。P2P网络可以用于构造基于Internet的分布式存储系统。

目前处于发展阶段中的P2P海量数据存储系统主要有Ocean Store系统, Past系统和CFS系统[5]。国内有“燕星”系统, Ocean Store系统是基于Tapstry算法发展形成的存储系统;Past系统是基于Pastry算法发展形成的存储系统;而CFS系统是在Chord路由算法基础之上建立起来的文件存储系统。

1 基本概念

1.1 P2P分布式存储机制

得益于Internet迅速发展, P2P模型得到了快速发展, 基于P2P存储技术的分布式存储系统不仅具备高可靠性, 同时具备高可扩展性, 因此受到了广泛关注。

1.2 数据保护系统

网络存储系统对可用性和持久性有很高的要求, 也就是存储系统的可靠性。计算机软硬件故障、病毒黑客攻击、人为操作故障或资源不足引起计划性停机都有可能导致数据丢失。

数据保护系统可靠性指标主要有三项:稳定性、安全性和可用性。稳定性 (Stability) 是指作为存储系统必须有能力为用户持续、24小时不间断服务的能力。

安全性 (Security) 是指系统中数据在运行中保持安全可靠, 数据应该保证完整并可靠地进行存储, 一旦出现故障, 不能影响数据的可用性和一致性, 保证数据的安全有效。

可用性 (Availability) 表示存储系统能够提供正常服务的时间百分比, 在可用时间段内, 能够确保存储系统的正常、稳定工作。

2 P2P分布式存储体系结构

本文通过采用P2P技术, 将梅州供电局的零散计算机通过Internet连接起来, 通过整合资源, 形成一套可靠性高、稳定性好、低成本的分布式存储系统。

按照系统功能进行分类, P2P系统可以分为应用层、会话层、数据层、路由层和物理层, 如图1所示。

应用层的作用是使用户没有远程操作的感觉, 和本地存储一样对存储系统进行操作, 提供了一个面向用户的对外接口。

会话层主要是实现节点管理机制, 检查是否每个节点在线, 是否能够获取节点中的数据等。

数据层主要负责副本数据动态管理, 并且要注意避免“搭便车”及“公共悲剧”等常见的现象, 影响数据的可靠性及可用性。

路由层通过路由机制和拓扑算法, 负责提高搜索的高效性, 减小获取副本数据的时间延迟。

物理层也就是每个节点 (计算机) 及计算机节点之间的网络硬件连接, 是整个P2P分布式存储机制的最底层, 也是硬件基础设施。

2.1 P2P存储系统分类

根据结构关系可以将P2P系统细分为四种拓扑形式:中心化拓扑, 半分布式拓扑, 全分布式非结构化拓扑, 全分布式结构化拓扑四种类型。其中, 中心化拓扑P2P存储系统结构尽管其可维护性最好、发现算法效率最高, 但是考虑到其可靠性差、可扩展性差, 不予采用;半分布式拓扑P2P存储系统结构的可靠性、可扩展性、可维护性及算法效率均处于一般水平, 本文不予采用;全分布式非结构化拓扑结构由于其可扩展性差, 不适合应用于电力系统;全分布式结构化拓扑结构不仅可靠性高、可扩展性好, 而且便于维护, 并且具有较高的搜索效率, 因此本文采用全分布式结构化拓扑结构的P2P存储系统模型。

2.2 选择副本放置策略

一份完整的数据可以通过分割成不同副本的形式存储在不同的网络节点中;当某个节点需要获取数据时, 可以将所需副本从其他节点获取并完成数据恢复。副本在节点中存储的方式称为副本放置策略。

副本放置策略通常有两种, 顺序放置策略和随机放置策略。顺序放置算法是指按照一定顺序选择当前节点及与当前节点相邻的K-1个节点, 将副本进行顺序存储;随机放置策略是指随机选择K个节点对副本进行存储, 并建立索引表便于掌握数据副本的存放位置。两种副本放置策略各自有优缺点, 随机放置策略的优点是数据恢复效率较高, 但缺点是需要建立索引表, 并需要维护索引表的正确性及一致性;顺序放置策略的缺点是恢复数据效率较低, 但优点是可靠性高, 不需要建立和维护索引表, 设计简便。考虑到电力系统对可靠性要求较高, 因此本文的设计采用顺序放置的副本放置策略。

2.3 分布式网络存储系统访问模型

图2给出了分布式存储访问模型, 客户机通过Internet与Internet存储访问服务器连接和交互, Internet存储访问服务器则通过局域网与分布式存储系统中的每一个节点计算机进行连接和交互, Internet负责接收与处理来自用户的存储访问服务请求。

分布式存储访问模型使用户实现远程分布式存储系统进行操作具备了可能性。

3 分布式存储系统的数据保护技术

由于分布式存储系统中的节点可能因故障或下线等原因导致离开网络系统, 为了保障数据的安全性和可靠性, 设计分布式存储系统最大的挑战是怎样在不可靠节点集合中实现可靠的存储服务。

3.1 数据丢失原因

导致系统数据的丢失或破坏的原因主要有计算机软硬件故障、病毒黑客攻击、人为操作故障、资源不足引起计划性停机等。导致数据丢失的原因主要有硬件或系统故障、人为操作错误、软件问题和故障、计算机病毒和自然灾难, 其中硬件或系统故障占56%, 人为操作错误占26%。

3.2 数据冗余策略

数据冗余策略是指同样的数据文件拥有多个备份, 并将不同的备份存储在多个不同的节点上, 当某个节点因故障或不在线等原因导致其数据文件不可使用时, 可以通过其他节点上的备份完成数据重构。

纠删码冗余策略和复制冗余策略是当前广泛使用的两种冗余策略。复制冗余策略相对于纠删码冗余策略比较简单, 只需将副本复制多个备份存储到系统的多个节点中, 当部分节点发生故障或不在线时, 只要有一个节点的副本可用, 该副本文件就可以被获取到, 从而完成数据重构。由于以上特点, 复制冗余策略的可靠性比较高, 存储方法也比较简单, 其可靠性与副本备份数量成正比, 只要通过增加副本数据就可以提高可靠性。

纠删码编解码原理如图3所示。纠删码冗余策略相比复制冗余策略更加复杂, 纠删码冗余策略上是将文件分割成为n份, 并将n份副本编码生成m个编码块, m个节点上分别存储一个编码块, 且m大于n, 通过纠删码冗余策略可以在m个编码块中任意挑选n个编码块, 成功完成原始数据重构。

复制与纠删码两种冗余策略各自有不同的有点, 纠删码所需的存储和网络开销较小[6], 可扩展性更好[7], 但是比较复杂;复制策略实现过程简单, 可靠性高, 研究表明某些特殊情况下, 如系统节点可用性极端低下, 纠删码冗余策略的运行效率反而比复制冗余策略低下[8], 因此本文选用简便的复制策略。

3.3 数据保护的相关技术研究

在分布式存储系统中, 由于维修、定期维护等原因, 总会遇到需要进行数据迁移的情况。生活中经常会用到数据迁移, 例如将目标文件从计算机拷贝到U盘, 就完成了一次数据迁移的过程。所谓数据迁移就是将目标数据从一个存储介质移动到另一个存储介质的过程。当前数据迁移的方式主要有在线迁移和离线迁移。在线迁移是指不中断正常业务的情况下同时进行数据迁移, 但是数据迁移操作可能会增加系统开销, 对正常业务造成干扰, 甚至造成业务停顿;离线迁移是指在业务停止的时候以离线的方式集中执行, 但是对于本文研究的电力系统这种需要不间断服务的业务不适用。针对本文研究的电力系统, 可以采取在线迁移手段。

重复数据越多意味着系统需要消耗更大的存储空间和管理成本。因此删除重复数据可以减小存储需求。当数据重复度较高时, 重复数据删除的工作效果就体现得更为明显。

4 总结

本文针对电力系统可靠性要求高的特点, 同时考虑到节点的可用性与存储额外开销都无法精确描述, 选择复制冗余策略进行数据保护;在副本放置策略选择过程中, 选择设计简便、可靠性高的顺序放置策略;引入数据分布管理、数据迁移技术及重复数据删除技术等数据保护技术, 针对电力系统需要不中断正常业务的情况下进行数据迁移, 优先选择在线迁移技术。本文研究成果对分布式网络存储系统的设计和实现具有一定指导意义。

摘要：持续增长的数据存储需求带动了存储技术的快速发展, 分布式存储技术应运而生。所研究的基于分布式的网络存储系统和数据保护系统对于电力系统有重要的实际意义。针对梅州供电局现存的存储设备问题及实际情况, 开展分布式存储技术及数据保护系统的研究, 以改进存储系统管理, 降低成本。

关键词：分布式,网络存储,数据保护系统

参考文献

[1]Mukesh Singhal and Niranjan G-shi-varatri.Advanced Concepts in Oper-ating System, Distributed, Data-base, and Multiprocessor Operat-ing Systems[M].Mc Graw-Hid, INC, 1994.

[2]Andrew S.Tanenbaum.现代操作系统[M].北京:机械工业出版社, 1999.

[3]陈晓宇, 苏中义.具有副本透明性的分布式文件系统模型的讨论[J].华东交通大学学报, 2000, 17 (1) 51-55.

[4]D.G.Andersen, H.Balakrishnan, M.Kaashoek, et al.Resilient overlay networks[C].In Proc.18th ACM SO-SP, Banff, Canada, October 2001.

[5]Frank Dabek, M.Frans Kaashoek, David Karger, et al.Wide-area Cooperative Storage with CFS[C].In SO-SP, Oct.2001.

[6]H.Weatherspoon, J.Kubiatowicz.Erasure coding vs.rep-lication:A quantitative comparison[C].Proceeding ofIPTPS’02, Cambridge, Massachusetts, March 2002.

[7]A.G.Dimakis, P.G.Godfrey, M.J.Wainwright, et al.Net-work coding for peer-to-peer storage[C].Proceedingof INFOCOM, Anchorage, Alaska, May 2007.

分布式数据保护技术篇2

文/曹伟

Spanner 的设计反映了 Google 多年来在分布式存储系统领域上经验的积累和沉淀，它采用了 Megastore 的数据模型，Chubby 的数据复制和一致性算法，而在数据的可扩展性上使用了 BigTable 中的技术。新颖之处在于，它使用高精度和可观测误差的本地时钟来判断分布式系统中事件的先后顺序。Spanner 代表了分布式数据库领域的新趋势——NewSQL。

Spanner 是 Google 最近公开的新一代分布式数据库，它既具有 NoSQL 系统的可扩展性，也具有关系数据库的功能。例如，它支持类似 SQL 的查询语言、支持表连接、支持事务（包括分布式事务）。Spanner 可以将一份数据复制到全球范围的多个数据中心，并保证数据的一致性。一套 Spanner 集群可以扩展到上百个数据中心、百万台服务器和上T条数据库记录的规模。目前，Google 广告业务的后台（F1）已从 MySQL 分库分表方案迁移到了 Spanner 上。

数据模型

传统的 RDBMS（例如 MySQL）采用关系模型，有丰富的功能，支持 SQL 查询语句。而 NoSQL 数据库多是在 key-value 存储之上增加有限的功能，如列索引、范围查询等，但具有良好的可扩展性。Spanner 继承了 Megastore 的设计，数据模型介于 RDBMS 和 NoSQL 之间，提供树形、层次化的数据库 schema，一方面支持类 SQL 的查询语言，提供表连接等关系数据库的特性，功能上类似于 RDBMS；另一方面整个数据库中的所有记录都存储在同一个 key-value 大表中，实现上类似于 BigTable，具有 NoSQL 系统的可扩展性。

在 Spanner 中，应用可以在一个数据库里创建多个表，同时需要指定这些表之间的层次关系。例如，图 1 中创建的两个表——用户表（Users）和相册表（Albums），并且指定用户表是相册表的父节点。父节点和子节点间存在着一对多的关系，用户表中的一条记录（一个用户）对应着相册表中的多条记录（多个相册）。此外，要求子节点的主键必须以父节点的主键作为前缀。例如，用户表的主键（用户 ID）就是相册表主键（用户 ID+ 相册 ID）的前缀。

图 1 schema 示例，表之间的层次关系，记录排序后交错的存储

显然所有表的主键都将根节点的主键作为前缀，Spanner 将根节点表中的一条记录，和以其主键作为前缀的其他表中的所有记录的集合称作一个 Directory。例如，一个用户的记录及该用户所有相册的记录组成了一个 Directory。Directory 是 Spanner 中对数据进行分区、复制和迁移的基本单位，应用可以指定一个 Directory 有多少个副本，分别存放在哪些机房中，例如把用户的 Directory 存放在这个用户所在地区附近的几个机房中。

这样的数据模型具有以下好处。

 一个 Directory 中所有记录的主键都具有相同前缀。在存储到底层 key-value 大表时，会被分配到相邻的位置。如果数据量不是非常大，会位于同一个节点上，这不仅提高了数据访问的局部性，也保证了在一个 Directory 中发生的事务都是单机的。

 Directory 还实现了从细粒度上对数据进行分区。整个数据库被划分为百万个甚至更多个 Directory，每个 Directory 可以定义自己的复制策略。这种 Directory-based 的数据分区方式比 MySQL 分库分表时 Table-based 的粒度要细，而比 Yahoo!的 PNUTS 系统中 Row-based 的粒度要粗。

 Directory 提供了高效的表连接运算方式。在一个 Directory 中，多张表上的记录按主键排序，交错（interleaved）地存储在一起，因此进行表连接运算时无需排序即可在表间直接进行归并。

复制和一致性

Spanner 使用 Paxos 协议在多个副本间同步 redo 日志，从而保证数据在多个副本上是一致的。Google 的工程师钟情于 Paxos 协议，Chubby、Megastore 和 Spanner 等一系列产品都是在 Paxos 协议的基础上实现一致性的。

Paxos 的基本协议很简单。协议中有三个角色：Proposer、Acceptor 和 Learner，Learner 和 Proposer 分别是读者和写者，Acceptor 相当于存储节点。整个协议描述的是，当系统中有多个 Proposer 和 Acceptor 时，每次 Proposer 写一个变量就会启动一轮决议过程（Paxos instance），如图 2 所示。决议过程可以保证即使多个 Proposer 同时写，结果也不会在 Acceptor 节点上不一致。确切地说，一旦某个 Proposer 提交的值被大多数 Acceptor 接受，那么这个值就被选中，在整轮决议的过程中该变量就不会再被修改为其他值。如果另一个 Proposer 要写入其他值，必须启动下一轮决议过程，而决议过程之间是串行（serializable）的。

图 2 Paxos 协议正常执行流程

一轮决议过程分为两个阶段，即 prepare 阶段和 accept 阶段。

 第一阶段A：Proposer 向所有 Acceptor 节点广播 prepare 消息，消息中只包含一个序号——N。Proposer 需要保证这个序号在这轮决议过程中是全局唯一的（这很容易做到，假如系统中有两个 Proposer，那么一个 Proposer 使用1，3，5，7，9，„„，另一个 Proposer 则使用0，2，4，6，8，„„）。



第一阶段B：Acceptor 接收到 prepare 消息后，如果N是到目前为止见过的最大序号，就返回一个 promise 消息，承诺不会接受序号小于N的请求；如果已接受过其他 Proposer 提交的值，则会将这个值连同提交这个值的请求的序号一同返回。 第二阶段A：当 Proposer 从大多数 Acceptor 节点收到了 promise 消息后，就可以选择接下来要向 Acceptor 提交的值了。一般情况下，当然选原本打算写入的值，但如果从收到的 promise 消息中发现已经有其他值被 Acceptor 接受了，那么为了避免造成数据不一致的风险，这时 Proposer 就必须“大义灭亲”，放弃自己打算写入的值，从其他 Proposer 提交的序号中选择一个最大的值。接下来 Proposer 向所有的 Acceptor 节点发送 accept 包，其中包含在第一阶段中挑选的序号N和刚才选择的值V。



第二阶段B：Acceptor 收到 accept 包之后，如果N的大小不违反对其他

Proposer 的承诺，就接受这个请求，记录下值V和序号N，返回一个 ack 消息。反之，则返回一个 reject 消息。

如果 Proposer 从大多数 Acceptor 节点收到了 ack 消息，说明写操作成功。而如果在写操作过程中失败，Proposer 可以增大序号，重新执行第一阶段。

基本的 Paxos 协议可以保证值一旦被选出后就一定不会改变，但不能保证一定会选出值来。换句话说，这个投票算法不一定收敛。有两个方法可以加速收敛的过程：一个是在出现冲突后通过随机延迟把机会让给其他 Proposer，另一个是尽量让系统中只有一个 Proposer 去提交。在 Chubby 和 Spanner 系统中这两种方法都用上了，先用随机延迟的方法通过一轮 Paxos 协议，在多个 Proposer 中选举出一个 leader 节点。接下来所有的写操作都通过这个 leader 节点，而 leader 节点一般还是比较“长寿”的，在广域网环境下平均“任期”可以达到一天以上。而 Megastore 系统中没有很好地解决这个问题，所有的 Proposer 都可以发起写操作，这是 Megastore 写入性能不高的原因之一。

基本的 Paxos 协议还存在性能上的问题，一轮决议过程通常需要进行两个回合通信，而一次跨机房通信的代价为几十到一百毫秒不等，因此两个回合的通信就有点开销过高了。不过幸运的是，绝大多数情况下，Paxos 协议可以优化到仅需一个回合通信。决议过程的第一阶段是不需要指定值的，因此可以把 prepare/promise 的过程捎带在上一轮决议中完成，或者更进一步，在执行一轮决议的过程中隐式地涵盖接下来一轮或者几轮决议的第一阶段。这样，当一轮决议完成之后，其他决议的第一阶段也已经完成了。如此看来，只要 leader 不发生更替，Paxos 协议就可以在一个回合内完成。为了支持实际的业务，Paxos 协议还需要支持并发，多轮决议过程可以并发执行，而代价是故障恢复会更加复杂。

因为 leader 节点上有最新的数据，而在其他节点上为了获取最新的数据来执行 Paxos 协议的第一阶段，需要一个回合的通信代价。因此，Chubby 中的读写操作，以及 Spanner 中的读写事务都仅在 leader 节点上执行。而为了提高读操作的性能，减轻 leader 节点的负载，Spanner 还提供了只读事务和本地读。只读事务只在 leader 节点上获取时间戳信息，再用这个时间戳在其他节点上执行读操作；而本地读则读取节点上最新版本的数据。

与 Chubby、Spanner 这种读写以 leader 节点为中心的设计相比，Megastore 体现了一定的“去中心化”设计。每个客户端都可以发起 Paxos 写操作，而读操作则尽可能在本地执行。如果客户端发现本地数据不是最新的，会启动 catchup 流程更新数据，再执行本地读操作返回给客户端。

最后，对比下其他系统中 replication 的实现。在 BigTable 系统中每个 tablet 服务器是没有副本的，完全依赖底层 GFS 把数据存到多台机器上。数据的读写都通过单个 tablet 服务器，在 tablet 服务器出现故障的时需要 master 服务器将 tablet 指派到其他 tablet 服务器上才能恢复可用。Dynamo 系统则贯彻了“去中心化”的思想，将数据保存在多个副本上，每个副本都可以写入（update everywhere）。而不同副本同时写入的数据可能会存在不一致，则需要使用版本向量（version vector）记录不同的值和时间戳，由应用去解释或合并不一致的数据。尽管 Dynamo 系统还提供了 NWR 的方式来支持有一致性保证的读写操作，但总的来说 Dynamo 为了高可用性牺牲了一致性。ZooKeeper、MongoDB 与 Chubby、Spanner 类似，通过 leader 选举协议从多个副本中选择一个 leader，所有写操作都在经过 leader 节点序列化后，同步到其他副本上。ZooKeeper 则是在写入大多数节点后返回，而 MongoDB 主要采用异步的主从复制方式。

分布式事务

Spanner 系统中的分布式事务通过两阶段提交协议（2PC）实现。2PC 是一类特殊的一致性协议，假设一个分布式事务涉及了多个数据节点，2PC 可以保证在这些节点上的操作要么全部提交，要么全部失败，从而保证了整个分布式事务的原子性（ACID 里的A）。协议中包含两个角色：协调者（coordinator）和参与者（participant/cohort）。协调者是分布式事务的发起者，而参与者是参与了事务的数据节点。在协议最基本的形式中，系统中有一个协调者和多个参与者。

顾名思义，2PC 也包含两个阶段，即投票阶段和提交阶段（如图 3 所示）。

图 3 两阶段提交协议  在第一阶段，协调者向所有的参与者发送投票请求，每个参与者决定是否要提交事务。如果打算提交的话需要写好 redo、undo 等日志，并向协调者回复 yes 或 no。

 在第二阶段，协调者收到所有参与者的回复，如果都是 yes，那么决定提交这个事务，写好日志后向所有参与者广播提交事务的通知。反之，则中止事务并且通知所有参与者。参与者收到提交/中止事务的命令后，执行相应操作，如果提交的话还需要写日志。

协议过程包括两回合的通信，在协调者和参与者端需要多次写日志，而且整个过程中所有参与者都占有读锁、写锁，可见 2PC 开销不菲。

2PC 最令人诟病之处还不在于性能，而是在有些故障条件下，会造成所有参与者占有读锁、写锁堵塞在第二阶段，需要人工干预才能继续，存在严重的可用性隐患。假设故障发生在第二阶段，协调者在做出决定后，通知完一个参与者就宕机了，更糟糕的是被通知的这位参与者在执行完“上级指示”之后也宕机了，这时对其他参与者来说，就必须堵塞在那里等待结果。

Spanner 利用基于 Paxos 协议的复制技术，改善了 2PC 的可用性问题。2PC 协议过程中的协调者和参与者生成的日志都会利用 Paxos 协议复制到所有副本中，这样无论是协调者或参与者宕机，都会有其他副本代替它们，完成 2PC 过程而不至于堵塞。在 Paxos 协议上实现 2PC 这一思路很巧妙，Paxos 协议保证了大多数节点在线情况下的可用性，而 2PC 保证了分布式协议的一致性。

事件的顺序

传统上，在设计一个分布式系统时，都会假设每个节点的运行速度和时钟的快慢各不相同的情况，并且在节点之间进行同步的唯一方法就是异步通信。系统中的每个节点都扮演着观察者的角色，并从其他节点接收事件发生的通知。判断系统中两个事件的先后顺序主要依靠分析它们的因果关系，包括 Lamport 时钟、向量时钟等算法，而这一切都存在通信开销。

因此，Spanner 提出了一种新的思路，在不进行通信的情况下，利用高精度和可观测误差的本地时钟（TrueTime API）给事件打上时间戳，并且以此比较分布式系统中两个事件的先后顺序。利用这个方法，Spanner 实现了事务之间的外部一致性（external consistency）（如图 4 所示），也就是说，一个事务结束后另一个事务才开始，Spanner 可以保证第一个事务的时间戳比第二个事务的时间戳要早，从而两个事务被串行化后也一定能保持正确的顺序。

图 4 事务外部一致性的实现

TrueTime API 是一个提供本地时间的接口，但与 Linux 上 gettimeofday 接口不一样的是，它除了可以返回一个时间戳t，还会给出一个误差ε。例如，返回的时间戳是 1 分 30 秒 350 毫秒，而误差是 5 毫秒，那么真实的时间在 1 分 30 秒 345 毫秒到 355 毫秒之间。真实的系统中ε平均下来是 4 毫秒。

利用 TrueTime API，Spanner 可以保证给出的事务标记的时间戳介于事务开始的真实时间和事务结束的真实时间之间。假如事务开始时 TrueTime API 返回的时间是{t1, ε1}，此时真实时间在 t1-ε1到 t1+ε1之间；事务结束时 TrueTime API 返回的时间是{t2, ε2}，此时真实时间在 t2-ε2到 t2+ε2之间。Spanner 会在 t1+ε1和 t2-ε2之间选择一个时间点作为事务的时间戳，但这需要保证 t1+ε1小于 t2-ε2，为了保证这点，Spanner 会在事务执行过程中等待，直到 t2-ε2大于 t1+ε1时才提交事务。由此可以推导出，Spanner 中一个事务至少需要2ε的时间（平均 8 毫秒）才能完成。

由此可见，这种新方法虽然避免了通信开销，却引入了等待时间。为了保证外部一致性，写延迟是不可避免的，这也印证了 CAP 定理所揭示的法则，一致性与延迟之间是需要权衡的。

最后介绍一下 TrueTime API 的实现。TrueTime API 的实现大体上类似于网络时间协议（NTP），但只有两个层次。第一层次，服务器是拥有高精度计时设备的，每个机房若干台，大部分机器都装备了 GPS 接收器，剩下少数机器是为 GPS 系统全部失效的情况而准备的，叫做“末日”服务器，装备了原子钟。所有的 Spanner 服务器都属于第二层，定期向多个第一层的时间服务器获取时间来校正本地时钟，先减去通信时间，再去除异常值，最后求交集。

NewSQL

六年前，BigTable 展示了一个简洁、优美、具有高可扩展性的分布式数据库系统，引起了 NoSQL 浪潮。然而 Spanner 的设计者们指出了 BigTable 在应用中遇到的一些阻力。

 缺少类似 SQL 的界面，缺少关系数据库拥有的丰富的功能。 只支持单行事务，缺少跨行事务。



需要在跨数据中心的多个副本间保证一致性。

这些来自应用开发者的需求催生了 Spanner，一个既拥有 key-value 系统的高可扩展性，也拥有关系数据库的丰富功能（包括事务、一致性等特性）的系统。这类兼顾可扩展性和关系数据库功能的产品被称为“NewSQL”，Spanner 的公开会不会开启 NewSQL 的时代呢？我们拭目以待。

总结

最后从 CAP 定理的角度来分析下 Spanner。

CAP 定理是指在网络可能出现分区故障的情况下，一致性和可用性不可得兼。形式化地说就是，P => 非(A与P)，可以更进一步地总结为，一致性和延迟之间必须进行权衡。Paxos 协议在C和A之间选择了严格的一致性，而A则降级为大多数一致性（majority available）。

Spanner 还通过在事务中增加延迟的方法实现了外部一致性，每个事务需要至少两倍的时钟误差才能完成。如果时钟出现故障造成误差增长，那么完成事务所需的时间也就随之增长。在这里，时钟故障也应当认为是P的一种形式。在发生时钟故障（P）的情况下，为了保证一致性（C），而必须增加延迟（A），这一点充分印证了 CAP 定理。

从 Spanner 系统中，我们可以学习到一些经验。

 MegaStore、Spanner 和 F1 系统所选择的树形、层次化的数据库 schema 是很精妙的，它能支持高效的表连接，这既提供了类似关系模型的范式，也提供了一个合适的粒度进行数据分区，具有好的可扩展性，H-Store 也采用了这样的 schema。

 跨数据中心的多个副本间保持一致是可行的，Paxos 协议的性能可以优化到一个可接受的范围。

 在 Paxos 协议的基础之上实现的两阶段提交的可用性得到了提高。 在一个分布式系统中，本地时钟的作用可以比我们之前想象的大很多。

分布式数据库技术应用研究篇3

关键词：分布式；数据库；管理；数据

中图分类号：TP315 文献标识码：A文章编号：1007-9599 (2011) 07-0000-02

Application Research of Distributed Database Technology

Chen Xiangping

(Shengli Oilfield Company Dongxin Oil Production Plant,Dongying257000,China)

Abstract:With the development of computer network technology,distributed database technology is more widely used.This paper discusses the design is based on B/S structure of the integrated management information system the application of distributed database technology,and in the application process the principles of database design,structure and mechanism.

Keywords:Distributed;Database;Management;Data

分布式数据库技术是过去十几年中最重要的计算机发展成果之一。到八十年代中期，已出现了不少商品化的分布式数据库系统，如计算机公司等。尽管这些系统还不算完全成熟，但由于它们至少已经实现了分布和重复数据的透明管理、依靠分布式事务处理提高系统可靠性、依靠交叉查询和内部查询并行机制改善系统性能以及更容易和廉价的系统扩展，因而可以断定今后大多数组织将转向分布式数据库管理，集中式数据库系统将成为历史的过客。

一、分布式数据库结构模型

通常情况下，分布式数据库结构模型如图1所示。具体特征是：分布式数据库由分散在不同地域上的局部数据库和全局调度数据库两个强力自治的数据库功能实体有机合成。其中，局部数据库的设计实现多要配置集中式数据库管理系统（DBMS）和数据库（DB）。使用局部数据库主要完成用户专用数据存取的控制与更新，因此，各个局部数据库的有较强独立性；另外，局部数据库能够至少分享和执行一个全局调度数据库（节点中心库）所提供的全局应用功能，这种全局应用功能主要包括：远程信息检索调阅、公用信息随机存贮等[1]。

作为全局调度数据库多要配置分布式数据库管理系统（DDBMS）和数据库（DB）。该数据库部分主要完成数据库信才良的全局调度，并具体执行全局查询检索策略和并发应用管理策略。这里，全局查询检索策略主要完成用户查询语句转换和将其转变为一系列的可行数据库操作；并发应用管理策略主要完成数据库并发操作环境下的数据库操作管理与控制，并主要包括并发事务的排队处理与封锁管理等技术设计实现。

图1分布式数据库结构模型

从图1中可以看出：DDBMS主要包括网络数据字典、网络数据库管理、全局逻辑映射等功能实体；DBMS主要包括本地数据库管理、局部逻辑映射、存贮模式等功能实体。DBMS和DDBMS均应通过操作系统（OS）完成数据库的存贮访问与透明操作。

在分布式数据库开发设计过程中，网络数据字典至关重要，它不仅存有系统所需有关对象的描述信息和控制信息，以使系统能把用户对数据的高级查询转换成对相应存贮对象的低级操作，而且还应完成维护与管理功能，诸如数据分布、结构、使用和访问控制等维护和管理功能等。

关于分布式数据库中全局调度数据库与局部数据库的信息交互主要依靠两个条件支撑：1.利用全局逻辑映射与局部逻辑映射相接口，具体解决数据库结构转换和地域分片定位处理。2.数据库分布式功能实现与计算机网络环境设置密切相关，因此，作为分布式数据库的网络环境必须具有下述功能特性针对全局查询检索策略的优化设计，应对信息传输路径的优化选择提出可靠服务。针对网络数据管理，应在网络通信软件和数据库管理软件之问备有网络存取进程的必要接口服务。

二、分布式数据库技术在系统体系结构中的应用

（一）数据管理现状

由于生产管理需要，公司总部与各分公司之间经常要进行数据传递，公司总部需要动态掌握各分公司的日常生产数据。由于公司总部与各分公司处于不同城市，在业务上它们处理和存储各自的数据，如何处理分散的数据，实现公司总部与分公司数据更新同步，确保数据一致性、避免数据存储冲突是目前亟待解决的问题。

（二）数据库设计的基本原则

从全局应用的角度出发，将这些数据库自下而上构成分布式数据库系统，实现全局数据的完整性和一致性，各分公司仍然存放本公司的数据，总公司的数据库则存放所有业务数据，并对数据进行完整性和一致性的检查，这种做法虽然有一定的数据冗余，但在不同场地存储同一数据的多个副本，能提高系统的可靠性和可用性，也提高了局部应用的效率，减少了通讯代价。该分布式数据库系统可以在对当前机构影响最小的情况下进行扩充，增加新的分公司时只需增加一个节点就可以了，同时也使得各处理机之间的相互干扰降到最低。

（三）数据存储

分布式数据库系统可以通过复制、分片和复制加分片三种方式存储数据，因为各数据库之间存在一定的数据冗余，又存在着差异，我们使用了复制+分片的方式进行数据存储。

1.数据分片

在分布式数据库系统中，将关系分片，有利于按用户需求组织数据的分布，目前的分片方式有水平分片、垂直分片、导出分片、混合分片等四种。我们根据不同的数据关系采用了不同的分片方式：（1）在总公司与分公司的数据关系中，由于分公司的数据是总公司业务数据的子集，我们采用了水平分片的方式，通过并运算实现关系的重构。（2）在总公司数据库服务器与Web数据库服务器的数据关系中，数据是按照其应用功能来划分的，所以我们采用了垂直分片的方式。

2.数据同步

数据同步方式则根据系统需求使用事务复制和合并复制两种，由于分公司只存放本部门数据，数据管理和分析功能是由总公司的数据库服务器来实现，分公司只需将更新的数据发送到总公司的数据库即可，我们使用事务复制进行业务数据的同步，把分公司的数据库作为出版者和分发者，总公司的数据库作为订阅者，对分公司的数据建立快照代理，并在分发数据库中记录同步状态的信息。每一个使用事务复制的分公司数据库均有自己的日志读取代理，运行在分发者上并连接出版者[2]。分发代理的任务是将分发数据库中保持的事务任务直接推动到订阅者。当推订阅被创建时，每个为立即同步而建立的事务出版物通过自己的分布代理运行在分发者上并与订阅者相连。

（四）利用分布式技术实现事务处理

我们使用MS DTC作为事务管理器来协调各个服务器对事务的处理操作，为了减少网络故障对事务处理的影响，避免分布式事务造成不同服务器间数据的不一致，将分布式事务的处理过程规定为两个阶段，即准备阶段和提交阶段，就是常说的两阶段提交。在进行分布式事务处理时，我们首先在服务器端用Transact SQL脚本程序BEGIN DIS－TRIBUTED TRANSACTION语句启动一个分布式事务，将该服务器作为分布式事务管理服务器，然后脚本程序对连接服务器执行分布式查询或远程服务器上的存储过程，分布式事务管理服务器会自动调用MS DTC，使远程服务器参加分布式事务处理。当脚本程序执行COMMIT TRANSAC－TION、COMMIT WORK、ROLLBACK TRANSAC－TION或ROLLBACK WORK语句时，分布式事务管理服务器将再次调用MS DTC，用它来管理两阶段提交进程，使连接服务器和远程服务器提交或回滚事务。例如在业务系统中，如果主体数据库管理系统发现该数据在有重复录入，则需将该信息插入数据重复记录表中，同时在对应的局部的数据库中将该条记录的状态设为无效。我们在局部的数据库（DBServer1）中建立存储过程update-policy更新数据状态，在主体数据库服务器（DBServer）上执行以下脚本程序，启动一个分布式事务insert-reject系统执行insert-reject事务向DBServer中的reject表插入一条记录，同时更新对应的局部数据库中的对应数据表status字段，该事务使系统数据的完整性得到了保证。

三、结束语

分布式数据库技术引入系统体系结构中的应用后，有效的解决了总体和部分之间数据分散和集中管理的矛盾，实现了数据的共享和交换，有关分布式特性设计与分布式计算机网络环境的强力支撑能力密切相关。分布式数据库技术决非独立存在，它的应用与网络环境密切相关，或说两者正在融于一体。事实证明，分布式技术在远程数据管理中具有不可替代的作用。

参考文献：

[1]邵佩英.分布式数据库系统及其应用[M].北京:科学出版社,2005

[2]刘志敏.Oracle数据库应用管理解决方案[M].北京:电子工业出版社,2002

面向分布式数据挖掘的隐私保护研究篇4

关键词：隐私保护,数据挖掘,数据分布,安全多方计算

0 引言

数据挖掘就是在海量数据中提取出有用知识和规则,但是多数情况下,数据持有的组织不同,分布在不同的地理位置,且持有者可能出于数据安全性和敏感性等因素不愿意直接共享给他人。数据的开放性和隐私度成为数据挖掘中的两个相互制约的因素,如何在保护隐私信息的前提下进行有效的数据挖掘已成为数据挖掘方向的热点领域。这个方向就是隐私保护数据挖掘(简称为PPDM[1]),其目的是使用某种方法对原始数据进行处理,使得私有数据和知识在挖掘之后仍然保持私有性质。

隐私保护技术主要有三大类:(1)基于数据失真★资助基金项目:江西省教育厅科技计划青年基金项目,名称:面向数据挖掘的隐私保护方法研究(编号:GJJ11128)

的技术:效率比较高,但却存在一定程度的信息丢失;(2)基于加密的技术:能保证最终数据的准确性和安全性,但计算开销比较大;(3)基于限制发布的技术:能保证所发布的数据一定真实,但发布的数据会有一定的信息丢失。

根据数据环境分布的不同,隐私保护可以分为集中式数据挖掘的隐私保护和分布式数据挖掘的隐私保护。前者又可以分为启发式隐私保护和重建式隐私保护。以随机扰乱为代表的基于数据扰乱的方法是集中式数据领域的主要技术。其中随机扰乱平衡了隐私度和精确度,故其效率较高。其他诸如置换属性子集的随机置换方法data swapping、量化属性数值至k项记录不可辨识的k项匿名方法k-anonymous在数据挖掘隐私保护领域中均有应用。

目前海量数据普遍采用分布式存储管理,并且相关的应用十分普遍及广泛化,如何在分布式数据环境中挖掘出有用知识,同时有效地保护隐私信息或敏感知识,已经成为该研究领域的热点方向。

1 分布式数据挖掘的隐私保护技术

根据数据分片情况,分布式数据挖掘[4,5,6,7,8,9]的隐私保护技术分为数据水平分片和数据垂直分片两种;根据安全模型的不同,又有半诚实模型和恶意模型两类。在分布式环境下实现隐私保护要解决的首要问题是通讯的安全性。

1.1 安全多方计算

安全多方计算(简称为SMC)采用基于比特的公钥加密机制,在牺牲性能的情况下实现了高安全程度的隐私数值运算,但是,其高额的计算和通信开销使其难以应用于大规模的分布式数据挖掘中。

多数SMC基于“准诚信模型”假设之上,因此应用范围有限。SCAMD协议[2]在去除该假设基础上,引入准诚信第三方实现当站点都是恶意时进行安全多方计算;文献[3]提出抛弃传统分布式环境下对站点行为约束的假设,转而根据站点的动机,将站点分为弱恶意攻击者和强恶意攻击者,使用可交换加密技术解决在分布环境下的信息共享问题。

目前关于SMC的研究工作主要集中于降低计算和通信开销、优化分布式计算协议以及以SMC为工具解决实际问题等。

1.2 分布式关联规则挖掘

在分布式数据环境下,关联规则挖掘的关键是支持度计数,在计算支持度的同时,保证不会泄露隐私信息则涉及加密技术。

文献[4]中提出了无需透露双方数据信息的安全点积协议。该协议利用随机向量隐藏点积方程中的真实数据,其安全原理为解一个方程数小于k的k元线性方程组,其结果是不确定的。而Goethals[5]等人指出Vaidya的单纯点积计算协议不能严格保证双方属性向量的信息隐藏,并引入了同态加密理论;采用同态加密后的算法安全性较高,同时由于其复杂的加密解密过程,计算和通信开销也相应较大。

1.3 分布式聚类

安全地计算数据间的距离是基于隐私保护的分布式聚类的关键,有以下两种常用模型:(1)Naive聚类模型:各个站点将加密安全后的数据都传递给信任第三方,由信任第三方进行聚类后返回结果。(2)多次聚类模型:各个站点先对本地数据进行聚类并发布结果,再对各个站点发布的结果进行二次处理,最终实现分布式聚类。不论哪种分布式聚类模型,都通过加密方式实现信息的安全传输。

其他基于隐私保护的分布式聚类方法也有不少,比如在任意划分数据的环境下的k-mean聚类算法[6],通过引入随机数来保证安全传输的最大期望聚类算法,等等。

1.4 其他

除以上描述的算法外,目前也提出了不少其他数据挖掘隐私保护方法。文献[7]中结合同态加密机制,实现了分布式环境中匿名数据交换机制,提出了基于数据扰乱技术的隐私保护方法。

文献[8]中在比较了两种安全模型的基础上,通过使用同态加密、零门限密码等密码学工具,将半诚实模型下的安全协议改进为恶意模型下安全协议。恶意模型下的协议相比于半诚实模型下的协议更安全,但计算代价和通信代价更大。

2 隐私保护技术的性能评估

隐私保护技术在保护隐私的基础上,必须考虑对应用的价值以及计算和通信开销等因素。度量隐私保护技术一般可从隐私保护度、数据缺损及算法性能三方面去分析。

一般发布数据的披露风险越小,则隐私保护度越高;数据缺损反映了通过隐私保护技术处理后数据的信息丢失,数据缺损越高,信息丢失越多,数据利用率越低。可从信息缺损、重构数据与原始数据的相似度等具体因素去考量。

评估隐私保护方法的性能可从以下几个方面进行:

2.1 保密性

即站在对隐私信息或敏感知识进行保护的角度,如何最大限度地防止非法者入侵,有效地保护隐私数据。保密是隐私保护技术的基本要求,现有的算法都从不同的角度进行了实现,但现实中的实际效果不是很理想。

2.2 复杂性

复杂性代表了执行该算法所耗用的计算机资源的指标。具体可分为时间复杂性、空间复杂性和通讯复杂性。在分布式数据环境中,通讯复杂性是衡量算法的一个重要指标。

2.3 规则效能

代表了最终挖掘结果的有效性、可用性,是指在使用算法处理数据时,对原始信息的修改使得挖掘结果与原始数据之间的关系匹配程度。

2.4 扩展性

算法的扩展性直接反映了当所处理的数据量急剧增大时算法的挖掘效率的变化趋势。若某算法在数据量增大时,其挖掘效率降低比较缓慢,则其扩展性较好。同时,某种程度上算法的扩展性定与其复杂性关系密切。

3 结束语

本文对分布式数据挖掘隐私保护研究进行了总结与归纳,从多个不同的角度和层面进行了分类,并比较分析了不同算法各自的优缺点;此外,还提出了面向数据挖掘隐私保护技术的性能评估指标。

目前提出的各类分布式数据挖掘隐私保护方法在保密性、复杂性、效率及扩展性等方面都有各自的不足,因此在保证隐私安全的同时,如何进一步减小精度损失、加快算法的挖掘速度、降低通信开销是未来深入研究的方向。另外,提高隐私保护技术在不同类型、不同分布特点数据集上的通用性也是十分重要的。

参考文献

[1]R.Agrawal,R.Srikant.Privacy preserving data mining[J].ACM Sigmod Record,2000,29(02):439-450.

[2]B.Malin,E.Airoldi,S.Edoho-Eket and Y.Li.Configurable Security Protocols for Multi-party DataAnalysis with Malicious Participants.In Proc.of the21st International Conference on Data Engineering(ICDE),Tokyo,Japan,2005:533-544.

[3]N.Zhang and W.Zhao.Distributed Privacy Preserving Information Sharing.In Proc.of the31st Very Large Data Bases(VLDB)Conference,Trond-heim,Norway,2005:889-900.

[4]J.Vaidya and C.Clifton.Privacy preserving as-sociation rule mining in vertically partitioned data[C].In Proc.of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Min-ing.Edmonton,Alberta,Canada,2002:639-644.

[5]Bart Goethals,S.Laur,H.Lipmaa,et al.On private scalar product computation for privacy-pre-serving data mining[C].In Proc.of the Seventh Annu-al International Conference in Information Security and Cryptology,Boston:Springer Verlag,LNCS,2004:104-120.

[6]G.Jagannathan and R.N.Wright.Privacy Pre-serving Distributed k-Means Clustering over Arbitrari-ly Partitioned Datac[C].In Proc.of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD),Chicago,IL,USA,2005:593-599.

[7]马进,李锋,李建华.分布式数据挖掘中基于扰乱的隐私保护方法[J].浙江大学学报(工学版),2010,44(02):276-282.

[8]华蓓,钟诚.数据挖掘中的隐私保护技术进展分析[J].微电子学与计算机,2009,26(08):38-41.

分布式数据保护技术篇5

关键词：分布式电源；保护装置检测技术；继电保护；电网

随着经济的高速发展和人们生活的智能化，国家和人们对用电的需求也越来越大，传统的电源已经无法满足国家的用电需求。分布式电源的出现解决了传统电源的用电紧张问题，与传统电源相比，分布式电源属于一种新型的能源，它具有节约能源、高效和保护环境等方面的优势。很多西方发达国家很早就意识到分布式电源的优势，在分布式电源的发展方面比较成熟，但由于我国对分布式电源的发展比较晚，在技术方面还不是很成熟。

一、分布式电源的基本概念

分布式电源是区别于传统电源的一种新型电源，它的功率非常的小，基本上控制在几千瓦到50M瓦之间，是一个小规模、分布在负荷周围并与环境相适应的单独电源[1]。分布式电源的所有权在电力部门、用户以及第三方的手里，存在的主要目的是为了保证用户和电力系统的特殊要求。

分布式电源的存在形式多种多样，这既方便了分布式电源的开发、利用，也方便了用户对电源的使用。具体来说分布式电源的存在形式主要有以下几种：热点联产、燃料电池技术、分布式太阳能技术、分布式生物质能源技术、燃料垃圾的分布式能源技术、分布式煤气化能源技术以及分布式每层气能技术等[2]。多种存在形式的分布式电源，有效的缓解了传统电源使用过程中的电源压力，对促进经济的发展和社会的进步，改善人们的生活质量起到了重要的作用。

二、利用分布式电源的必要性

分布式电源在发电材料方面可以广泛的使用天然气、沼气以及废弃的自然资源，也可以利用新型能源作为发电的材料，像风能、水能以及太阳能等可循环利用的新生能源。这一方面解决了我国能源短缺的局面，另一方面新型能源的利用，可以减少环境的污染，对改善环境、建设生态文明意义重大。具体来说与传统电源相比，之所以国家必须广泛运用分布式能源有以下几方面的原因。

（一）提高能源的利用率

分布式电源在发电方式上是利用剩余的热量进行制冷或者制热，保证了能源的利用率高达70%以上，充分的利用了能源的价值，减少了能源的浪费，为保证国家经济的发展和社会的进步提供了保障。

（二）有效的降低环境污染

传统的电源最大的弊端除了能源利用率低以外，对环境造成的污染是其更大的弊端。随着人们环境保护意识的增强，人们对污染环境的能源的使用也越来越排斥。但分布式电源的一大优势就是其对环境的污染很小，甚至没有污染。因为分布式电源的发电来源可以是风能、水能以及太阳能等新生能源，这些新能源在利用过程中，基本不会产生对环境影响的物质，能有效的减少对环境的污染，改善人们的生活环境，保证人们的生活更加的环保。

（三）缓解我国能源危机的必然要求

我国虽然能源总很大，但由于我国人口众多，人均能源占有量非常的小，低于世界的平均水平。因此，能源短缺越来越成为制约我国经济发展和人们生活的重要因素，为解决我国的能源短缺危机，必须利用分布式能源的特点，提高能源的利用率，开发多种新型的能源。

三、分布式电源系统的继电保护

分布式电源系统的继电保护问题是保证分布式电源有效运行，从而保证国家电网安全的前提。因此，对分布式电源的研究也主要集中在对分布式电源的继电保护上面。目前，我国对分布式电源的保护主要体现在三个方面：即分布式发电和旧的配电网保护的衔接、分布式发电对线路重合闸的作用以及孤岛检测和保护问题这三个方面[3]。

为保证电力系统的可靠性，降低分布式发电设备对配电网的影响，必须对分布式电源的保护进行修改，从而使分布式电源并网更加的安全。分布式电源中的大部分故障都能通过自动重合闸进行解决，从而提高分布式电源运行中的可靠性。对于孤岛检测，不同的国家又不同的标准，但都是为了在电网失电后，继续为电网提供电力支持，保证国家和人们正常的供电需求。

虽然对分布式电源的继电保护在保证分布式电源的正常运行方面产生了巨大的作用，但仍然没有从根本上解决分布式电源的继电保护工作。为此，必须有效的协调分布式电源和国家电网的关系，充分利用分布式电源的发电技术，扩大分布式电源的研究范围，将分布式电源的继电保护问题纳入国家的基础工程项目当中，从而保证从根本上解决分布式电源继电保护中存在的问题，为国家的发展和进步提供电力支持。

四、结语

综上所述，我国能源紧缺，传统的电源已经无法满足我国经济发展对电量的需求，也无法满足人们的日常生活用电需求。由此可知，改变传统的电源方式，推广分布式电源，是解决我国用电紧张的有效途径，为了在将来的发展中更好的推行分布式电源，做好分布式电源的继电保护工作是非常必要的。只有保证分布式电源的继电保护工作，才能更好的使分布式电源的运行正常化，保证国家的用电安全。

参考文献：

[1]陈争光，詹荣荣，李岩军，董明会，王晓阳，詹智华，琚子超.分布式电源系统继电保护装置检测技术的研究[J].电网技术，2015，04： 1115-1120.

[2]彭明智，张维，熊泽群.分布式电源接入装置的研究和设计[J].电力系统保护与控制，2011，14：58-63.

分布式数据库同步技术及其应用篇6

随着企业业务领域的扩展与企业信息化进程的不断推进,分布式异构数据库应用的日趋广泛,进行分布式异构数据库数据同步技术的研究具有重要的意义。数据同步通过对处于分布式数据库系统中各个站点上的数据进行同步来达到对数据分散存放的目的,这种存放可以使用户透明地处理和使用数据,大大增加了站点的自治性,且这些副本大大减少了由于自然或其他原因导致的数据丢失等重大故障。

分布式数据库的同步是一项复杂的系统工程,在数据的采集、打包、传输、解包、更新等步骤中面临着一致性、安全性、高效性等特殊要求。

1 数据同步的主要方法和策略

1.1 数据同步的方法

自20世纪90年代开始,诸多学者对数据同步进行了大量研究,总结出数据同步的几种常用的方法:

a) 手工方法。这种最原始的方法对工作人员的专业水平的要求很高,并且在站点较多,在数据相对复杂的情况下工作量也很大。

b) 基于电子邮件的同步方式。是指用邮件服务器(MailServer)作为数据同步的中间传输工具,来保持数据的同步。但是出现邮件丢失和邮件的发送和接收顺序不一致的情况,会使数据同步变得更为复杂。

c) 基于FTP的数据同步方式。FTPServer监视各目录下文件的变化及时合并数据并将同步的结果放置在分发目录下,供各个站点下载。但是,这种FTP的目录扫描、组织和管理是相当复杂的,并且存在传输过程和同步过程脱节的情况,同时也存在FTP服务器的容量限制问题。

d) 自主数据同步组件方式。针对前述方式的缺陷,各应用领域都在着手探索和实现更安全、高效、灵活的数据同步组件。

1.2 数据同步的策略

a) 完全同步法。是指当从站点发出同步请求或定期进行数据同步操作时,都将生成完整的同步数据集合,并将这些数据完全刷新到从站点上,从而达到基站和从站之间的数据同步。完全数据同步的特点有两个:一是技术简单,完全数据同步对基站点没有过多的要求,基站点不需要记录因数据操作(Insert插入、Update更新、Delete删除)而引起的数据变化,只需要完全的复制同步数据集中的所有数据;二是资源浪费严重,例如要同步的数据集有8 000条数据,其中有6条是新增的,2条是修改的,变化的数据仅有8条记录,如果采用完全同步法则要将其余的7 992条未发生变动的数据一起同步到从站点。

b) 差异同步法。相对于完全同步法,差异同步法只需要同步变化了的数据即可,大大提高了数据同步的效率,但要解决的问题较多,例如:如何跟踪并识别同步数据集的数据的变化;以什么方式将同步数据集的变化应用到要同步的从站点上;在同步的过程中如果发生数据冲突,应如何处理;在同步的过程中如果发生异常,同步被迫中断,事务如何回滚。

1.3 数据同步技术要解决的核心问题

数据同步技术目前还不够成熟,在实际应用中还有一些瓶颈问题需要解决:

a) 异构数据库间的数据同步。SQL Server、Oracle等常用的数据库软件均支持同种DBMS间的数据同步,但对异构数据库的同步支持非常有限。

b) 增量式的数据同步的实现。在使用电话线等慢速网络的方式上网的情况下,需要使用分时增量数据同步方式节约通信成本和传输时间。

c)双向数据同步。数据同步网络拓扑结构一般采用星形的基站点-从站点的单向传输模式,在实际应用中常具有双向同步的需求。

d) 传输效率与安全性要求。针对GPRS、拨号网络等方式上网的慢速传输方式,传输效率往往是难点问题,而数据安全性几乎是所有用户的共同需求。

2 数据同步流程分析

2.1 数据同步总体结构

图1表示当一方站点发起一次数据同步时,首先从自己的本地站点中提取发生变动的数据(新增、修改、删除等)形成数据集参加更新同步,更新成功后,接收方站点也将自己本地数据库中的变动数据形成一个数据集返回发送方站点,对发送方站点中的对应数据库表进行数据更新,在以上操作中若有失败的环节,那么此次同步失败,程序将结束运行,当下次再进行数据同步时可选择从此断点继续进行数据同步,克服DBMS事务的回滚带来的时间与资源浪费问题。

2.2 数据采集

使用差异同步法得到最小变动集进行数据同步。采用增量表的方法是在同步发起方发起同步的操作时、同步接收方收到同步请求时,都先到本地的内存中定义一个临时表,并本地的“数据状态”为“新增”标识的记录加到临时表中,形成一个新的数据集,将这个新的数据集传到对方。

2.3 数据传输方案

数据传输分为上传数据和下载数据。上传数据是指同步发起方主动发起,将自己本地站点中的最小变动数据集发送给同步接收方的数据传输过程。下载数据是指同步发起方将同步接收方形成的最小变动数据集接收到本地站点的数据传输过程。针对不同的情况,提供以下3种传输模式供用户灵活选择:

a) 正常传输。这种方式是将从本地提取出来的最小变动数据集以原始的形式在网络间传输,但传输速度比较慢,数据安全性保障比较小。

b) 自动压缩传输。通过大量的传输数据统计出来的一个压缩传输数据量底限值,当值大于一定量时,系统自动启用压缩机制对同步的数据进行压缩传输。自动压缩传输是一种更为理想的数据传输方式的选择,它在用户不用了解同步的数据量大小的情况下,提供给用户一个较为合理的同步数据压缩机制。

c) 强制压缩传输。这种方式是无论数据量大还是量小都采用压缩的二进制方式进行数据传输。

以上3种方式的提供大大方便了用户,在同步的数据量较小时可以不采用数据压缩方式进行数据传输,因为在任何数据进行压缩和解压的过程中必须耗费一定长的时间,即

压缩数据的传输时间=压缩时间+解压时间+数据的网络传输时间

非压缩数据的传输时间=数据的网络传输时间

数据量相对较少时会出现非压缩数据的传输时间小于压缩数据的传输时间,在同步的数据量较大时采用此种压缩方式进行数据传输,才会减少用户进行数据同步的操作时间,加快数据同步的速度。

2.4 数据传输格式

采用 .NET的Remoting技术时,可以有两种网络传输方式进行选择:一种是XML(可扩展置标语言);另一种是二进制方式。

a) XML传输格式。XML为信息建模提供了许多功能强大的能力。作为一种数据库格式,XML有一些优势,例如,它是自描述的、可交换的、能够以树形或图形结构描述数据。它也有缺点,由于要对它进行解析和文本转换,所以数据访问速度较慢。因此,在数据量小、用户少和性能要求不太高的环境下,可以使用XML文档,但是XML格式的文件却不适用于用户量大、数据集成度高以及性能要求高的作业环境。

b) 二进制数据传输。使用二进制格式序列化消息对象具有更高的传输性能,因为采用二进制进行传输的数据传到另一端时不需要进行解析就可以直接被计算机识别,而采用XML传输时不仅文件内容大,而且传输到另一端时还要转化成计算机识别的二进制格式,因此,采用二进制格式占用网络资源会更少,数据在同步时传输得会更快,而且省去了格式转化所需的时间,并且,二进制方式具有更好的性能。

3 异构数据库的数据同步

在信息系统中,由于各子系统是由不同的软件开发商独立设计的,采用的数据库管理工具也不尽相同,因此要在异构分布式数据库之间和不同表结构之间透明地进行数据复制,需屏蔽各站点的出版表之间的模式差异。

数据库管理系统的数据复制方案见表1。

目前解决异构模式下的数据交换的成熟方法是将数据转换成XML格式,并建立该格式下的模式转换规则。但是,由于该技术不是以事务为基础,复制后的副本缺乏基本的关系完整性。因此,不同结构的表模式的差异分析和转换是异构数据库同步的关键。

3.1 模式差异及解决方法

由于在异构分布式数据库系统环境中存在着不同的表结构,数据表间的模式差异主要表现为数据在结构上的差异、数据表示上的差异和元组标识的差异。

差异解决方法关键技术有:

a) 求得属性列中所包含属性的个数,得到的是表中关键字属性的个数;

b) 按索引取得属性列中的属性;

c) 属性的结构上要相同,表示属性列中所有属性在结构上相同。

3.2 异构数据库模式的转换

模式转换双方的信息载体是更新事务日志表和标准事务日志表,转换作业集中在各子服务器。模式转换的映射法则是基于数据表在星形结构的基站点和从站点的不同的模式定义建立的,在数据库环境中,把对关系的映射分解为对关系属性的映射,是模式转换过程的关键。表的模式信息包含了定义表的所有成分,如列属性、键值、约束条件等。模式转换的元素主要是字段列和主键。

4 结束语

数据同步问题是目前信息管理中经常面临的问题,传统的数据库复制技术存在很多的弊端,目前的一些数据同步组件的开发研究还不成熟,不能满足用户的多样性的需求,诸多问题都要通过我们的思考探索去解决,例如:异构数据库的模式统一问题、增量同步中数据重复问题、数据打包格式与方法问题、传输中断后的续传问题等,简言之,就是同步中的效率、可靠性。这些需要通过大量的实践去不断探索。

参考文献

[1]张良,佟俐鹃.异构数据库集成中数据传输问题的研究[J].计算机应用研究,2004(11):65-66.

[2]Managing Distributed Data throughout the Enterprise[M].Adaptec Inc,2005.

[3]邵佩英.分布式数据库系统及应用[M].北京:科学出版社,2005.

[4]盖九宇,张忠能,肖鹤.分布式数据库数据复制技术的分析与应用[J].计算机应用与软件,2005,22(7):36-38,41.

分布式发电系统继电保护技术篇7

1 DG对并网联络线保护的影响

1.1 DG接入对并网联络线保护带来的问题

在含有DG电源的配电网中,保护装置的协调与控制方法与DG的具体位置和容量大小密切相关。对于小型发电机组,可通过110 k V终端变电站并网,一般是在110 k V变电站的35 k V母线或10k V母线接入。以DG在110 k V变电站的10 k V母线接入为例进行分析,图1为其典型接线图。图中变压器接线形式为Y0/△,断路器1DL和2DL的保护配置为三段式相间、接地距离保护和四段式零序保护,1DL重合闸采用检无压方式重合,2DL重合闸无检定。备用支路正常运行时断开,变电站内配有备自投装置,若变压器失电则经躲过重合闸动作时限后动作,跳开2DL,合备用支路断路器恢复供电。

如图1所示,分布式电源并网后,若在K点发生短路故障,1DL配置的保护一般能够可靠动作,跳开本侧;而2DL配置的保护往往会拒动,拒动的原因是DG归算至并网变110 k V母线侧的阻抗过大,在最小运行方式下,其提供的短路电流很小,可能使距离保护和零序保护达不到所需的动作值。2DL保护拒动带来以下2个问题[3]。

(1)如果变压器110 k V侧为星型中性点不接地方式运行,2DL保护拒动使得变压器失去接地点,此时发生单相接地故障后变压器中性点电压升高,威胁到变压器的绝缘安全。

(2)2DL保护的拒动使得1DL处的检线路无压重合闸无法启动,如果是瞬时性故障,在故障消失后仍然不能恢复系统供电并导致备自投装置无法启动。若为接地故障,变压器配有中性点过电压保护或零序电流保护动作会跳开变压器各侧开关,此时1DL的重合闸虽然能够动作,但变压器已经退出运行,仍不能恢复系统供电。

1.2 新保护配置方案

目前,110 k V变电站大多数站点已实现光纤通信,具备了配置光纤纵差保护的通信条件。光纤纵差保护作为纵联差动保护的一种,能完成全线快速切除故障的任务,且该保护具有灵敏度高、简单可靠、选择性好等优点[4]。通过配置光纤纵差保护,对跳闸方案稍加改造即可有效解决DG接入后变电站与电网的并网联络线保护问题。新的保护配置方案如下。

(1)在并网联络线MN两侧配置光纤纵差保护,原有的相间、接地距离保护和零序保护改为后备保护。2DL保护动作时,同时联跳3DL将DG解列。

(2)1DL重合闸检线路无压重合。2DL重合闸检本侧110 k V母线无压重合。

(3)若重合失败,备自投经延时后动作,跳开2DL,合备用支路恢复供电。

1.3 保护动作行为分析

当在并网联络线MN上发生故障时,光纤纵差保护将动作,两侧断路器跳闸切除故障,并同时联跳3DL;若主保护拒动,则由后备保护经延时跳开2DL并联跳3DL。保护动作跳闸后,1DL处检线路无压自动重合闸检测到线路无压,重合闸动作。若为瞬时性故障,则2DL也成功重合恢复供电;若为永久性故障,保护加速跳闸,备自投装置经延时后启动,再对2DL发跳闸命令防止2DL未跳开,然后投备用支路开关恢复供电。待系统成功恢复供电后,3DL按调度命令同期合闸,DG恢复并网运行。

按该方案配置保护,无论联络线发生瞬时或永久故障,均可消除DG的影响,成功恢复对并网变压器的供电。在具备光纤通道的110 k V或以上等级变电站,该保护方案简单实用,特别适合于容量相对较大的小型发电机组的并网运行。

2 DG对配电网继电保护的影响

10 k V馈线保护在主馈线上通常配置传统的三段式电流保护,对非全电缆线路,配置三相一次重合闸,以保证在馈线发生瞬时性故障时,快速恢复供电。当DG接入点之后线路发生短路故障后,它将向故障点送出短路电流,减少了主馈线保护检测到的故障电流值,从而降低了保护的灵敏度。DG对相邻线路故障时倒送的短路电流也可能导致本线路及相邻线路的保护失去选择性而误动。除此之外,当分布式电源接入配电线路后,如果线路因故障跳闸后,所形成的孤岛保持了功率和电压在额定值附近运行,分布式电源极有可能在重合闸动作时没有跳离线路,故障点仍然由分布式电源维持故障电流,导致重合失败或非同期合闸,对电网设备及DG设备造成损害。国内外学者主要通过限制DG准入容量或增加故障电流限制器解决这一问题[5,6,7]。

在DG接入点加装串联电抗器限制短路电流,可以部分消除分布式电源与保护的协调性问题。正常运行时由于负荷电流相对较小,串联电抗器不会产过大的电压降对电的电压质量造成损害。但当系统发生短路故障时,电抗器的高阻抗可以将短路电流限制在设定值以下。同时由于电抗器的高阻抗值的作用,在线路短路故障时,分布式电源所提供的短路电流大幅度降低,从而有利于故障点电弧熄灭和降低分布式电源机组检测到的负序电流;在非同期合闸发生时,高阻抗同样可以限制冲击电流的大小,确保了发电机组的健康运行。但高阻抗电抗器会对正常运行时的电压产生影响。

短路限流器(FCL)是在串联阻抗器限流的基础上发展而来的,结构典型如图2所示。

由图2可见,由于在限流阻抗器并联了可快速切换的并联支路。在系统正常工作时,限流阻抗器并联投入,限流阻抗器对线路几乎无影响。当故障发生时,并联支路退出,限流阻抗器立即自动插入故障回路进行限流,随后故障电流完全由旁路交流电抗器限制。采用脉宽调制原理控制可进一步实现具有动态串联补偿功能的短路限流器。这种短路限流器由脉宽调制原理控制的电感、开关控制的电容器组、限流电感构成。正常时,通过控制投切的电容器组,实现可控串联补偿功能,故障时,通过改变脉冲的占空比可以得到变化的阻抗,达到可控限流目的。短路限流器解决了串联电抗器对线路正常状态的影响。DG串联短路限流器的方案,在短路限流器可以准确监测故障状态的前提下可以减小DG正向和反向助增电流对保护选择性的影响。上述方法的实质均是通过减少DG输出助增电流来减小DG对馈线保护的影响,但实施困难,特别是短路限流器的故障监测和切换。

3 孤岛检测技术与反孤岛保护

孤岛现象指在主电网断开情况下DG系统继续向本地负载供电情形。孤岛运行状态时会产生严重的后果,如孤岛中的电压和频率无法控制,可能会对用户设备造成损坏;孤岛中的线路仍然带电,可能危及检修人员的人身安全等[8,9]。一般认为主电网断开,应及时对孤岛系统采取相应的调控措施,至系统故障消除后再恢复并网运行。IEEE-1547标准中规定,在电网故障后,分布式电源应在重合闸动作之前停止向电网供电,保证DG不再向带有自动重合闸装置的电网输送电能[10]。因此,实际电网系统中的分布式发电装置必须具备反孤岛保护的功能,即具有检测孤岛效应并及时与电网切离的功能。

在中小容量的DG系统中,通过逆变器并网运行是最为常见的方式。基于逆变器并网的孤岛检测方法可以分为被动式检测和主动式检测两类。依据检测原理的不同,每一类又可分为若干具体的检测方法。被动式检测通过检测公共点处的运行参数是否出现异常,而主动式检测则是向公共点注入扰动信号来判断孤岛是否发生[11,12,13,14,15,16,17]。

通常分布式电源接入系统处的并网逆变器均有过/欠压(OUV)和过/欠频(OUF)保护,从而在运行参数超过给定阈值时将DG与系统解列,这种保护同时可作为孤岛检测方法。OUV/OUF作为孤岛检测算法无需额外增添设备,简单易行,经济性最好,是基本的检测方法。但是,如果DG与负载功率相匹配,其电压和频率的变化不足以超出检测阈值,该检测方法将失效。因此,OUV/OUF存在较大的非检测区(NDZ)。电压谐波检测法通过检测公共点电压的总谐波畸变率来达到孤岛检测的目的,相位突变检测通过检测电流与电压之间的相位差是否发生“跳变”来检测孤岛现象,各种方法均存在非检测区及具体使用上的局限性。

主动检测法的思想是在并网逆变器的控制信号中加入扰动信号,然后检测逆变器的输出。当逆变器与电网相连则扰动信号的作用很小,而当孤岛发生时扰动信号的作用就会显现出来。目前最主要的2种方法是无功输出检测法和系统故障等级监测法。无功输出检测法通过控制分布式发电机的励磁电流,使之产生一种特定大小的无功电流来进行孤岛检测。生成的无功电流只在分布式电源与主系统相连时才能产生。无功输出检测法对孤岛状态的检测十分可靠,但其动作时间长,一般需要几秒钟的时间才会动作,所以这种方法一般只有在做后备用途时才考虑。系统故障等级监测法在电压过零点时触发晶闸管开关,用一个并联电感测量电流,来计算系统阻抗和系统故障等级。这种方法会在电压过零点时产生小的扰动,影响系统运行。

除通过逆变器侧的孤岛检测算法之外,利用通信系统的广域检测方法也不断出现。文献[16]提出了采用中央控制单元方案,通过中央控制单元对一个区域内所有可能导致孤岛形成的断路器或自动开关状态进行监控,当有开关动作时,中央控制单元将确定孤岛地带,并立即发送信号中止DG的运行,并在故障清除之后,还可用同一个中央控制单元提供分布式发电装置的重连信号。此方法成本高、执行复杂。文献[17]提出在DG侧及系统侧双端采用同步相量测量装置(PMU),直接利用两侧正序电压的相位变化和幅值变化完成孤岛的检测,保证了孤岛检测的快速性。鉴于同步相量测量技术应用的日益普及,该方法可能是孤岛检测未来发展的一个方向。

4 结束语

介绍了DG继电保护技术及其在电力系统中的应用研究的新进展。可以预见,随智能电网技术发展,DG作为一种具有竞争力的发电方式必将在电力系统中占有越来越重要的地位。如何使DG的利用更为安全可靠,将会是继电保护工作者的长期课题。

摘要：分布式发电以其能源多样化、环保、节能、高效等多方面的优越性而得到了越来越广泛的应用。分析了分布式发电设备接入配电网后对继电保护的影响及解决措施,重点讨论了国内外有关含有分布式发电的配电网继电保护技术及分布式发电的孤岛检测算法,并研究了这些保护策略的特点,为完善和改进分布式发电的继电保护技术提供一定的参考。

分布式数据保护技术篇8

因为在新兴的云计算数据管理领域G oogle的B igtable技术针对云计算海量数据的问题和应用特点有了很多创新。综合来看未来云计算数据管理主要会聚焦于以下几个方面:数据组织与管理, 数据集成与管理, 分布式并行处理, 数据分析, 最终实现对非确定性数据的管理与集成为用户提供高效的查询等服务。

采用分布式的数据组织与管理用于大型的分布式的对大量数据进行访问的应用 (例如G FS) 它运行于各种类似的普通硬件上, 提供容错功能, 为用户提供高可靠, 高并发和高性能的数据并行存取访问。针对数据的非确定性, 分布异构性, 海量, 动态变化等特点, 实现任务在大规模计算节点中的调度与分配后台复杂的并行执行和任务调度对用户和编程人员透明。云计算的数据管理中最终对数据进行分析和挖掘以提供给各种应用使用。通过采用不同的数据挖掘引擎和通过基于浅层语义分析和深层语义分析的技术, 在不确定的条件下的高效的进行数据挖掘。在大量的结构化的关系数据库中的数据和半结构化的文本图形和图像数据中提取潜在的有用的能被人理解的数据。但是云计算作为一个新兴技术, 在物联网, 三网融合, 智能电网, 智能城市等应用方面有着前所未有的机遇和挑战, 如需要从结构化和半结构化或非结构的异构数据中提取出有用信息。

2 常见分布式数据分析方式

传统的计算机想要用数据挖掘, 只能使用简单的算法, 但是在工业界看来, 总体来说是不能适应要求。比如w eka, 可以学习算法, 但是不能对大规模的数据进行处理。为了进行大规模的数据处理, 需要分布式计算。一般来说, 现在比较常见的并行计算有下面的方式:O pen M P, C U D A, M PI, M ap R educe。O pen M P:是对于多核的条件下, 也就是一些超级计算机可以使用的方式, 一个很重要的特性是共享存储, 多个instance的关系是线程与线程的关系, 也就限制了O pen M P主要是在单机 (可能是超级计算机) 中进行科学计算的任务。

C U D A:在计算机领域当中, 最先采用的是C PU的处理方式, 而随着用户对计算机性能的需求, 开始逐步的形成C PU与G PU并用的局面。因此, 为更好的规范并用的问题, 美国英伟达公司开发除了一套编程模型, 充分吸收两者的优点, 从而形成一个全新的计算机设备架构, 以此为用户提供更为优秀和强大的计算功能。M PI:又被人们成为M essage Passing Interface, 为消息传递并行程序标准之一, 当前应用比较广泛的是M PI1.1规范, 而随着用户需求的变化, 开始逐步的制定M PI2.0规范, 并支持的I/O与进程管理规范等, 并上升为整个工业的标准。M ap R educe则作为谷歌公司开发的大型的编程模型, 其主要是被应用在大规模的数据并行运算当中。在该模型是由函数式的编程语言而来吧, 包含映射和归约的意思。通过该开发模型, 可极大的方便在并行的情况下将自己编写的相关计算机程序运行在分布式的系统上面。其具体是指定一个映射函数, 用一组键值对映射为一组新的键值, 并指定归约函数, 以此可有效的保障每个键值都有其个对应的键组。

3 常见分布式数据分析工具

1) W EKA。W EKA的全名是怀卡托智能分析环境 (W aikato Environm entfor Know ledge A nalysis) , 同时w eka也是新西兰的一种鸟名, 而W EKA的主要开发者来自新西兰。W EKA作为一个公开的数据挖掘工作平台, 集合了大量能承担数据挖掘任务的机器学习算法, 包括对数据进行预处理, 分类, 回归、聚类、关联规则以及在新的交互式界面上的可视化。W eka包含大量经过良好优化的机器学习和数据分析算法, 可以处理与格式化、数据转换相关的各种任务, 唯一的不足就是它对内存敏感的大数据处理的不好。

2) M ahout。M ahout是A pache Softw are Foundation (A SF) 旗下的一个开源项目, 提供一些可扩展的机器学习领域经典算法的实现, 旨在帮助开发人员更加方便快捷地创建智能应用程序。M ahout包含许多实现, 包括聚类、分类、推荐过滤、频繁子项挖掘。此外, 通过使用A pache H adoop库, M ahout可以有效地扩展到云中。M ahout为大数据而生, 作为一个新生的数据挖掘工具, 它所支持的算法与W eka相比依然很少, 相关文档的质量也良莠不齐, 但是它的优势在于不仅支持单机环境, 还支持M ap R educe分布式计算, 能够应对W eka无法处理的大数据。

但是M ahout的力量在于它对大数据的并行处理能力, W eka则是为了处理较小的问题或者是在实验中使用, 但是无论如何现在已经很少用了。M ahout和W eka都不是主流。

3) Spark。Spark是一个开源的集群计算系统, 用于快速数据分析, 包括快速运行和快速写操作。与H adoop不同, Spark和Scala能够紧密集成, 其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。而从实际应用的角度来看, Spark也可被看成为对H adoop的一个补充, 并可有效的运行在该系统中。

4) 数据集市。Y onghong D ata M art是基于自有技术研发的一款数据存储、数据处理的软件。针对客户需要处理需求数据的量级不同, IT系统架构的不同和存储系统的不同, 提供了两种解决方案供客户选择一种本地模式, 一种是M PP模式。当需要处理的数据量级别处于TB级以下, 或者采用普通存储结构, 或者单机已经足够满足性能需求, 选择本地模式。当面对异构数据库存储系统, 需要处理的数量级别在TB级和PB级以上, 或者IT系统和存储系统采用分布式, 或者需要M PP模式才能满足性能需求, 基于分布式架构的并行处理模式更适合客户的需求。Y ong hong D ata M art底层技术:a.分布式计算;b.分布式通信;c.内存计算;d.列存储;e.库内计算。

4 云技术未来发展展望

随着计算机技术的飞速进步, 云计算和大数据将具备更为广阔前进, 并改变着我们的生活。通过两种技术的结合, 将对企业管理、生活的等带来新的挑战, 也将迎来更多的市场机遇。当前, 面对这种发展趋势, 越来越多的企业开始大量的引入计算机技术人才, 如数据分析人才, 从而希望能够更为快速的去挖掘大数据之后存在的潜力, 为企业的决策、营销方式等提供更为科学的依据。而云计算的诞生, 也为大数据的更大潜力的挖掘提供了可能。

摘要：云计算对海量的数据高效管理, 云端数据精确精准快速查询也成为越来越重要的问题, 并形成新的面向云计算的数据管理研究领域。本文介绍了当前研究现状, 并对常见分布式数据分析方式和工具进行分析。

关键词：云计算,分布式,大数据

参考文献

[1]维克托·迈尔-舍恩伯格.大数据时代.

[2]陈全, 邓倩妮.云计算及其关键技术[J].计算机应用, 2009.

分布式数据保护技术篇9

所谓的“分布式技术”,指的就是:一种基于网络的计算机处理技术,它与集中式技术相对应。分布式数据库则是一个较小的计算机系统,该系统中有很多台计算机,每台计算机都可以单独放在一个地方,且它们都具有一份完整的数据库拷贝副本。与此同时,这些计算机也具有属于它们自己的局部数据库。其次,这些计算机在通过网络进行相互连接之后,就可以组成一个完整的,在物理与逻辑上分布的大型数据库。

2试析分布式结构极其功能特点

分布式结构主要由两个模式组成,一个是C/S模式,另一个则是B/S模式。它可以把基于业务逻辑上的所有程序收集起来,然后对这些程序进行有效地管理。与此同时,客户端程序也可以通过某种方式,直接对这些程序进行访问。这样一来,也就可以让系统中的数据信息达到交互以及分享的这一目的。

分布式结构的功能特点有很多,比如:(1)它具有极高的安全性能以及系统优化性能;(2)它易于维护;(3)它能够减少企业的开发成本;(4)它能够对计算机资源进行合理地优化;(5)它可以降低客户端网站建设的复杂度。

总而言之,分布式结构具有的这些功能特点,在很大程度上提高了它在计算机技术领域中的地位。因此,在科技以及信息化发展的过程当中,将分布式技术与数据库更为广泛的应用在计算机技术当中,是能够让计算机技术实现进一步发展的最好方法。

3试析分布式技术与数据库在计算机技术领域中的应用

现以企业管理系统为例,将分布式技术与书库据在该系统中的应用进行简单的分析,并以此来深入了解分布式技术与数据库对计算机技术的作用。

3.1系统的构建基础

以企业的实际情况以及其未来的发展规划为基础,把企业部门、年度计划、员工薪酬、财务统计以及职位划分等工作内容合理地结合在一起,使之成为一个新的整体,然后再对这个整体进行统一的管理。这样一来,不仅可以加强企业自身的管理力度,还可以提高整个企业的融洽度和关联度,从而让企业的每一个部门、每一位职工和领导,都能够对企业的信息资源进行合理地传播和共享。其次,管理人员也可以通过本系统,更为直接和方便的对企业的各个方面进行有效地管理,这样就可以防止管理工作中出现漏管以及误管等问题。

3.2系统的构建结构

构建本系统所采用的结构是分布式结构,也就是C/S模式与B/S模式的结合体。分布式结构在本系统当中的运用,可以在很大程度上缩短系统的开发周期,同时也可以将企业管理人员自身的责任与义务更加准确的表现出来。

3.3子系统功能

依据企业各个部门对数据信息的需求,合理地规划出本系统必须具备的子系统功能,以确保每一个部门都能够获取到最新、最全面、最准确的数据信息,这样就可以大大提高每位职工的工作效率。比如:财务部门需要对企业的生产成本进行预算,同时也要依据预算结果作出财务计划,然后再通过财务计划的执行效果,对企业支出以及回笼的资金进行审核等工作。因此,本系统就应当要针对财务部的工作内容,规划出财务子系统。届时,财务人员就可以利用本系统中的财务子系统功能,对企业的财务信息进行合理地利用、处理以及管理。

3.4系统的安全功能

SQL server可以对数据信息进行实时性的安全保护,让数据信息具有较高的安全性、真实性以及完整性。因此,为了确保本系统中数据信息的安全性,就必须要把SQL server作为本系统的核心数据库,并对本系统的安全功能提出以下两点要求:(1)数据库的登录号不仅要具有极高的独立性,还要具备完善的操作权限,以确保该登录号持有本系统中所有数据库的操作权限。(2)客户端帐号信息的建立、登录以及修改等操作,要与数据库用户表中的信息同步。

3.5系统的语言开发工具极其开发平台的选择

本系统开发所应用到的计算机编程语言是JAVA,它是一种面向对象的程序设计语言,它具有卓越的通用性、高效性、平台移植性以及安全性。因此,把它作为本系统的语言开发工具,是百利而无一害的。其次,本系统的开发平台是J2EE,它可以让客户端与数据库中的信息进行实时的交互,以确保数据信息的准确性、实时性以及完整性。与此同时,J2EE开发平台也可以提高系统中数据信息的利用率。

4探析分布式技术与数据库在计算机技术领域中的作用

(1)有利于提高系统中数据信息的交互能力。(2)有利于让数据信息实现统一管理与实时交互的这一过程。(3)有利于增强系统中数据信息的安全性和可靠性。(4)有利于提高系统自身的响应速度。(5)有利于降低系统的开发成本以及系统构建的复杂度。

5结语

综上所述,分布式技术与数据库在计算机技术领域中的应用,不仅增强了计算机技术的安全性能,还提高了计算机技术的利用价值,这就使得计算机技术具有了极高、极优质的服务功能。然而,不同的发展阶段,人们对计算机技术的要求也是大不相同的。因此,为了让计算机技术能够契合社会发展的趋势,将更先进的分布式技术与数据库应用到计算机技术领域当中,就显得尤为重要了。因为唯有这样,才能够让计算机技术满足社会市场的需求,从而让其成为我国社会经济发展的引领者。

摘要：在社会不断进步和发展的过程当中,计算机技术在我国各行各业当中的应用,使其成为了推动社会生产力实现进一步发展的强大动力。然而,在这样的一个趋势之下,人们对计算机技术的要求也是越来越高。于是,为了满足社会生产力的发展需求,就必须要将更具有高科技效力的分布式技术与数据库应用在计算机技术领域当中。因此,本文将针对分布式技术与数据库,对其在计算机技术领域中的应用进行深入的解析。

关键词：数据库,计算机技术领域,解析,分布式技术

参考文献

[1]柳刚.分布式技术与数据库应用于计算机技术领域解析[J].煤炭技术,2013,32(7):198-199.

[2]高国弘,郭立新,范彦芳等.多类型数据库系统环境下气象信息分布式共享技术研究[C].2011年中国气象学会气象通信与信息技术委员会暨国家气象信息中心科技年会论文集.2011:288-293.

[3]梁继东.基于分布式技术的自动答疑系统的设计与实现[D].电子科技大学,2014.

分布式数据保护技术篇10

基于云技术的分布式实时数据库能充分利用高性能广域网络。这种挂数据库主要是通过数据流的形式来对存储云中的数据来进行专业化地处理, 通过这种方式定义的计算函数就能够对存储云所管理的刷数据进行有针对性处理。

1 云计算技术介绍

研究分布式数据库高性能数据存储检索机制, 首先就需要掌握云计算技术。了解云计算技术是研究的重要前提。近些年来云计算技术获得了迅猛发展, 依托于云计算技术本身的产品也获得了较快发展。云计算技术主要是将效用计算、网络存储、网格计算以及负载均衡等领域进行综合而形成的一种专业性技术。

通常情况下云计算技术本身包含海量数据的分布式存储技术、分布式实时事务提交协议、网络动态路由与负载均衡技术、事务实时调度机制等核心技术。这几种技术对于分布式实时数据库的构建具有重要意义。

2 分布式实时数据库的框架

分布式实时数据库是云计算技术与实时数据库技术深度融合的产物, 该数据库主要是通过计算机集群来进行构建。该数据库具有可扩展、系统性、可靠性、可维护性高等特点。负载均衡、事务调度、冲突处理、数据存储等是其主要内容。分布式实时数据库主要是通过分布式通讯服务平台的客户端结构接入到该平台中的。某个节点在接入分布式应用服务之后就可以实现与同样服务的其他节点的有效连接。

多台数据服务器的数据存储, 检索组件则是通过接入平台结成一个统一的数据存储以及数据检索服务来向外提供服务的。这样一种服务机制实际上打破了原来那种单台实时数据处理服务器的孤岛。对于数据的查俊则是用平台接口把客户端同服务平台连接起来实现的。

3 分布式实时数据库存储机制

针对基于云计算分布式实时数据库存储机制的设计, 重点是要在规模动态调整能力、数据一致性、分布式冗余存储等方面来进行调整和设计。在实际设计过程中必须要能够达到以下目的:一是适当增加服务器节点从而实现系统并发处理能力, 最终提升数据存储容量。二是系统数据存储的实时性和高可用性得到增强。三是实现高效的数据备份冗余, 从而来有效避免数据读写失败情况的出现。有的条件下甚至是可以用一致性维护机制来保证备份数据的一致。四是服务器节点可崩溃, 恢复以及在线加入。

存储云结构主要是由主管服务器、安全服务器、客户端以及从属节点等构成。这些设备在系统中承担的功能各有不同。主管服务器主要是维持系统内的元数据, 提供目录服务、响应用户请求、控制从属节点运行等。从属节点主要指的是那些存储数据的文件, 这些节点通常是基于存储云客户端的请求而需要处理数据的节点。从属节点一般只接受主服务器的指令, 客户端、从属节点的关系以及从属节点之间的关系则主要是由主节点来进行协调。

存储云结构能够实现高速缓存数据连接, 这样就能够有效改变同一队节点间, 数据传输需要多次连接的现状。该系统的安全机制主要是通过存取控制列表来实现的。存储云结构中的数据需要由存取控制列表来进行控制, 客户端IP地质也需要在服务器内部。数据的组织和处理是按照以下方式来实现的:在存储云结构中每个数据文件一般都附有一个索引文件, 数据文件和索引文件都存在与相同节点中。复制数据文件的同时, 牵引文件也将会被复制。索引文件本身包含每个记录的起始地址以及末端地址。那些没有索引文件的数据文件则主要是通过文件为单位的方式来进行处理。此时就需要通过特定函数来解析以及提取数据。

数据服务器在加入分布式通讯服务平台之后就会形成一个分布式系统整体, 服务器节点加入之后就可以通过平台来转发数据并进行备份。在存储云结构中点歌服务节点只需要关注自身的数据接手法以及存储。通过该结构能够实现单个节点数据处理同复杂分布式架构逻辑的分离。这对于最大程度利用实时数据库存储技术具有重要意义。

4 分布式实时数据库检索机制

高性能数据检索具有明显特点, 它的查询耗时和结果正确率是影响数据库性能的重要指标。分布式实时数据库检索机制有以下几个特点:一是数据最终的一致性。通常情况下数据在同步完成之前, 数据备份之间往往存在不一致情况, 此时系统通过一致性维护机制就可以实现数据的最终一致性。二是数据一致性修复。系统中数据一致性恢复主要是通过数据一致性对比、修复机制来实现备份数据间的一致性, 从而最终达到分布式的最终一致性。三是查询的一致性等级。所谓查询的一致性等级主要指的是用户指定查询结果的一致性等级。对于那些一致性要求较高的一般四通过数据点的主备份节点来进行查询处理, 对于那些一致性要求不高的请求则是要尽可能降低数据检索耗时。

分布式数据查询, 按照查询位置不同可以分为当前节点数据查询和备份节点数据查询两种情况。针对备份节点的数据查询主要是通过当前节点数据查询来实现的。本地节点数据查询本身又可以分为实时数据查询和历史数据查询两种方式。历史数据的查询则可分为存档缓存查询和磁盘数据查询。

云计算技术是当前一种先进的信息技术, 这种技术在分布式实时数据库中的应用是时代发展的必然要求。在今后应该不断加强云计算技术的研究。本文首先分析了云计算技术, 而后分析了分布式实时数据库的总框架, 之后重点分析了存储结构和检索机制。基于云技术的分布式实时数据库中数据存储和检索是其中的重要功能。加强这两方面的研究有重要意义。

参考文献

[1]柴天佑.流程工业信息化的发展状况及对策[J].中国制造业信息化, 2003 (50) .

[2]褚健, 荣冈.流程工业综合自动化技术[M].北京:机械工业出版社, 2004.

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处

【分布式数据保护技术】相关文章：

分布式数据流09-05