数据平台系统

2024-05-30

数据平台系统(精选十篇)

数据平台系统 篇1

关键词:分布式计算,Hadoop

前言

云计算通常被认为是一种商业计算模型,使用由大量计算机所构成的资源池上来处理计算任务,这种资源池便被形象的称为“云”[1]。用户可以根据需要,从中获取计算能力、存储空间或者信息服务。使用云计算的用户可以动态地申请部分资源,将各种任务提交到云上由云服务自主地管理和运行维护,用户和程序的开发者无需考虑底层的分布式细节,更加专注于任务的实现。这种方式大大地提高效率、降低了成本并且促进了技术创新。云计算的资源池自身也被虚拟化为计算资源和储存资源,不同资源可以按照需要动态的分配和组织,用户所申请的资源在使用结束后还可以被系统回收重用。这种工作模式能够充分地利用计算资源,提高服务质量。

云计算是并行计算(Paralle Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)的发展,或者说是这些计算科学概念的商业实现。其综合了虚拟化和效用计算等概念,在不同的层次上提供着从硬件到软件的一系列服务。基础设施作为服务Iaa S(Infrastructure as a Service)、平台作为服务PaaS(Platform as a Service)和软件作为服务SaaS(Software as a Service)便是三种主要的云计算服务类型,如图1所示。

Hadoop[2]是Apache基金会下的开源项目,提供部署运行分布式计算环境所需的软件框架,以HDFS分布式系统和MapReduce并行编程模型为技术核心,并且整合了包括数据库、云计算管理、机器学习等多种平台,使其逐渐的成为产业界和学术界进行云计算应用和研究的标准平台。Hadoop现在已经广泛应用于包括FaceBook,Twitter,Yahoo!等公司,并良好的运行在具有千万计算节点的大型计算机集群中。

1 Hadoop简介

Hadoop源于2002年开始的Apache Lucene的子项目之一开源搜索引擎Apache Nutch[3]。为了使Nutch搜索引擎可以适应越来越庞大的数据增长,提高数据处理能力,保证搜索速度和精度,急需引入一种高效的分布式计算结构。2004年,Google在“操作系统设计与实现”(Operating System Design and Implementation)会议上公布了其三个关键技术之一的并行数据处理技术——MapReduce,并发表了题为“MapReduce:Simplified Data Processing on Large Clusters[4]”的论文。当时Apache Nutch的负责人Doug Cutting看到了机会,并且领导团队开发了开源版本的MapReduce计算框架,并将它与Nutch的分布式文件系统技术(NDFS:Nutch Distribution File System)相结合,整合到了Nutch搜索引擎基础平台中。并于2006年2月被分离出来,成为了Apache公司的一个独立的项目,被命名为Hadoop。Hadoop的核心技术是MapReduce并行编程模型和HDFS分布式文件系统[5]。

2 Hadoop平台系统结构

Hadoop所采用的分布式系统属于一种被称为“向外扩展”的增强计算能力的方式。于此相对应的方式被称为“向上扩展”,这种方式以大型单机服务器为代表。在过去的几十年间,计算机的发展和计算能力的提高是遵守摩尔定律的。随着数据的不断增加,人们发现,解决大规模计算问题不能单纯的依赖于制造越来越大型的服务器,需要另辟新径,开始在向外扩展的方向上考虑问题的解决办法。Hadoop的向外扩展,即把许多低端或商用机器组织自在一起,形成一个功能专一的分布式系统。

3 分布式文件系统(HDFS)

NameNode和DataNode体系结构

Hadoop在分布式计算与分布式存储中都采用了主/从(master/salve)结构,这其中有两类节点,一种是NameNode,一种是DataNode。这两类节点分别扮演了主、从这两种角色。

NameNode位于HDFS的主端,扮演着master的角色,在一个Hadoop集群中通常只有一个。NameNode起到了数据管理中枢的作用,但并不作为数据传递的枢纽。它主要负责中管理文件系统的命名空间,存储着整个文件系统的文件目录结构和这些文件的索引节点,为HDFS提供元数据服务。

4 MAP/REDUCE并行编程模型

MapReduce最初是由Google开发和使用的一种新的抽象编程模型,使用这个抽象模型,可以解决很多大数据环境下的数据密集型作业,并且得到的程序本身也是为分布式环境所设计,十分适合为并行计算。

5 Map/Reduce执行流程

针对中间数据的键值对,通常可以将代含有顺序或标示信息的部分(默认为鉴键)做散列操作(Hash),根据散列结果将该条数据传送到对应的Reducer上去。当然,Hadoop也提供了方便的方式来自定义分配规则。执行过程中,所有Mapper输出的每一条数据均会在网络上进行重定向,负责对每条数据进行规则判断的过程是Partitioner的工作,具有相同特点的数据会进入相同的Reducer程序中进行处理,将数据发送到相应Reducer的过程通常称为洗牌(Shuffle)。

6 MapReduce程序框架

用户对Hadoop集群的每一次计算请求,被称为作业(Job)。Hadoop的任务就是使用分布式环境来完成这个作业。与HDFS中的主从结构类似,在MapReduce架构中也采用了类似的体系结构,主要由三类服务器构成,分别叫做JobTracker,TaskTracker和JobClient。在Hadoop的MapReduce架构中担任主服务进程的是被称为JobTracker的守护进程,作用是负责管理运行在此框架下所有作业的,作为一个调度核心,它为各个作业分配任务。

流程

在一般的MapReduce作业处理中,如果一切都按部就班的进行,那么整个作业的计算流程可以如下表示:

1)启动Hadoop服务。

2)用户根据作业需要,编写自定义的应用程序代码。

3)JobClient向JobTracker提交一个包含一切细节的Map/Reduce Job。

4)JobTracker处理所有的job

5)生成所有任务决定的安排表,将Map和Reduce任务部署到对应的TaskTracker上。

6)TaskTracker管理所有得到的节点任务。

7)为一个指定的job运行一个单独的Map过程

8)Map任务完成后,为该Job运行一个单独的Reduce过程

9)Reduce任务执行完成

10)TaskTracker向JobTracker通报任务的完成情况。

7 结语

首先对构建分布式平台的Hadoop软件架构进行了认真的调查研究,重点针对其核心框架HDFS文件系统和MapReduce并行编程模型进行了深入学习。了解其分布式文件系统的设计思想,通过实践熟悉了其基本的文件储存与管理方式。针对MapReduce并行编程模型进行了系统的学习,掌握其强大的问题处理能力和实现方式。针对数据挖掘任务,编写了基于MapReduce框架的程序模板。

参考文献

[1]徐强,王振江.云计算应用开发实践.机械工业出版社,2011.12

[2]The Apache™Hadoop®project,http://hadoop.apache.org/

[3]Chuck Lam,Hadoop in action,New York,US:Manning Publications Co.,2011

[4]Dean J,Ghemmawat S,Map Reduce:Simplied data processing on large clusters,Proceedings of the 6th Sympesium on Operating System Design and Implementation,New York:ACM Press,2004:137-150

数据平台系统 篇2

大型核能海水淡化实验平台及其数据测控系统

介绍了大型双塔4效核能海水淡化实验平台的组成和实验流程.为了更好地测量温度、压力、流量等各种热工参数,实验平台采用了不同的.测量方案和仪器,并且基于LabVIEW平台和Visual Basic程序,建立了2套数据测控系统,有效地保证了实验数据的采集、存储和分析.

作 者:姬文状 贾海军 宋二猛 JI Wen-zhuang JIA Hai-jun SONG Er-meng 作者单位:清华大学,核能与新能源技术研究院,先进反应堆工程与安全教育部重点实验室,北京,100084刊 名:实验技术与管理 ISTIC PKU英文刊名:EXPERIMENTAL TECHNOLOGY AND MANAGEMENT年,卷(期):23(11)分类号:P747关键词:海水淡化 数据测控 LabVIEW Visual Basic

数据平台系统 篇3

随着云计算模式的兴起,数字信息在各领域的急剧膨胀,信息类型、来源也变得愈来愈复杂,大数据概念便迅速在国内蔓延开来。当下,智慧城市在我国的建设迎来了一个小高潮期,业内人士认为智慧城市的“智慧”之处恰恰体现在大数据的应用。

然而在大数据与智慧城市有何种关系,又能为智慧城市的建设带来什么的推动力?本刊特别专访了北京大学信息科学技术学院智能科学系知名教授马修军博士。

大数据将引领大变革

记者:现在大数据涉及很多方面,但目前被提及比较多的是存储和计算,实际上可能还涉及传输、数据挖掘、数据应用场景。对此您有什么看法,又怎么定义大数据的?您认为在这些方面中,哪些是最重要的?

马修军:大数据有4个特征,即数据量大(Volume)、类型多样(Variety)、数据增长迅速(Velocitv)和数据价值巨大(Value)。前三个V比较好理解,关于第4个V大家很容易理解数据很有价值,但往往认识不到,相对于数据量而言数据价值平均值很小,挖掘大数据中的价值犹如沙里淘金,这也是大数据通常与Hadoep、NoSQL、数据分析与挖掘、数据仓库、商业智能,以及开源云计算架构等诸多热点话题联系在一起的原因。大数据不只是存储和计算,数据智能分析等相关技术非常重要。

在大数据时代,最重要的是掌握数据核心技术,例如IBM提供了从端到端、整体的大数据解决方案,惠普收购了数据分析仓库供应商Vertica,SAP推出了内存数据库HANA等。

记者:国内大数据应用领域的现状是怎样的?跟国外的差距在哪儿?

马修军:国内和国外在大数据应用领域最早的都是互联网领域的,包括电子商务、社交网络、搜索引擎等,最具代表性的是亚马逊和淘宝的电子商务数据、Twitter和新浪微博数据,Facebook社交网络数据。例如,Facebook用户每月分享30亿条内容,Twitter每天发送和转发12TB的信息,淘宝每天有超过30亿条店铺、商品浏览纪录及上千万的成交、收藏纪录。其他大数据应用领域主要是银行和电信等行业,中国工商银行近期部署了PB级大型数据仓库项目,中国移动早就部署了云计算和Hadoop数据分析中心。

可以说国内在大数据主要应用领域的发展并不比国外慢,在大数据的各种基础软件及应用软件、硬件产品方面,大数据技术以开源为主,尚未形成绝对技术垄断,即便是IBM、Oracle等行业巨擘,也同样是集成了开源技术,我国核心技术与先进国家的差距也在缩小。

记者:如果大数据能在一个领域有所突破,最有可能是哪个领域?

马修军:15年前,美国最庞大的数据仓库其规模只有数TB,且只有像沃尔玛、万事达这些极少数的公司才拥有如此庞大的数据。而如今,从生活中的购物交易,到工业上的生产制造,从社交网络媒体信息,到在线视频图像资料,从企业的信息管理系统,到政府部门的电子政务,都产生着大量的数据。可以预见,随着物联网的蓬勃发展,成万上亿计的网络传感器被嵌入到现实世界的各种设备中,如移动电话、智能电表、汽车和工业机器,大数据的价值还将进一步显现。

另一方面,IT企业和运营商全面部署基于云计算的数据中心,为大数据应用提供了优越的基础设施条件。近几年,大数据将会在金融、电信、医疗、物流、供应链、移动位置服务等领域有重大突破。

记者:近年来,相关业界的专家也表示大数据将引发新的“智慧革命”,您对所谓的“智慧革命”怎么理解?

马修军:大数据引发的所谓“智慧革命”,是说大数据正在对每个领域都造成影响,在商业、经济和其他领域中,将日益基于数据分析做出决策行为,而不是像过去更多凭借经验和直觉。未来,数据将会像土地、石油和资本一样,成为经济运行中的根本性资源。大数据时代,人类社会第一次拥有了精准记录把握复杂世界的能力,理论上讲我们可以建立起一个不需要简化的大数据“世界模型”,可以精准地把握变化趋势,进而做出决策。

一个最新的例子就是Facebook在2012年5月18日的IPO。在此之前,几乎没有人敢说自己有把握去预测Facebook上市当天股价的走势,但是Twitter却神奇般地做到了。社交媒体监测平台DataSift监测了Facebook IPO当天Twitter上的情感倾向与Facebook股价波动的关联。例如,在Facebook开盘前Twitter上的情感逐渐转向负面,25分钟之后,Facebook的股价便开始下跌。而当Twitter上的情感转向正面时,Facebook股价在8分钟之后也开始了回弹。最终,当股市接近收盘时,Twitter上的情感转向负面,10分钟后Facebook的股价又开始下跌。最终的结论是:Twitter上每一次情感倾向的转向都会影响Facebook股价的波动,延迟情况只有几分钟到20多分钟。

这仅仅只是基于社交网络产生的大数据进行“预见未来”的众多案例之一,事实上“大数据”所能带来的巨大商业价值,已经被人认为将引领一场足以匹敌20世纪计算机革命的巨大变革。奥巴马政府已经把大数据上升到了国家战略的层面,启动“大数据研究和发展计划”,这也从一个侧面凸显了大数据对当今社会的重要程度。

数据是智慧城市建设的基础

nlc202309022122

记者:智慧城市无疑是城市信息化建设的热点,然而各地在建设中似乎都遇到推进困难、找不到突破口等问题,那么智慧城市建设当前遇到的瓶颈主要体现在哪些方面?

马修军:自IBM提出智慧城市概念以来,我国各地先后举办了多次论坛,也有多个城市进行了智慧城市规划,启动了若干建设项目,可以说中国城市已经实现了智慧城市概念的认知,开始进入全面规划建设的开端。智慧城市可以规划美好蓝图,但关键是如何实施,许多已经完成规划的城市都面临着如何启动的困局。目前,智慧城市建设面临的瓶颈主要是体制方面的问题。

智慧城市最重要的特征是协同,包括多个层面的协同:(1)政府机制层面,在解决跨部门联动和政府整合服务方面,各部门是否具备协同机制;(2)业务系统和数据共享层面,目前各业务系统和数据建设纵强横弱,以条为主,缺乏块的横向联合,智慧城市建设的核心是精准的数据,衡量智慧城市的标准是数据的开放性;(3)服务层面,智慧城市的最终应用是服务,市民、企业和政府管理部门获得的服务有多少是协同的,整合了多少部门、公众服务,应该是一个关键衡量指标。

目前,国内智慧城市的建设都面临着机制问题,若要破局需在机制、业务系统和数据整合,以及服务整合方面进行全面考虑。

记者:当前虽然有了云计算、物联网,但缺乏大数据分析处理的核心技术,很多领域的智能乃至智慧都只是空壳,在您看来大数据的核心技术都有那些,我国的薄弱环节在哪些方面?

马修军:物联网是智慧城市的数据采集能力,以实现对城市运行的实时精准掌控,相当于智慧城市的感官系统;云计算则是可靠、经济、易部署的IT基础设施,相当于智慧城市的身体。而大数据智能分析系统则是智慧城市的神经中枢。

“大数据”是指其大小超出了典型数据库软件的采集、储存、管理和分析能力的数据集,形成了结构化数据、半结构化数据和非结构化数据并存的格局,这对传统的数据库管理技术带来了挑战,而另一方面,现有数据库系统软件相关的数据处理技术价格高昂,给智慧城市建设带来了巨大的成本压力,智慧城市建设迫切需要一个适合大数据成本的高效处理平台。大数据核心技术要解决的问题,包括对数据库高并发读写要求、对海量数据的高效率存储和访问需求、对数据库高可扩展性和高可用性的需求,使得传统SQL主要性能没有用武之地,NoSQL模式变得非常流行。互联网巨头对于NoSQL数据模式应用非常广,比如谷歌的Big Table、Facebook的Cassand ra及亚马逊的Dynamo等。

在过去的几十年中,我国信息产业,一直落后于国外的巨头,长期处在产业链的末端,但国家一直在核高基领域进行重点攻关研发,如CPU、操作系统、办公软件、数据库等,培养了基础系统软件领域的大量人才。在新兴的大数据处理领域,中外公司几乎站在同一起跑线,单纯考虑狭义的大数据处理技术(如Hadoop、MapReduce、模式识别、机器学习等),中外差距仅有5年左右。近年来,国际lT公司早已提前布局大数据核心技术,例如IBM近5年10亿美元以上级别的大手笔收购多与如何有效处理大数据有关,2007年IBM花费20亿美元收购了商务智能软件供应商Congnos,2009年IBM斥资12亿美元收购SPSS软件,201 0年IBM以17亿美元的代价收购了数据库分析供应商Netezza;数据库软件巨头甲骨文收购商业智能解决方案提供商海波龙(Hyperion),收购另—IT巨头SUN公司,推出了Oracle大数据机和Exalytics商务智能服务器,构建自己的大数据平台解决方案;SAP在大数据实时分析的领域中,推出了内存数据库HANA平台,以应对大数据实时分析的挑战;此外EMC、Informatica、Taredata等公司,也都在大数据领域布局了核心技术平台。

从大数据核心技术产业方面,我国信息技术产业领域的公司仍没有及时抓住转型契机,相对而言,缺乏在大数据领域的核心技术投入和研发方面存在巨大差距。

记者:智慧城市与大数据间关系是怎样的?

马修军:智慧城市要体现出人类社会对现代城市和运营管理新的科技发展的水平,需要对大数据充分分析和利用,深入分析我们收集的数据,以深入、系统全面洞察力解决,促进人类智慧运用管理城市,通过先进的技术包括数据挖掘和功能的强大的运算系统,从而来整合分析跨地域、跨行业、跨部门的海量数据的处理,将特定的知识应用于特定的行业和特定的解决方案中,来更好地支持整个城市经济社会发展的决策和相关行动。

未来的智慧城市系统是一个开放的大数据平台,一个统一的城市操作系统,通过物联网将城市的人、地、物、事统一成一个有机的整体,所有数据流转其中,形成一个大数据平台,所有屏幕都可接入,通过网聚的力量,汇集市民智慧,实现城市的可持续性发展。

记者:在城市的数字化、网络化过程中,信息孤岛成为了致命伤,那在智慧城市的建设中,如何通过大数据的概念去解决信息孤岛?

马修军:智慧城市建设的核心是最大限度地开发整合、融合和利用各类城市资源,实现城市范围内,不同部门、不同行业、不同群体、不同系统之间的数据融合与业务协同,利用物联网、云计算、移动互联网等信息技术,提升城市全面规划能力和公共设施水平、增强城市服务能力、激发城市活力。数据是智慧城市建设的基础,需要各界一起探索面向智慧城市建设的大数据运营模式,打破现有信息孤岛问题。

智慧城市建设期望每一个城市都是个性化的,无论是政府主导还是企业主导模式,关键是形成可持续服务于建设城市的独立服务主体,不能把智慧城市建设当成一种解决方案全球推广而获益,而是针对每一个城市深耕细作,做出个性化的智慧城市运营服务,从城市发展的长远来收回投资。这个需要考验投资建设智慧城市企业的价值观和理念,并不是只有资金实力,关注业绩的企业能做到的。

数据开放的利与弊

记者:在数据开放的过程中,政府、企业和个人对于数据的使用又应该如何调节?

马修军:智慧城市建设,在大规模部署物联网汇集城市海量实时数据的同时,应以开放协作平台的方式,提供精细粒度的数据访问接口,提高数据可读性,为不同层次和不同权限用户提供精细粒度数据访问,从而实现全面的互联互通,在开放协作平台上汇聚市民的智慧,开发深度应用,实现真正的深入的智能化。

智慧城市的关键是形成一个统一的数据开放平台,是统一梳理部门业务系统和数据,形成统一开放平台,各部门按统一信息开放标准开放数据和功能访问API,实现应需而动的数据和业务整合。统一信息平台不需要整合各部门数据和业务,只要搭建起访问各部门数据和功能的开放API接口,用过通过统一平台,授权、审计数据访问,从而实现信息的流动。国际上从2009年开始出现了数据开放浪潮,美国ClO委员会专门成立了Data.gov网站,重点解决针对信息分散,缺乏整体性问题,英国政府也紧随其后,进行政府数据开放网站建设。

这种趋势也引起了国内相关政府和相关部门的重视,其实现在很多地方和部门“十二五”规划都有数据开放的考虑。数据开放可带来两方面的好处,一是促进数据民主和公众参与,助力政府解决社会难题,推动服务型政府建设。二是有利于促进数据创新应用,充分发掘政府公共数据附加经济价值。

值得注意的是随大数据而来的还有重要的隐私、安全、知识产权和责任问题。随着大数据的价值愈大,个人隐私问题愈严重。另一个更紧迫的问题是数据安全。再就是大数据的经济意义也产生了大量的法律问题,知识产权保护非常重要,因为数据可以与其他数据结合起来轻松地复制、传播和使用。此外,还有与责任相关的问题:当一份不准确的数据导致负面结果时谁应负责。这些问题都是智慧城市建设中不能回避的难题。

机务数据整合平台系统的开发 篇4

1 现有系统存在的问题

(1) 信息化系统大多数由不同公司开发, 而各个公司使用的开发语言、数据库以及环境多有不同, 这使得许多重要数据非常分散。

(2) 现有的行调查询系统 (TMIS) 虽然能够直观地反映车次计划及运行情况, 但是不能直接按照车号查找而且车次车号也没有跟人员挂钩, 虽然可以通过其他系统查询到相关信息, 但是需要来回切换程序使得操作过程繁琐, 大大影响工作效率。

(3) 同种数据由多个系统重复采集, 数据格式、采集结果多有不同, 导致报表的结果不同, 而综合报表多为手工统计, 准确性、及时性都比较差, 无法为技术管理和领导决策提供有力依据。

(4) 段内、车间内机车停留位置数据不能够直观反映机车状态及具体位置, 同样需要通过检修系统和运用系统来确定段内、车间内的机车状态, 无法直接得到段内、车间内机车的实际停放位置。

2 数据整合平台系统的开发

齐齐哈尔机务段为了进一步简化日常工作, 提高管理效率和经济利益, 本着方便用户、服务用户的原则开发了机务数据整合平台系统。系统设计完全符合铁道部《铁路信息化总体规划》, 以全新的设计理念为基础, 结合铁道部、铁路局、机务段的各种规章制度以及 ISO 9000 等质量体系标准的要求, 满足了机务段对信息化建设不断扩展的需求, 通过信息共享, 优化资源配置, 使系统的操作、管理具有规范化、程序化的特点。

2.1 系统构造的基本思路

“机务数据整合平台系统”利用计算机将机车 (运行中的机车和段内车间内停留的机车) 、人员 (出勤的人员和待班的人员) 相互关联, 形成统一的查询管理系统。该系统多数数据来自于机务段其他各个领域内不同信息管理系统, 同时又要采集其他系统需要用到的公共数据并且以统一接口方式将此类数据对外共享。

为了适应不同机务段的信息化情况和基本功能需求, 系统采用模块化、接口化开发, 以行调查询系统数据为基础, 得出运行中机车的分布情况, 并通过车次车号挖掘出“人、车、时”等相关信息, 其中“人”即乘务员, 显示工号、姓名、车间、是否关键人等;“车”即机车, 显示车号、车次、车型最近一次大修、中修和小辅修后走行公里数;“时”即时间, 显示数据发生时间。要能够提供出公共数据的标准数据接口。

采用地理信息系统GIS (Geogrophic Information System) 动态显示机车及人员位置信息。GIS集计算机图形和数据库于一体把地理位置和相关属性有机结合起来, 并根据实际需要将信息准确真实、图文并茂地输出给用户, 为管理者提供直观信息。在系统中车站、铁路以及段厂平面图信息为人工维护或由其他格式文件导入产生, 基本操作都集中在电子地图上, 这样不仅能更直观地展现数据而且能使用户操作更为简单。

机车及人员的跟踪是机务段运用管理最基本的内容和要求, 系统做到了对机车及人员的实时跟踪, 实现了科学管理。

2.2 系统的基本功能及实现

机务数据整合平台信息系统由机车分布、段内调车、地图维护和系统管理4个主要功能模块组成, 其中机车分布包含运行机车分布图和段内机车分布图两个子模块;地图维护包含运行地图编辑和股道台位编辑两个子模块;系统管理包含了部门维护、角色定义、员工维护、本地对照信息和版本维护等子模块。

(1) 运行机车分布图。

以电子地图方式为用户展现了当前运行中的车次地理位置 (齐齐哈尔机务段管辖区) 以及各个车次的属性, 其中包括牵引机车的车号、修后公里、状态修时间, 机车司机的姓名、工号、所属车间、手机号码, 车次预计终着站及终着时间、即将通过各个车站的车次信息等, 以上这些信息用户都可以通过简单的操作获得, 如图1所示。

(2) 段内调车。

本模块主要包括机车出入段操作、机车出入段记录查询CS (Client/Server) 部分、机车调换股道以及标准机统4报表的生成, 如图2所示。

(3) 地图维护。

这部分以维护外部地图以及段厂车间内平面图为主, 主要包括车站的定位 (提供城市位置对照图层) , 铁路线、段厂内股道位置、上水点、上油点及地沟位置的地图维护。

(4) 系统管理。

系统管理负责对系统中的基础数据进行维护管理 (见图3) , 主要包括车站名字及经纬度信息维护、查询区段包含车站信息维护、段属车型车号数据维护、操作人员信息维护、操作人员权限维护以及程序版本的升级等。

2.3 其他辅助部分

其他辅助部分都以独立程序方式存在, 其中包括机车出入段记录查询BS (Browser/Server) 、机车入段语音报警和机车出库提前提示等。BS查询部分是为了满足大量用户需要查询机统4而专门设计的。机车出入段语音报警部分是为了实时提醒整备车间和检修车间回段机车的车号和时间, 以便以上两个部门做好接车准备。机车出库提前提示是为了当机车计划运行时间快要到但是机车还没有出段而设计的, 这有利于提高机车的运用率。

3 系统重点解决的关键技术

3.1 GIS及空间数据库的应用

GIS的核心是管理、计算、分析地理坐标位置信息及相关位置上属性信息的数据库系统, 其空间数据组织模型分为点、线、面、文本等, 属性信息采用外挂数据库实现, 因此采用GIS最大的优势是集成异构数据库, 实现数据的重组。本系统中, 通过TMIS数据及车站经纬度计算取得机车的物理位置 (经纬度) 。如果给所有段属机车加装全球卫星定位系统 (GPS) , 每台机车安装无线传输装置需要资金2.95万元, 齐齐哈尔机务段配属机车303台, 运用机车整合平台系统可节约资金893.85万元。

系统采用GIS平台和空间数据库, 以PowerBuilder作为开发工具, MapInfo作为显示平台, Oracle Spatial作为后台数据库, 由此简化繁琐操作, 提高工作效率。空间数据库允许多用户通过使用版本管理和事务处理访问数据库, 多个用户可以读写同一个、共享的数据库, 所有数据 (矢量, 栅格, 地址, 测量等) 一起存储在商业DBMS中。这就意味着可以有一个完整的数据管理策略, 极大地简化了支持和维护过程, 并减少了费用。

3.2 系统的安全性

系统采用两级用户登录方式和用户权限的管理, 利用Oracle强大的数据备份、输出、导入功能进行维护, 充分利用了Oracle自身的安全策略, 设置为每天自动备份数据库。鉴于本系统数据量不是很大没有采用双机热备方式, 采用了Standby Database方式保证数据库的安全性, 这种方式完全可以满足用户对数据安全性的要求。

3.3 系统的通用性

由于各个机务段的信息化建设水平并不相同, 为了能够使机务数据整合平台更好地应用于铁路机务系统, 系统采用了多接口配置、预留接口等方式满足各个机务段的信息化现状, 实现了资源共享。

4 结束语

机务数据整合平台经过一段时间的使用和完善, 完全达到了预期的目标。 通过实施机务数据整合平台系统, 机务段可以达到人、车集中管理, 在调度科即可掌握段管辖线路内所有机车的运行情况以及段属全部机车的使用情况和整备情况。计划调度员可以根据各地的实际情况编排机车及人员计划, 进一步提高机车的运用率, 合理安排机车乘务员的作息时间, 逐步消除机车乘务员超劳现象。

摘要:针对现有机务段由于信息化系统较多、重要的基础数据非常分散等问题, 开发了机务数据整合平台系统。

数据平台系统 篇5

(1)铁路列车近年来调图频繁,车次急剧增加,并且预售期延长,由调图带来的停站方案、开点变更、编组调整变化较大,导致预测计算量巨大,系统负载较重。

(2)以往的票额预分为预售期外一次预测并预分,预售期内调整完全依据人工调整,不容易及时发现问题,票额调整工作被动,且临近开车期间销售情况难以掌握。

因此,有必要针对参考期内席位售出情况和预售期内余票概貌等情况进行动态监测,研究票额动态预分的方法,并对预测数据、调整依据的计算进行基础架构改造,适应海量数据变化的需要。

1铁路客票大数据平台的研究与实现

随着客运历史数据的累积,以及全国铁路客运规模的快速扩展,全国铁路客票历史数据规模越来越大,数据种类也越来越多,仅仅依靠关系型数据库进行数据的管理和操作,已经不能满足需要。因此,以客运营销数据为基础,结合由客票生产系统产生的实时数据,采用开源分布式数据库构建大数据平台,实现铁路客票大数据平台的研究具有重要意义。

1.1Hadoop分布式并行处理

Hadoop是近年来炙手可热的开源分布式并行处理框架,用户可忽略对底层并行实现的细节高效的构建出并行的分布式程序。Hadoop主要包括2个组件:(1)与GFS类似的分布式文件系统,简称HDFS;(2)并行计算模型MapReduce,由JobTracker、TaskTracker等组件组成。

Hadoop的工作原理是将数据拆成片,并将每个“分片”分配到特定的集群节点上进行分析,每个数据分片都是在独立的集群节点上进行单独处理的,因此非常适合处理大数据量、非结构化数据。Hadoop集群的另一个特点是具有较好的可扩展性,随着数据量的增加,集群的处理能力将会受到影响,可通过添加额外的集群节点有效地扩充集群以解决问题。Hadoop集群的并行处理能力可显著提高计算效率,能达到实时或准实时数据处理的时效性。此外,Hadoop所需软件为开源软件,并能够很好的支持商用硬件从而客运很好的控制成本,此外,Hadoop集群还具有故障容错的优点,当一个数据分片发送到某个节点进行计算时,该数据在集群其他节点上会保留副本,即使一个节点发生故障,该策略也能保证该节点数据的副本数据正常处理。

1.2铁路客票大数据平台数据源

铁路客票大数据平台主要来源于历史数据和实时数据两类。历史数据包括互联网订票数据、运能数据以及售票、退票、废票和改签数据。客票系统实时数据包括实时余票数据、实时存量数据以及取票轨迹数据。其中,实时余票数据从互联网售票的余票查询集群获得,实时存量数据和取票轨迹数据从铁路局中心的客票系统获得。

客票历史数据和客票系统实时数据通过ETL服务,进入铁路总公司营销数据仓库,通过数据建模组成数据集市提供报表、查询应用等服务;同时上述数据也进入Hadoop平台的HDFS,数据提供Hbase和Hive两种访问方式。

在票额预分应用服务层中,由客流预测应用服务器从Hbase中提取预测需要的样本数据,应用MapReduce实现客流预测算法,以实现客流预测结果。

客流预测结果通过铁路总公司客票系统服务器实现往18个铁路局(公司)分发。各铁路局客票系统服务器上部署预测执行子系统,将预测结果与席位实时存量数据结合生成预分方案,对铁路局中心席位库进行预分操作。

2基于客票大数据平台的票额预分系统

各铁路局售票历史数据通过传输软件进入铁路总公司营销系统,实时售票数据通过数据同步技术进入到铁路总公司营销系统,另外,来自于互联网售票查询集群的余票相关数据也进入到营销数据库,多个渠道的数据形成所需分析的数据源,通过Hadoop平台ETL装置进入铁路总公司营销数据仓库,在客流预测子系统中进行预测并且形成预测数据进入票额预分执行子系统,票额预分执行子系统形成预分方案通过传输下发到各铁路局形成预分方案,通过票额预分执行子系统作用于席位库,对生成的初始票额进行预分。在各铁路局通过票额预分优化子系统对预分效果进行实时反馈,形成优化方案供铁路局客运决策者进行调整,实现智能调整流程。

2.1客流预测子系统

客流预测子系统是该系统的核心系统。历史数据是对未来计划预测的重要依据,有效数据量越大、越全面,得到的预测结果也会与实际更为接近。目前,文献中最常见的客流预测方法是外推法,该方法有很多成熟的模型,如指数平滑、ARIMA模型、非线性回归模型、神经网络模型等。Vlahogianni,GoliasandKarlaftis指出神经网络在短期交通预测领域是最有潜力的技术,并且一些文献也归纳了神经网络的优点,如分布自由、全局最优逼近和容错性等,还有一些学者基于神经网络使用定量的方法建立了铁路客运量预测模型,因此,本系统采用神经网络构造预测模型。

2.2票额预分执行子系统

票额预分执行子系统的主要功能包括预分车次定义、预分天数定义、专家参数定义、预分方案审核、预分模板交路维护、预分方案查询及修改、预分结果查询等功能。其核心概念如下:

(1)预测数据。预测数据是通过Hadoop平台的MapReduce并行预测算法计算得出的分车次数据,其存在形式为始发站—终点站(OD)客流矩阵。

(2)预分方案。预分方案是基于预测数据生成的票额分配方案,是结合实际票额情况通过票额分配算法调整而生成的实际票额OD矩阵。

(3)预分模板。预分模板是历史预分方案经过专家经验确定的内置预分方案。铁路局客票管理人员可自定义预分模板。预分模板可通过经验值人工指定,也可以通过“模板复制”功能获取一段时间内的预分数据后,参考得出模板值。预分模板分为精确模板和模糊模板,精确模板与预分方案OD区间一致,设置了每个预分站票额的可售区间,模糊模板是对车站分组并按以远站分块分配票额。

(4)预分方式。由于淡旺季客流的不同,决定了预分方案的不同。一般来说按模板预分管理更加严谨,而按预测预分更贴近客流实际情况。针对各铁路局淡旺季的不同,操作员可通过此功能对预分方式进行定义。操作员可以在此查询到本局所有车次的预分方式定义,并对相关车次的预分方式定义进行追加和删除,并查看相对应的操作日志。

(5)预分车次分组定义。对一些具有相同管理需求的车次,操作员可以将这些车次分成一组进行统一定义,同一组内的车次可一并添加到预分方式定义中。此功能避免可避免客运管理人员对同一类车的重复定义。

预分结果记录在预分结果表中,再回传至票额预分优化子系统。计划预分的数据也可以来源于铁路局客票生产库中的预分模板和模板交路,这样可以得到一个相对稳定的预分方案。

2.3票额预分优化子系统

2.3.1动态票额预分

由于客票系统预售期较长,传统的票额预分方案是基于预售期外1次预测结果生成的,预售期之内不再重新预分,因此,无法适应预售期内偶然事件的影响。从2014年开始,票额预分系统引入了动态票额预分,可在预售期内进行周期性的动态客流预测及多次动态调整,如图6所示。以2014年6月17日为例,这一天预测子系统将产生2014年7月10日始发列车的OD客流预测,同时调整2014年6月30日和2014年6月23日的始发终到预测数据(这两日初始预测数据分别在2014年6月8日和2014年6月1日生成),在票额预分执行子系统中将预分2014年7月6日始发列车的席位,并对2014年6月29日和2014年6月22日始发列车的票额进行重新预分。

票额动态预分是基于客流按周变化的规律较为显著的特点进行的。在预售期为20天时,最多通过3次预分即可达到非常满意效果,但在预售期延长至60天的时候,由于客流变化较大,且高铁、城际列车在开车前一日和当天的预售情况变化非常显著,仅靠预售期之外的动态调整也不能很好的满足预测需求,结合余票快照分析技术实现敏捷票额调整。

2.3.2敏捷票额调整

余票快照分析模块能记录每个时刻余票历史截面的可售能力。由余票快照分析模块取得的余票情况可通过图表观察得知,图表的横坐标为观察日(观察点),纵坐标为对应的观察点的余票快照数据。一条折线表示对应某一下车站的余票变化趋势。余票波动图用于显示在车次、日期、席别、上车站确定的情况下,到各站的可售剩余票数随时间的变化情况。在预售期内距离发车时间3天以外的取数时间间隔为1天,3天以内的时间间隔为1h。

2014年5月12日7:00始发的G101次列车各区间的余票消逝情况,默认为北京南—上海虹桥这一始发终到区间的余票,可得知该区间首次售完在2014年5月11日23:00。说明次日首列始发的京沪高铁动车始发长途票在前一日晚间23:00全部售罄,由于首班高铁旅客一般不会在开车前即买即走,而夜间高铁旅客购票相对较少,相当于既能保证始发长途票在开车前有票可买,又能保证始发长途票及时卖完。因此该结果符合预分的初衷。若开车前始发长途票既未卖完,而沿途区间在开车前一直无票可售,则说明始发长途预留过多,因调配一些到沿途站销售。

3结束语

实际应用中Hadoop集群使用了16台HPDL380的服务器,操作系统是RedHat6.4,每台服务器上安装了JDK1.6和Intel的Hadoop稳定版IDH2.3。16台服务器中,1台机器作为Master节点,剩余机器作为Slave节点。客流预测子系统开发环境采用Eclipse,开发语言使用Java;票额预分执行子系统前台应用采用PowerBuilder开发,与客票核心系统保持一致;预分优化子系统采用.net开发。

通过对京沪、京广等干线经过一段时间的试用及跟踪分析,可看出旅客发送量、客运收入都有5%以上的提升。尤其是在传统的客运淡季,其增收的效果更为明显。

数据平台也是关系平台 篇6

热闹背后,一个值得玩味的事实是,什么撬动了北京奥运会尚不能驱动的全民跑步热潮呢?如果细致分析一下跑步者的行为,也许可以发现其中真正变革的因素——今天的跑步已经从单纯的运动过程,变成了一次社会化内容的创造过程。跑步app、可穿戴设备的大量使用,让跑步过程可以被数据量化;移动互联网和社交媒体平台,让跑者可以随心所欲地发布自己的跑步体验,与其他跑者状态连接在一起,创造新的沟通体验,改变着跑步参与深度。这是一次属于跑步的科技革命,注定会改变体育品牌乃至更多领域的格局。

追溯这场运动体验科技革命的起源,体育用品行业统治者耐克在其中扮演着关键的角色。从Nike+iPod、Nike+系列app,到FuelBand,再到最新的Nike+ RunClub公众账号,Nike+不仅构建了相对完善的运动体验平台,同时也聚集了以千万计数的粉丝圈子群体,这个庞大的数字运动王国,正在成为互联网时代耐克真正的核心发展原动力。

但在竞争激烈的体育用品市场,耐克的领跑者地位并不那么巩固。miCoach就是老对手阿迪达斯正面迎击Nike+的产品,其一上市便以一如既往的严谨专业赢得了口碑。紧随其后,阿迪达斯推出基于miCoach的智能手表系列Smart Run Watch,引入腕部心率传感器,再将专业水平和使用便利性提升了一个等级,以后发先至的策略直指专业运动消费群体。

此外,国内的咕咚、跑步控,国际领域的runtastic、Endomondo Sports Tracker等众多运动品牌,也在寻求着自己在运动数字化时代的解决方案,寻求着自己在运动数字化时代的一席之地。从app开始,到推出专业领域的产品延展(例如运动手表)。“GPS+地图”,这种没有太多技术门槛的跑步app体系反而对用户体验的专注度提出了更高的要求。

Nike+的发展脉络,显示了耐克从曾经的科技创新一枝独秀,到产品同质化过程的“平庸化”趋势。其表明,建立并保持技术门槛的难度越来越高,希望单靠某种概念、技术形成长期优势变得日益困难,甚至可以预言,“一招鲜”在运动数字化时代已经没有机会,而要真正让Nike+获得市场,必须靠专注运动体验本身和聚合圈子双轮驱动。

从曾经消费者对于运动时音乐的需求,到更年轻一代消费者对于可视化数据体验和智能便携设备的广泛应用,Nike+每次的新产品都针对消费者核心需求,并将其做到极致。相对于更专业的产品,其实只需要一个足够打动消费者的产品利益点就解决问题了。

Nike+和追随者的另一个思考则在于这种平台是否有着达成业绩提升的驱动作用。从目前情况来看,与其说是通过运动数字化来促进产品销售,不如说其开创了运动数字化产品,进而改变了人们对于运动体验的方式。

幸运的是,和对手们相比,注册会员超过1800万的线上社区,营收贡献额超过篮球的跑鞋生意,还有无数消费者心中的第一购买选择,让Nike+在这场竞争中至少有一个身位的领先优势。同时,Nike+也已经不知不觉进入了一个更大的竞争领域——互联网。

只是正如前面所说,技术门槛的建立太难,而被填平的速度又足够快,所以不见得有最好、最极致的运动体验,但却可以存在让多数跑者共同分享甚至认同的运动体验。而恰巧移动互联网和社交媒体的圈子效应为其提供了最好的平台,基于大量的自我内容创造与分享,运动生活的数字化分享则成为这一切的核心。因此,也就有了Nike+各类产品上诸多旨在创造分享内容的积极拓展。

借力于引领科技潮流的这段短暂时间,Nike+所积累的不仅仅是关于产品业绩方面的成长,更为重要的是数以千万计的粉丝和不计其数的粉丝圈子,这种“强关系”所构建的壁垒足以让任何革命性科技在短期之内黯然失色。

[编辑 周云成]

电力系统继电保护数据平台分析 篇7

关键词:电力继电保护,数据平台,分析应用,继电保护

电力系统中继电保护的最基本任务是在选择性、灵敏性、可靠性等基础上, 能够实现自动迅速, 有选择的跳开特定的断路器并及时反映电器元件的不正常运行状态。而数据平台的应用有利于提高整个继电保护工作的自动化水平。同时确保了数据的可靠性和安全性。

1 数据平台的组织架构及功能

电力系统中的继电保护数据平台组织架构一般来说可以分为通用数据库、图形数据库、应用管理数据库和专业数据库这四大块的内容, 而专业数据库又可以分为整定计算库、故障计算库等多个分支数据库。具体如图1所示。

它在功能方面具体能体现安全管理工作。数据平台提供了很多的安全措施保障继电保护的畅通运行。同时还具备了一定的可以扩展性。数据平台利用DCOM等一系列技术实现插件升级, 满足扩展需求, 增加终端用户的需求。其中最主要的还有它的数据管理功能, 可以实现编辑和维护通用数据的一体化, 满足数据的查询和修改等。

2 数据平台的总体架构及设计

在以上功能特点的基础上, 文章给出数据平台的总体架构图, 分为物理存储层、数据服务中间层、网路交互层。具体如图2所示。根据工作原理分析知道, 这种架构图支持三种方式的数据访问。具体是不同地区继电保护部门的继电保护数据的访问。

相对于物理存储层来说, 它可以为相关操作人员提供方便快捷的各种数据查询统计, 并同时按照用户意愿返回数据。而数据服务中间层是对于COM的一项技术, 可以实现插件升级, 增加数据平台扩展性。它一般配有数据访问接口组件, 图形管理组件, 通用数据管理组件等。最后一级的网络交互层利用了Internet机构实现了不同地区的继电保护资源的共享和整合。

2.1 ODBC访问接口。

这种规定是以统一的API存取异构数据库信息, 在实际中是以SQL作为标准的数据存取语言, 并实现多个应用和服务器的网络链接。同时任意一个客户的应用可以访问很多个服务器的数据。具体可以与数据库链接, 可以发送SQL, 并且在一定条件之下可以随时终止与数据库的链接等。文章经过实际应用得知, 通过ODBC访问接口可以存取带有ODBC驱动程序的数据源。

2.2 基于该平台的网络化运行设计。

数据平台的使用改变了传统继电保护信号的发送媒介和获取相关信息的途径, 在这中间用户可以共享网络上的任何信息并且利用网络上其他电器元件信息提高继电保护的能力, 把获得被保护元件的数据和信息传送给网络控制中心或者其他终端。

在这个平台中可采用Web技术来处理, 以HTTP标准协议为基础完成浏览器和它的信息传递。其中最大的特点是客户不可直接与数据库联系, 只有被授权的用户才可通过Web服务对数据库进行修改。

结语

继电保护技术中的数据平台应用在维护电力系统正常运行方面有着重要的作用, 确保电力系统的正常运行关系到我国国民经济的建设、人们生活的安定以及社会的可持续发展, 具有重大的意义。随着科学技术的快速发展, 人们对继电保护技术数据平台的研究也在不断拓展, 逐渐向智能化及一体化的方向发展, 在维护电力系统稳定与安全方面发挥出越来越大的作用。

参考文献

[1]陈丽萍.电力系统继电保护故障分析及故障点查找方法探析[J].中国科技信息, 2011 (23) .

[2]李秀琴, 焦彦军, 梁旭.电力系统继电保护通用试验平台设计[J].实验室研究与探索, 2011 (06) .

基于PXI平台的高速数据记录系统 篇8

在航空遥感领域,可见光相机和成像光谱仪等仪器获取的原始数据都是先存储在磁盘等存储介质上,返回地面以后再进行处理的。随着遥感仪器空间分辨率和光谱分辨率的不断提高,产品的应用逐步走向市场化运作,对数据存储容量和存储速度的需求越来越高,对仪器运行的稳定性和可靠性要求也越来越严格。这就意味着我们必须抛弃以往基于台式PC机和IDE硬盘的记录方案,采用符合工业标准的控制器和速度更快的存储介质来研制航空遥感仪器的数据记录系统。

1997年9月,美国国家仪器公司(NI)发布了一种全新的开放性、模块化仪器总线标准PXI(PCIeXtensionsforInstrumentation),它把CompactPCI工业总线标准定义的PCI总线技术发展成适合于测试、测量与数据采集等场合应用的机械、电气和软件规范,将台式PC机的性价比优势与PCI总线面向仪器领域的必要扩展完美地结合了起来[1]。

凌华科技的DAQStreaming正是这样一套基于PXI平台的高速数据撷取与记录系统。有别于传统的利用昂贵的特殊硬件装置来实现高速数据记录的做法,DAQStreaming系统利用先进的软件技术搭配商用的数据采集装置与SCSI存储装置来实现高速数据记录。图1所示是DAQStreaming系统的结构框图。透过精确的DMA控制与直接存取SCSI磁盘的能力,DAQStreaming可以实现40MB/s的实时数据采集与记录。

1 PXI平台简介

PXI是专门为工业数据采集与自动化应用量身定制的模块化仪器平台,具备电气、软件与机械等多方面的专业特性。

在电气特性和软件特性上,PXI总线与PCI总线是完全兼容的。PXI在PCI内核技术上增加了成熟的技术规范和要求,其中包括背板集成的10 M系统参考时钟、用于多板同步的触发总线和用于实现精确定时的星型触发总线以及用于相邻模块间高速通信的局部总线,以满足测试、测量和数据采集用户的需求。图2所示是PXI总线的布局示意图。

PXI规范将Microsoft Windows 95和NT定义为其标准软件框架,并要求所有的仪器模块都必须带有按VISA规范编写的WIN32设备驱动程序,使PXI成为一种系统级规范,保证了系统的易于集成与使用。

PXI总线对CompactPCI总线保持了完全的后向兼容。在DAQStreaming系统中使用的数据输入卡cPCI—7300和SCSI控制器cPCI—8212就是两块标准的CompactPCI板卡。PXI在CompactPCI机械规范中增加了有关环境测试、电磁兼容性测试和主动冷却的要求,以保证多厂商产品之间的互操作性和系统的易集成性。PXI规范在抗震性、工作温度、环境温度等方面也都有着详细而又严格的定义,以保证在各种苛刻的环境中均能正常工作[2]。

PXI 系统由三个基本部分组成:机箱(chassis)、系统控制器(controller)和外设模块(peripheral module)。机箱为系统提供了坚固的模块封装结构。按照PXI硬件规范的定义,所有的机箱都包含一个位于机箱最左端插槽(插槽1)的系统控制器,可选的控制器有标准桌面PC 的远程控制器,也有包含微软操作系统(如Windows2000/XP)或实时操作系统(如LabVIEW RT)的高性能嵌入式控制器。功能部件的模块化PXI系统的一大特色。所有的功能模块,包括系统控制器在内,都以硬件插卡的形式存在,极大地增加了系统设计的灵活性,同时也降低了系统维护和升级的难度和费用。

2 数据输入设备

数据输入设备的任务就是将遥感仪器采集的数据通过控制器的外部总线送入到内存当中。目前常见的可用于高速数据输入的外部总线主要有USB总线和PCI总线两种。

USB(Universal Serial Bus)总线是目前非常流行的一种总线,以支持热插拔(Hot Plug)和即插即用(Plug and Play)而著称。USB接口早已成为PC机的标准配置。USB总线向外设提供电源,最多可以同时支持多达127个设备。在最新的USB2.0标准中,数据传输速率高达60 MB/s,可以满足目前绝大部分数据采集记录系统对带宽的要求[3]。

PCI(Peripheral Component Interconnect)总线是目前PC机中最快的外部总线之一,系统时钟33 MHz,数据宽度32 bit,峰值传输速率高达132 MB/s,在实际使用中能达到的连续传输速率也有60~80 MB/s。同时PCI总线也是一种非常重要的外部总线,以太网卡、SCSI控制器以及很多商业的数据采集/输入法卡都是通过PCI总线与PC机进行通信的。

在DAQStreaming系统中使用的数据输入设备是cPCI-7300(以下简称7300)卡,它是凌华科技于1998年推出的一块基于PCI总线,具有32个数字通道的超高速数字输入输出卡,其最高传输数率为80 MB/s。32个数字通道被分成两个A、B两个端口,I/O方向均是可配置的,片上有64 k大小的FIFO用作数据缓存,外接100针的SCSI-II型电缆,采用总线主控的“分散-集中”式DMA数据传输技术[4]。

3 数据记录设备

数据记录设备是数据记录系统的一个重要组成部分,而且往往也是限制整个系统速度提高的“瓶颈”所在。近年来传输总线技术取得了飞速的发展,如Ultra320 SCSI总线标准的传输速率为320 MB/s,最新的PCI Express总线标准已经可以达到8 GB/s,相比之下数据记录设备的发展就显得太缓慢了。

航空遥感系统的数据记录设备主要有磁带和磁盘两种。随着磁盘技术的不断发展,磁带这种顺序存取的记录设备早已被淘汰,不再用于数据记录,而仅用于数据备份。作为记录设备,其核心指标就是速度和容量,而这些都不仅仅取决于磁盘本身,还取决于磁盘所采用的接口类型。目前市场上的磁盘主要采用PATA、SATA、SCSI和光纤通道这四种接口。

3.1 PATA

PATA(Parallel Advanced Technology Attachment)即通常所说的ATA/IDE总线(在SATA标准出现后更名为PATA),是一种并行传输的总线,其最高版本ATA-7(Ultra-ATA/133)的数据传输速率为133 MB/s。自20世纪80年代问世以来,PATA标准在不断提升性能的同时始终保持着后向兼容和尽可能低的价格,因此PATA接口一直都在台式PC机和笔记本电脑的磁盘接口中占据着统治地位。由于PATA的总线控制器是作为标准配置集成在PC机的主板上,磁盘安装变得非常简单,但一个接口最多只能连接4块磁盘(ATA-2)。

3.2 SATA

随着串行传输技术在Ethernet、USB和FireWire等总线上的成功运用,PATA总线标准在ATA-7版本之后便不再继续更新,取而代之的是SATA(Serial ATA)。SATA除了可以提供更高的数据传输速率(300 MB/s,SATA 2.0)之外,还解决了PATA因电缆太宽(80针)而影响空气流通,进而影响散热和并行传输固有的信号完整性差等问题,并且开始支持热插拔[5]。SATA是一种点对点的连接技术,即每根电缆只连接一块硬盘,因此总线控制器可以独立地同每一块磁盘以进行通信。以有4个SATA接口的系统为例,其SATA总线的最大带宽将是300 MB/s乘以4,即1.2 GB/s。在前三种磁盘当中,SATA磁盘的单块容量最大(400 GB),而价格却是最便宜的(MYM 0.45/GB,2007年3月)。

3.3 SCSI

SCSI(Small Computer System Interface,小型计算机系统接口)是一种广泛应用于小型机上的高速数据传输技术,可用于连接快速以太网、SCSI磁盘和打印机等设备。SCSI接口具有多任务、高带宽、CPU占用率低以及支持热插拔等优点,但由于价格较高,主要应用于中高端服务器和高档工作站中,因此目前在PC机的主板上并没有集成SCSI总线控制器,必须通过基于PCI总线的SCSI控制器来访问SCSI磁盘,因此SCSI接口的性能实际上要受到PCI总线带宽的限制。

3.4 光纤通道

光纤通道(Fibre Channel)是一种点对点的双向串行总线,以光纤作为传输介质的话,可以提供超过400 MB/s的带宽和长达10 km的连接距离,它是为在像服务器这样的多硬盘系统而设计的,能满足高端工作站、海量存储子网络、交换机等系统对海量存储和高速传输的需求,价格自然也非常昂贵,目前还没有必要引入到航空遥感系统领域。

表1对前三种接口的性能作了一个简单的比较,而表2则以世界著名的硬盘生产厂商希捷公司的产品为例,列出了采用相应接口的磁盘的一些性能指标[6]。从这两个表中我们可以看到:就单块磁盘而言,三种接口的传输速率对磁盘内部的传输速率(Sustained transfer rate,缩写为STR,是指磁头把数据写入盘片,或从盘片读出的稳定速率)来说都具有足够的裕量,速度的瓶颈在磁盘内部;还有一点就是SCSI磁盘仍是目前速度最快的磁盘。

在DAQStreaming系统中使用的SCSI控制器是凌华公司的cPCI—8212卡,它遵从Wide Ultra—2 SCSI 协议,最大传输速率为80 MB/s,使用低压差分信号传输技术,电缆最长可达12 m,最多可以同时连接15块磁盘[7]。调节器方案,减小异步电机转矩脉动,提高系统性能。仿真结果证实,该方案合理有效,性能比较令人满意,响应速度快,超调小,可以为以后更深入研究提供参考。

摘要:以凌华科技的DAQStreaming系统为例,详细地论述了PXI平台在航空遥感数据记录系统中的应用前景。通过对系统体系结构的深入分析,指出了限制系统记录速度提高的瓶颈所在,结合最新发展的PCIExpress总线技术和SATA硬盘存储技术,提出了一套基于PXIe平台和SATA磁盘阵列的高速数据记录方案,实现了记录速度的成倍提高。

关键词:PXI,SCSI,SATA,PCI,Express

参考文献

[1]郭思全,卢君明,杨莉,等.PXI总线体系结构.国外电子测量技术,1998;(3):28—30

[2]胡培新.PXI总线技术在成像光谱遥感系统中的应用.红外,2002;(11):23—30

[3]王跃明.可见近红外、短波红外、中红外(Vis&NIR/SWIR/MWIR)三波段推帚相机数据采集与预处理研究.上海:中国科学院上海技术物理研究所,2003

[4]凌华科技.cPCI-7300&PCI-7300A User’s Guide.http://www.adlinktech.com/PD/marketing/Manual/cPCI-7300/cPCI-7300-Man-ual-2.PDF,2002-07-16

[5]美国惠普公司.Serial ATA Technology Brief.http://h20000.www2.hp.com/bc/docs/support/SupportManual/c00301688/c00301688.pdf,2005-03-05

[6]陈伯宁.微算机系统—第八章.http://shannon.cm.nctu.edu.tw/micro/chap8.pdf,2004-10-11

[7]凌华科技.cPCI-8210/8211/8212User’s Guide.http://www.adlinktech.com/PD/marketing/Manual/cPCI-8212[R]/cPCI-8212[R]-Manual-1.pdf,2000-04-27

[8]倪浩然.高速实时数据记录应用的软件解决方案.MM现代制造,2003;(22):50—51

[9]英特尔.PCI Express Ethernet Networking.http://www.intel.com/network/connectivity/products/whitepapers/mesh-pcie-whitepaper.pdf,2005-08-19

[10]美国国家仪器公司.NI PXIe-8103User Manual.http://www.ni.com/pdf/manuals/371679a.pdf,2006-03-03

数据平台系统 篇9

为了解决以上问题,之前也进行了一系列研究,希望寻需求一种能够解决以上所有问题的单一解决方案,但答案是否定的。 目前, 虽然系统之间的数据共享在数据交换层面解决了信息孤岛问题,但对于患者来说,在医院所产生的各种数据还是分散存在于门诊、住院、LIS、PACS、体检等系统中。 虽然电子病历系统整合了患者在院就诊的大部分数据, 但若想全面了解患者就诊的各种信息,还需分别通过不同系统来查询。 对医院各级管理者来讲,要想了解全面的医院运营信息,也要通过综合不同系统的信息来完成。 信息孤岛的问题还没有得到真正的解决。

现在市场上针对部门级系统的互联及协同工作有许多不同的解决方案,互联协同工作是从供应商的角度来看问题。 从信息科主任的角度看, 仅仅通过系统互联消除信息孤岛是远远不够的。 理想的方案是在不同应用系统之间,根据需要进行数据传递的同时,在整个医院(甚至更大范围,如分布在不同地理位置的多个院区或区域医疗集团)进行信息共享。 这样可以在一次数据传输的同时完成全部有价值数据的采集和抽取, 便于下一步进行数据深层次的挖掘及利用。 但目前的大多数互联或协同工作方案还无法满足这个层次上的信息共享需求。 鉴于此,也进行了大量的市场调研, 最终发现联众的数据集成平台, 并与之合作。

2联众数据集成平台的方法和技术

2.1集成平台构成

该平台由一个基础支撑平台以及在此之上提供的一系列加速器、适配器、基础服务组成;接入平台的系统符合现有的技术标准(MLLP、Web Services等),平台之上传输的信息符合HL7标准并兼容IHE相关标准。 其主要的功能组件如下:

基础支撑平台(ESB):为信息集成平台提供基础的运行支撑平台,提供服务定义、服务发布、服务注册、服务发现、服务绑定、 服务协作、事务协调、服务质量管理等主要功能。

HL7 Accelerator:HL7加速器 , 该加速器负责将各个系统发往信息集成平台的数据格式化为HL7标准, 并根据需要转化为特定的 目标格式 ; 并提供消 息的路由 功能 , 可以根据HL7 Message的MSH标识将消息路由到目标系统 。

Process Manager: 流程服务 , 现有应用程序与更新的应用程序相集成,以便它们透明地协同工作,实现在业务逻辑层支持业务流程集成、业务流程再造、业务流程自动化和业务协同。

适配器: 提供了一系列的接入适配器, 主要包括MLLP、 Web Services、MQ、MSMQ、Socket、SMTP、FTP等接入方式 ,以满足不同厂商的产品快速接入到信息集成平台。

2.2平台遵循标准

联众医院信息集成平台采用了业界公认的相关标准, 方便第三方应用以标准方式接入,主要分为以下两类:

2.2.1技术标准

该平台的技术标准主要采用了MLLP标准, 同时由适配器提供对Web Services、MQ、MSMQ、Socket、SMTP、FTP等标准的 支持。 MLLP(Minimal Lower Layer Protocol,MLLP)是由HL7标准化组织提出的一个通讯标准,该标准是在TCP / IP协议之上的一个符合医疗信息传输需要的通讯标准。

2.2.2数据标准

该平台的数据标准主要采用了HL7 v2.3.1标准, 同时兼容IHE标准 ,由于HL7并没有对信息域部分进行定义 ,因此数据域部分大量采用了国标(GB系列)。 HL7(Health Level Seven)是由美国ANSI组织批准实施的医疗卫生标准,该标准参考了国际标准组织(ISO),采用开放式系统互联(OSI)的通讯模式,将HL7纳为最高的一层,也就是应用层。自其2.1版正式颁布以来,在医疗卫生机构,特别是医院的影响力日益广泛,目前在全球HL7标准已有很多厂商及医院支持与使用。 中国也于2000年初建立了HL7中国协作中心 。

3数据集成平台的效果

全面的优化和整合医院内部的资源以及医院外部全社会的信息资源;为医院临床,管理服务,运用所有的信息资源为患者提供先进的,便捷的,人性化的医疗服务; 同时建立全院科研教学的信息平台和数据仓库;以提高医院服务水平,技术水平及管理水平,提高医院的整体经营效益。

建成后的质量监测平台应用上能涵盖医院内部客户资源、 资金资源、物流资源、医疗信息资源、人力资源的管理以及与外部资源的整合和优化,统计分析医院精细到个人的工作量、业务数据等,使医院各个科室、部门以及病人可以在各自的权限内取得需要的信息或输出必要的信息,实现信息实时交流,同时通过对大数据的挖掘钻取,提升整体的医疗科研分析能力,从而实现全面的数字化管理,促进医院两个效益的全面提高。

4建设体会

数据中心应用系统开发基础平台研究 篇10

(一) 技术架构不统一

随着人民银行重庆营管部各业务处室系统开发需求增多, 近年来科技部门开发的系统数量和规模不断增加。由于开发人员有限, 各系统均为单人独自开发完成, 未能采用统一的技术标准, 导致系统维护难度加大。

(二) 软件复用性不高

由于技术架构和开发平台不同, 大部分的开发内容均涉及各个基础性模块, 包括用户认证、权限分配、数据库访问等, 重复编码量大, 代码复用率不高, 系统开发率低, 特别在一些中小型系统开发中, 在上述基础功能开发上耗时甚至比其业务功能开发的时间还长。

二、成功搭建基础开发平台

(一) 遵循规范, 搭建平台

根据人民银行总行软件开发规范, 人行重庆营管部确定以J2EE架构为基础的开发路线, 并在遵循规范的原则上初步搭建完成通用的应用系统开发基础平台 (以下简称“基础平台”) , 为系统开发奠定了基础工作, 如图1所示。

(二) 整合框架, 完善功能

开发基础平台以组件技术为支撑, 整合了Spring, Struts2, ibatis, ext JS, dwr等应用框架, 涵盖了应用系统开发所涉及的大多数技术范畴。对用户认证、权限管理、数据库访问、静态页面布局、动态数据展示等基础功能进行进一步封装和抽象, 提供一个可高度重用的应用框架。通过该平台, 开发人员能够立即开展核心业务流程的编写, 缩短了开发工期, 保证了开发质量。

(三) 降低耦合, 方便扩展

开发基础平台是一个轻量级的J2EE集成框架, 通过控制反转和依赖注入的设计模式, 将程序的控制权从对象转移到外部容器中, 组件之间的依赖关系由容器在运行期决定, 这样就极大地提高了组件的复用性, 解决了计算机程序的耦合问题。

三、开发基础平台实践成果

(一) 统一框架、降低成本

基础平台的运用既提高了内部开发系统的标准化程度, 降低了系统整合的难度, 还为建设具有地方特色的省级数据中心提供了有力的工具。同时, 在基础平台的统一架构下, 开发人员遵循统一开发标准, 应用程序功能、界面风格一致, 用户体验反映良好。从应用程序开发效率来看, 自2009年搭建基础平台以来, 基础平台在系统开发效率提升方面作用愈加明显。

(二) 强化标准, 提升复用

在总行软件开发规范的统一指导下, 重庆营管部采用基础平台应用框架, 实现了多个应用系统的开发工作。主要项目成果包括会计核算数据分析监测系统、反洗钱风险名单管理系统、账户非现场监管数据处理系统、人事基本信息管理系统。

(三) 锻炼队伍, 推进整合

上一篇:火电厂废水下一篇:相亲类节目