自动化运维系统

2024-08-06

自动化运维系统(精选十篇)

自动化运维系统 篇1

关键词:金融科技,金融网络,自动化运维,TR069协议

一、行业背景

近年来, 随着商业银行业务的不断发展, 以及下设机构的迅速扩充, 支撑业务运行的基础网络设施也在急剧增加, 这就使得网络运维人员日常运维管理的工作量和难度也越来越大。

伴随着银行自助渠道迅速发展, 离行ATM和自助银行的数量不断增加, 导致网络设备的总量在持续增加, 其中, 3G等无线接入技术逐渐在金融领域得到广泛应用, 离行自助网点采用3G无线接入设备的比例也在逐渐增大。面对无人值守网点迅速增加的局面, 在网络设施的运行维护管理过程中, 业界普遍采用传统的网管工具、脚本工具、人工telnet等方式, 这些方式正面临巨大挑战。

银行网点的扩张使基础设施保障网络设备的数量也随之增加, 网络设备的安装施工和业务开通, 需要银行、厂商和施工方协同工作, 费时费力, 尤其在离行自助设备的部署上更是存在点多、分散、须多方协商的问题, 导致业务开通缓慢。银行网点新增业务时, 需要对在用网点设备配置进行更新, 由于同业之间激烈竞争, 业务需要快速部署, 这就要求在短时间内对大量网点做配置调整。虽然单台设备的调整并不大, 但由于网点众多, 大量设备带来重复性工作量却非常巨大。为满足某些业务需求, 有时需要对网络设备进行软件版本升级, 出于安全考虑, 软件版本升级一般现场完成, 如果需要对网点网络设备进行软件版本升级, 工作量将会是相当巨大, 费时费力。如果采用远程升级方式, 风险较大, 可能会对业务造成影响, 传统的网络管理维护工具无法解决以上问题。此外, 传统的网络维护工具无法对设备的版本和配置合规性进行检查。在银行网络运维过程中, 亟须寻找一个高效实用的工具来解决这些问题。因此, 网络自动化运维系统应运而生。

二、系统概述

(一) TR069协议简介

TR069协议是一种用户终端设备广域网管理协议, 它为网络设备进行管理配置提供了通用框架、消息规范、管理方法和数据模型。它是一个基于IP层之上的应用层协议, 这使得该协议适应性很广, 对接入方式没有限制, 基于ADSL、以太网、无源光网络等接入方式的用户终端设备均可使用此协议。它实现了对用户设备的自动配置和动态的业务配置;对用户设备的软件、硬件的管理;对用户设备的状态和性能进行监测;对通信故障进行诊断。它采用了成熟的通信协议、开放的面向对象的管理信息架构, 具有强大的灵活性和可扩充性能力, 可以满足各类远端用户的设备管理和配置需求。该协议得到了大部分厂商的支持, 它的出现最初是为解决运营商终端设备安装、后期运行中的业务配置变更、诊断故障等问题, 现已应用于各个领域。

(二) 网络自动化运维系统概述

网络自动化运维系统使用标准TR069协议技术, 能够很好地解决银行网络日常运维过程中遇到的传统网络管理工具无法解决的问题。相对于传统网管侧重于监控的目的, 网络自动化运维系统旨在解决用户在网络运行维护的日常问题, 如新设备零配置上线、IOS升级、配置合规性检查等, 它可以提高运维人员的工作效率和准确率, 降低日常运维成本;相对于基于SNMP技术的运维管理, 由于SNMP要实现IOS升级、配置管理等, 都要使用私有定义MIB, 且各厂家定义的相关MIB不可能一样, 导致使用该技术的运维管理软件很难做到对其他厂商设备的支持, 无法适应大规模设备运维管理;相对于基本shell的脚本运维管理工具, 由于各厂家shell实现上存在差别, 导致客户在运行维护过程中, 需要针对不同厂家设备编写不同的角本, 维护工作量巨大, 也无法做到大规模设备运维管理。基于TR069协议技术的网络自动化运维系统则能很好地解决这些问题。

网络自动化运维系统通过TR069协议与远程网络设备进行交互, 并对设备进行运维管理。其主要工作过程如图1所示。

首先, 网点网络设备事先不需要进行任何配置, 设备通过短信 (适用于无线路由器) 、USB方式 (适用于有线路由器) 读取设备初始化配置, 进行启动并自动连接服务器;网点网络设备连接服务器后, 服务器将向下推送完整的网点配置, 网点配置推送完成后, 设备能够正常运行, 完成网点设备的零配置上线。设备在服务器上注册成功后, 管理员可通过网络自动化运维系统, 远程向网络设备发送版本更新文件、配置更新文件, 完成合规性检查等操作。

三、系统功能介绍

(一) 新设备零配置上线

随着金融业务的扩展, 网络设备不停增加, 如何解决新设备的快速上线, 是当前网络运维的重点问题。网络自动化运维系统提供短信零配置上线、USB零配置上线功能, 可解决网点扩充或大批量网络设备更新过程中的新设备上线问题, 降低新设备上线技术难度, 使非网络技术人员也可进行设备上线工作, 提高网络设备上线效率, 节约人力投入。

运维管理人员可以通过登录网络自动化运维系统, 设置网点设备的配置模板和分组, 实现对单点3G接入网点设备或者批量3G接入网点设备通过短信发送初始配置激活, 并连接到中心平台自动获取所有配置实现业务开通。

对于非3G接入网点设备上线, 系统会自动关联网点工作人员邮箱并发送初始配置, 网点工作人员将初始配置拷贝入U盘后, 将其插入网点设备USB口并启动设备, 网点设备通过U盘内的初始配置连接到中心平台, 自动获取完整配置, 实现业务开通。

(二) 远程配置批量更新和配置管理

该系统能实现批量远程配置升级功能。当网点设备由于某种原因需要批量升级配置时, 该功能可减少逐台设备进行升级的重复工作量, 大大提高工作人员的效率以及减少对业务可能存在的影响。系统提供对系统中所有注册设备进行周期性的配置文件备份到服务器的功能, 网点设备在某种情况下配置异常丢失时, 可以方便从服务器上的历史配置文件中进行恢复, 同时也提供对网点设备配置非法修改的告警功能。

完成设备配置升级后, 如果出现由于升级导致网点设备无法连接到系统服务器后, 在经过多次重试后仍无法连接到服务器后, 网点设备会自动回滚至之前运行的配置。该系统保证网点业务能够尽快恢复到正常状态, 缩短升级出现故障的时间, 同时避免在升级失败时, 升级人员必须赶往现场进行处理的状况。

配置管理提供了对所有设备的当前配置、历史配置的管理功能。设备的所有配置文件, 用户都可以在此进行查看、比较;设备每一次配置升级后的历史配置都会被保存在这里, 用户可以选择恢复设备的配置至某一个时间点, 也可以选择恢复至某一具体的历史配置。此外, 该系统提供一个完备的配置管理机制, 能够对网点设备的当前配置和历史配置进行管理, 同时通过自动化手段实现在网运行设备配置的合规性检查。

(三) 远程设备版本自动化升级和版本管理

升级版本提供对设备进行批量远程IOS版本升级功能。当各网点设备由于某种原因需要批量升级IOS版本时, 该功能可减少逐台设备进行现场升级的重复工作量, 大大提高工作人员升级的效率和减少对业务可能存在的影响。

当设备IOS升级时, 如果出现IOS升级错误 (写文件失败、加载IOS失败) , 导致设备无法连接至运维系统服务器时, 在经过多次重试连接仍然失败后, 设备将自动进行IOS回滚操作, 回滚到之前正常运行版本。保证网点业务能够尽快恢复到正常状态, 缩短升级出现故障的时间, 避免在升级失败时技术人员必须赶往现场处理情况发生。

版本升级可以设置升级任务的启动时间、并发度参数, 并能够查看各设备IOS升级进度和结果。此外, 该系统提供一个完备的版本管理机制, 能够对网点设备的当前版本和历史版本进行管理, 同时通过自动化手段实现在网运行设备版本的合规检查。

(四) 远程版本和配置文件合规性检查

运维管理人员可以通过登录网络自动化运维系统, 定义版本文件、配置文件需要符合的检查规则, 实现对全网所有设备版本、配置文件合规性进行检查, 对不合规的设备版本、配置文件进行报警提示。督促相关人员进行修改, 解决可能存在的安全隐患。

四、结束语

网络自动化运维系统实现了对金融网络众多且分散的末端节点网络设备的远程自动化安装、配置及升级等工作, 使网络维护人员不再需要通过现场工作, 即可实现设备初始化安装、版本升级和设备的批量配置, 大大减少了网络运维人员的工作量, 降低日常版本投产工作对网络及业务的影响, 提升科技部门的运维效率和配置标准化, 大大降低了网络运维成本。

参考文献

[1]邓霄.博迈普打造金融网络自动化运维系统[J].中国金融电脑, 2013 (3) :90.

自动化运维项目总结报告 篇2

总结报告

一、项目背景

随着信息时代的持续发展,IT运维已经成为IT服务内涵中重要的组成部分。面对越来越多复杂的业务、多样化的用户需求,不断扩展的IT应用需要越来越合理的模式来保障IT服务能灵活便捷、安全稳定地持续保障,从初期的几台服务器发展到庞大的数据中心,单靠人工已无法满足在技术、业务、管理等方面的需求,那么标准化、自动化、架构优化、过程优化等降低IT服务成本的因素越来越被广大行业客户重视。

二、自动化运维研发阶段性

经过对市场背景的分析,在公司高层资源的支持下,2016年7月完成项目立项及成立研发项目团队,12月已完成初步框架认定工作,在对市场需求、业务环境调研过程中,认为自动化运维需满足架构独立、部署友好、可运维性、容错容灾、质量监控、性能成本、用户体验等特点。项目组经过半年的研发努力,项目研发有了阶段性的突破成果。

2.1 架构独立

任何架构的产生都是为了满足特定的业务诉求,如果我们在满足业务需求的同时,能够兼顾运维对架构管理的非功能性要求。那么我们有理由认为这样的架构是对运维友好的。站在运维的角度,所诉求的架构独立包含四个方面:独立部署、独立测试、组件规范、技术解耦等。

2.2 部署友好

希望从端到端打通开发、测试、运维的所有技术环节,以实现快速部署和交付价值的目标。实现高效可靠的部署能力,要做好全局规划,要保证部署以及运营阶段的全方位运维掌控,从以上要求分析,有五个维度是对部署友好相关的:CMDB配置、环境配置、依赖管理、部署方式、发布自测等。

2.3 可运维性

运维从脑海中是最理想的服务架构,首先想到的事可运维性强的那种类型。不具可运维的应用或架构,对运维团队带来的不仅仅是难题,还有阻止运维人员职业发展前进堵绊脚石,因为维护一个没有可运维性的架构,简直就是在浪费运维人员的时间。因为可运维性按操作和管理规范应归纳为以下几点:配置管理、版本管理、标准操作、进程管理、空间管理、日志管理、集中管控等。

2.4 容错容灾

运维的四大职责:质量、效率、成本、安全。安全是一个运维团队首要保障的,运维人员立项的高可用架构设计应该包含以下几点:负载均衡、可调度性、本地双活、主从切换、柔性扩展等。

2.5 质量监控

保证和提高业务质量是自动化运维研发的目标,而监控能力是我们实现目标的重要技术手段。为质量监控提供便利和数据支持,需实现以下几点:指标度量、基础监控、组件监控、业务监控、链路监控、质量评估、数据库监控等;

2.6 性能成本

成本问题,也就是技术ROI(投入产出比)的问题。当系统规模和体量变大之后,掌控在运维手中的各类资源,将占整个研发团队支出的大头。如果没有很好的成本控制意识和策略,资源体量将会持续增大,甚至是翻倍或指数级的增长,对于公司成本会是非常大的负担和压力。

运维工作者需要考虑到服务器CPU资源利用率的提升(引申出来各种虚拟化、容器或云资源的使用)、IDC&CDN流量带宽使用的管控,还有人力的投入和成本的管控。如何使得系统能够更高效地被充分利用起来,如何能够最大限度的减少成本支出,是我们必须要去考虑的问题。

2.7 用户体验

这里提到的体验,指的是终端用户的访问体验。对于非功能或非产品的使用体验,运维最需要关注的是访问速度。开发团队可能更多的注意力会放在自己负责的代码以及该部分的性能问题,不会关注到端到端全流程的性能和体验。而运维可以站在全局的角度来审视和治理整个端到端的全链路性能情况,并给出对应的性能优化建议

三、项目总结

3.1 项目研发经费 3.2 研发工作总结

在研发运维自动化项目,遇到了很多问题和经验,要实现运维价值最大化,就要确保业务质量、效率、成本的全面提高,业务架构是不得不面临的问题,能站在不同角度对业务架构提出建议和需求,才能持续优化出最好的架构,在研发过程中一定要着重注意以下两点: 1)一定要标准先行,做到技术的标准化。这包括资源标准化、OS的 基础配置标准化、基础软件(如Tomcat、JVM)配置标准化、应用配置标准化、流程规范标准化等等。做到了标准化,消除了各种差异,才能为后续的自动化开发铺平道路。

2)在技术建设上,我想按照顺序来一个渐进的过程应该是:CMDB、应用配置管理和持续集成&发布。CMDB:这运维自动化的基石,重要性不言而喻。有特别要说明的一点,否则外界容易对CMDB产生错误的认识:CMDB不仅仅是硬件和资源的信息记录,更重要是要建立起应用与资源之间对应关系。建立了这个关联关系,以此为基础,配套着应用配置管理、监控、发布、稳定性等系统的建设,才能最终形成体系化的运维平台,这样的平台才有力量和生命力,否则只是碎片化的运维模式

3.3 取得的成效

通过部署和实施自动化平台,实现对资产信息和配置发现、操作系统安装、补丁管理、应用程序分发、日常巡检、脚本执行等各种报表运维自动化,在这基础之上,可以帮助运维人员更深入的了解配置信息,真正实时的服,快速部署及配置操作系统集和软件应用。 提高运维效率

通过实现日常运维任务的自动化,缩短操作时间,减少操作失误,使得运维人员从简单的任务中解放出来,进行规则制定、任务设计、系统优化等有价值的工作  有效支撑业务

通过自动化平台可进行并发,批量的安装与变更操作,变更后验证等,可有效保证变更质量,缩短业务上线时间  保证系统合规

通过自动化平台进行短周期,高频率的自动巡检,出具巡检报告,自动修补违规项,使得我部已有的安全,配置规范能够有效实施,切实保障安全生产。 减少管理风险

根据最佳实践流程执行所有更改,以确保和内部政策和外部法规的合法性。高效的变更管理可提供所有变更的详细核查痕迹,指明每个变更的授权人、授权时间、执行人和执行时间。大大减少花在实现和证明监管合规性上的时间和人力消耗。

四、IT自动化运维的展望

(1)建立自动化运维管理平台

IT运维自动化首先要建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控,通过自动监控管理平台实现故障或问题综合处理、集中管理及自动运行维护,以完成对系统补丁的同步分发域升级、数据备份、病毒查杀等工作

(2)建立故障事件自动触发流程,提高故障处理效率 IT设备在遇到问题时要回自动报警,无论是系统自动报警还是使用人员报的故障,应以红色标识显示在运维大屏幕上。然后IT运维人员只需按照流程,一步一步操作就可以完成告警的处理。

(3)建立规范的事件跟踪流程,强化运维执行力度 建立每种时间的规划化处理和跟踪指南,可以减少IT运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自主服务台、电话服务台灯随时追踪该故障请求的处理状态。

(4)建立统一运维自动化

自动化运维系统 篇3

1、综述

随着变电站监控技术的发展,采用集中式RTU配合单一功能微机(或集成电路)保护构成的无人值守监控模式(因为这种模式多应用于老站改造,所以业内对此模式也简称为老站改造模式)逐渐被具有分散分布式结构,大量采用保护测控一体化的间隔层设备等特点的变电站综合自动化系统所取代。传统模式下,集中式RTU采集的保护动作信号也大部分采用硬接点方式采集信号,因为保护设备接点输出数量有限,所以远动采集的信号也较少(比如一台线路保护,硬接点输出信号可能只有一个保护动作,不可能距离I段、II段等都输出信号)。现阶段的综合自动化模式,保护动作信号(甚至包括开关位置和设备告警等信号)都可以通过网络通讯采集,保护装置可以提供的信号数量相比以往要全的多,自然全站信号总量也大的多。对担负变电站综合自动化维护任务的电力系统远动(自动化)专业人员而言,现阶段变电站综合自动化系统大量采用通讯采集信号的方式同以往的硬接点采集方式对日常工作带来的最大的变化和困难就是维护工作越来越依赖厂家。一旦出现误发信号等故障,在没有厂家协助的情况下,故障原因往往很难查找。虽然,单纯从技术角度出发,现阶段综自通讯技术已经是较为成熟的。但因为现场情况千变万化,加之影响通讯可靠性的因素也有很多。实事求是的讲,在工作当中,误发或漏发信号的情况还是时有发生的。通讯可靠性不高,缺乏简便有效的查找故障方法和手段,现阶段已成为困扰广大远动技术人员的一个普遍现象。现结合近几年来综合自动化系统运行维护工作的实践,从工作维护角度谈几点看法。

2、关于综自系统整体配置方面

2.1重要保护设备的保护动作等重要信号应适当保留硬接点采集方式

现阶段综合自动化系统的一大特点就是保护信号大量采用网络通讯方式采集。但是考虑到通讯可靠性及查找故障方便与否这两个方面。建议对一些重要的保护信号采用串口通讯和硬接点采集并存的信号采集方式。对10KV或35KV出线采用保护测控一体设备,包括保护动作和开关位置等信号都采用通讯采集方式;对110KV及以上线路保护、35kv变电站进线保护和主变母差等重要元件保护除了串口通讯外,还应增设独立的信号采集单元通过硬接点方式采集部分重要信号。这样做,从技术上讲似乎有些落后,跟不上技术发展潮流,但在实际工作中,这种采集方式还是很有用的。两种方式并存,是为了互为备用、互为校验、便于区分、便于维护。比如保护通讯接口芯片损坏,但现场又没有条件马上退出保护,有硬接点信号作为备用,就可以继续运行。同样,如果通讯上送了某个保护动作信号,也可以根据相应的硬接点信号动作与否,来判断该动作信号是真实有效的还是通讯误发。

2.2无人值守的综自变电站当地也应设置当地监控微机

大家对无人值守变电站是否还要设置当地监控微机有一种看法就是当地微机监控原来是取代传统光字牌等中央信号检测系统后给变电站值班运行人员用的。现在实现无人值守的也就没有必要再在当地设置监控微机了。但是随着变电站综合自动化技术的发展,设置当地监控微机的作用已不是原来主要给值班人员用的,现在它的作用应主要是给远动维护人员分析查找故障用的了。因为现在技术发展趋势是保护测控单元越来越象“黑匣子”方向发展,信息都是通过网络通讯上送,很多故障:比如突然误发一个信号,维护人员很难查。增加当地监控微机,就等于给远动维护人员留下了一个查找的窗口。当调度收到一个误发信号时,可以从当地监控的历史事项记录里查一下。如果这个量当地也存在,就可以排除调度主站和通讯管理机的问题,直接查间隔层设备即可。还有一种说法是不设当地监控微机,给远动维护人员配备便携式计算机来维护。我们且不说现阶段让大部分运动人员来截取报文分析报文从技术上讲是否可行,最主要的是很多误发信号是偶然出现的,当你再去现场时,可能怎么试验也不会再产生了。有当地监控微机,就是一个原始情况的记录。

2.3上送调度的信号不是越多越好,在满足监控要求的情况下应作到越精炼越好

关于变电站实行无人值守后,哪些信号需要上送调度。省集团公司出台了关于220KV无人值守站信号采集要求,但对于110KV及以下电压等级的变电站没有明确的要求。实际情况往往是厂家调试人员拿出一个调度信息表,远动审查一下,没有太大问题就可以了。这样往往造成一个现象就是不同厂家的站送的信号不一样,甚至同一厂家的系统,不同调试人员上送的信号也不一样。因为现在通道条件好了,同时采用网络通讯采集方式可以上送的信号也多了。有些是用户单位认为信号上的越多越好、越全越好,有些是厂家调试人员乱给信号,给的特别多。信号多了,误发信号等出问题的可能性就大;同时对监控中心而言,大量的无用信号也是一个负担,无用信号太多,反而不利于监控中心及时发现问题。信号选择的标准应该是能准确反映系统和设备运行状态的量。对同一类报警级别的信号,适当采用当地合成方式,只把合成信号上送调度即可。比如保护装置的CT报警、频率异常等信号合成一个装置异常信号上送调度即可。有一个区分原则,只要有一个合成信号能上调度,具体是什么信号,反正要派人到现场查看。调度信号越精练越好,当地监控微机的信号应越全越好。保护通讯采集的信号全部上当地后台,硬接点采集的保护动作信号和一些重要的通讯采集信号上调度。

2.4保护装置通讯中断和装置闭锁及装置电源开关状态信号都应该采集并上送调度

现阶段综自系统,35KV或10KV线路大量采用分散安装的保护测控一体设备。信息的传递和控制功能的实现完全依赖网络通讯。从经济角度考虑,对低电压等级线路保护,也不可能象上文提到的再单独增加独立的测控单元通过硬接点双备用采集信号。所以装置通讯状态的好坏,是必须要上送调度的重要信号。通讯中断信号一般是由综自系统的通讯控制器根据通讯状态来产生的。问题在于有些备用线路或停用线路装置是不上电的,对监控中心而言,单独一个通讯状态信号是无法区分该设备是在正常运行情况下通讯断了还是因为装置停用造成的通讯中断,不容易及时发现设备故障隐患。现在的保护测控设备,一般都有一个装置闭锁硬接点信号输出。这付接点一般是采用内部告警继电器的常闭接点,以便于即使在装置掉电这种最恶劣情况下也可发出闭锁信号。对闭锁信号一般都采集,习惯上有两种采集方式,一是把一段母线的设备的闭锁信号并在一起,由另外某个设备开入采集这个信号,好处是节省信号数量;坏处是一旦有一台装置停用,这个闭锁信号就一直存在,即使真的有一台装置在运行当中突然掉电了,监控中心也发现不了。所以最好的办法应该是每个装置的闭锁信号都要采集,而且不能是自己采集自身信号,要交叉采集,因为两台装置同时电源出问题的概率很小,所以交叉采集方式的比较可靠。另外还应采集装置控制电源空气开关的状态,当然也应采集交叉采集的方式。当我们可以采集到装置通讯状态、闭锁信号、电源空开状态这三个信号后,调度主站就可以根据这三个信号的组合,判断出现场的实际情况。比如当线路停用时,肯定是通讯状态(中断)、闭锁信号(产生)、电源空开(断开);当装置电源回路故障时,肯定是通讯状态(中断)、闭锁信号(产生)、电源空开(闭合);当通道中断或通讯芯片损坏时,肯定是通讯状态(中断)、闭锁信号(复归)、电源空开(闭合)。这样就可以根据故障的严重程度,采取不同处理方式。

3、关于综合自动化系统站内设备方面

3.1间隔层设备应具有完善的事项记录功能

现阶段综自系统技术的发展,决定了大量的信号采集功能和控制功能是通过网络通讯方式采集的。同上文所讲变电站应设置当地监控微机的理由一样,间隔层设备应具有完善的事项记录功能,给远动维护人员提供一个友好的维护手段。同样,事项记录的内容不光要求保护动作、自检信息还应有开入变位事件,更要有控制功能记录。比如除了常规的动作记录和自检信息外,开入变位和遥控过程记录也要有。这样,当发生误发信号故障,可以从装置面板显示里查一下记录,如果当时确有这个信号发生,那就说明是一次设备(或外回路)的问题。另外遥控如果不成功,也可从报告里来分析:如果遥控选择和遥控执行命令都有记录,那就说明整个通道是没问题的,检查遥控输出回路即可。

3.2间隔层测控设备遥信去抖时间和遥控接点闭合时间都应该可现场设置调整

遥信开入采集通过增加去抖时间来消除接点抖动,这是一个被大家公认的非常有效的方法。但是现场接点抖动情况千变万化,所以装置必须要具备现场可方便修改去抖时间的功能,靠写程序来改变是不现实的。另外,随着开关等一次设备技术的发展,一些新技术的应用导致原有技术条件不适合现在的发展。比如ABB新近推出的VM1型永磁机构真空断路器,保护传统的电流保持回路已无法启动,只能通过调整遥控接点闭合时间来防止遥控接点拉弧。所以装置也应具备现场调整遥控时间的功能。

3.3综自系统的维护软件应具有友好的人机界面及交互性好、方式简便的参数配置手段

综自系统的维护软件要实现标准化、模块化,并且人机界面要友好,便于运行维护人员的使用。在运行维护过程中,经常会遇到一些参数需要调整,比如通讯规约的选择、通讯端口的设置以及遥测、遥信、遥控的相关参数的设置等等,如果参数配置手段简洁方便,具有较好的交互性,将对远动工作人员的运行维护带来极大的方便。

4、結束语

数据库运维自动化系统构建 篇4

架构设计需要遵循3个方面:标准化、自助化、自动化。第一个标准化,指的是:接口标准、数据标准、流程标准。接口标准。不能说WEB前端提交的是一种方式,API接口提交是另一种方式,这是不行的。数据标准就是CMDB,一定要准,要实时得更新,不然整个上层,它是基石,整个上面的框架搭起来都是白费的。流程标准,需要制定ABCD各种各样的流程,很多DBA有自己的方式、方法。第二个自助化,操作自助,只要能放给RD自主操作的就自主操作。问题定位的自助,RD碰到了数据库相关的问题,不是第一时间找DBA,而是第一时间在平台上可以看到现在数据库的状况,定位到现在数据库的问题,去操作相关业务逻辑解决问题。第三个自动化,高可用和报警自动处理。高可用,从库宕机可以把它剔掉;报警自动处理,对于收到报警看一眼,后台有报警自动处理的程序就给它处掉了。架构设计的两个开源组件,第一个是Rabbit MQ,这是一种应用程序对应用程序的通讯方法,这个端对于另一个端的通讯,它是通过这个端来发消息,另一个端接消息,从而连接了两个端,很简单,其实他的作用就是连接消息的桥梁。第二个是Celery,可以这么理解,Celery其实就是封装在消息队列上面一个非常好用的任务调度者,是基于Python开发的,可以发任务,可以接任务,可以定时的起任务。

说完了两个开源的组建,接下来说用户,通过前端的Web,他的所有的操作全部打到API层,业务模块:脚本也好,系统也好,也是打到API层,这样做到了接口的统一,后端的处理都是一样的。API层它可以做两个事情,比如查询当前数据库的主从架构情况,当前服务里的数据库列表,那么API层直接跟CMDB交互获取数据并返回。第二种是需要后台做任务的,比如搭建,扩容,拆分这些都是任务,需要到后台的任务管理模块去做。任务管理模块会把任务分发下去。这中间会有CMDB。任务管理模块可以详细讲一下,这个就是刚才所说的MQ的消息管道。构建中任务是可以无限增加的,前提是机器在可以承载情况下。第一步,Task Control先fork出一个子进程,第二步,子进程1再fork出一个子进程,这个子进程2,是真正得做任务的进程,这个进程再调用任务执行脚本或者模块去进行任务操作。子进程1,它会把子进程2的一些信息,比如进程PID,回填到数据库里,子进程一1就退出了,子进程1退出之后,它跟子进程2的关系就断开了,这里要说一点,子进程1得忽略回收子进程,这时候子进程2就托管给了init进程,这样的话就生成了这么一个任务执行单元。任务执行单元只是需要自己去做任务,比如说它去做DDL,这个子进程2是父进程,会去做子进程的回收操作,任务日志的回填工作等。这个Task Control,每次生成父子进程完成之后,就回去从消息队列去拿新的任务,一台机器上,好多个父子进程,并发高的时候,这些任务会有一百多个,这样的话,大大提升了整个系统的并发性,正常的话,这里起6个子进程就够了,用来监听任务,生成任务执行单元。

运维管理系统平台作用 篇5

关键词 :运维 标签 网络 信息

随着社会的网络信息化覆盖面越来越广,通信机房的设备越来越综合化、多样化,越来越多的远端机房的应用,机房的规模随之增大,面对大面积、远端的通信机房、众多的设备、大量的日志,传统的标签、书面记录、视频、网管系统的应用,传统的运维管理模式已经不能满足目前通信的实际需求,必须寻求一种现代化的软件来代替原有传统的运管模式,使得复杂、多样的运维管理能够简单化,从而提高故障处理、资料管理、数据查询、设备监管等工作效率。由此我们进行一些探索和尝试。

主要功能

1、站点导航

为使得长江沿线通信机房均能使用运维管理系统,软件考虑设计了站点导航功能,通过站点导航的图片,可以轻松地导航到长江沿线的各个机房,实时查看到机房内的资料,以及业务管理情况。

2、运维规范

任何工作都有其规章制度,规范、流程对于运维管理来说更为重要,如果期间出现差错,将会带来很大的损失。规范、流程应及时更新,在功能设计时,应该提供可更新、添加功能。其次,规范应能轻松进行查阅,当运维工作人员遇到紧急业务时,可快速查阅。

3、设备管理

通信机房,最重要的莫过于设备资料的管理,随着设备越来越多,通过原先的标签和文档来注明各种资料已经完全不能满足要求,一方面,资源不能很好地共享,经常出现设备资料只有固定的少数几个人掌握;另一方面,由于设备集成高,体积小,端口多且复杂,电路的来龙去脉比较繁杂;再则综合机房、远端机房温度偏高,随着时间的推移,端口标签经常会出现脱落现象,由此也给设备判断带来困难。

鉴于此,设备资料通过信息化管理更为合适,不仅能够解决上述困难,而且给运维工作人员减轻负担。

4、值班信息

值班信息主要功能是对机房日志资料的管理,通过包括值班记录和基础数据,值班记录是对值班信息的实时电子记录,实现用电子台帐来代替传统的文本台帐。利用电子台帐来进行管理运维日志后,可实现日志的数据库管理,可以轻松进行统计和查询,可方便实现月度、季度、年度或者任意时间段信息的统计,同时也提高值班记录的痕迹管理,加强了值班、维护人员的工作责任性和自觉性。

5、故障处理

维修记录主要实现设备维修的记录历史,各个设备有各指示灯对设备其运行状况、端口属性和特性指导作用,工作人员根据设备技术说明书、对其日常维护和故障处理经验,进行相应的记录,同时系统会自动统计该设备的出现故障的处理方式以及出现次数的多少,根据记录,当日后当再次出现故障时,可根据该系统功能模块进行逐一排查、比对,对其常见故障进行优先检测,从而提高故障的处理效率,缩短故障时间,减轻工作人员的负担。

系统展望

运维管理系统实现以上功能投入使用后将会大大提高运维机房的工作效率,但我们感觉到系统的功能要不断更新,不断适应现代化机房的发展需求,结合我们近期工作的情况,还探索要解决以下三个问题:

设备编码问题。目前通信机房的设备五花八门,新产品越来越多,如何对设备进行科学合理的分类,成为运维系统的一个非常重要的问题,面对沿江全线通信机房成千上万的设备,全部用设备名称加以区别显然不可行。必须通过科学的分类和编码手段进行标准编码。

通信机房的图形化管理。为让更多用户理解和熟练应用软件,界面必须友好、简洁。运维管理系统最能让工作人员快速上手的界面应该以图片导航的方式来实现,但图片实现相对较复杂而且不利于今后升级。

配电自动化系统实用化运维技术探讨 篇6

国家电网公司中, 大规模建设方案要求配电自动化系统需同时具备电网生产指挥平台和设备在线监测基础平台以及生产运维和配网标准化抢修功能。如此强大的应用功能要想顺利实现, 就必须在配电自动化系统的安全运维管理过程中有效提高其技术水平并改善其安全管理模式, 同时做到优化自动化设备选型提高设备配置标准, 从而大大降低施工过程中的安全运维工作量, 提高系统稳定性, 实现预期配电体系应用及运维目标。

1 传统电网模式与“大检修”模式比较

1.1 传统电网模式的特点

分散化管理是国家电网的传统生产模式, 主要表现为同一级别的管理部门众多, 且管理部门主要基于不同行政单位设立, 但是在这些电网公司中分工过于明细, 这就使得配电系统的运维效率变得很低, 无法满足当前的运维要求。同时在电网公司中管理机构的组成也较为复杂, 各部门中重复配置现象比较严重, 这就难免造成人力资源的浪费, 不能满足电力发展过程中运维机制的要求。

1.2“大检修”体系下自动化系统的特点

“大检修”模式是以实现运维一体、检修专业化作为建设的核心, 各省往往在省级范围内成立检修公司, 而地方的检修公司常按照等级归属为电网的一体化运作服务。通过对原有输电区、城区电网供电部门以及检验维修区等不同分区进行变电整合, 组建成专业水平的检运维团队。同时还要设立综合技术工作组, 专门负责输电运行检测、配电运行检测、变电运行检测等, 为了适应配电系统不断扩充的规模, 配电自动化系统的运维业务还应向外包方向发展。

2 配电自动化过程涉及的问题

“三盲”问题是配网自动化建设与改造中的常见问题, 所谓“三盲”即盲目追求配电系统的高级应用、盲目追求大型配电系统主站建设、盲目追求“三遥”率。现场安装过程中设计的主要问题是故障指示器种类多样、标准不一、质量很难得到保证;在配电自动化投入运行的试点中, 远程遥控执行过于谨慎是存在于配电调度过程中的主要问题;在配电自动化相关设备的运维过程中最为常见的问题便是分工与管理的混乱。

2.1“三盲”问题

我国目前的配电自动化水平还比较低, 根据配电自动化建设的要求, 当下我们基本可以实现遥信、遥测基本信息的采集、存储和通信上传, 并可以通过主站对其做出故障定位、故障隔离并实现非故障区供电的恢复。但是一些配电建设单位不合实际的的追求配电自动化体系的高级应用配置, 这些加装的高级应用配置往往不具实用性, 像将温度、湿度信息采集装置加在终端侧, 将负荷预测、短路计算等应用设备加在主站侧。完全不考虑加装高级设备的实用性, 对配电设备进行盲目改进。在配电自动化建设和改造过程中, 还应将配电自动化实施区域3~5年后配电网实时信息总量的多少考虑在内, 不应盲目主张通过安装大型主站来避免突发问题的出现, 由此造成的配电网实用化效率降低是可观的, 而且投入与产出之间出现的差异, 也会造成资源浪费。国家电网公司在全国范围内大力推广自动化建设和电网改造, 使得部分运维单位自身改造速度随之加快, 同时各电网部门对于配电自动化的理解也不够全面, 缺少对“三遥”率真实含义的理解, 这就造成在开关装设中对“三遥”装置盲目使用。由此造成的成本增加和产出比降低是不容小视的, 尤其是在配电自动化装置投入生产后所产生的运维费用将随之进一步增加。

2.2 遥控的执行过于谨慎

遥控在配电系统的自动化控制过程中发挥着重要作用, 但基于配电调度过程中对安全问题的考虑, 人们对配电系统自动化的信任程度不高, 以及经常出现的抵触使用自动化配电设备现象, 所以即便按照自动化控制的相关要求对配电设备进行使用也必须有人在现场进行监控。由此造成的配电体系自动化几乎不能体现出实用性, 反而会造成操作控制过程的复杂化, 使得配电自动化设备高效率的优势不能得到完全体现。

2.3 运维体系管理分工较为混乱

在配电自动化设备投入运行后, 处于终端的运行维护管理工作容易出现分工混乱的现象, 而且在通信运维和配电运维部门之间还会出现相互推诿的问题, 这就大大降低了终端运维工作的效率。例如, 在配电调度的过程中某个重要节点发出的信息上传突然失效, 根据配电调度就会通知配电工区与通信运维部门去现场进行勘察, 但是配电工区人员和通信运维部门的检查结果都是各自维护的设备运作正常, 都会指责对方负责维护的设备出现了故障, 最后经过第二次现场检查发现故障原因是节点开闭箱内DTU中ONU电源插座发生了掉落, 只需将电源插上问题便可以解决。

3 问题的解决策略

3.1 解决“三盲”问题

为做到合理的提高“三遥”率, 应加强配电自动化建设单位管理部门和设计指定部门对配电建设原则的学习, 掌握全“三遥”的利弊, 并结合实际对配电自动化建设的地区进行定位, 对不同类别的供电结构进行统计, 因地制宜地在配电网络中设置关键节点;在配电自动化中还要合理的增设高级应用, 不能盲目改建, 一些高级应用的加入可以满足现场设备需要, 而有些高级应用的加入只是无谓的增加成本。避免此类现象的发生就需要事对配电自动化改造施工过程的现场设备进行详细勘查, 以保证所增加高级应用的实用性;盲目追求大型主站建设的现象要得到避免, 就需要在配电体系自动化建设改造过程中充分考虑配电自动化设备3~5年之后的配网实时工作量, 并按照主站规模的大小进行配置。配网实时信息量的计算应参照《配电自动化建设改造标准化设计技术规定》。根据配网工作总量信息选择合适规模的主站, 此处可参照表1。

3.2 解决遥控操作过于谨慎问题

遥控是操作便捷性的关键, 在进行配电体系自动化建设之前必须与配电调度部门做好充分交流, 使配电调度部门了解配电自动化工作实现后所能体现的高效特性, 通过逐渐渗透使配网调度部门自己去发现配电自动化中遥控操作所具备的可靠性以及与由此产生的便捷性。在参与的过程中配电调度部门也会逐渐转变对自动化配电体系的看法, 逐渐接纳遥控操作手段, 并最终完全接受配电自动化体系中的的遥控控制模式。

3.3 解决管理运维分工混乱问题

运维分工混乱的问题在设备异常检查中经常出现, 要避免这种现象的反复发生, 就需要从管理入手, 确定责任分工, 保证各部门之间分工明确, 出现问题及时进行沟通。针对终端设备的运维要建立特定的状态检修方案, 以保证各管辖区内的设备都能良好运行。这一点可以借鉴大中型城市中成功进入实用化应用阶段有关单位的经验, 定期召开配电自动化技术研讨会, 在交流中发现缺点并提出改进, 不断提高配电自动化管理水平。

4 结语

随着配电自动化进程的不断加快, 各式各样的问题还会相继出现, 只有通过不断的解决问题, 完善配电自动化体系, 才能保证我国的配电自动化机制进入到实用化、自动化应用阶段。我国配电自动化系统中实用化运维管理问题形式依然严峻, 这就给我们提出更多的要求, 不断加强员工的业务素质, 完善管理制度, 从而保证配电自动化系统实用化运维顺利进行。

参考文献

[1]印永华.智能电网建设中的技术和设备[J].电气制造, 2010, 1 (1) :111~112.

[2]李伟波.配电自动化实用化关键技术及其进展[J].科技与企业, 2013, 22 (21) :312~313.

省地一体化下的自动化运维系统建设 篇7

随着调度调管范围规模的扩大及电网结构复杂度的增高,各种原因下的自动化系统和设备故障也不断增多,系统和设备的实时巡检和维护的增加使得自动化人员工作压力增大、繁忙程度增高,由此带来了日益突出的自动化安全问题。

为了监视现场众多的网络设备和系统应用,提高自动化系统的实时监管力度,降低自动化运维人员的工作压力,消除各地调参差不齐的运维水平,急需研发出一套省地一体化下的自动化运维系统,为了提高系统的易维护性和易建设性,本系统同时提出了网络设备和自动化应用的自动建模理论和技术。

针对省地一体化需求,采用支持系统解列的一体化组态技术,实现了一个省调和多个地调的一体化监视,以及解列运行独立监视。本文针对电力系统自动化由多种网络设备类型构成的网络环境和自动化系统应用的特点进行了大量的综合分析及研究,实现了基于SNMP、ICMP协议的省地一体化网络设备模型及应用模型的自动发现与建模。

网络设备自动发现能够获取局域网中所有网络设备信息,通过实时的不断刷新,电力系统自动化值班人员可以直观地了解当前所管理的资产信息及运行状况,对新增加的网络设备、脱网设备、系统应用状态有着直观的把握。并且遵循电力系统安全管理规定[1],在不影响电力系统安全性及性能的同时,能够对不同的电力系统安全区设备分别进行扫描发现,在电力系统安全三区进行统一管理。

1 省地一体化组态技术

为了消除各个地调运维水平的参差不齐,系统采用了省地一体化的解决方案对整个省地的自动化系统进行实时监管。

1.1 一体化组态的系统架构设计

省局系统与各个地调子系统网络互连,每个子系统分别部署运行在各自的安全I、II、III区进行数据采集,并在安全III区处理核心业务,每个地调可以形成各自独立的数据采集处理中心。各子系统的自动化运维人员可监控、维护各自的系统数据,省局人员可以对所有的省地数据进行监控和维护同时能够对省地之间的解列状态进行实时把握。图1即展示了不同地调与省局的连通状态,红色虚线为解列,绿色实线为正常连接。

1.2 一体化组态技术场景方案

省地一体化主要面对三种类型的场景,分别为:省地一体网络正常状态、省地一体网络中断状态、省地一体网络恢复状态。为了解决三种场景下不同的数据处理流程,一体化组态技术分别采用了以下关键技术或方案:

1.2.1 分布式并列数据处理方案

一体化系统在每个地调进行数据采集,每个地调对本地数据进行处理、监视和维护,同时每个地调的数据都转发到省局。省局对所有地调转发的数据和省局本地的数据进行统一处理并存库。

一体化系统的历史数据、报表服务、WEB服务等功能模块在每个地调和省调都进行部署,省地之间正常通讯状态下,所有的浏览监视数据均从省调侧抽取。

1.2.2 分布式解列技术

当省地之间通讯异常时,地调的实时数据无法上传省局造成省局值班人员无法对地调进行实时监控,同时地调值班人员也无法获取省局修改的最新模型数据,造成省地之间模型和实时数据的不统一,此时的状态称为系统解列。

为了保证解列期间省地之间模型数据的统一,系统自动对地调模型数据库进行锁定处理,防止模型数据的失控,但是允许省局人员对该地调的模型等其他数据进行编辑修改操作。

1.2.3 分布式解列恢复技术

当省地之间网络状态恢复正常时,系统自动进行如下操作:

a)省局修改变更的模型数据自动同步到对应的地调数据库中。

b)解列期间地调的告警数据信息自动上传到省局。

c)解列期间地调的量测数据自动上传到省局。

d)地调web服务自动将数据源切换到省局。

通过上述的四个步骤,能够保证系统解列恢复时整个系统的数据能够保持统一。

2 业务系统应用建模

电力二次系统可分为调度自动化系统、电能量计量系统、网管系统等,各个电力系统有多种应用,包括实时应用、前置应用、存储应用等,不同的服务器运行多种应用,针对电力自动化现场数百台服务器,数百种应用,应用模型自动发现与创建显得尤为重要,根据电力二次系统服务器名称命名标准化的原则,可根据服务器名称对该服务器所部署的应用进行发现与建模,如服务器类型为实时服务器,则可以根据相关配置或规则判断该类服务器运行的业务系统应用包含实时服务等。

2.1 业务系统应用自动发现及建模算法

系统应用自动发现主要算法描述如下:

1)对所有设备对象链表中发现的网络设备结果进行遍历,将除服务器之外的设备剔除。

2)根据服务器名字等特性可以判断出该服务器类别,如:前置服务器、数据库服务器、实时服务器等,可获取该服务器所部署的应用信息。

3)根据步骤2获得的信息,每个服务器都具备了自己的子对象,即服务器具备的业务系统应用信息。将步骤2中获取到的应用结果保存在链表中,当所有服务器遍历结束后,将所有的应用模型信息转换成xml报文进行保存。

4)所有xml文件信息统一发送到电力系统安全三区,根据xml文件描述信息,系统后台服务为每一台服务器自动创建出业务系统应用信息。

3 网络设备建模

本文介绍的网络设备自动发现算法主要使用到两种协议,SNMP简单网络管理协议和ICMP协议[2]:

ICMP协议通过Ping或Tracert实现,可用于Internet上的大规模网络测量[3],Ping使用ICMP协议的回送请求(Echo Request)和回送应答(Echo Teply)报文,从源站点向目的站点发送回送请求报文进行探测,根据能否收到目的站点的回送应答来判断目的站点是否在网络中,考虑到网络不稳定问题,有时会针对目的站点点发送多个请求报文,有一个或多个应答即为在线。

SNMP协议是基于TCP/IP的应用层协议,由NMS向Agent发出网管命令,通过访问MIB库进行硬件设备信息的获取,包括设备名称、网络端口、物理内存等。

电力二次系统分为四个安全防护分区,所以需要对每个分区下不同网段进行分别扫描与发现。

3.1 网络设备建模

网络设备自动发现主要算法描述如下:

1)系统自动扫描,获取到某一网段所有的活跃IP,并保存,同时记录该网段是否存在活跃IP。

2)通过检索设备的MIB信息,得到该设备的设备类型、描述信息,通过关键字匹配出设备具体型号。

3)检测网络设备的ip Addr Table表,可以得到给该设备配置的所有IP地址、相应网口索引号、子网掩码;这个表可以统计该设备的IP资源信息。

4)检测网络设备的if Table表,可以得到该设备所有的网口信息,包括网口名称、网口索引号、网口类型、网口MAC地址,该表可以统计该设备网卡信息。

5)根据设备具体型号,获取该设备其他组件信息,包括CPU、物理内存、磁盘个数等。

6)从IP地址集合取出一个没有经过检测的IP地址,作为下一个要检测的路由器,重复步骤2;直到找到所有设备并全部遍历完。

7)将未发现活跃IP的网段同步到其他安全区,对其他区进行同样的扫描,最后得出一个完整的模型信息。

以上算法可以使用链表实现,将所有模型信息生成xml报文,发送到安全三区,由安全三区统一管理并存入数据库。

在实现设备发现算法中,获得MIB相关信息是很必要的,以下对相关表做说明:

1)地址表i p A d d r T a b l e(对应O I D值:.1.3.6.1.2.1.4.20)

ip Ad Ent Addr(.1.3.6.1.2.1.4.20.1.1):网络设备实体的IP地址;

ip Ad Entlfindex(.1.3.6.1.2.1.4.20.1.2):网络设备实体的IP地址对应的设备物理接口标识;

ip Ad Ent Net Mask(.1.3.6.1.2.1.4.20.1.3):网络设备实体的IP地址对应的掩码;

有些实体具有多个IP地址,称为多穴主机,如路由器,服务器。在设备发现中,对这种情况要加以识别,这些地址都表示一个实体,否则发现结果就会有误。

2)端口表if Table(.1.3.6.1.2.1.2.2)

if Name(1.3.6.1.2.1.2.2.1.2):端口名称;

if Index(.1.3.6.1.2.1.2.2.1.1):端口索引;

if Type(.1.3.6.1.2.1.2.2.1.3):端口类型;

if Phys Address(.1.3.6.1.2.1.2.2.1.6):端口对应的MAC地址。

利用上述端口表的定义,结合之前获取到的设备信息,很容易组成完整的设备组件信息。

4 结束语

本文根据电力系统自动化特殊的现场环境,结合省地一体化的“一体化组态技术”,提出了基于SNMP、ICMP协议的自动化系统应用自动创建及设备自动发现算法。且对该算法的定义、描述进行了详细的解析,根据此算法实现的省地一体化网络设备及系统应用管理软件产品,经各个电力系统自动化现场验证,能够适应现场数千台服务器和交换机的大型网络应用环境。该算法复杂度较低,算法收敛快,定时对整个网络进行扫描能够及时发现整个网络和应用的异常或变化。

摘要:本文针对省地一体化电力系统网络设备和自动化应用进行了研究,提出一种基于SNMP、ICMP协议的电力系统自动化应用的自动建模和网络层设备的自动发现和建模的方法,同时针对省地一体模式提出网络解列应对方案。经验证该方法针对电力系统自动化场景能够实现自动化应用的自动建模,并能实现网络设备的自动发现及建模。

关键词:省地一体化,自动化运维系统,网络解列,自动建模,SNMP协议,ICMP协议

参考文献

[1]国家电监会电力二次系统安全管理若干规定电监安全[2011]19号文件.

[2]William Stallings SNMP网络管理[M]北京中国电力出版社2001.9.

构建统一融合的自动化运维体系 篇8

随着我国金融行业近年的蓬勃发展, 各个金融机构在规模、地域及业务种类等方面都出现了扩张的趋势。原有分散的运维体系负面效应日益凸显, 成为各个金融机构进一步发展的障碍。将目前处在分离管理状态的业务和平台, 统一整合为一个综合安全监控运维平台, 构建统一融合的自动化监控运维体系就成为金融信息化监控运维建设的首要目标。这个建设目标的核心思想, 一是统一融合, 二是自动化。

随着虚拟化、3G技术及数据中心等越来越多的新技术的应用, 以及业务类型、模式的扩展, 导致金融行业IT系统日趋复杂, IT运维管理工作的复杂度和难度大大增加, 仅靠过去分散的“运维工具”或“技术大拿”来包打天下已经行不通了, 金融机构开始需要运用专业化、标准化和流程化的管理手段和运维技术, 来实现运维工作管理的统一标准化。加之越来越多的网络设备、服务器、中间件、业务系统等让IT运维人员难以从容应对, 即使加班加点地维护、部署、管理也经常会存在因设备出现故障而导致业务中断的风险, 这不仅仅增加了运维人员的工作压力, 也会产生影响金融机构正常运转的隐患。这其中部分原因是金融机构事件监控和诊断工具等IT运维技术工具缺乏统一性, 在没有高效技术工具的支持下故障事件很难得到主动、快速的预警和处理。

尽管IT运维管理的技术在不断进步, 但实际上很多IT运维人员并没有真正解脱出来, 其实原因并不复杂。目前的运维技术虽然能够获取IT设备、服务器、网络流量, 甚至包括数据库的警告信息, 但成千上万条警告信息堆积在一起根本没法准确判断问题的根源。因此, 实现监控运维管理工作的自动化对金融机构来说已迫在眉睫。因为通过自动化监控系统能及时发现故障隐患, 主动告诉用户需要关注的资源, 以达到防患于未然的目的。例如, 全天候自动检测与及时报警能实现IT运维的“全天候无人值守”, 大大降低IT运维人员的工作负担。而且, 通过自动化诊断能最大限度地减少维修时间, 提高服务质量。

既然提高IT运维质量已经成为金融机构当前面临的重要问题, 那么, 如何在有限的投入下尽快建立高效的自动化IT监控运维体系就成为金融机构首要关注的问题。如下是建立金融机构统一融合的自动化监控运维体系的步骤:

1. 建立自动化监控运维平台

第一步是要先建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源的实时监控, 包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容, 通过自动监控管理平台实现故障或问题综合处理和集中管理。例如, 在自定义周期内进行自动触发完成对IT运维的例行巡检, 形成检查报告, 包括自动运行维护, 以完成对系统补丁的同步分发与升级、数据备份以及病毒查杀等工作。

2. 建立故障事件自动触发流程提高故障处理效率

所有IT设备在遇到问题时要会自动报警, 无论是系统自动报警还是使用人员报的故障, 应以红色标识显示在运维屏幕上。然后IT运维人员只需要按照相关知识库的数据一步一步操作就可以。因此, 金融机构需要事先建立自动工单式流程管理, 当设备或软件发生异常或超出预警指标时会触发相关的事件, 同时触发相关工单处理流程给相关IT运维人员。IT运维人员必须在指定时间内完成流程所规定的环节与工作, 以提高IT运维响应问题的效率。

3. 建立规范的事件跟踪流程, 强化运维执行力度

首先需要建立故障和事件处理跟踪流程, 利用表格工具等记录故障及其处理情况, 以建立运维日志, 并定期回顾以从中辨识和发现问题的线索和根源。实践已经证明, 建立每种事件的规范化处理和跟踪指南, 可以减少IT运维操作的随意性和强化运维的执行力度, 在很大程度上可降低故障发生的概率。同时, 用户还可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。

4. 设立IT监控运维关键流程, 引入优先处理原则

设立IT监控运维关键流程, 引入优先处理原则是要求CIO定义出IT运维的每个关键流程, 不仅包含每个关键流程的宣言, 还包括其对金融机构的影响和意义。同时, 在设置自动化流程时还需要引入优先处理原则, 例行的事按常规处理, 特别事件要按优先级次序处理, 也就是把事件细分为例行事件和例外关键事件。

总之, 实现IT监控运维的自动化统一管理是指通过IT监控运维, 将各个业务系统中日常的、大量的重复性工作自动化, 并把过去的手工执行转为自动化操作。这一过程是IT运维工作的升华, 表明IT监控运维自动化不单纯是一个维护过程, 更是一个管理的提升过程, 是IT监控运维的最高层次, 也是未来运维管理的发展趋势。

自动化运维操作监控审计技术的探讨 篇9

随着互联网的飞速发展, 电力系统对网络系统中的服务器、存储、网络设备和安全设备、应用系统和运行状况进行全面的监测、分析、评估是保障整个网络操作安全性、可管理性、高效性及自动化程度的重要手段。

信息系统是电力系统重要的基础设施, 是电力系统业务正常运行的前提条件。但是近几年来, 由于设备、应用的蓬勃发展, 电力信息系统的操作管理越来越复杂, 难度越来越大, 第三方的代维厂商也越来越多。

一旦由于运维操作管理过程中引起安全问题, 将会直接影响到电力公司的形象。

数据库、网络交换设备、服务器系统、业务系统是保证电力系统正常运行的基础设施, 针对我国电力公司的实际情况, 充分利用信息系统操作管理综合系统平台产品的功能特点, 提供可伸缩、无干扰、快速灵活的替关键设备操作等进行分析、快速检索和综合监控审计, 为系统管理员构建覆盖面广、监控有力、响应及时的集中操作管理平台, 也为今后事故的追查取证提供第三方、防篡改的原始记录库。

1 背景

1.1 行业标准与法规

目前, 很多行业标准及法案明确规定, IT行为必须进行审计监控。

ISO27001标准:条款A10.10.1要求组织必须记录用户访问、意外和信息安全事件的日志, 并保留一定期限, 以便用于安全事件的调查和取证;条款A10.10.4要求组织必须记录系统管理和维护人员的操作行为;条款A15.1.3明确要求必须保护组织的运行记录;条款A15.2.1则要求信息系统经理必须确保所有负责的安全过程都在正确执行, 符合安全策略和标准的要求。

CC标准:信息技术通用评估准则 (Common Criteria for Information Technology Security Evaluation) 中, 安全审计是其安全功能要求中最重要的组成部分, 同时也是信息系统安全体系中必备的一个措施, 它是评判一个系统是否真正安全的重要尺码。

SOX法案:302节:要求行政人员证明他们公司设计和执行了适当的控制, 以保证所有财务报表都可靠而且符合公认会计准则 (GAAP) ;404节:要求所有在302节中所控制的过程都有可信的财务报表。这法令要求IT经理对所有有关财务报表的产生过程负责。

1.2 运维操作过程中的安全事故

The CSI Computer Crime and Security Survey repor2009:超过60%的安全损失与内部人员的非恶意行为有关;超过40%的安全损失与内部人员的恶意行为有关。

据权威部门统计, 目前企事业单位中信息系统所发生的系列问题及故障大部分不是由外网的入侵或劫持行为造成的, 主要威胁都来自于内部的因素。而电力系统自2008年开始实行内外网分离后, 外网对内产生的危害几乎为零, 这时如何针对内部运维人员及第三方维护厂商人员在操作、运维过程中的行为进行有效的自动化监控、审计, 同时大幅度减轻监管人员的工作负荷则成了我们需要解决的首要问题。

当前的IT管理存在大量的风险:

2 运维操作审计、监控系统技术简介

如上图所示, 本系统由两大模块组成, 即协议控制模块、管理模块。协议控制层主要负责实现底层对访问过程的TCP会话拆分、还原识别操作内容、记录操作指令、并根据策略执行阻断操作。

管理模块主要实现运维用户、操作对象的配置、访问授权控制策略控制以及行为审计功能。

平台主机为B/S架构, 管理员通过IE浏览器进行管理操作。在网络中旁路介入。

操作管理综合平台系统支持多种部署方式, 可以充分满足不同网络对本系统的需求。系统部署支持Active-Active双机模式, 避免产生单点故障而影响正常的维护通道。系统主机的部署应与网络访问控制列表、企业管理制度相结合, 以便取得更好的审计效果。

单臂模式部署时, 操作管理综合平台系统只需要一个独立的IP即可。所有维护数据均通过此IP进行代理。维护人员只要登录该IP的指定端口即可直接访问到服务器, 无须进行二次登录。

采用单臂部署方式时, 需要在交换机或防火墙上屏蔽其他维护通道。

3 技术实现主要功能

运维操作监控审计系统支持对多种操作系统的管理行为的审计, 将运维管理审计系统旁路接入网络, 在网络设备上做好路由指向, 将主机、用户等信息录入系统之后, 即可对远程系统进行管理与审计。

3.1 账号密码管理

账号密码管理提供了账号、密码的使用时间, 能够管理每个帐户的活动范围, 能够将运维管理审计系统中的账号映射至远程应用, 并做到无缝贴合。

3.2 身份认证管理

账号认证有静态口令、域控集成、动态口令等多种身份认证方式。

3.3 授权管理

对远程系统进行授权, 并不需要进入远程系统中, 划分系统资源与应用资源, 不同的授权获得不同的角色权限, 最终完成对系统的管理。

3.4 审计监控管理

系统审计监控功能包括系统自身审计、监控及被管理资源审计、监控。通过录像、回放、记录输入命令、提取窗口标题及时间戳等方式, 进行多样化审计;通过监控功能进行实时的、同步的、远程的监控及危险操作阻断;通过黑白名单功能对操作者的权限进行限定;通过告警功能对危险操作、风险操作做出告警及反馈。

4 优势技术

4.1 高可用性技术

平台主机为B/S架构, 管理员通过IE浏览器进行管理操作。在网络中旁路无干扰介入。

操作管理综合平台系统支持多种部署方式, 可以充分满足不同网络对本系统的需求。系统部署支持Active-Active双机模式, 避免产生单点故障而影响正常的维护通道。系统主机的部署应与网络访问控制列表、企业管理制度相结合, 以便取得更好的审计效果。

4.2 细粒度的权限管理技术

可根据运维人员的操作时间段、操作范围及权限来细粒度的管理控制运维人员的操作权限。

4.3 支持各种设备及操作系统

如图9所示。

4.4 便捷的行为记录及实时监控如图10、图11所示。

4.5 管理流程规范

4.6 规避运维操作风险

·操作透明-记录用户真实、原始的操作, 操作一旦记录, 不可更改;

·精确定位-确保操作审计精确到具体的操作者;·实时监控-可以边操作边审计;

·阻断及时-发现危险操作, 可以及时阻断正在进行的操作任务;

·关联分析-完整记录用户多次连续跳转操作的会话, 准确分析关联操作, 避免多次跳转无法审计;

·快速定位:

命令操作-可以搜索到屏幕中任何一个字段

图形操作-自动过滤录像中无操作行为的静止画面录像播放-可快速定位、拖拉回放

5 结论

通过上面的分析可以看出, 操作运维审计监控项目的实施, 在遵循相关法律法规的前提下可

以实现对内部及第三方运维厂商运维操作者的有效管控, 降低操作风险, 提高管理人员的工作效率, 减轻管理人员的工作负荷, 完善责任认定体系, 在保证系统正常运行的情况下, 实现整个运维操作过程的自动化。为原先相对薄弱、混乱的运维提供更好的技术保障。

浅谈IT运维管理之系统集中监控 篇10

【摘 要】随着网络应用技术不断发展,IT系统越来越复杂,业务对IT系统的依赖程度也越来越高。本文从项目背景、需求目标、功能设计、效果分析几方面探讨集中监控系统的建立。

【关键词】IT运维管理; 监控系统 ;数据采集

【中图分类号】C93【文献标识码】A【文章编号】1672-5158(2013)07-0070-01

前言

随着企业信息系统项目的不断建设和应用领域的不断拓展,企业管理运营对信息系统的依赖性越来越大,对IT基础平台的运行可靠性要求也越来越高,企业的信息化工作逐步从项目建设阶段转向以深入应用、提升应用水平的运行维护阶段。提高运维管理水平已成为现阶段企业信息化系统应用的重要保证手段。

一、背景

信息管理部是信息化专业主管部门,负责网络、主机等IT基础设施和应用系统的建设、维护,致力于提供安全、高效、快捷的IT服务。近年来,随着信息化建设的深入,企业应用不断增多,主机服务器、网络实施、操作系统、数据库、应用服务器等软硬件平台日益复杂,服务用户的面不断扩大,如何维护好日益增多的主机网络设备,保证各个应用系统安全顺畅运行,为用户提供良好的服务并及时解决各类问题和故障,是IT运维管理的关键所在。目前IT运维管理还处于初级阶段,还没有构建一个综合的IT运维管理体系。对网络、主机、系统等的管理和服务是分散的、不关联的,没有实现数据、信息和知识库的共享,没有实现规范化和流程化。因此需要建立一套融合组织、制度、流程、技术的IT运维管理体系,从粗放、分散、低效的管理逐步过渡到科学、规范的管理,实现从手工运维到自动化运维。按照IT运维管理理论、方法和标准,结合实际和建设需要,遵循立足需求、统一规划、分步实施原则。根据实际人员和管理情况,当务之急是需要建立集中监控系统,实现对网络及信息系统的综合管理监控和日常技术支持,快速响应和及时解决信息系统运行过程中出现的各种问题和故障,确保网络及信息系统正常、稳定、高效运行。

二、系统架构

2.1 系统架构图

集中监控系统实现对不同服务对象和IT资源的实时监控,包括主机、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等,并通过集中监控管理平台对不同被管对象进行综合处理和集中管理,其系统架构如图1所示。

2.2 数据采集层

数据采集层负责基础监控数据的采集、归并、筛选、过滤、关联等处理,同时对数据进行本地存储。数据采集的方式根据被监控对象的不同可分为:

(1)路由交换机及网络安全设备的数据采集方式采用SNMP协议轮询,接收SNMPTRAP以及Sys-log,采集相关的状态、事件信息。

(2)主机服务器针对不同的操作系统类型和监控的要求,采用SNMP协议、WMI、TELNET的方式轮询。对于特殊应用需求,可以采用AGENT的方式采集数据,满足个性化的需求。

2.3 数据分析处理层

数据分析处理层根据系统设定的各项功能模块的具体要求,对数据采集层提供的数据进行进一步组织、分析和存储,并将结果提供给上层的数据呈现层2.4 数据呈现层数据呈现层根据数据分析处理层提供的数据,通过Web界面以视图、报表等方式向用户展现。

三、系统主要功能

3.1 数据采集

数据采集是整个集中监控系统的基础功能。采用SNMP、WMI、TELNET等协议轮询、接收SNMPTrap、Syslog,或者通过安装在主机/服务器上的A-gent上报信息,来获取被监控对象的状态信息、日志信息和告警信息,并作相应处理。

3.2 故障判断集中报警

故障判断根据采集的基础数据和设定的判断基准,对事件进行判定,确定故障是否存在,并生成故障级别信息。集中报警功能根据故障判断提供的故障级别信息,采取不同的报警策略自动触发,驱动不同的报警程序,比如邮件、短信、声光等。

3.3 性能管理

性能管理对设备性能进行实时监控,比如:网络设备的CPU、内存、端口流量,主机系统的CPU、内存、磁盘读写、交换文件等。监控参数管理可以定义监控周期和性能阈值,当性能超过阈值时,系统发出报警信息。

3.4 网络拓扑管理

网络拓扑管理利用直观的图形展示,帮助管理员更好地了解网络系统的联接情况,在网络中出现故障时能够快速定位故障发生的位置,从而更快速恢复故障。网络拓扑管理根据网络连接情况,自动生成和实际情况相符的网络拓扑图,为管理员提供真正的网络视图。通过网络拓扑图管理员可以方便地掌握设备分布情况和每个设备的运行状态。

3.5 报表管理

报表管理用户可以订制资源使用报表、故障统计报表、资源趋势报表、TOPN统计报表、可用性统计报表、综合报告等不同类别的报表,并生成柱状图、曲线图、饼图等直观图表,实现各种信息的统计和分析,全面、宏观地展示网络的运行情况,有助于更细致地分析网络数据,察看网络、系统中可能存在的热点故障、故障多发设备、故障多发时间,性能变化趋势等,从中发现规律和趋势,为决策者和管理人员提供详细的统计分析报表。

3.6 配置管理

配置管理主要反应网络系统中被监控系统配置更新的情况。

3.7 系统管理

系统管理主要包括系统配置、用户管理、监控行状况等的管理。用户管理是实现系统用户的基本信息维护和权限管理。监控策略管理是根据不同的监控对象和应用环境,设置不同的监控策略,比如数据采集周期、报警方式。

四、结束语

上一篇:学前融合教育下一篇:独立学院理工类