综合运维管理系统

2024-08-21

综合运维管理系统(通用6篇)

篇1:综合运维管理系统

IT运维综合管控解决方案

针对安然、世通等财务欺诈事件,2002年出台的《公众公司会计改革和投资者保护法案》(Sarbanes-Oxley Act)对组织治理、财务会计、监管审计制定了新的准则,并要求组织治理核心如董事会、高层管理、内外部审计在评估和报告组织内部控制的有效性和充分性中发挥关键作用。与此同时,国内相关职能部门亦在内部控制与风险管理方面制定了相应的指引和规范。由于信息系统的脆弱性、技术的复杂性、操作的人为因素,在设计以预防、减少或消除潜在风险为目标的安全架构时,引入运维管理与操作监控机制以预防、发现错误或违规事件,对IT风险进行事前防范、事中控制、事后监督和纠正的组合管理是十分必要的。IT系统审计是控制内部风险的一个重要手段,但IT系统构成复杂,操作人员众多,如何有效地对其进行审计,是长期困扰各组织的信息科技和风险稽核部门的一个重大课题。

一、需求分析

系统的运维人员是系统的“特殊”使用团队,一般具有系统的高级权限,对运维人员的行为审计日渐成为安全管理的必备部分,尤其是目前很多企业为了降低网络与系统的维护成本,采用租用网络或者运维外包的方式,由企业外部人员管理网络,由外部维护人员产生的安全案例已经逐渐在上升的趋势。

运维人员具有“特殊”的权限,又往往是各种业务审计关注不到的地方,网络行为审计可以审计运维人员经过网络进行的工作行为,但对设备的直接操作管理,比如Console方式就没有记录。

运维审计的方式不同于其他审计,尤其是运维人员为了安全的要求,开始大量采用加密方式,如RDP、SSL等,加密口令在连接建立的时候动态生成,通过链路镜像方式是无法审计的。所以运维审计是一种“制度+技术”的强行审计。一般是运维人员必须先登录身份认证的“堡垒机”(或通过路由设置方式把运维的管理连接全部转向运维审计服务器),所有运维工作通过该堡垒机进行,这样就可以记录全部的运维行为。由于堡垒机是运维的必然通道,在处理RDP等加密协议时,可以由堡垒机作为加密通道的中间代理,从而获取通讯中生成的密钥,也就可以对加密管理协议信息进行审计。

二、运维安全审计面临的挑战

IT运维人员一般应用命令行方式(Telnet、SSH)、和图形化方式(RDP、VNC)、客户端软件等方式对数据中心的服务器进行管理,这些方式虽然方便、灵活,但接入点多,存在重大安全隐患,并难于管理,特别是,面对成千上万台的设备,一个IT经理或者一个CIO如何能确保所有IT运维人员的操作都是安全的? 倘若有违规操作,如果发现并有效阻止? 若阻止不及,如何认定事故责任?

三、IT运维综合管控解决方案

泰然神州Zendeep神电运维审计系统是用于数据中心IT运维的集中管理和审计系统,可以对基于Telnet、SSH、RDP、VNC等协议的访问操作进行过程的抓取,从而可以录象方式对所有运维人员的所有操作进行记录,并具备强大的搜索功能,可对特定时段、特定事件、特定用户等逻辑要素进行搜索与提取——从而达到真正意义上的审计与风险控制。

泰然神州Zendeep运维审计方案的功能架构模块(下图)

泰然神州Zendeep运维审计系统管理平台,不仅可以对IT运维人员应用带内管理工具(Telnet、SSH、RDP、VNC等协议)的管理进行全面的集中管理与审计,可以制定有效的控制策略,进行访问授权、访问阻断,另外也可以根据不同的参数搜索调用历史操作画面,并进行画面回放、查看审计日志、从而进行有效的安全防护。

泰然神州运维审计系统由管理控制台、应用代理服务器、客户端安全插件和数据库四大部分构成。管理控制台:

管理控制台负责实现系统的用户管理、代理访问策略管理、阻断策略管理、审计日志的查看与审计、对审计会话的画面回放和系统的基础配置等功能

管理控制台是一个基于Web的操作界面,可以对一个ICS对应的多台ICA的监控结果进行集中化的管理 应用代理服务器:

应用代理服务器用于实现代理应用的集中管理,对用户和客户机进行合法性校验,受符合策略要求的代理应用连接请求

提供TCP阻断功能,对于网络中的非法网络连接可以根据阻断策略自动实施阻断操作 数据库:

日志审计数据库,用于记录用户信息、策略信息和连接会话的日志信息等内容

文件数据库,专门用于记录应用代理服务器所记录每个连接会话的录像信息,录像信息与日志信息直接关联,直接通过查询日志信息后播放对应的录像文件,真实再现当时的操作画面 客户端安全插件:

终端客户机及和IT运维管控系统后台之间建立加密的连接通道 终端安全登陆认证设备接口

四、方案应用部署

泰然神州Zendeep运维审计系统部署网络拓扑架构图:

五、方案特点

泰然神州Zendeep运维审计方案特点:

集中管理,提供后台设备、数据库及指定系统统一的操作维护入口,实现单点登录。身份管理,提供设置实名制登陆帐号,详细记录后台数据库全部操作过程。

访问控制,提供管理员根据不同的用户配置不同的操作权限,实现命令级别的严格控制,确保合法用户在其系统权限范围内访问授权设备。

命令防火墙,实现当不同用户帐号与同一系统帐号关联时,以命令为核心建立更加细粒度的权限控制。操作审计,对用户实施的操作提供完整,详细记录服务。并可以安全地存放于管理平台中,管理平台能以方便、友好的界面方式提供对这些记录的操作查看,搜索,回放等审计功能。支持协议:Telnet、SSH、RDP、VNC等 强制主机审计,所有运维行为强制经过IT运维管控系统跳转 IT运维管控系统所在服务器安全加固

六、泰然神州Zendeep运维审计系统方案效益分析

通过实施泰然神州Zendeep运维审计系统方案,安全审计工作可以得到有效简化,可以进行全面的集中管理与审计,真正做到运维全程操作可见﹑可控﹑可查。

1、本系统可对所有用户进行集中管理,包括本地管理用户及远程管理的用户。可以通过本系统行使如下功能:用户的创建、修改、删除和查询、用户的启用和挂起控制、用户的权限管理功能。

2、可以对历史操作画面回放,掌握第一手客观公正的操作记录。

3、对所有通过基于Telnet、SSH、RDP、VNC等协议的访问操作,进行全生命周期录像,可实现对历史操作过程的真实再现。

4、根据用户设置的规则、关键字、用户名称、目标地址、源地址负载名称、部门名称、描述信息和时间进行审计信息的查询检索,对查询的结果进行回放,再现历史操作画面。

5、本系统对通过应用代理服务器访问的负载的操作信息进行记录,包括访问负载IP地址、客户端地址、运维用户名称、操作开始和结束时间等等,管理人员可以通过时间、客户端类别(TELNET、SSH、RDP、VNC)、负载IP地址、客户端IP地址和运维用户对审计信息进行查询。

6、可以制定有效的控制策略——将风险远远阻在门外,访问授权控制策略:可以根据企业内控与管理的要求配置应用代理访问控制策略,经过授权的客户端可以通过代理访问负载,未经过授权的客户端则不可以访问负载。

7、阻断访问控制策略:通过访问控制策略阻断控制,可以强制用户必须通过应用代理访问负载。

篇2:综合运维管理系统

目录

运维管理规范--------------4 1.目的------------------------4 2.适用范围------------------4 3.规范性引用及参考-----4 4.本文术语,定义和缩略语---------------------------5 5.基本要求------------------6

5.1运维管理原则-----6 5.2制度和流程管理6 5.5供应商管理--------7 5.6督促检查-----------7 6.运行维护------------------8

6.1日常操作及监控分析--------------------------8 6.2 数据与介质管理-8 6.3机房管理-----------9 6.4 网络管理----------9 6.5 弱电管理---------10 6.6桌面维护----------10 6.7服务器及系统变更----------------------------11

6.8 配置管理---------12 6.9 事件与问题管理 12 7.应急管理-----------------12

7.1应急准备----------12 7.2应急处置----------13

运维管理规范

1.目的

为规范公司运维工作,使相关工作具有持续改善及相互协作性,同时加强计算机设备的管理及维护,确保维修工作的及时性,降低计算机设备的报修率,实现业务与技术的融合,将业务部门与IT 部门紧密结合在一起,根据公司管理要求及计算机应用的需要,由运维部制定。

2.适用范围

本规范规定了运维管理工作的要求。

本规范适用于维信理财集团(中国)总部,包括全国各分部及门店。

3.规范性引用及参考

◆ IT 服务管理国际标准ISO/IEC 20000 ◆ 企业获得ISO/IEC 20000认证的权威指南 ◆ 全球著名IT 服务管理书库(ITSM Library)◆ IT 服务质量管理原则

◆ 理解ISO/IEC 20000在IT 服务中的地位 ◆ ISO/IEC 20000规范和实践准则 ◆ IT 服务管理国际标准ISO/IEC 20000 ◆ GB/T 20269—2006 信息安全技术 信息系统安全管理要求

◆ ISO 31000:2009 风险管理 原则和指南(Risk management--Principles and guidelines)

◆ JR-T 0060—2010 金融信息系统安全等级保护基本要求 ◆ JR/T 0074-2012 金融IT 服务管理基本规范 ◆ 中国金融标准化报告(2011)

4.本文术语,定义和缩略语

1、IT: Information Technology 信息技术

2、DNS: Domain Name Service 域名服务

3、DHCP: Dynamic Host Configuration Protocol 动态主机配置协议

4、VPN: Virtual Private Network 虚拟专用网

5、OA: Office Automation 办公自动化系统

6、ISO: International Organization for Standardization 国际标准化组织 编订日期:30.7.2014 批准日期: 生效日期:

7、故障: IT设备或系统丧失规定的功能,导致服务中断或降质,或对正常运行造成潜在威胁。

8、异常: IT设备或系统的状态发生超出预期的变化或性能指标参数超出正常范围,有可能引发或已经引发故障,需要引起运维人员关注或处理。

9、资料: IT设备或系统的运行记录,包括IT 设备或系统的配置、故障历史记录、软硬件扩容或调整记录、权限变更申请记录等。

10、运行维护:本规范中的运行维护包括IT 基础设施维护、IT 应用系统运维维护、安全管理、网络接入、内容信息以及综合管理等。

5.基本要求

5.1运维管理原则

公司按集中与分散相结合的原则,设立机房、各部门配备电脑。计算机系统本着“总体规划、分步建设”的方式实施建立。

计算机系统建设应综合考虑成本、费用、效率、效果、先进性及适用性,选择最优技术、经济方案。

5.2制度和流程管理

运维管理制度应包括但不限于机房管理、网络与系统管理、数据和介质管理、配置管理、安全管理、监控管理、文档管理、设备和软件管理、供应商管理等制度。

运维操作流程应包括但不限于日常操作、事件处理、问题处理、系统变更、应急处置等流程。

5.3 文档管理

对运维过程中涉及的各类文档进行管理,可按照制度文档、技术文档、合同文档、审批记录、日志记录等进行分类,并妥善保存。5.3.2 对文档的版本应当进行控制。

文档在使用时应能读取、使用较新版本,防止作废文件的逾期使用。

5.4设备和软件管理

建立计算机相关设备和软件管理制度,对设备和软件的使用、安装、维修(升级)等进行规范。明确设备和软件管理责任人。对设备进行标识,标识应放在设备明显位置。

规定设备和软件的使用年限,定期进行盘点,并对设备状态进行评估和更新。

对外送设备的维修进行严格管理,防止数据泄露。

对拟下线和拟报废设备的存储介质中的全部信息进行清除或销毁。对正式下线设备和软件交指定部门统一管理、保存或处置,并保留相应记录。设备和软件报废应符合公司现行资产管理规定。

5.5供应商管理

对供应商支持运维服务的相关活动进行统一管理。

在与供应商签订的合同中明确其应承担的责任、义务,并约定服务要求和范围等内容。

应定期收集、更新供应商信息,组织对供应商的服务质量、履约情况、人员工作情况等内容进行评价,并跟踪和记录供应商改进情况。加强运维外包服务管理,主要包括:

a)明确外包公司应当承担的责任及追究方式;

b)明确界定外包人员的工作职责、活动范围、操作权限; c)对外包人员工作情况进行监督和检查,并留存相应记录; d)对驻场外包人员的入场和离场进行管理; e)定期评估外包的服务质量; f)制定外包服务意外终止的应急措施。

5.6督促检查

定期检查审计,对运维制度的执行情况和运维工作开展情况定期进行检查和审计,以督促运维工作持续改进。

指定人员负责对日常操作执行情况进行检查,确保运维管理制度和操作流程的有效执行。对检查和审计结果采取纠正、预防措施。

6.运行维护

6.1日常操作及监控分析

未经许可,任何人不得随便使用电脑及相关设备。不得更换电脑硬件和软件,拒绝使用来历不明的软件和移动设备。

电脑发生故障时,使用者作简易处理仍不能排除的,应立即报告IT,非专业管理人员不得擅自拆开机箱或调换设备配件。

计算机及其相关设备的报废需经过IT 部门或专职人员鉴定,确认不符合使用要求后方可申请报废。

运维应采取各种监控措施,配备视频、语音、系统监控和报警工具,对影响信息系统正常运行的关键对象,包括机房环境、网络、通信线路、主机、存储、数据库、核心交易业务相关的应用系统、安全设备等进行监控。

主要监控指标具体如下:

a)机房:电力状态、空调运行状态、消防设施状态、温湿度、漏水、人员及设备进出等;

b)网络与通信:设备运行状态、中央处理器使用率、通信连接状态、网络流量、核心节点间网络

延时、丢包率等;

c)主机:设备运行状态、中央处理器使用率、内存利用率、磁盘空间利用率、通信端口状态等;

d)存储:设备运行状态、数据交换延时、存储电池状态等;

e)安全设备:设备运行状态、中央处理器使用率、内存利用率、端口状态、数据流量、并发连接数、安全事件记录情况等;

6.2 数据与介质管理

配合数据应用部,对核心业务数据进行周备份,并每季度进行恢复性测试。

对设备和人员出入进行管理。进入机房应限制和监控其活动范围,并有专人陪同;未经批准不得接入生产环境。

6.3机房管理

对机房环境、供电、空调、消防、安防等基础设施的运行维护、设备和人员出入、机房工作人员等进行规范管理。

应指定机房管理负责人。确保机房环境整洁和安全,包括:

a)应定期检查防水、防雷、防火、防潮、防尘、防鼠、防静电等措施的有效性;

b)应保持机房环境卫生,设备摆放合理,归类; c)不得随意出入机房。

d)未经审批不得接入其它用电设备。

6.4 网络管理

确保网络、系统的正常运行。网络管理应包括: a)绘制网络拓扑图,并保持更新;

b)应保持网络设备的可用性,及时维修、更换故障设备; c)应负责网络系统的参数配置、调优; d)应定期对系统容量进行检查和评估;

e)应定期检查网络设备的用户、口令及权限设置的正确性;

f)应定期对整个网络连接进行检查,确保所有交换机端口处于受控状态; g)应对网络信息点进行管理,编制信息点使用表,并及时维护和更新,确保与实际情况一致。计

算机网络跳线应整齐干净,跳线标识清晰;

h)应制定网络访问控制策略,应合理设置网络隔离设施上的访问控制列表,关闭与业务无关的端口;编制文档并保持更新;访问控制策略的变更应履行审批手续。

权限管理应包括如下要求:

a)权限分配应履行审批手续,权限设置后应复核; b)应按照最小安全访问原则分配用户权限; c)应在用户账户变化时,同时变更或撤销其权限; d)应定期检查权限设置的有效性。

6.5 弱电管理

严格按图纸施工,在保证系统功能质量的前提下,提高工艺标准要求,确保施工质量。质量检查制度,现场管理人员将定期进行质量检查并贯穿到整个施工过程中。统运行验收:当设备安装完毕并调试运行无误后,由公司派现场调试人员进行系统联调,并向上级汇报调试结果。运维对弱电设备的综合管理,包括技术资料、档案的收集。同时,每月一次对弱电设备运行状况进行检查,并及时处理汇报问题。

6.6桌面维护

日常数据注意事项:

a.个人文件(Excel、Word、PDF 等)建议员工不要存放在系统盘(通常为C 盘),可以存放在其它盘符。

b.工程师可通过多种方式或途径来告知员工如何进行日常文件的备份,如:口述、邮件、培训等。

c.未经许可,禁止使用U 盘,移动硬盘,手机或其它外设,如:网盘、邮箱等,盗取公司内部文件。

重装系统前注意事项:

a.询问用户有哪些相关数据需要备份,如桌面、我的文档、收藏夹、邮件等。b.用户Email 的备份:如客户端为Outlook 则导出相关OST 或PST 文件;硬件损坏需更换或维修时,运维人员进行测试,明确是否真实异常,不可随意更换。

关于账号、权限、密码

a.必须严格按照公司制定的IT 策略进行管理,不可私自制定规范。b.禁止私自把个人管理员权限借给他人或告知他人。

c.禁止为他人开设规定以外的权限,如:本地管理员、其他部门目录访问权限、上网权限、电话权限等。

d.更改任何类型用户权限时需得到相关审批层级确认才可执行。e.如电脑无特殊应用需求,则一律为“user”普通权限。

f.人员离职时,总部和分部应及时通过OA 确认,删除离职人员的相关账号与信息。

g.妥善保管自己所知的密码。

6.7服务器及系统变更

不得在服务器上使用带有病毒和木马的软件、光盘和可移动存贮设备,使用上述设备前一定要先做好病毒检测;不得利用服务器从事工作以外的事情,无工作需要不得擅自拆卸服务器零部件,严禁更换服务器配套设备。不得擅自删除、移动、更改服务器数据;不得故意破坏服务器系统;不得擅自修改服务器系统时间。

使用空闲主机,对服务器系统补丁进行升级测试,运行平稳后,各服务器升级安装补丁,弥补系统漏洞;为服务器系统做好病毒及木马的实时监测,及时升级病毒库。

管理员对管理员账户与口令严格保密、重要数据库,网站,APP 等服务器由研发配合定期修改密码,以保证系统安全,防止对系统的非法入侵。

任何无关人员不得擅自进入主机房,需要进入的须征得服务器管理人员同意。应注意保护机房内的设备和物品,未经允许的非管理人员不得擅自操作机房内设备。

严禁携带易燃易爆和强磁物品及其它与机房工作无关的物品进入机房,机房内严禁吸咽。除管理员外,任何人不得随意改动服务器内系统及环境配置。

除系统管理员或授权参加系统管理的人员外,任何用户不得以任何方式获取(或企图获取)超级用户权限。

6.8 配置管理

明确配置管理负责人。

建立配置文档库,对服务器、存储、网络、安全设备,操作系统、应用软件、数据库等进行管理。

定期对配置进行备份及文档库归类。

及时检查并定期审计,对发现的不一致情况及时纠正修改。

6.9 事件与问题管理

对运维事件的处理进行规范,对发生的所有事件,根据事件的影响程度和影响范围评估事件处理优先级并及时处理。

对所有事件响应、处理、结束等过程进行跟踪、监督及检查。对问题进行分析、提出解决方案,通过变更管理审批后部署实施。

7.应急管理

7.1应急准备

明确网络、系统等事件的应急指挥决策机制,负责网络与系统事件的预防预警、应急处置、报告和调查处理工作。

网络与系统应急管理应遵循“谁主管谁负责、谁运行谁负责”、“统一指挥、密

切协同;注重预防、减少风险;科学处置、及时报告;以人为本、公平优先”的原则。

应急准备应符合如下要求:

a)系统管理员、网络管理员、安全管理员等关键岗位应熟练掌握应急预案,能有效处置相关事件;

b)在自身力量不足以满足应急要求的情况下,应与相关供应商签署服务保障协议。协议内容应包

括双方联系人、联系方式、服务内容及范围、应急处理方式等。应定期检查和评估协议的执行情况,确保服务保障措施落实到位,确保在应急处置中相关单位能提供及时有效的技术支持;

c)应建立有效的应急通讯联络系统,确保信息畅通;

7.2应急处置

在发生网络与系统事件后,迅速采取应急措施,尽快恢复信息系统正常运行,如有重要情况应及时上报。

篇3:综合运维管理平台设计探讨

随着信息化建设的不断深入, 我校的IT架构日趋复杂, 用于支撑整个数字化校园系统运行的IT设备和基础平台也越来越大, 故障处理不及时和变更上线导致的宕机增多等问题开始显现, 单纯的基础建设已不能有效增强运维部门的保障能力。与此同时, 人们的工作对信息系统的依赖越来越大, 因此整个信息设备的稳定运行以及日常的维护工作就显得尤为重要。

目前的管理方法是:使用一些简单的监控产品, 结合定期的人工巡检, 来发现IT环境中已经发生的故障, 管理人员常处于被动的角色, 无法预知或及时获知IT环境的运行状况, 在进行故障排除时, 往往是通过经验来判断故障点, 然后通过排除法逐级检查, 最终找到故障设备, 故障响应、处理时间长, 工作效率低, 管理困难, 我们急需一套智能的统一的综合运维管理平台, 将被动的管理化为主动的监控管理。

2 运维管理存在的问题

运维管理存在的问题主要包括:系统架构越来越复杂, 设备运行维护管理混乱;工作标准化、规范化欠缺, 随意性较大;人员解决问题时缺乏协作, 责任不清晰;无法和用户进行及时的沟通并解决问题, 用户满意度不高;没有形成有效的知识库, 遇到相同的问题, 不能从知识库获取解决办法, 依赖个别维护人员;缺乏IT运维工作量的量化考核工具, 没有计算IT运维人员的工作绩效, 也没有监督IT运维人员解决故障的处理效率和处理质量。

3 综合运维管理平台建设目标

综合运维管理平台建设的总目标: (1) 全面监控IT资源状态; (2) 提高IT部门运维效率和服务质量; (3) 体现IT部门运维价值。

具体目标: (1) 实现管理范围内所有设备的监控管理; (2) 实现故障告警信息的定制、获取、处理和统计功能; (3) 实现底层支撑架构、网络设备、主机、中间件、数据库及通用的性能数据的采集和统计功能; (4) 根据监测到的性能原始数据, 对信息系统运行状况, 运行趋势等进行分析, 提供分析报表; (5) 提供对业务可用性的实时监测; (6) 提供灵活的、可自主设计的服务管理平台; (7) 设计符合高校的计划与排班管理功能; (8) 可对运维服务进行考核分析。

4 综合运维管理平台系统设计

4.1 设计思路

综合运维管理平台应是一个平台级的系统, 应在统一平台上综合提供底层支撑架构管理、网络设备管理、各类主机/数据库/中间件等服务管理、业务运行监控管理、资产管理、IP地址管理、机房管理、存储虚拟化平台管理、服务管理等, 应允许第三方软件通过标准接口插入本系统, 共享数据采集、共享数据记录、共享故障处理的统一平台。

综合运维管理平台应能够采集管理范围内所有网络设备、主机、软件及应用的配置、运行、性能及事件等数据, 通过对采集数据的分析处理, 为我们提供网络、系统及标准应用系统的状态监控管理。

综合运维管理平台应对事件故障的发生以及相应流程标准处理机制全面考虑, 使系统能够根据我们的需求功能进行高效的管理与预处理工作。当平台自动发现机制中, 一旦出现故障信息, 能够迅速地以IT系统维护的关系作为依据对整个IT信息进行自动筛选, 并发送给相关的运维管理人员, 系统将收集到的信息进一步向工作台进行转发, 以提醒相关人员对故障进行进一步的处理工作。

4.2 系统设计

综合上述观点, 根据我们现有设备的管理、使用情况, 参考目前主流技术, 综合运维管理平台应由监控工具层、数据汇聚层、运维管理层、集成接口组成。系统的架构通过分层、分模块进行设计, 遵循注重开放、规范接口、松散耦合的设计原则, 降低各管理软件的整合工作量, 实现管理的集中化。

4.2.1 监控工具层

监控工具层是各类专项监控系统的集合, 通过远程监控手段和代理监控实现对各类被管对象的监控管理。主要实现对网络、主机/虚拟机、数据库、中间件、业务服务、存储、机房环境、安全等各类资源的监控管理。

4.2.2 数据汇聚层

数据汇聚层由数据汇聚接口、数据分析引擎、资产配置库、性能指标库、运维数据仓库等子系统组成, 是整个平台的数据核心体系, 是实现系统集成性和可扩展性的关键。系统通过资产配置库为全网设备建立资源台, 通过性能指标库来保存资源的各项监控指标, 数据分析引擎实现对资产配置、性能数据、告警事件的分析处理。

4.2.3 运维管理层

运维管理层是系统的业务功能实现层, 由综合监控展现、服务流程管理、报表管理、运维门户等四个子系统组成。其中综合监控展现主要包括告警监控视图、业务全景监控视图和实时性能监控视图, 通过系统自动生成或可视化工具来设计和展现各类运行展现视图;服务流程管理子系统实现日常运行维护管理的规范化和流程化;报表管理子系统实现资产、性能、容量、告警、工单等各维度的统计分析;运维门户实现各项业务功能的组织与呈现。

4.2.4 集成接口

集成接口是规范化系统数据流、实现系统内部模块、上下层系统之间、第三方应用集成的统一适配接口, 采用标准接口协议, 实现身份认证、OA等应用的集成, 同时实现与上下级管理平台直接的级联和数据上报管理。

4.3 系统特色

4.3.1 统一的访问门户

运维门户提供面向运维人员的门户基础框架和单点登录服务, 以便各个业务模块的界面整合和统一呈现。门户视图可以根据需要灵活调整, 基于不同角色、不同使用人员呈现不同的个性视图。同时提供系统自身和第三方的页面整合, 并通过统一授权管理, 形成面向用户业务的视图展现集成。

4.3.2 统一的资产配置库

构建统一的资产与配置管理库, 实现资源、资产、资料的全面管理, 解决各类资源配置管理分散、无序的现状, 集中管理和保存所有的资产和配置信息, 保证数据的准确性和查询的便捷性, 并有效解决对个人依赖的风险。

4.3.3 统一的事件平台

统一事件平台实现各类告警的接入、识别、处理规则制定, 实现整个IT运行环境各类告警的集中监控与处理, 提供开放式的数据集成接口, 可以接收来自不同设备、不同软件系统发出来的告警事件, 从而保证所有被管对象的集成整合, 真正实现统一管理平台。

4.3.4 统一的性能管理

监控指标抽取引擎提供对各类监控指标的集中分析和处理, 系统通过标准的接口体系收集, 根据管理需要将各类原始性能数据进行规整后, 并根据分析判断出阈值事件, 写入监控指标库中, 同时将超过阈值的数据报送给统一事件平台, 形成告警联动。

4.3.5 灵动的视图开发平台

灵动视图开发平台以配置管理库和集中监控数据为支撑, 面向对象技术, 实现各类视图的可视化设计。用户能够根据管理需要设计各类视图, 实现各类监控对象的资产、监控、操作、管理四个维护数据的综合展现。

4.3.6 自定义的流程编辑工具

可以方便灵活地定义流程和子流程, 设定相关服务、角色、规则和流转条件, 使得运维业务按预定的流程在系统中流转, 实现根据人员、优先级自动选择流向。

4.3.7 呼叫中心

部署的呼叫中心与门户系统、网络计费系统集成, 提供标准的二次开发接口。呼叫中心应支持智能化座席、自动语音导航、智能来电弹出、来电智能分配和录音等功能。

5 结束语

国内现有相关软件多是监控系统和运维系统各自独立, 或通过简单接口连接, 但信息、资源不共享, 已不能满足运维部门的管理需求, 因此, 研究开发一套智能的统一的综合运维管理平台具有现实意义。

参考文献

[1]李渤, 陈莹.IT的运维管理与实现[J].计算机光盘软件与应用, 2013 (18) .

[2]孙建庆.信息系统运维综合监管平台设计[J].电力信息化, 2009 (03) .

篇4:综合运维管理系统

关键词:运营商;管理

中圖分类号:TN915.07 文献标识码:A 文章编号:1674-7712 (2012) 06-0075-01

随着三网融合和NGB的试点工作在全国各地积极开展,甘肃广电及时抓住机遇,加快了全省广电网络的整合,并积极与移动、联通结成战略合作伙伴,全力推动全业务的开展与实施,研发了可承载三网融合全业务开展的语音、数据、标高清、3D电视互动平台和家庭智能平台,实施了以干线扩容、双向网改为主的NGB网络建设。最终形成了甘肃广电自主特色的全业务和全服务平台,通过该平台,就可以利用统一的资源,通过共用平台,向手机网、无线网络、互联网、广播电视网等渠道的不同终端,提供适合各种网络传输和终端显示的业务和服务。目前甘肃广电已经开展数字电视、互动电视、网络电视、电视生活、物联网家庭手机监控等业务。

一、建设全业务综合运维平台的必要性

随着新业务的开展,甘肃广电全业务的平台已形成规模,下一步就要考虑如何保证平台安全、稳定、可靠地运行,也就是从“如何建”逐步转移到“如何管”,因此需要建设以客户为中心、以市场为导向、以效益为目标,建设科学、先进、高效、自动的综合运维管理平台,在保证网络安全的同时,最大限度地利用网络资源,提高网络的运行质量和效率,为用户提供更多的服务内容和更高的服务质量已成为实现新型全业务运营和运维的要求。

二、eTOM增强的电信运营流程体系

对于广电运营商的综合运维平台的规划可参考和借鉴电信企业先进的eTOM体系。eTOM是增强的电信运营流程模型和框架,由TMF根据ITU的TMN模型和各国电信系统的建设经验总结出来的,它阐述了电信运营商及其所处的经营环境,给出了运营商内、外部的相互影响、相互作用的五大实体:客户、供应商/台作伙伴、股东、雇员其他利益相关者。eTOM作为电信运营业务流程向导的蓝图,是NGOSS(新一代运营系统和软件)的重要概念和关键组成元素。

三、综合运维管理平台在eTOM中的定位

广电运维管理平台在eTOM模型中定位在纵向的业务实现、业务保障,以及横向的资源开发和管理、资源管理和运营的交集处。其中业务实现过程组主要负责及时、正确、快速地为客户提供他们所需要的产品和服务,将客户的个性化需求转化为运营商产品的解决方案,并通知客户定单的状态和确保定单的及时完成。业务保障过程组负责业务维护活动以确保提供给客户的业务满足SLA或QoS性能水平;执行连续的资源状态和性能监控;收集性能数据、通过分析这些数据识别出潜在的问题、并在对客户造成影响之前解决这些问题;负责从客户接受故障报告、通知客户故障的状态、确保故障的修复。资源开发、管理和运营过程组主要负责对资源进行维护和管理;确保网络和信息技术基础设施平滑的运行,以支持端到端的业务的交付;同时,它也负责收集资源的信息,并修正、汇总相关的信息给相关的业务管理系统。

四、综合运维管理平台的组成

基于eTOM体系规划的综合运维管理平台主要包含以下几部分内容:

(一)资源管理。可以对运营商的业务资源、IT设施资源和各类网络资源进行管理。便于运营商及时、全面掌握资源的使用情况,进行资源预警和分析。

(二)维护管理。可以对运营商的日常值班、设备运行、巡检维护和检修等工作流程进行规范和管理,便于运营商规范管理制度和优化工作流程。通过工单流转提高工作效率和工作质量。

(三)故障管理。可以对故障做到事前预警、事中处理和事后分析,可以实现声音、闪烁、短信、广播等多种形式的报警方式,并能预先分析故障的可能性,对于出现故障后自动启动工单流程,实现故障派单的及时响应和处理。可以对各类故障进行智能分析,形成知识库,为工程技术人员提供解决问题的能力和保障。

(四)成本管理。可以对设备和网络运行维护过程中产生的各类成本进行管理和跟踪,为管理层提供运营的参考和依据,为新业务的运营提供决策和指导。同时为管理层提供各时段成本支出的同比和环比分析,便于决策分析。

(五)考核管理。可以对运营商的各级运维管理部门和人员进行绩效考评,通过设立科学的KPI指标,实现自动考评和智能分析,便于提高工程技术人员的业务水平和综合能力,为人事考核和管理提供依据。

(六)物资管理。可以对运营商的各级仓库的设备、线缆、器材、仪器、工具和其他各类物资进行统一综合管理,通过对库存模型分析,计算科学、合理的库存量,为运营商最大程度节约成本提供保障。

(七)工程规划设计。可以对运营商新建工程、改造工程的规划设计,实现复杂的工程设计环节,自动生成各类工程图纸和工程材料清单,并能自动计算工程建设费用和成本。

五、综合运维管理平台实现的目标

(一)该平台可以结合GIS技术、工作流技术、移动3G技术和GPS定位技术可以在PC端、PDA端、决策中心大屏幕等进行可视化管理,通过电子地图、影像地图和三维地图进行展示和业务分析,可以展示全省网络的运行数据、故障情况。

(二)该平台利用LBS(基于位置的服务)技术,可以对巡检人员进行定点考勤和现场巡查,可以对故障现场位置信息、故障图像和照片及时反馈到控制指挥中心,便于决策中心全面了解故障情况,提高问题处理效率。可以支持突发事件的临时任务派发管理。

(三)便于预警与提醒,可根据实际需求,对各类机房设备、网络器件等各项参数的预警提示,并在PC端、PDA端提供基于电子地图及列表的各级别声、光、色提醒。同时,可在PC或PDA上提醒各类巡查任务,对过期的巡查任务提报给上级管理人员的PC或PDA上。

(四)可以使客户服务中心降低服务成本,提高服务质量:结合用户发展预测,合理分配网络资源;根据网络负载,调配相关资源,提供用户的稳定业务支持,快速的故障分析和响应处理及工作调度,提高效率。

(五)可以使规划设计部门提高建设效率,有效利用资源:辅助基础施工,防止误伤现有管网和线路,减少意外损失;及时掌握设备、资源的使用情况,帮助运营商做到投资决策有的放矢,杜绝投资黑洞,保证较高的成本效益。

(六)可以使运行维护部门提高故障处理速度,降低维护成本:快速定位故障,对故障影响度进行分析,优先处理关键环节,减少故障损失;提供设备设施准确信息,直接到达,快速处理,降低维护成本。

篇5:运维管理系统方案

概述

伴随着企事业网络规模的不断扩大,企事业服务器的增多,企事业管理的信息化,企事业网络管理也变的越来越重要。一旦网络、服务器、数据库、各种应用出现问题,常常会给企事业造成很大的损失。怎样能7x24小时检测网络系统的运行情况,避免各种故障的发生,改进传统的网络管理方式来适企事业信息化发展的需要?

因此,运维管理系统就有他的必要性。一个完备的运维管理系统能够提供7x24小时检测网络、服务器、数据库、各种应用系统,及时发现将要出现的问题,并通过短信、Email、声音报告给运维管理人员。运维管理人员就可以及时排除故障,避免造成重大损失。

        运维管理系统的功能:

故障发现与警报;

记录日常运维日志信息; 服务器故障统计;

服务器软硬件信息统计; 服务进程管理;

将数据信息存储到数据库,并使用图形方式直观的展示出来; 权限、密码管理; 将数据生成报表。运维管理系统的特点:        邮件和短信实时故障报警;

B/S结构,能够通过web对远程服务器下达指令;

篇6:运维管理要求

1.资源管理

数据中心资源管理所涵盖的范围很广,包括环境管理、网络管理、设备管理、软件管理、存储介质管理、防病毒管理、应用管理、日常操作管理、用户密码管理和员工管理等。

1)环境管理

数据中心环境安全管理的重点在于如何根据不同区域的特点使用不同的安全管控和出入原则。对重点的区域可以选用先进的安全设备,使用严格的进出管理控制制度进行管理。

2)网络管理

网络作为数据中心重要的资源,应制定相关流程予以控制。建议网络管理流程包括如下管理内容:

(1)网络拓扑结构:应明确网络的拓扑结构,创建网络拓扑结构图,并在网络结构变化时及时更新拓扑图。网络拓扑结构的变化应有记录并得到适当的审批,应有专门的人员负责网络拓扑结构的调整。

(2)网络的访问管理:应将网络划分为不同作用的网段,例如办公网、生产网、管理网,公共网络。规定有权访问各类网络的设备和人员,明确网络接入的申请、审批流程和终止接入的流程,做到网络接入、终止接入过程受控,有专门的人员负责网络接入和终止接入的管理工作。

(3)网络系统日常维护流程:应有专门的工作指引用于指导网络设备的日常维护,日志的备份、配置信息的备份。

3)设备管理

数据中心的设备管理主要包括对设备的固定资产管理,设备维护管理等。数据中心在起草相关流程文件时应关注以下几点:

(1)编制设备清单:明确设备的所有者、管理维护人员或部门、开始使用的日期、设备的重要等级等信息。此类信息最好悬挂或张贴于设备上或设备周边的醒目位置以便于管理。

(2)制订设备的维护计划:规定具体设备的维护日期、维护人等信息,并由专人负责按照维护计划进行维护或联系、督促服务商执行维护。

(3)将设备按重要等级进行分类:设备按照等级分类,并按不同的设备重要等级制定不同的管理策略,最大限度的确保重要设备的运行。

4)软件管理

数据中心软件管理通常需要关注以下三项内容:

(1)计算机系统安装软件的管理:对于数据中心的办公用计算机、监控用计算机和生产用计算机来说,其安装的软件应该受到严格的控制,避免员工随意安装软件。从软件管理角度,数据中心应建立可安装软件的认证工作,通过对软件使用的分析建立一张可安装软件的清单,对于清单范围外的软件不允许安装。对于监控、生产用的计算机及可连入生产网的计算机,其安装的软件需经过认证,并对所安装的软件进行记录,定期检查是否存在使用其他软件的情况。

(2)软件维护及补丁管理:随着各种利用安全漏洞的病毒和恶意程序的增多,软件维护和补丁的更新工作也显得极其重要。对于软件补丁的安装管理应做好以下几项管控工作:补丁的测试、补丁的发放和安装、版本控制,建议补丁的管理由专人负责。

(3)数据中心软件许可证的管理:随着知识产权意识的提高,是否使用有合法许可授权的软件已经成为越来越多数据中心和客户关注的问题。软件许可证的管理要作为数据中心的一项重要工作。其重点在于管理数据中心所拥有的合法软件许可证,确保在许可证许可范围内使用软件,确保软件的安装有记录可查。

5)存储介质管理

数据中心经常面临大量的介质管理工作,介质管理工作的成功与否直接影响数据中心的信息安全。一个良好的介质管理工作应包括以下几方面的内容:

(1)空白介质与有数据介质保存方式的规定:两种介质分开保存并有明显标示以示区别,同时应明确介质的保存地点,做到介质统一保存。

(2)应制定统一的介质编号、标示原则:对介质作统一的编号标示,便于介质管理。

(3)有条件时建立介质管理员制度:确保介质的专人管理,可减少介质管理的混乱。

(4)有数据介质的领用查阅应得到控制:介质领用、报废应有适当的审批过程。应规定清除报废介质内残余数据和销毁处理报废介质的流程,避免信息泄露。

6)防病毒管理

随着计算机病毒的日益泛滥,防止数据中心的生产设备、办公设备受到病毒侵害已经成为数据中心管理中不可缺少的工作内容。防病毒管理流程主要包括以下几个方面:

(1)防病毒软件的管理:这里主要包括软件的安装、软件的设置、病毒库更新,软件版本控制、定期查杀病毒等。

(2)病毒资讯:安排专人随时了解病毒最新信息,可能爆发的病毒类型、染毒后现象及对信息系统的影响,查杀方法等,并将这些信息通过定期通告和随时通报两种方式提醒数据中心相关人员查防。

7)应用管理

广义的应用管理包括了数据库、中间件和应用系统本身在内的所有管理。它是绝大多数IT服务的“灵魂”。对于数据中心而言,挑战在于要同时管理大量复杂并且相互关联的应用。

8)日常操作管理

数据中心的日常操作管理主要包括数据中心内部生产系统、办公系统、动力设备、环境保护、监测系统的数据处理、操作、维护的管理,以及数据中心信息处理设施、基础设施设备的软硬件运行情况巡检等监控工作的管理。

数据中心应该为每一台设备编制相应的操作工作指引。不建议以服务商或设备制造商提供的使用说明书或技术资料直接作为工作指引使用。工作指引编制应该满足数据中心实际使用的需要,用于指导操作人员在实际环境下操作设备的各项功能。

建议制定相关的巡检工作指引,规范数据中心的日常巡检工作。工作指引应规定巡检的周期、巡检项目、判定设备正常的标准、出现异常后的记录和汇报方式以及事件管理的接口。对巡检设备及内容做成检查表,巡检记录以表格形式呈现。

9)用户密码管理

用户密码是数据中心运行的重要信息。用户密码的妥善管理可以减少数据中心运行的风险,提高数据中心运行的效率,确保信息的安全。

10)员工管理

员工作为数据中心重要的资源需要进行有效管理。数据中心的员工管理流程应包括:

(1)员工招聘、任用流程。明确员工招聘任用的流程,明确签订劳动合同和保密合同的过程。

(2)员工培训流程。数据中心属于技术密集型组织。由于IT领域新技术、新产品层出不穷,所以确保员工获得相关的技术和能力培训显得至关重要。应规定员工接受培训的流程,员工培训主要包括上岗培训和日常培训。

(3)员工离职及岗位调整流程。员工离职或岗位调整后,应完成各种工作交接,并应收回各类技术资料、系统权限、网络权限、出入证件、门禁系统权限。2.服务支持管理

1)事件管理

事件管理主要管控引起或可能引起服务中断或服务质量下降的不符合IT服务标准操作的活动。这里的事件不仅包括软硬件故障,也包括服务请求。当处理多个事件时应根据事件的影响、紧急程度、解决事件的难易决定事件的优先级。如在协议时间内无法解决事件还应考虑事件的升级流程。

2)问题管理

问题管理流程是通过调查和分析IT基础架构的薄弱环节,查明事件产生的潜在原因,并制定解决事件的方案和防止事件再发生的方案。与事件管理强调处理速度不同,问题管理是强调查处事件的根源,从而制定恰当的解决方案,防止类似事件再次发生。

3)变更管理

变更管理是在最短的中断时间内完成基础架构或服务的任何一方面变更的流程。通常情况执行了一个问题管理流程、事件管理流程、服务水平管理流程后,需要通过变更管理实施事件管理流程或问题管理流程所产生的事件处理方案或问题解决措施。

变更管理在施行中应注意通过合理的计划和周密的准备把中断业务或服务的时间减少到最小。

3.业务连续性管理和可用性管理

在当今以服务为导向和以客户为中心的业务环境下,维持数据中心的持续运维对数据中心具有重大意义。尤其在发生灾难的情况下如何确保数据中心的持续运作是数据中心管理人员必须关注的问题。

业务连续性管理就是负责数据中心预防灾难、增强IT基础架构在灾难发生后的恢复能力的管理流程。它着重确保数据中心在诸如地震、洪水、火灾、失窃、恐怖袭击、网络攻击、大范围停电等灾难后尽快恢复运作,减少因数据中心停止运行而带来的损失。4.服务的资源信息管理

1)信息资产管理

信息资产管理是数据中心实行信息安全管理的重要基础,通过该工作可以让数据中心管理者清楚地知道自己的管理对象,以及这些管理对象的重要程度。这里提到的信息资产指的是数据中心内部与信息安全相关的实体与非实体资产。信息资产通常包括:硬件、软件、数据、文档、人员、商誉、服务商等。在考虑信息资产管理流程的建设时,需要关注以下几项内容,包括:识别信息资产、信息资产的分级管理、信息资产清单等。

2)配置管理

上一篇:助残日主题团会下一篇:开展书香校园活动总结