IT系统运维

2024-09-01

IT系统运维(精选十篇)

IT系统运维 篇1

ITIL 要求IT部门建立以客户为中心、以服务为导向的IT服务管理流程, 这意味着企业CIO及所有IT人员都要转变传统思路, 从流程角度重新审视IT部门的日常活动, 把它们看作ITIL定义的某个IT管理流程的有机组成部分或具体应用[1,2]。

ITIL Service Support, IT服务管理的核心之一。1个职能和5个流程的服务结构为IT运维提供了行业最佳实践的指导, 提供了一个客观、严谨、可量化的标准和规范, 从而确保IT部门能够为企业的业务运作提供更好的IT技术支持。对企业来说, 实施ITIL Service Support的最大意义在于把IT与业务紧密地结合起来, 从而让企业的IT投资回报最大化。对IT部门而言, 实施ITIL Service Support的意义在于将IT日常运维管理过程中遇到的各种各样的“事”做了清晰梳理, 从而使得IT运维过程变得有序连贯, 有助于提高IT服务的能力和水平, 见图1。

1.1 事故管理

事故管理负责记录、归类和安排专家处理事故, 并监督整个处理过程, 直至事故得到解决和终止。事故管理的目的, 是在尽可能最小地影响客户和用户业务的情况下, 使IT系统恢复到服务级别协议所定义的服务级别。

1.2 问题管理

当事件在第一时间没得到及时解决, 就进入问题管理程序。

问题管理的重要性:通常80%的服务品质下降都是因为20%的问题, 所以专注于20%的问题解决可以大大地提升服务。

问题管理的目标:将IT基础设施内的错误引起的事故和问题对业务的负面影响减到最小, 并防止与这些错误相关的事故再度发生。为了实现这个目标, “故障管理”力求找到引发事故的根源, 然后才着手改善或纠正该情况。

问题管理流程具有被动和主动两个方面。被动方面是作为对一个或多个事故的反应而解决问题。问题分析方法包括以下内容:一是定义问题;二是按个体、地点、时间以及范围大小描述问题;三是建立可能的原因;四是测试最有可能发生的原因;五是验证真正的原因。主动方面的“故障管理”是指通过趋势分析和定期的事件统计表, 在事故发生前确定并解决问题和已知错误。

1.3 变更管理

变更管理流程的目标:确保利用标准化的方法和规程, 有效、及时地处理所有变更, 以便将由变更引起的事故对服务质量的影响减到最小或将事件数量减少, 并因此改进公司的日常运作。

最常见的是终端用户提出的请求, 其中有些是系统改进或增加功能的请求, 有些是常规变更 (如帮新进人员建立新的账号) , 有的可能是系统出错, 这在IT中通常称为事件, 如果是系统出错就要找出原因和解决步骤, 才能进入到变更管理的具体步骤:RFC提出变更请求, 变更请求应该包括RFC编号、问题编号、需要改变的配置项、变更的理由、如果不变更会造成的影响、变更人的联系方式;变更管理员负责监督变更从提出到解决的整个过程记录进CMDB、对变更请求进行过滤;同时提交变更到公司指定的变更管理委员会批准。变更管理需要有准确的CMDB配置管理数据库, 对变更进行分析。

1.4 发布管理

发布管理是指对经过测试后导入实际应用的新增或修改后的配置项, 进行分发和宣传的管理流程。发布管理以前又称为软件控制与分发, 它由变更管理流程控制。

1.5 配置管理

在前述变更管理中, 提到当一个RFC进入变更程序时, 管理员和CAB需要有一个方法评估变更可能造成的影响, 而评估需要的相关信息需要一个机制来提供, 这个机制就是配置管理。

配置管理的目标包括以下内容:一是对公司内部的所有IT资产和配置及其服务做出说明;二是提供有关配置及其记录的准确信息以支持所有其他的“服务管理”流程;三是为事故管理、故障管理、变更管理和发布管理提供坚实的基础;四是对照基础设施验证配置记录并纠正任何异常情况。

2 运维流程设计

流程的改进, 考虑到企业信息化实际情况, 分为两种。第一种为相对完善的运维流程, 即人员组织结构、流程角色相对满足的情况下, 逐步实现, 可以说是企业运维流程的长远目标;第二种为现有环境下, 人员角色和流程相对简单, 可以立即实施。笔者主要介绍比较完善的第一种流程[3,4]。

3 事故管理流程

3.1 流程图

事故管理流程见图2。

3.2 角色职责定义

3.2.1 用户

这部分用户为服务的最终对象, 通过电话向服务台提交故障请求。

3.2.2 服务台

服务台是连接最终用户与IT部门的一个信息交换平台, 职责包括以下内容:一是将最终用户通过电话提交的故障信息录入运维系统中, 并生成突发事件, 对突发事件进行分类, 按照流程处理;二是跟踪突发事件的解决状态;三是将解决方案提交知识库;四是关闭状态已解决的突发事件;五是将监控系统自动生成的事件按照流程处理;六是将未解决的事件关闭, 并提交事件经理;七是将一线不能解决的事件, 分配到二线。

3.2.3 事件经理

事件经理为突发事件管理流程的管理者, 管理并协调服务台、故障支持人员 (一线、二线) 的工作, 职责包括以下内容:一是跟踪突发事件的解决状态;二是处理并协调违反服务协议的突发事件;三是定期对突发事件进行分析, 将多发的突发事件提升为问题;四是判断事件是否需协同工作, 将协同工作的事件分配工单给一线处理;五是确认工单是否完成;六是将未解决关闭的事件提升为问题或变更;七是定期生成突发事件的管理报告。

3.2.4 一线人员

一线人员的职责包括以下内容:一是负责解决服务台分派的突发事件;二是向服务台提交解决方案;三是将不能解决的突发事件注明原因提交服务台;四是完成事件经理分派的工单。

3.2.5 二线人员

二线人员的职责包括以下内容:一是负责解决由服务台分派的一线未解决的事件, 并录入解决方案;二是对无法解决的事件提交服务台。

4 问题管理流程

4.1 流程图

问题管理流程见图3。

4.2 角色职责定义

4.2.1 事件经理

事件经理的职责包括以下内容:一是将无法解决的事件、故障升级为问题;二是将多发的突发事件升级为问题。

4.2.2 问题经理

问题经理负责管理问题管理流程, 通过主动和被动的活动减少突发事件数量, 减弱对业务的影响。问题经理的职责包括以下内容:一是对问题进行鉴别;二是将无解决方案的问题关闭;三是寻找问题发生的根本原因, 对问题进行分类;四是分派问题, 并跟踪问题的解决状态;五是将已经解决的问题提交知识库, 并关闭问题;六是定期生成问题报表。

4.2.3 问题分析专家

问题分析专家的职责包括以下内容:一是处理问题经理分派的问题;二是判断解决问题是否需要变更;三是将需要变更的问题升级到变更管理;四是解决问题、录入解决方案;五是如解决问题, 设备配置做了更改, 则提交配置管理流程, 更改CMDB。

5 配置管理流程

5.1 流程图

配置管理流程见图4。

5.2 角色职责定义

5.2.1 配置经理

配置经理是配置管理流程的负责人, 对过程、配置数据、数据结构、数据范围的定义直接负责;确定配置管理的范围, 控制的对象和所要记录到CMDB中去的信息;给其他支持流程提供接口, 确保它们能有效利用配置管理数据库 (CMDB) ;建立对配置管理数据库的安全控制手段, 确保唯有授权的配置元素 (CI) 才被使用;确定所要控制的配置元素 (CI) 的级别;建议和同意配置元素 (CI) 命名和编号的规范。并确保所有配置元素 (CI) 具有单一名字;制定和实行CI的登记步骤;确保完成配置管理报表。配置经理的职责包括以下内容:一是根据变更流程, 向配置管理员分派工单, 更改配置项;二是根据设备批量导入表, 向配置管理员分派工单, 更新CMDB;三是关闭已完成的工单。

5.2.2 配置管理员

配置管理员的职责包括以下内容:一是根据工单, 更改设备配置项信息、更新CMDB;二是将完成的工单提交配置项经理。

6 变更管理流程

6.1 流程图

变更管理流程见第91页图5。

6.2 角色职责定义

6.2.1 服务台

服务台的职责包括以下内容:一是将用户的新需求生成变更, 提交变更经理审批;二是将拒绝的变更关闭, 并通知用户;三是将需要更改配置项的变更提交配置管理流程。

6.2.2 事件、问题经理

事件、问题经理的职责包括以下内容:一是将需要变更的问题、事件提交变更流程;二是关闭完成的变更。

6.2.3 变更经理

变更经理负责管理协调识别、控制、跟踪和审计在一个领域中向IT请求的变更的所有活动;对变更任务进行审批;跟踪变更实施的状态。

变更经理的职责包括以下内容:一是对变更进行审批;二是对变更进行分类;三是与变更主管一起对变更进行计划、测试、确定实施方案;四是定期生成变更报表。

6.2.4 变更主管

制定变更构造计划, 并参与测试、实施;负责将批准的变更分派给变更实施者, 及时与变更经理沟通变更流程进度;提出变更流程改进措施。变更主管的职责包括以下内容:一是与变更经理一起对变更进行计划、测试、确定实施方案;二是分派变更、判断变更是否完成;三是将完成的变更提交服务台或事件、问题经理。

6.2.5 实施者

变更实施者负责实施变更、实施变更主管分配的变更任务;完成变更后, 录入实施记录。

实施者的职责是:对变更进行实施, 并完成分派下来的工单。

7 结束语

企业在实施完ITSM项目后, 往往会进入一个误区:认为IT服务管理变革结束了, 只要按照新的流程架构运行, IT服务管理水平自然就会得到很大的提升。其实这是一种误解, 还需要通过持续性的流程改善体系, 才能确保IT架构顺利地实现流程的推广实施, 提升服务管理流程有效性和效率。

摘要:IT综合运维管理体系, 需要建立IT规范的处理流程, 科学自动地完成人力资源分配, 确保每个问题及时解决。从事故管理、问题管理、变更管理、发布管理、配置管理5个方面, 简要介绍了ITIL服务管理流程, 并详细论述了事故管理、问题管理、配置管理、变更管理4个流程及其中的角色职责定义。

关键词:ITIL,IT运维,流程

参考文献

[1]彭东亮, 周春, 李福林, 等.应用ITIL服务管理思想推进军队医院信息管理规范化[J].海军医学杂志, 2009 (1) :67-69.

[2]航天工业管理编辑部.利用现代化手段规范企业信息化管理流程[J].航天工业管理, 2006 (6) :46-47.

[3]母俐丽, 刘一鸣, 刘伟.适合中小型企业的IT运维系统架构设计[J].现代计算机:专业版, 2012 (3) :66-69.

IT运维系统标准篇---桌面管理 篇2

现在,随着电脑在企业中的普及,大部分企业的硬件和网络环境已初具规模,企业中的联网电脑多则数百上千台,这些电脑往往运行着从办公系统到业务系统的各种前端应用,它们的稳定性、可靠性、安全性以及性能等方面的因素,不仅直接影响着电脑使用者的工作效率,而且对整个企业的IT应用效率和管理成本以及安全性产生重要影响。

企业在桌面和设备管理领域,通常遇到什么方面的问题和挑战呢?电脑感染病毒、被安装木马,有些不明程序不断抢占IP地址造成其他机器无法正常工作,还有部分员工使用BT、电驴等下载工具时有发生。如果同时有多台计算机感染网络病毒或者进行非法操作,非常容易导致网络阻塞,从而致使其他正常网络业务无法使用。企业桌面管理解决方面已经成为企业网络运行管理系统不可缺少的重要组成部分,越来越受到网管人员和企业领导的普遍重视。

概括起来,这些问题即是IT资产的统计和追踪、软件和操作系统的安装、日常维护、安全监控和管理、应用监控等。由于桌面设备经常更新,对企业到底有多少设备,每台设备的配置情况如何,各台设备是否按规定安装了安全产品、是否及时打上了补丁?对这些信息很难有一个实时的掌握,致使IT管理常常处于被动状态。这些问题完全可以通过桌面管理软件得到解决。

新一代桌面管理平台标准

新一代桌面管理平台可以相互高集成度、支持多种平台、支持异构网络、功能完善、易于部署,应用灵活、方便,从而能够帮助企业用户实现桌面设备配置和安全管理。支持多级级联安全设计,采用“集中管理、分布部署”方式,可以支持大规模客户端的统一管理,确保安全策略实施的有效性,分布式部署体系满足了大型企业用户服务的需求。

新一代桌面管理平台不仅能够自动显示网络中的所有节点信息以及软硬件信息,而且能够将这些信息与组织人事信息合理组合在一起,从而方便网络中的所有资源得到统一管理和配置。另外,桌面管理平台能够通过控制管理客户端用户安装的软件以及运行的程序来对其行为进行控制,从而达到一个网络和主机的统一管理,极大地提高了安全管理力度。

新一代桌面管理平台可以提供了客户很方便的像可执行程序、MSI安装包或者文档数据文件自动下发与安装的功能。支持参数方式增加软件分发时安装选项,可以使得IT管理员很方便快速部署软件,极大地降低了IT管理员的工作强度,提高工作效率。并且可以按照部署范围进行分发,不会影响企业整体网络带宽。

新一代桌面管理平台具有完备的IT资产管理、员工行为审计、桌面终端安全管理、终端网络准入控制等主要功能,与国内外同类产品相比较,具有非常高的性能价格比,同时能实现对企业所有终端设备的远程支持及软件分发,不仅大幅度减少了IT人员现场支持的次数,同时能够确保软件和应用升级的顺利进行。桌面管理平台采用WEB方式,自动补丁模块最基本的功能就是按照即定的策略对桌面终端进行补丁的自动检测、服务器对所需的补丁下载和自动安装。

http://

新一代桌面管理平台解决方案

新一代桌面管理平台解决方案是为企业管理者量身定做的联网桌面终端综合管理平台,其在设计时就遵循了ITIL/ITSM规范及国家信息安全标准等原则,定位桌面管理系统的架构、性能、功能和管理界面。因此,桌面管理解决平台方案具有符合国内企业IT架构和管理模式,且真正适合用户最迫切需求的桌面系统管理平台。

新一代桌面管理平台解决方案不仅能够采集到桌面电脑固定的软硬件配置信息,跟踪软硬件配置变动信息,而且能够进一步获取桌面电脑的网络连接信息、用户信息。IT资产管理不应该是孤零零的设备管理,而应该是结合人的管理。帮助企业建立IT资产台帐管理机制,从IT资产采购、维修、报废等全过程进行管理可控。

桌面管理平台可以解决企业大量的桌面安全管理问题,提升IT服务部门的工作效率,解决大部分手工操作工作,对员工行为操作做审计并规范。终端桌面安全管理技术的兴起是伴随着网络管理事务密集度的增加,作为网络管理技术的边缘产物而衍生的,它同传统安全防御体系的缺陷相关联,是传统网络安全防范体系的补充,也是未来网络安全防范体系重要的组成部分。因此,终端桌面安全管理技术无论在现在还是未来都应当归入基础网络安全产品体系之列。

Broadaview广通桌面管理套件是一个完全集成的、跨平台的模块化桌面管理平台解决方案,能够在单一的控制台上对管辖范围内各种终端设备的桌面进行远程控制和管理,方便地对企业复杂而易变的桌面设备资产进行高效跟踪和统计,远程安装和配置操作系统和应用程序,帮助企业解决桌面管理所遇到的各种“难题”,使IT管理人员从大量的重复工作中解放出来。

加强IT管控,提升IT运维水平 篇3

【关键词】信息化 量化 管理 流程

【中图分类号】G647【文献标识码】A【文章编号】1672-5158(2013)02-0349-02

近年来,大部分企业信息化建设已初具规模,信息化基础建设基本到位,信息系统渗透到企业生产经营的各个环节。在新的形势下,如何使信息系统更好、更稳定、更安全运行,提高管理效率,落实有效益的信息化,是企业信息化工作的迫切需求。要实现这一目标,必然要管理与服务相结合,要求企业建立以国际行业标准为依据的较为完善的IT管控体系,提升IT运维服务水平。

企业加强IT管控,目的就是建立一个类似“轮流分粥,分者后取”的规则,明确区分母公司与各子分公司(含控股)、业务部门与IT部门和IT部门内部各岗位的责任、权力、利益。责、权、利分清后,对IT部门的约束力、执行力等会有很大的提高,其中IT管控对于组织工作的健康有序开展起到了重要作用。

一、IT管控对于IT工作的重要意义

1.IT管控能保障IT组织的稳定

有效的IT管控对IT组织的控制最主要是职责分离、合理设岗。要求完善人员管理与控制,能清晰定义IT部门相关岗位,能明显一个人能同时给予多少相关权限,从而清楚规划IT部门必要的岗位人数,最大程度保障IT组织的稳定。

2.IT管控能确保IT工作的有序

IT管控必然要求将建立完善的IT流程体系,制定完备服务目录。信息化部门利用服务台统一接收各种流程输入的表单,根据服务级别协议(SLA)和操作级别协议(OLA),对相关需求或故障,安排不同的技术力量,进行针对性的解决,从而确保了IT工作的有序。

3.IT管控能促使IT工作强度的均匀

信息化日常运维工作量不均衡是因为有较多的突发事件,如信息基础设施故障和信息系统故障等。要使运维工作量比较均衡,就要降低突发事件概率,使忙的时间少下来。IT管控能就是要让“闲”的时间忙起来,要求IT部门各岗位在日常中加强监测,重视巡检,加固系统,防患于未然;同时加强学习和演练,提高处置各种事件的能力。这样,一旦发生突发事件,也可以有条不紊地进行处置,实现信息化日常运维工作的“削峰平谷”,强度均匀。

4.IT管控能确保IT风险的可控

IT风险主要包括IT技术风险和IT项目投资风险。随着业务系统访问、网络应用行为日益频繁,网络被攻击、数据被篡改、设备被入侵和信息被泄密等IT技术风险的压力也日益增大。IT管控提供管理程序、技术和保障措施,确保信息技术服务的可用性,能适当地防御不正当操作、蓄意攻击或自然灾害,并从这些故障中尽快恢复;确保拒绝未经授权的访问。IT管控体系要求IT项目投资必须事先经业务部门和IT部门共同把关,再报公司管理委员会决策,这样能确保IT项目既符合业务需求,又符合IT技术规范,降低了IT投资的风险。万物皆有规律,IT风险防范也是有规律可以把握,良好的IT管控能很好控制IT风险。

二、IT管控在企业信息化中的运用

从行业信息化发展战略出发,从企业自身发展战略出发,作为信息化建设到一定规模的企业,必然要求企业信息化建设的重点则从技术转向管理,要求信息化工作必须精益求精,加强管控,夯实基础,强化运作。

构建完整的IT管控体系是一项复杂的系统工程,涉及到人、硬件、软件,以及管理层面的IT服务管理、风险管理和成本管理多个方面。因此,必须从更高的角度,更宽的视野,更新的理念去构建有效的IT管控体系。

1.选择合适的IT管控模型

现今企业IT管控体系的国际标准,主要有COBIT、ITIL、ISO20000等,选择构建一个既满足企业的业务需要,又能够符合国际标准的IT管控体系,是信息化工作的成功保障。就如笔者,结合企业实际、IT部门现有实际运作流程和知识框架,选择以ITIL主要标准,采取联邦制IT决策方式作为笔者企业的IT管控模型。

(一)IT部门内部运作的管控

要建立制度化、流程化工作机制,精益求精,稳步推进。根据ITIL/ ITSM(IT服务管理)的标准,继续完善IT服务目录,对各子服务定义不同的SLA(服务级别协议),建立服务台,统一受理所有的流程输入,建立IT服务管理体系,体系应包含事件管理、问题管理、变更管理、配置管理、发布管理和服务级别管理。根据IT技术标准和行业具体技术规范要求,建立先进、稳定、安全的信息通讯技术基础设施(主要包括机房和信息化网络),并完善巡检、监控等基础设施管理机制。

(二)企业信息化运作的管控

首先是加强对信息化项目的管控,必须坚持统一性、系统性、规范性、安全性原则,必须坚持“事先技术把关,事中实施监督,事后运行维护”的原则。即项目涉及的IT部门的责任或义务的,IT部门必须管控到位。事先对项目立项相关技术规范进行把关,确保项目符合行业相关技术规范;事中对项目供应商(软件开发商)安装实施等服务进行严格监督,确保项目在技术上能顺利开展,保障设备(系统)能正常上线运行;事后必须将设备或系统运维维护好,确保设备(系统)安全、稳定运行。其次是加强对信息化资产的管控。加强对计算机设备调控,优化各终端计算机的配置。强化IT部门对软件资产的归口管理职能,坚决贯彻落实软件正版化相关要求,统一采购正版成品软件,规范信息系统的登记、领用、运维和报废。规范IT设备维修保养机制,延长IT设备使用寿命。第三是加强对信息系统用户的管控。建立操作上岗证机制,加强培训,提升其规范操作水平,采取检查监督等措施,促使其能正确操作,规范操作。

(三)信息安全的管控

信息安全管控体系是一项复杂的系统工程,必须采用系统工程的观点和方法,分析信息安全问题及具体措施。结合企业实际,就是要严格贯彻相关信息安全要求,做好信息化安全规划,业系统信息安全规划,建立覆盖日常维护,变更管理,安全监控的信息安全体系,将信息安全审计作为信息安全保障中的一项重要工作。建立三个长效保障机制:构建信息安全文化氛围、信息安全奖惩机制和内部信息安全审计机制,以确保信息安全管控能够有效长久运行。

2.利用合适先进工具软件强化IT管控

对信息化日常运作层的管控,必须利用合适先进的工具软件对信息化工作流程、设施和信息模型进行全面管控。引进先进的IT运维管理系统,建立IT服务管理监控平台,管理IT服务所涉及的各个流程,监控信息相关基础设施和中间件等。利用现有或将要购买的信息管理软件,如桌面管理和软件发布系统,综合网管系统,接入管理系统和数字认证(CA)等,建立信息系统综合管理系统,管理整个信息系统的设备、软件等资产,管理桌面、应用等功能单元的运行,以及管理整个设备网络和网络上接入的各种系统的正常运行。

追根溯源,建立有效的IT管控体系,最终目的是为了提升IT部门服务水平,提高用户的满意度,发展有效益的企业信息化。随着行业信息化的发展和实践的深入,新技术的不断应用,企业的信息化需求不断变化,IT部门只有建立基于企业治理上的IT管控体系,才能适应不断变化发展的信息化,为企业企业发展提供重要的信息支撑。

参考文献

[1] [荷兰]JanvanBon主编,章斌译:基于ITIL的IT服务管理基础篇[M].北京:清华大学出版社,2009.

[2] [荷兰]JanvanBon主编,刘向晖译:IT管理框架[M].北京:清华大学出版社,2009.

[3] 王仰富,刘继承:中国企业的IT治理之道[M].北京:清华大学出版社,2010.

[4] 王胜:IT治理—为企业带来革命性的变革[M].北京:经济科学出版社,2009.

七大新手技巧助力IT系统运维安全 篇4

技巧一, 构建一个可靠的基础架构。这就好比一个人先天不足, 后天调养则非常费力一样, 因此好的应用系统在设计之初, 一是考虑程序代码的健壮, 避免受到黑客溢出攻击;二是通信协议加密以确保通讯安全;三是根据应用重要级别选择合适的高可用技术方案, 比如说关键应用选择高冗余的服务器和阵列, 同时还有一套备份服务器和备份阵列, 以确保异常发生时, 可快速切换备份系统, 保证应用系统的高可用。

技巧二, 使用一个强有力的安全策略。没有强有力的安全策略, 最坚固的堡垒内部也会被攻破。基本的安全策略包括用户权限最小化、用户密码定期修改、禁止无用用户、关闭不必要的网络服务、限制共享、文件安全访问、版本统一并及时更新补丁和开启审计功能等8个方面的基础设置, 这样才能有效保护数据的机密性。

技巧三, 做好备份保护和恢复测试。安全设计和安全策略只是保护了数据的可用性和机密性, 数据的完整性则需要备份保护。备份是根据应用不同的需求, 制定包括操作系统、应用数据、数据库等方面的备份周期策略。此外, 还需考虑重要应用数据双份备份、备份介质的保管环境, 以及定期对备份介质进行恢复测试等。只有通过上述3个方面的技巧保护, 基础建设和管理工作才算过关了。

技巧四, 做好实时监控和定期体检。基础阶段完成后, 日常维护工作经常需要人工收集应用系统的性能和空间资源等变化, 以及各类警告日志, 这不仅效率低、发现问题的时效性也低, 而且检查步骤还可能出现纰漏, 而实时监控平台就较好地解决了上述问题。监控可采购业界成熟的监控软件平台实现, 也可通过梳理应用系统的关键字, 自行开发特色监控平台。不过监控也不是万能的, 不可能覆盖所有的检查点、关注点, 比如监控平台自身出现问题如何监控等, 因此辅以每周或每月的人工健康检查, 还是非常必要的, 通过将检查点表格化和以打勾等形式, 可较好规避检查步骤缺漏等人为原因。

技巧五, 做好应急预案和定期组织演练。有了好的架构、好的保护方案和好的监控, 虽然出现应用系统停机故障的概率较低, 但万一出现问题能否及时恢复, 这就需要提前准备和规划好应急预案了。为确保应急预案有效, 还需包括关联资料 (如应用、内部人员、外部人员等) 、资源及参数配置、应急场景及步骤等, 其中应急场景需要组织多次演练验证, 并将步骤傻瓜化以确保应急工作的有效性并减少失误。

技巧六, 建立变更管理制度。据统计, 因变更考虑不周全、变更操作不当、变更验证不到位引发的故障不在少数, 因此特别需要建立相应制度来加强变更的前中后管理, 尽可能减少人为原因、降低风险。在变更准备阶段, 一是建立变更预告流程, 加强横向沟通, 实现变更计划、目的、影响等提前审议, 减少因沟通不足所带来的变更风险;二是方案评审抓重点:实施重大、高风险变更评审机制, 通过头脑风暴, 力促变更方案的完善, 也加深了实施、配合和管理等部门对变更的认识;三是实施控制降风险:通过双人实施、逐项复核、有问题及时提出等, 加强实施过程的控制以降风险;四是全面验证把好关:在变更后从技术、应用和业务三个层面的全面验证, 实现对变更结果的把关。在变更后续阶段, 定期对变更的实际实施与计划作差异分析, 促进变更工作逐步规范化。此外对生产问题组织回顾学习, 避免同一地方跌倒多次, 比如建立变更经验小结等规程。

IT系统运维 篇5

图1传统IT运维模式与IT运维模式的比较

图2服务管理的基本原理

此功能设计的作用是监管和控制每个用户在使用时各项功能的实时运行情况与数据。在此平台日常的运行中,对硬件、软件设备配置的管理是负责软、硬件能否顺利运行、功能特点是否完全运行、出现问题时能否自我修复等,以及负责对下指令的发放与管理。还包含对软、硬件设备在运行时各种数据的搜集、整合、管理与分析,另外就是在出现问题时要能够

及时自我报警、提示问题出现在哪里并发出警报,如能完成对出现问题位置的准确定位是效果最好的。最后,还要能实现对系统运行时占用并使用了那些资源能够及时显示,为用户合理分配资源进行数据参考。

(四)对系统平台安全性进行监管

在现在人人都懂一些互联网技术的时代,对于网络安全的管理亦是同等重要,它主要是保障整个系统能够平稳、流畅、安全的使用,它的主要任务之一就是对计算机病毒的拦截与删除,利用此功能,使系统在接触陌生用户或者外来数据的传入时能够自我有效的阻拦陌生文件或病毒的入侵,从而保障整个系统的安全。二是要对系统内每天登陆、录入用户操作等行的数据形成日志文件保存起来并进行有效的管理。三是对用户的管控,主要指新用户的增加、无效用户的删除、对用户详细信息的查询、用户自我修正个人信息等操作。

二、对系统配置、管理、信息发布的管控

(一)对系统配置的管控

此功能的作用是整个系统的运行中所有硬件之间的配合、相互之间的运行进行保护与分别识认,以便能够更有效的管理日子信息的修改与公开。另外也会保证基本设备、基本服务建立的模式进行一个初步的建设。建立它的主要任务就是为我们的目标客户提供一种管控数据的方式、展示出整个系统真实的配制数据,使硬件系统的质量能够更好的相互配合,发挥其最大的效能,合理的分配各个存储设备的资源运用。

(二)对系统变更的管理

在整个系统的运行有效期中,不论是硬件设备,还是软件的配置都有其一定的运行周期,不可能一直无限的运行下去,或者是有时整个系统的为之服务的对象也会有变化,因此对于服务系统的资产和软、硬件配置的改变是必须要依靠相关系统功能来实现的。在系统的设计与搭建过程中,尤其要注意对各种变更操作的记录,每一次变更可能引起的风险评估,以及最重要的就是对于更重变更操作应当建立起相应规范的、合理的审批和操作程序。这一项中就应该包含对系统物理环境的管控、维修、操作有关的硬件配置、日志文件记录。

(三)对信息的发布管理

在这一项系统功能的实现中,主要是包含每个功能模块、操作程序、系统测试数据的公布和整理。在程序的生产环境情况下,对于何种信息、如何审批、如何公布进行安排。在信息发布过程中,不仅要在生产环境中进行提前的安排,同时要对系统的服务进行合理有效的安排,将安排的信息能够切实的运用起来。

三、整个系统功能的有效实现

在IT运维服务系统整个运行过程中,对一些良好的数据库开发工具亦有着很好的运用,也进一步对于整个系统的流畅运行提供了优秀的数据支持。这在系统的真是运行过程中,不仅涉及到软、硬件的配置、系统变更的管控、日志文件的发布等各个方面。在系统的开发过程中,在数据库中保存的程序运行结构图一般都是放在系统界面的右侧,在整个流程的设计中,已经包括了对各个子功能模块流程的显示。基于此,在对系统中的一些字段、数据库内表格的设置进行进一步的管理与配置。在我们对系统进行整体测试运行时,这种技术的应用,能够使整个系统发挥出其最好的效果,并且能够同时保持住整个系统在运行时保持稳定、维护系统的安全。同时也会使用户在使用系统的时候能够及时了解各个功能的实现与具体的操作流程没从而更好的发挥整个系统的最大效用。

四、结语

在现在这个互联网技术飞速发展的时代,软、硬件不断更新、IT技术不断创新,而且我们的社会生活中也越来越多的融入了互联网技术,使我们的生活品质和工作环境登发极大地改善,最重要的是提高了我们生活与工作的效率。但是IT系统要想能够发挥最大的效用,就需要有良好的运维服务系统做支撑,因此只有把服务管理支撑系统做的合理、有效,才能够有效的对IT系统和IT资源进行合理、有效的运用。参考文献

卡西亚 合作共赢IT运维 篇6

据了解,科安德将卡西亚公司的K2产品应用于很多中小企业,结合卡西亚产品的特点提供了“主动化预防”的IT系统自动化运维的方式。工程师在CANDIS公司内部架设管理服务器,然后通过远程的方式在用户的每台计算机上安装客户端程序,同时通过与最终用户沟通,在管理服务器上预制阀值与策略。

“这样做使得IT的服务效率大大提高。”David说。首先,IT运维工程师能够远程监护客户端,不用上门即可查出问题所在,简化了工作流程。在一个客户一个月的试用期终,故障数量降低了近1/2,IT系统的连续性大大提升,解决了长时间困扰用户的服务效率问题。其次,由于服务系统的革新,一个工程师同时可以监控20个客户,比过去的10个客户提高了一倍,大大节省了人工费用。

IT设备集中运维管理系统研究 篇7

随着企业信息化建设的飞速发展,信息系统已成为企业正常运营的重要支撑。在企业信息系统中,包括硬件系统与应用软件系统两部分:硬件系统包括服务器主机、路由器、交换机、存储设备、防火墙等硬件设备;应用软件系统包括OA、ERP、CRM、邮件系统等各种信息化应用系统,这一系列的软硬件系统组成了企业信息化系统的核心,支撑企业业务的正常运转。然而,随着企业规模的扩大和业务的扩充,信息化应用也变得越来越复杂,如何维护这些软硬件系统变得越来越重要,而且难度也越来越大,如何从传统的分散式IT运维管理模式转向集中式IT运维管理,如何从面向机器的IT运维管理转向面向用户感知的IT运维管理,如何从IT运维中获得有效的价值输出,都是亟待解决的重要难题。因此,建立一个系统、科学、高效的面向用户感知的IT运维模式是IT运维的必然趋势。

1 系统需求分析

1.1 监控对象

监控对象包括硬件与软件,以及硬件软件的各项监控指标,具体内容如表1所示。

1.2 监控预警

实现指标预警,指标预警包括上限预警、下限预警、区间预警,系统自动生成告警信息,并实时通知管理员或各专业负责人。

1.3 用户感知

将面向设备的IT运维系统,转向面向用户的IT运维系统,提高用户的使用感知度,可通过手机终端、IPAD等移动终端实时了解设备、系统运行状态,并可通过这些终端设备,进行主动维护功能[1]。

1.4 价值输出

通过IT运维监控中的大量性能数据,进行数据挖掘分析,诸如各设备的趋势分析,有效形成IT运维系统的价值输出。

2 系统总体设计

对于该系统,采用如下技术开发路线:

(1)整个系统以成熟可靠的软件系统为基础,采用先进成熟的面向对象的软件开发工具及第三方软件。为保障系统的可扩展性以及高可靠性,该系统采用目前主流的DWR+SSH框架[2]。

(2)核心服务器的操作系统上,对于数据库服务器,为了保证服务器的安全性、可靠性、稳定性及便捷性,采用主流可靠的AIX操作系统。

(3)数据库采用目前主流的数据库系统———SqlServer作为数据库。

(4)信息数据的存储系统,采用RAID技术保证整个存储系统的可靠性,防止关键数据丢失。

2.1 架构设计

根据需求分析,该系统可分为两大部分:PC服务端与移动终端。

(1)PC服务端。其总体框架分为3层:应用层、核心服务层和接口适配层。(1)应用层。面向用户,提供用户所需各类业务应用,主要功能包括拓扑展示、告警集中监控、性能指标、统计分析、维护通道以及系统配置等;(2)核心服务层。为应用层提供各项后台处理服务:拓扑服务、告警服务、预警服务、报表组件、数据存储策略等;(3)接口适配层。负责采集各系统的数据采集、同步功能,为系统提供原始数据支撑[3]。

(2)移动终端。移动终端功能包括告警监控、重要性能指标监控、维护通道,方便用户随时随地掌握IT设备运行状况[4]。

2.2 组网设计

(1)内部局域网。内部局域网承担业务操作型数据库服务、连接局域网用户、运行相应业务处理应用软件,提供外部移动终端访问和数据交互能力。

(2)广域网互联。主要为移动终端用户提供访问系统的方式。防火墙连接内部局域网核心交换系统,在边界隔离外部网和内部网,提供给内部网访问外部网络,通过规则对外开放部分资源,并通过规则来限制外部不安全的访问。防火墙同时支持VPN,使得外出人员可以访问内部局域网。

2.3 模块设计

该系统主要包括拓扑展示、告警集中监控、性能指标监控、数据分析、维护通道以及移动终端等模块。

(1)拓扑展示。提供基于拓扑形式的信息展现,主要展现区域、机房、设备、性能指标、告警等信息,通过使用不同的拓扑图,用户可以直观地从拓扑图中看到相应的各类资源,可以通过拓扑获取设备之间的关系,以及设备当前状况等信息。

(2)告警集中监控。集中呈现所有设备的实时告警信息,并用不同颜色进行标识。

(3)性能指标监控。对一定范围内的网络性能关键指标进行管理,通过对各类网络设备的性能参数进行监控和分析,向运维人员提供各种直观的性能数据信息,例如性能列表和性能趋势图等。

(4)数据分析。在对历史数据进行深度挖掘分析的基础上,采用拟合算法构建动态基线分析模型,预测未来一段时间内性能指标的正常变化趋势,一旦在相同时间段内实际采集数值与预测数值存在偏离,则产生性能事件告警。该技术弥补了固定阈值分析的缺陷,提高了告警的准确度,减少了误报和漏报的发生。

(5)维护通道。提供维护通道,用户可以通过该功能直接连接网络设备,进行维护操作。

(6)移动终端。实时接收告警信息、各项重要网络指标,并可通过维护通道,在移动终端上实现网络设备的维护操作[5]。

3 结语

本文通过将移动终端应用与传统的IT运维系统相结合,实现用户无论在何时、何地都能实时接收到网络设备告警及重要性能指标,清晰直观地了解到网络设备的运行状态,并能通过移动终端进行网络设备的远程维护工作,实现了面向用户感知的IT设备集中运维管理。

摘要:为了实现对IT系统的所有资源进行先进和有效管理,进一步提高服务效率和管理水平,实现业务和信息技术的高度整合,采用先进的J2EE技术框架,结合流行的移动互联网技术,实现面向用户感知的IT运维系统,从数据采集、告警监控、主动维护、服务管理,到最终的价值输出,形成IT运维的闭环管理,提升用户对IT运维的感知度。

关键词:IT运维管理,用户感知,移动终端应用

参考文献

[1]SHREYA DAS,DEBAPRATIM PANDIT.Importance of user perception in evaluating level of service for bus transit for a developing country like India:a review[J].Transport Reviews,2013,22(4):156-160.

[2]王宝龙,李子扬,李晓辉.基于SSH框架和DWR技术的减灾卫星运行管理系统建设[J].计算机工程与设计,2010,31(23):5096-5099.

[3]宋锋.基于Web的IT服务综合监控系统的设计与实现[D].厦门:厦门大学,2014.

[4]李佳.IT管理系统中采集管理子系统的设计与实现[D].北京:北京邮电大学,2006.

医院IT运维管理系统的应用与探索 篇8

随着医院信息系统的建设和发展, 医院信息系统和网络系统的稳定运行及其数据的准确、及时、完整、可靠已经成为医院能否顺利运营和发展的重要条件, 其运维管理的复杂和风险也成为医院管理层和IT管理部门的困惑。据专业机构调查发现, 超过80%的医院信息部门负责人迫于7×24小时不间断运行的巨大压力。如何建立合理的运维管理模式, 缓解信息管理部门埋头干活、疲于应付的状态[1]。借助IT技术辅助信息部门的自身管理, 建设IT运维管理软件成为医院CIO的总管家, 也是发展的必然趋势, 希望文章的探索能给国内三甲医院的IT管理部门提供一定参考价值。

1 正确定位医院IT运维管理

所谓医院IT运维管理, 是指医院IT管理部门采用相关的制度规范、台帐文档、技术手段、服务流程等方法, 对运行环境、业务系统和技术人员进行的综合管理。

医院IT运维管理内容繁多复杂, 主要涉及信息管理部门内部的业务系统和技术人员的日常管理, 其内容大致可分为八项:

(1) 核心设备监控管理 (对网络、存储、服务器等核心设备, 对操作系统、数据库、中间件、群件等应用支持软件或公共服务的运行状况进行监控和管理) ; (2) 数据存储和容灾管理 (备份、恢复和容灾机制) ; (3) 核心业务监控管理 (监控HIS、LIS、PACS、电子病历系统等医院核心业务系统的运行情况) ; (4) 目录/内容/变更管理 (定制内容和公共信息的发布、软硬件变更管理) ; (5) IT资源资产管理; (6) 信息安全管理 (三级等保认证) ; (7) 日常工作管理 (明确岗位职责、规范服务流程、合理工作安排, 同时建立工作台帐和问题解决方案的知识库) ; (8) 项目实施管理 (对项目实施全过程进行跟踪管理) 。

以上均为2011版三级医院评审标准所规范的信息管理工作重要内容。

2 医院IT运维管理系统的实现与功能

我院信息化建设起步较早, 院内各类业务系统复杂繁多, 全面覆盖了全院各个条线的各个环节, 普通的IT设备和网络运维监控管理系统已经无法满足管理需求。如何在保障业务系统正常运行的前提下, 在提高服务质量和效率的基础上, 对IT资源进行统一管理, 降低信息系统运行成本、提高信息安全突发事件的应对能力, 更好地体现信息化建设的投资价值[2]。作者总结IT运维和科室管理过程中遇到的实际问题, 结合国内外先进管理理念, 将关注点从核心设备的运维监控管理转移到科室综合管理和学科建设上面。

我院运维管理系统基于实际工作完整的IT运维流程, 采用微软的·Net技术与SQL2008数据库平台, 由数据库服务器、Windows server 2003 (32位) 服务器系统、基于WEB IIS服务器的B/S客户端、短信平台等组成。B/S客户端为各种信息的录入查询、实时状态的显示提供良好的用户操作界面, 短信平台主要用于业务提醒功能。本系统自去年开发投入使用后, 不断修改完善, 区分于市场上一般运维管理软件的重硬件轻软件, 其主要特色是充分契合三级医院IT管理部门的管理流程和运作实际。具体模块如下:

①任务管理:用于批量装机或批量检修、病区搬迁、院内改造、迎检等临时性工作任务的管理;②故障管理:日常事务性服务的接报、派工、处理、评估等管理, 各种服务分别有不同优先级和量化权值, 实现分级、分类等精细化的服务管理, 见图1;③工作记录:用于记录个人工作日志、巡检记录、应急演练记录和值班记录等台帐;④考勤管理:科室内部考勤、请销假管理;⑤项目管理:对新项目实施从项目调研、合同签订、方案设计、实施计划、系统开发、培训测试、上线协调、第三方开发人员赋权、修改完善、变更发布、验收评估、应用维护等项目的生命周期全过程进行标准化流程管理, 并记录台帐, 跟踪管理;⑥方案管理:用于记录和积累日常技术性问题的解决方案, 并提供内部共享, 以提升服务质量和服务效率, 同时提高科室的整体工作技能;⑦统计管理:运维数据查询统计, 提供接单派工、远程事务、现场出工等量化考核依据;⑧系统管理和参数配置:本系统用户权限分配、界面管理、打印参数等设置管理。

3 医院IT运维管理系统的应用成效与体会

本系统经过一年多的应用, 提高了技术运维人员的工作积极性, 也提高了科室管理效率, 带来了新气象, 给医院IT部门的管理模式提供了新思路。

①将信息管理技术引入IT部门自身的管理, 实现管理理念与业务流程的融合, 逐步优化服务流程, 促进科室日常运行管理更加契合新的三级医院评审标准, 成为科室综合管理的辅助工具。②方便信息部门领导对日常事务性工作和项目管理的事中监督和事后评价, 及时掌握运维人员的服务质量和服务态度, 也为科室技术人员的量化考核提供了KPI依据, 以制度规范管理、以标准化流程驱动服务, 切实提高了IT部门的工作效率[3]。③自动记录各类事务的基本要素, 方便信息部门领导及时掌握院内IT资源使用现状, 清晰了解故障发生的频率, 方便问题汇总和服务跟踪, 切实减轻管理层的压力。④系统建立了完善的IT业务知识体系, 既方便运维人员交叉共享知识和经验, 提高科内单兵作战技能, 又降低了对关键特殊技术人员的依赖性, 科内岗位得以进一步合理分工并明确职责, 也使得日常工作安排更加科学, 提高了内部人力资源利用效率, 助推人才结构的优化和学科的长远建设。⑤系统能辅助汇总等级医院评审过程中的巡检、交接班、项目管理等运维台帐记录, 为三级医院评审工作提供了极大便利。⑥运用医院现有短信平台实现提醒任务, 提高服务的时效性和临床满意度。

4 小结

随着IT运维管理系统应用的拓展深入, 可以设想, 凭借系统积累的IT运维知识库, 我们可以进一步分解并量化服务流程, 对不同服务级别进行色标区分, 探索IT部门的服务流程路径化管理, 使部门绩效考核更精确, 提高服务质量和临床满意度, 让医院信息系统成为医院发展的坚实支撑。

参考文献

[1]李伟琳.医院IT运维管理系统的建设[J].中国当代医药, 2013, 20 (31) :140-142.

[2]黄朔.中国IT运维管理行业经营模式研究与投资预测分析报告[R].前瞻产业研究院, 2014.

IT系统运维 篇9

近些年,中国企业的信息化建设工作经历了以IT建设为重心的快速大发展时期。如今这部分企业中,大多数IT建设工作已经完成,多数信息系统渐渐趋于平稳。如何在IT建设过程中更多的考虑IT运维工作,已逐渐成为企业信息化部门亟需思考和面对的工作。企业通过学习IT服务的国际标准及成熟的信息技术治理理论,借鉴国内、外企业中IT运行维护的最佳实践和先进管理经验,综合自身IT运行维护现状,构建合理、高效的IT运维模式。

1 企业IT运维现状

现代企业内部拥有的信息化系统规模越来越大、功能越来越多、基础设施的升级更新也很快速,这些特点决定了企业信息化运维所面临的困境会越来越明显。

1)企业信息化进程的不断加速,促使企业内部的硬件、软件、网络以及各类业务应用系统不断升级更新及扩充。随着企业硬件设备的增多、业务系统的大量上线,导致运维过程中暴露出的问题越来越突出。由于硬件设备种类不同、品牌不同,系统结构、平台、数据、网络及应用的异构性,导致发生故障时定位问题会有所困难。运维人员长期处于“救火状态”,与此同时,业务部门却不甚满意。

2)IT运维管理并没有专人负责,IT人员在解决完各自的问题之后,往往就要投入其他工作中,导致问题背后隐藏的深层次原因不能被及时发现和处理。如果发生与运维相关问题时,业务人员正在处理其他更重要的业务,还可能会导致运维工作不能及时被相应,影响运维的效率。这样的结果,会导致运维处理问题周期短、质量低、效率不高、用户意见大等问题。

依据以上情况可知,IT部门目前的运维管理信息系统存在下述问题:

(1)运行监控的广度和深度不够

现有运维系统侧重于对硬件资源进行监控管理,对软件资源的管理较弱。由于对企业的软件资源监控支持能力不足,导致对用户的运维需求无法提供及时有效的支持。

(2)内容展现不够全面

现有运维系统运行展现内容不够全面,缺少预警信息统计和展现,缺少对设备性能信息的直观展现界面,无法满足及时监控的管理要求。

(3)缺少基于ITIL规范的服务流程

现有运维管理信息系统的设计,与ITIL(信息技术基础架构库)的运维管理理念存在很大差距。缺少事件管理、问题管理、变更管理、配置管理、发布管理等关键流程管理功能,无法满足现阶段服务管理流程要求,同时缺少运维管理制度建设和执行考核方面的功能。

由以上论述可知,企业IT部门的运行维护管理工作将迎接下述三类挑战:

(1)如何保证企业现有IT资源(软、硬件)在业务活动中长期稳定运行。企业内部需要7*24小时不间断保障的生产系统日益增多,大量业务访问量对系统性能的要求也不断增加;

(2)各类业务信息系统的复杂性越来越高,如何确保IT系统的运行效率满足业务要求是运行维护的关键问题。需要运行维护的业务信息系统数量激增,业务信息系统的架构日无复杂,业务信息系统的数据量持续增多;

(3)企业安全保密任务越来越艰巨,如何确保业务信息数据的安全系数与企业安全等级要求相匹配,也是我们面临解决的问题。信息安全体系的建设以及应急处理机制,数据中心的预警、检测、应急处理及自我恢复能力日趋重要。

2 IT运行维护管理方法论-ITSM

IT运维服务,作为IT服务中最主要也是最基本的服务,是由企业内部IT部门,根据企业自身的管理制度和业务流程,借助信息化手段和技术,对企业现有IT硬件资源、软件资源、业务系统进行整体维护以及对运维人员管理的过程。大量数据统计显示,在IT项目的整个生命周期,IT的运行维护管工作几乎占用了百分之80的时间。权威咨询公司Gartner Group的统计结果显示,由产品自身和应用技术引发的问题只占了所有问题的20%,与流程有关的失误造成的问题占了总数40%,而与人员有关的失误造成40%的问题。这就说明,IT运行维护中出现的大部分问题并非是由技术能力欠缺造成,绝大部分问题的源头来自管理。大部分问题源自流程和人员的失误,流程失误包括管理程序的变更、程序调试过程中的疏漏,人员失误包括因人员主观上的知识错误、能力缺陷和主动或被动误操作所导致的问题。为此,世界上很多企业和部门都对此进行探索,通过大量的实践和对统计数据的分析,以实践经验和成果为基础,总结出一种新的IT运维管理方法论,就是ITSM(IT Service Management,IT服务管理)。

IT服务管理,顾名思义,是面向IT服务的管理,其管理核心是管理用户对IT的需求。ITSMF(国际IT服务管理论坛)任务,ITSM是一种以流程为导向、以客户为中心的方法,它通过整合IT服务与组织业务,提高组织IT服务提供和服务支持的能力和水平[1]。因此,ITSM又被描述成IT管理的“ERP解决方案”。

总体而言,ITSM是服务于IT的管理方法集合,是系统化的、有序的、完整的协同流程集合,其工作重心是保证IT的服务质量,其管理对象是用户的IT需求,其目的是保证IT服务质量,其依据是控制服务级别协议(SLA),其管理内容涵盖了问题管理、变更管理、配置管理等主要流程管理。

3 基于ITSM的企业IT运维管理信息系统初步设计

目前,企业IT整体运行维护工作划分为两类:IT技术人员主动发起的运行维护和IT技术人员被动受理的运行维护。主动运行维护多属于例行检查,是IT人员每天都要完成的工作,重复性较多;被动运行维护来自于用户的各种需求,运维人员需要针对用户的需求去作出快速响应,确保服务及时有效。企业信息中心技术人员按照现有的运行维护流程,借助运维管信息系统,对日常的IT业务进行维护管理其维护范围主要涵盖机房环境监控、基础设施监控、业务应用系统运维等。

传统的IT运行维护模式一般具有以技术为导向、IT人员多充当“救火队”角色、被动、不可重复&混乱、流程不标准、偏向从IT部门内部考虑等特点。ITSM则具有流程为导向、预防为主、主动、可重复&职责明确、正式流程、从业务角度考虑等特点。

实现IT运行维护管理的流程化、规范化,对IT部门而言意义重大。运行维护人员可以及时梳理、分析、归纳和总结发生的问题,使工作安排更加合理,避免相关人员因陷入杂乱琐碎的问题处理过程而无法脱身,能够极大提高工作效率。

流程是IT服务管理的基础,IT服务管理的流程建设需要与企业业务相结合,同时遵循PDCA循环过程,不断对现有流程进行改进和完善。企业的业务流程取决于企业的战略规划目标,IT服务来源于企业的业务流程,而IT服务能力最终又将对企业的战略规划产生影响。这一过程遵循PDCA(戴明环)模型,是一个不断循环、互动的正反馈。

企业目前正在大力实施AOS体系建设,AOS是质量、成本、效率三要素并重。AOS业务流程梳理及优化,能够使各类业务流程显性化,促进各类要素的提升。利用AOS梳理过的标准化、规范化的业务流程,利用信息化平台完成对标准化、最优化的业务流程的固化,更快、更好的形成符合自身特点,具有自身特色特点,反应敏捷、高效可靠的IT运行维护管理模式,实现以ITSM为基础的企业IT运行维护流程化和自动化。

通过对目前IT管理的各个方面如服务器管理、网络管理、系统软件管理、应用系统管理、数据库管理等多方面进行调研,生成了符合IT部门运行维护需求的流程,并将这些流程整合为特定的IT服务。

面向服务的IT运行维护管理可初步设计如图3所示。

基于ITSM的IT运行维护管理信息系统,可以将IT运行维护服务管理分为六大功能模块,初步可设计为资产管理、监控管理、应用管理、安全管理、流程管理和运维综合分析六大功能模块。

基于ITSM的企业IT运维管理信息系统功能模块的划分及构成如图4所示。

其中,各个业务模块的具体功能描述如下:

1)资产管理模块:资产管理模块可以实现对I T系统各类软、硬件资产的使用、成本等信息的维护和统计;

2)监控管理模块:监控管理模块可以实现对IT基础设施的监控管理。IT基础设施管理包括存储、备份系统管理、主机系统如服务器、小型机等管理、安全系统如安全设备及安全软件管理、网络系统如交换机、路由器等管理、桌面系统如PC终端等管理,以及机房动力及环境如空调、电力等管理;

3)应用管理模块:应用管理模块包括对各类核心业务应用系统的监控,实现对应用系统进行日常应用问题处理、应用集成以及应用改进等功能;

4)安全管理模块:安全管理模块包括对企业内部大量PC终端的安全维护,以及对主机、网络设备、安全设备等资源的安全监控;

5)流程管理模块:流程管理模块涉及服务台、事件管理、问题管理、变更管理、配置管理、服务级别管理、知识管理等业务;

6)运维综合分析模块:运维综合分析模块可以在各个管理功能的基础上,实现企业IT环境整体运行情况的分析,帮助管理人员了解运维现状,制定或修订运维计划。

结合上述IT运行维护流程及对应的IT运行维护管理系统,企业可以提供给用户更快更好的运行维护服务,为用户提供便利的工作条件,提升用户满意度。

4 结束语

企业通过建立合理的IT运维流程和管理系统,在确保系统的安全性、稳定性、运维的可靠性的同时,能够为用户提供更好的服务,及时解决信息化系统使用过程中出现的各种问题和故障,做到想用户所想,急用户所急,就能更好实现IT运行维护服务管理的目标和主要任务。

摘要:随着企业各类信息系统的建设完成和大量投入应用,系统的安全性、稳定性以及运行维护的可靠性越来越被人们关注。文章基于对ITSM及相关标准的研究,通过对现行IT运维工作的实际情况进行研究,初步设计了适用于企业当前信息化信息系统运行维护特点的IT运维管理信息系统。

关键词:IT运维,ITSM

参考文献

IT系统运维 篇10

IT运维管理是指IT部门通过制度的制定、流程的管理和先进的技术等手段对系统运行的软硬件环境、系统依托的网络环境、程序和进程的综合化管理。其主要管理内容包含:监控系统网络终端、网关、服务器、OS等基础设施和系统软件;监控Database、DNS等应用支持软件和服务管理;监控业务系统的CSF(Critical Success Factors)和KPI(Key Performance Indicators)并对相应数据进行统一管理(存储、备份及恢复);监控系统内部逻辑资源和物理资源的运行情况,并将统计数据与财务部门等。

2、IT运维管理现状

随着IT企业和企业内IT部门在社会经济效益中的作用愈加明显,其建设和运行维护过程中出现的问题也成为制约企业和社会发展的重要阻力。其集中表现在以下几方面:

2.1 运维高成本

近年来,我国科技型企业蓬勃发展,硬件产能和技术水平取得了重大的进步和长远的发展,但是,在IT运维成本中,硬件或技术支出仅占全部运维成本的两成,其余的近八成的成本支出包含了IT人员的管理培训和系统流程管理及系统测试,而系统流程管理及系统测试基本依靠人力手工管理,在降低了运维效率的同时还增加了人力成本的支出,因此,建设好的IT运维环境首先应加深自动化程度。

2.2 运维过程被动

由于IT运维的预警机制建设不完善,运维人员只有在系统报警后才会被动性的处理故障,而平日运维人员的工作基本是手工进行简单、低效率、重复性的问题处理,其运维服务质量很难提升,因此也造成了业务部门对运维服务的长期不满。

2.3 运维低自动化

运维的低自动化导致在信息运维管理部门获取大量杂乱信息及警报时,运维人员无法明确寻找发现并解决问题的根源,只能手工的逐一对设备进行检查,占用了大量的运维资源,并降低了运维服务速度、服务质量,增加了运维人员工作强度和运维人力支出成本。

2.4 运维集中度低

对于国内大型企业的IT部门,首先其硬件结构采用了大集中模式,其次其拥有的多家子公司均有独立的运维中心,配备相应的开发和维护人员。在运维管理过程中,对故障的解决,不能由呼叫中心或运维客服统一解决调度,只能由该地的运维工程师现场处理,这就造成了事故处理时间上的滞后,水平不同专业不同的运维工程师处理问题上的速度不同。

2.5 缺乏运维机制

现今大多数企业和IT部门没有规定明确的运维机制,没有明确的责任划分和管理模式,这就造成了出现故障时,很难及时找到故障原因、找到责任归属人,导致无法及时处理问题。即使发现问题解决故障,也只是针对单次事件,缺乏规范化的解决机制和数据记录。

3、IT运维自动化

随着IT运维管理的硬件结构采用了大集中模式,其管理难度和工作量大幅增加,企业和IT部门通过运用专业化技术及工具、标准化的突发应对机制和流程化的管理模式手段,减少事故反应时间,降低运维成本支出,提升服务质量,逐步实现IT运维的全面自动化。

3.1 IT运维自动化优势

(1)提升流程可控性:IT运维自动化将改造和优化基于业务需求的个性化流程,提升流程可控性。(2)提升流程透明度:IT运维的信息自动化管理将改变手工流程管理造成的流程定制和优化所带来的难度,通过可视化界面,用户可监测整个流程的运行状态,提升了基于业务需求的个性化流程的保障能力。(3)降低运维成本:IT运维自动化的实现,是将打造出“全局域流程监管、全天候业务监测、事故自动化修复”的保障平台,摆脱日常、大量、简单、重复的手工作业带来的运维人力高支出,平衡水平不同专业不同的运维工程师对问题处理的波动性带来的风险。

3.2 IT运维自动化内容

IT运维自动化是指将手工操作的日常任务及流程组织变更等工作转化为信息化自动化操作,以基于事件为框架的流程化管理。预警和事故处理方面,通过知识库的建立,主动性的监控核心IT设备,预测事故的发生,提前预警将损失降到最低,而突发事故发生时,集中监控系统将激发相关事件并启动故障响应和数据备份恢复机制;日常设置变更方面,通过自动检测机制,触发变更申请流程传送至管理员进行确认,协助完成配置的维护及变更;日常设备检测方面,定期及不定期的对系统内的硬件设备、应用软件和依托的网络进行自检,完成日常对系统安全的检测和监控,同时生成日常维护报告,将报告收集、整理、分析、总结并发送到知识库,由知识库定期提供IT运维的性能参数和资源分配的分析报告。

4、IT运维自动化在电力系统内的应用

为了更好的解决自国网SG186工程实施以来,带来的电力系统内部运维管理机制不规范、运维管理技术不成熟和运维管理人员成本支出增加等问题,有必要建立建设一个信息化自动化运维平台,简化工作流程、提高工作效率、提升服务质量。

目前江苏电力系统已经建立了多个IT设备监控平台,包括国网公司桌面管理系统、可信网络接入系统、北塔网络设备监控平台。其中,国网公司的桌面管理系统可以查看桌面终端的所有软件、硬件信息,可以监控违规外联行为、系统弱口令、设备变化,可以下发安装补丁、软件。可信网络接入系统,可以监控内网上网络设备的可信接入,需进行snmp认证,如未经过认证,认定为可疑或者非法设备。北塔网络监控平台可以监控系统内网所有网络设备的连接方式、状态。

总之,整合各电力企业内部的运维部门资源,建立统一规范的突发事件解决和跟踪流程,引入优先处理关键流程决策,建立运维日志,增加知识库自检和辨识处理问题的能力,提高运维事故响应效率和执行力度,减少操作的随意性,其目的不仅是单纯实现运维自动化,而是运维管理能力的提升,是运维管理服务的最终目标。

参考文献

[1]熊志全,数字化电网模型[J].电力信息化,2005年05期.

[2]唐琳,李云峰.电力信息系统的安全性初探[J].信息安全与通信保密,2006年10期.

[3]王金泉,林荣惠,陈荣平.基于信息系统接地引入点的方法[J].中国科技信息,2007年19期.

[4]张大华,丁辉,吴向阳,赵毅强,孙毓忠.面向智能电网的电力云计算架构[A].2011电力通信管理暨智能电网通信技术论坛论文集[C].2011年.

上一篇:随机考试下一篇:卖空机制