中型企业IT运维管理

2024-08-21

中型企业IT运维管理(精选八篇)

中型企业IT运维管理 篇1

关键词:队伍组成,专业化,队伍管理,监控措施,应急预案,运维策略,信息安全

0 引言

如何建设一支能够解决问题、创造价值、有活力的、不断进取的IT运维团队,并带领这支团队,充分发挥这个团队的优势力量,是运维业务有效开展的关键。运维策略是直接体现运维业务的经济价值所在。好的运维措施、方法可以延长设备使用寿命,充分发挥该设备、物品应有的作用,创造更高的经济价值;错误的运维措施、方法可能缩短设备使用寿命或毁坏设备,严重时会带来一场巨大的灾难。信息安全是IT运维质量最重要的指标之一,只有通过有效、可行的管理、监控手段才能降低安全风险,防止重要数据泄漏,保障数据安全。

1 IT运维队伍组成

IT运维涉及的专业有:网络、数据库、操作系统、服务器(包括小型机)、存储、桌面运维、视频会议、门户、美工、业务管理系统等。这些专业的专业性很强,需要专业化人才进行运维管理。各专业知识面不一样,能从事运维工作的业务面也不一样。如从事网络、操作系统专业的运维人员可以从事桌面运维工作,但从事桌面的运维人员不一定能从事网络、数据库、存储维护工作。对涉及信息安全的专业必须分开运维,如网络权限、数据库权限、操作系统权限、存储权限、业务管理系统权限管理这几个专业必须独立,不得互相兼用,但做技术的可以兼用。IT运维中技术难度低的工作,工作量较大,人员需求较多,而技术难度高的工作,工作量相对小,人员需求相对较少。因此以上提到的每个专业的人员都必须有,但总的工作可以统一协调安排。

IT运维管理人员较少,工作量大,因此对人员专业面、专业素质要求高。对重要专业要能吃得透,在项目建设中能把握住方案的要害,所组建的设备、系统平台既要保证运行可靠、高效,还要不浪费,而且便于维护。在运维中要能制定合理可行的运维策略,完全了解所管辖的设备运行和停运的风险。在指挥运维作业时,能指出不规范或错误的操作,能意识到相应的风险,并能做到不瞎指挥,不违章指挥。

运维人员按专业设组,每个组至少有一名技术专家,该专家负责解决该专业的疑难问题,根据日常运维业务量配备相应的技术人员,在信息安全不互斥的情况下可以兼用。

对以下两个专业特别指出:一是网络专业,该专业覆盖面大,专业性强,影响面大,因此从事网络专业人员的数量有一定要求,并具有5年及以上网络从业经验。专业上具有以下能力:能够独立配置该公司所有品牌的网络设备,能够随意组网,能够优化网络设备的安全策略,能够利用常用工具快速查找、分析、处理故障。二是数据库专业,该专业风险大,数据库一旦故障可能造成所有业务管理系统中断,严重会造成数据丢失,带来无法弥补的损失。因此必须取得DBA证书,并具有5年及以上从事数据库开发或维护工作经验的,才能独立从事数据库维护工作。

2 IT运维队伍的管理

一个团队要有凝聚力,相互协作,听指挥。尤其在处理疑难问题和应急情况处理时,更需要团队的力量。每个运维人员必须有相应的岗位及岗位职责。IT运维的岗位应按以上提到的IT专业设置。由于工作量的不平衡,在信息安全不互斥的情况下,可以兼任其它岗位,相互渗透,而且便于人才的培养。每台重要设备确定一个主责任人,特别重要的设备可以增加一个辅助维护人员。

IT技术更新极快,新技术学习、专业相互渗透、常规培训必须保证足够的时间和次数。每人每周参加一次集体的培训,相互培训、相互学习,取长补短。每个专业的技术专家每年至少得参加一次一周左右的外送培训。

每天发生的运维业务很多,有常规的、有临时的、有应急的。如何使这些业务不落掉,做到每个运维业务定人定责,随时能跟踪运维进度。因此我们需要利用我们的强项IT技术,建一个问题管理系统,对整个业务执行过程进行监控。做到定人提报问题或定时发布常规任务,定人分配问题。得到任务的人员及时对问题进行处理,如果个人处理不了,可以找相应专业的技术专家处理,技术专家处理不了可以找团队共同处理,直到问题关闭。问题的处理过程及措施都在系统中体现。问题处理不及时,或没达到用户的要求,将会报警并产生扣分项。

有了以上的问题管理系统,就可以监控、跟踪每个运维业务,提高信息共享、传输的效率,从而提高运维的工作效率,防止工作失误。周报、月报及每人的考核、团队的考核以系统中具体的数据为依据。

应急预案的编制、审核、演练、处理、记录、分析演练、分析事故处理等整个过程,对这个团队处理应急情况尤其重要。预案编制一定要可行、责任到位,而且要言简意赅,容易理解好接收。涉及到的专业、管理部门都要参与审核并签字通过。应急预案应定期演练,只有通过演练才能了解这个团队在处理应急问题时还哪些不足。整个应急预案的演练或事故处理都应该如实按预案要求做记录,为演练或事故分析提供依据。演练分析或事故处理分析可以为这个团队增加事故处理经验,并从中吸取教训。

3 IT运维策略

运维策略决定了运维的质量,直接体现经济价值。可以提前发现问题、解决问题,把事故扼杀在萌芽状态。可以继续发挥旧设备的作用,创造新价值。IT运维策略需要注意几点。

(1)运维应有侧重点,对管辖的设备划分重要等级,根据重要性确定具体设备的运维点、运维措施、运维方法、运维周期。核心机房设备最重要,其次是普通机房设备。

核心机房设备根据重要性排序:供电系统,消防系统,温、湿度控制系统,存储设备,核心交换机,重要服务器,汇聚交换机,普通服务器,边界设备。尘土、静电是机房设备最大的敌人,大功率设备的散热系统最容易产生故障被破坏,散热系统发生故障后就直接导致温度过高,从而毁坏设备,严重时会造成火灾。因此大功率设备的散热部位是维护的重点部位。

机房的散热、防尘、除湿、保湿就显得更重要。再次是数据库的重要,主要体现在数据库平台的入侵检测、安全监控,数据文件、日志文件的安全备份,异地容灾。

(2)重要设备的故障记录,每台重要设备的每次故障及故障处理过程都要有记录。这可以建一个小系统,录入重要设备的台账,记录所关心的重要参数。重要设备的维护策略、故障及处理记录在系统中体现,可供查询,建立动态台帐和历史档案。当新故障发生时,可以利用历时故障及处理过程加以分析,可以帮助新故障的处理。也能为以后维护该类设备提供经验,调整相应的维护策略。

(3)运维方法不当,容易毁坏设备,严重时会造成灾害,因此必须了解一些注意事项。

运维时重点注意两方面:一是防静电。IT设备根据设备所处的重要等级不同,部分设备的板卡可以热插拔。热插拔板卡时一定要注意防止身体上的静电传到设备上,避免毁坏设备。因此必须带上防静电腕带并接地。平时操作机房设备时也应该带上防静电腕带,这一点很多人都容易被忽视。二是跳线。有些设备的跳线很多,特别是新换板卡,跳线颜色、插头都是一样的,容易跳错,一定注意不能按经验跳线,要看说明书或图纸,否则容易烧毁板卡或设备。跳完线后,最好是请另一个同事根据图纸核实跳线,确认无误再对设备上电。

(4)每台重要设备、系统、平台的常规维护都应编写一个可行的、容易理解的、简单的操作流程,指导每次常规操作维护。

每个人对自己管辖的重要设备的操作流程要烂熟于心,并能指导协作的人员一起处理故障。以机房UPS每半年进行一次的充、放电为例,所有开关的开或关是有顺序的,且开机或关机的顺序是不同的,若关错一个都会烧坏UPS主机。另外,还有一组开关在正常情况是不能开的,但在关闭某些开关后又是可以开的,而这个功能又是需要的,若开错顺序或开了不该开的开关都会损坏设备,严重时会造成主机或电池爆炸,酿成火灾。因此必须应有一个可行的操作流程做指导。

对数据库的数据备份也同样存在顺序的问题或操作漏项问题。如果数据库没有完全停下,就不能做完全恢复的数据备份。另外只有数据文件的备份,无日志文件的备份,也不能做完全恢复的数据备份。因此如果没有数据备份和数据恢复的操作流程指导,数据备份和恢复就容易失误,造成数据丢失。

(5)重要设备降级使用,修旧利废。某些设备到了报废年限,但由于平时保养措施到位,状况良好的可以降级使用,提高旧设备的利用率。降级的原则是,主设备降为从设备,核心设备降为汇聚设备,存储设备降为备份设备,服务器降为实验平台或监控电脑。多台旧设备拼装使用,但这种情况通常在重要程度较低的末端使用。

(6)操作系统不要轻易重装。如果数据备份不全,重装系统时容易造成用户数据丢失,另外由于重装操作系统的时间太长,升级打补丁需要很长的时间,同时目前需要安装的安全软件和应用软件也越来越多,这将会影响用户办公。许多操作系统问题可以通过修复系统解决,除非中了系统类的病毒,必须重装系统。

4 IT信息安全

IT信息安全需从建设和运维两方面控制风险,从运维的角度就降低信息风险应注意几点事项。

(1)要有必要的网络安全监控措施,比如端点准入、入侵监测、网上行为管理、网络流量监控。

(2)掌控核心网络设备及出口网络设备的权限和密码、数据库及数据库平台的权限和密码、安装数据库平台的操作系统权限和密码、业务管理系统的权限和密码。以上四类权限和密码如果有一项掌控不了,或互相串通,都保证不了业务系统的数据安全。

(3)数据库安全是信息安全的根。数据库安全的监控手段很多,比如数据库日志监测、非法用户监测、数据库平台的非法访问监测、防火墙监测。

(4)网路设备、出口设备的安全策略设置优化直接影响网络安全。

IT运维管理 篇2

目录

定义

IT运维管理包含内容

运维员三大法则

在网络的基础设施建设完成之后,整个网络处于运行状态,IT部门采用相关的管理方法,对运行环境(包括物理网络,软硬件环境等)、业务系统等进行维护管理,我们把这种IT管理的工作简称为IT运维管理。

IT运维管理包含内容

IT运维是IT管理的核心和重点部分,也是内容最多、最繁杂的部分,主要用于IT部门内部日常运营管理,涉及的对象分成两大部分,即IT业务系统和运维人员。其管理内容又可细分为七个子系统:

第一、设备管理:对网络设备、服务器设备、操作系统运行状况进行监控,对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web等的监控与管理;

第二、数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复;第三、业务管理:包含对企业自身核心业务系统运行情况的监控与管理,对于业务的管理,主要关注该业务系统的CSF(关键成功因素Critical Success Factors)和KPI(关键绩效指标Key Performance Indicators);

第四、目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理;

第五、资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互;

第六、信息安全管理:该部分包含了许多方面的内容,目前信息安全管理主要依据的国际标准是ISO17799,该标准涵盖了信息安全管理的十大控制方面,36个控制目标和127中控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;

第七、日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段IT运行维护管理的每一个子系统中都包含着十分丰富的内容,实现完善的IT运维管理是企业提高经营水平和服务水平的关键。

运维员三大法则

大型企业IT运维服务管理思路探讨 篇3

关键词:大型企业;IT运维服务;管理思路;探讨

中图分类号:F270.7 文献标识码:A 文章编号:1006-8937(2016)08-0155-01

21世纪是信息大爆炸的时代,很多现代企业也紧跟时代脉搏,一方面维护和深化运用各类已有的业务系统,另一方面通过更新已有系统和设立新的系统等方法不断提升信息化程度。其中,如何合理地分配和运用信息资源以有效地实现IT服务管理,以及如何维护和更新现有信息系统以实现系统稳定高效地运行日渐成为企业决策者和领导者关注的重点。譬如,很多企业已普遍引入了各类业务系统,包括办公系统、营销系统、财务系统和人事系统等,甚至有的大型企业已经营建了上千个IT系统,它们构成了企业内部支持组织业务运作的IT基础架构,起着至关重要的作用。

由于这些系统日趋多元化,规模越来越大,复杂程度越来越高,如何有效地运作IT基础架构,如何对这些软硬件设施进行规范地的维护,使其支持的企业实现业务目标是IT运维管理所必须解决的问题。

1 大型企业在传统的IT运维服务管理中面临的问题

很多大型企业在传统的IT运维服务管理中面临着一系列大大小小的问题。本文指出三种比较有代表性的问题。①缺乏一套完整的IT服务及监控平台。在进行系统监控和服务管理方面,这类企业还在依赖落后的手工方式,不但会导致IT运维效率低下,而且客观上限制了信息化建设的进一步发展,这也有违信息化发展的大趋势,势必面临被淘汰出局的风险。②很多企业内部IT服务还没有一套完整的报修平台,这从某种程度上会桎梏IT服务的提升。③很多企业内部IT服务中还没有完整的服务流程。比如信息系统项目建设中,没有规范的硬件、软件上线流程,系统建设后进入运维时也没有规范的变更管理和事件流程。

2 IT运维服务管理的最佳实践—ITIL

ITIL (Information Technology Infrastructure Library,信息技术基础架构库) 是IT服务管理最成功的实践结果,并业已成为IT界运用最为广泛的一种服务方式。被奉为实际应用的指南和典范,ITIL不仅涵盖了如何进行IT管理及相关的设置流程的描述,而且具有诸多优势。它不仅能有效且全面地对IT技术的运用进行指导,而且有助于使IT资源在发挥自己的效用和功能方面实现最优化。

除此之外,信息技术基础架构库可避免企业的IT服务管理实践主观化,为其可量化、细致化和有针对性提供条件。正如周涛所指出的,“用户们可根据自己的实际情况来对自己所需的各种服务水平进行定义,根据信息技术基础架构库对IT 基础架构与服务管理作出相应的规划并执行,以保证企业的业务可获得IT服务管理的更多支持。”(周涛,2014)对航空运营管理而言,实施ITIL能将IT和业务完美地整合在一起,以实现企业利益最大化。

3 东方航空公司内部IT服务管理战略目标探讨

笔者接下来对东方航空公司内部IT服务管理战略目标进行分析,以指出大型企业未来实施基于ITIL的运维管理体系的必要性以及意识到这一点的企业领导者的前瞻性。

由于落后的运维模式以及运维中层出不穷的一系列问题,东航高层提出了IT建设新思路,据此, IT运营中心成立,作为公司IT组织架构中最重要的组成部分之一。它的成立意味着一个稳定、高效和灵活的信息系统运行和维护管理体系即将形成。这无疑会为公司各业务系统正常运行提供有力的支撑,提高信息系统运行效率,提高服务质量,降低运营成本,为实现公司的战略目标提供坚实的基础支撑。

但是IT运营中心高效、稳定、灵活的运行离不开ITSM系统、网络主机监控系统、桌面管理系统等基础架构建设的支持,因此,东航信息部决定考虑在IT运营中心建设初期投资建设相关基础架构平台,为IT运营中心的顺利运行打下坚实的基础。

IT运营中心基础架构平台的建设在ITIL最佳实践的指导下,结合东航实际IT运维情况,通过持续优化的IT治理,逐步提高信息技术管理的成熟度,按照IT总控中心的管理模式建立一个以单个统一CMDB为核心IT管理数据源、以业务为目标、以服务为导向、以流程为纽带、以集中化监控为手段的一套完整、安全、高效、先进的IT运维管理体系。

基于ITIL最佳实践经验,打造符合自身特点的IT服务管理管理中心,以帮助规范IT员工的工作流程和工作职责,最大限度发挥资源的优势,避免人员不规范带来的影响,并为IT团队建设提供必要的管理和评估数据,形成以下ITIL系统建设目标与框架:

整个项目初期总体规划是:“三个流程一个职能一个平台”,其中三个流程就是ITIL中服务支持中的三个最实用也最见效的流程,分别是事件管理,配置管理与变更管理。一个职能,就是整合外包公司与上航IT运维服务的东航服务台管理。一个平台,就是一个统一的系统及网络监控平台。

初期考虑在建立东航自主的统一的服务台,在此基础上监控外包公司的IT事件,采取以点带面的方法,识别对公司业务最核心最关键的7*24的IT服务,并针对这些服务建立起cmdb(配置管理数据库),建立起配置管理流程,对运行这些关键服务的相关服务器,应用服务器,数据库服务器、相关网络设备以及机房相关设备等进行重点监控。

另外,东航也设立了各个流程的具体目标,包括服务台、事件管理、配置管理、变更管理和知识库管理。具体如下:①服务台。将建立整合东航,外包公司以及原上航IT服务的整合的服务台职能,最终达成统一界面,统一受理,统一解决,统一反馈的东航IT服务台。服务台是所有服务管理工作的中心点。所有客户服务请求(无论是通过电话、电子邮件还是自助式服务界面发出的)都能通过服务管理渠道实现,服务管理模块可协助IT人员高效地集中、分配任务,管理和解决问题。②事件管理。事件管理流程是减少或消除存在或可能存在IT服务中的干扰因素给IT服务带来的影响,以确保用户可以尽快恢复自己正常工作。因此,服务台要将事件记录下来并分类,再分配给适当的专业人员去处理;东航服务台也要监控重要事件的发展;并在事件得到解决之后将其终止。③配置管理。管理是配置管理数据库(CMDB)的核心组件,可以建立支持复杂技术和业务视图配置的资产库。配置管理使处理任何类型的服务请求或问题的技术人员都能够确定受到配置条目影响的业务功能。④变更管理。变更管理旨在管理变更的过程,以及相应地减少错误和与变更有关的事件。变更管理的目标是确保标准方法和工序被使用,以便尽可能地降低与变更相关的事故对于服务质量的影响。⑤知识库管理。知识库可提供强大的“学习”搜索引擎,用于现有案例解决方法的搜索。技术人员按下按钮便可对现有解决方案库进行搜索。借助类别、子类和问题描述文本等案例输入,启发式搜索引擎将提供解决方案。

从这些目标也可以看出,实施ITIL可避免前文所述的传统的IT运维服务管理中普遍出现的问题。譬如,服务台和知识库管理能避免传统IT运维管理中缺失一套完整的报修平台的尴尬,不但能通过多种途径实现报修,而且能有效地提供多种解决方案,从而使整个企业和谐安全地运转。

4 结 语

总之,随着信息大爆炸和企业全球化竞争的加速,IT 正逐步朝着企业信息化建设和IT 服务管理的方向发展,IT服务管理成为企业业务运作过程中不可或缺的重要一环,通过ITIL 对企业的IT系统及架构进行规划、建立和整合,对现有IT 资源进行重组,全面而集中的管理,使IT系统的价值得到更充分的发挥,才可确保生产业务能够平稳、高效地运营,从而促使企业更快速地发展。

参考文献:

[1] 赵晨,干红华,蔡晓平,等.IT服务管理[M].北京:人民邮电出版社,2012.

[2] 周涛.基于ITIL理念的运维体系的探析[J].中国新通信,2014,(6)

[3] 王毅.基于ITIL的IT服务运维管理体系研究[J]. 硅谷,2014,(3).

大中型企业IT运维管理探索 篇4

关键词:IT运维,运维管理,服务管理

1 引言

进入二十一世纪以来, 我国加大了对信息化建设力度。政府和企业也在改革各自的IT运维管理系统和模式, IT运维管理部门即现在的信息部门所管理的各种IT软件和设备的运维管理工作已经相当复杂, 而且运维管理的技术难度不断提高, IT运维工作面临着巨大的考验, 导致影响各种IT系统的应用效果及深入的发展。为了利用有限的投入有效构建规范的IT运维管理模式, 改善IT系统运行水平, 大幅度提高信息管理质量, 当前政府和企业信息化领导面临很多的工作和问题。因此, 对IT运维管理模式的改革和探索, 变得非常有现实意义, 其前景相当广阔[1]。

2 IT运维管理

政府和企业在其信息基础设施建设完成后, 其信息网络就投入运行状态, IT运维管理就是信息技术部门改变现有的管理模式, 针对运行的物理网络及软硬件环境、单位主要业务系统以及IT运维管理人员实施的综合管理。IT运维管理是政府和企业信息管理的主要部分和中心工作, 同时更是任务最繁重、涉及面广范的工作。其最主要有两个方面, 包括信息业务系统和运维管理人员。IT运维管理的主要内容有七大部分, 包括数据的管理、业务系统管理、硬件设备管理、目录管理、资产管理、安全管理、日常管理, 每一部分都包含着十分丰富的内容, 实现完善的IT运维管理是企业提高经营水平和服务水平的关键。IT运维管理能够准确、及时地全面管理所辖范围系统的整个运行情况, 大幅度提升IT运维管理效率与质量, 保证IT部门的技术服务畅通有效, IT管理工作透明全面。应用知识管理优化量化指标, 持续地改进服务水平, 提升整个业务部门和单位用户使用IT信息的服务质量, 使得满意度增加, 同时构建一个比较集中的IT运维监控管理平台, 最终达到整个网络系统信息管理的规范化。总之, IT运维管理能够帮助政府和企业构建适合政府和企业业务环境及发展需求, 而且实施IT服务的快速响应的先进IT运维模式, 最终完成基于ITIL的规范化流程管理, 实现IT运维管理的自动化。

3 企业IT运维管理现状与分析

目前, 企业传统的IT运维管理模式存在太多的缺点:资产管理效率低下、人工成本太高、IT事件发生的随机性、服务模式被动[2]。没有改革传统IT运维管理模式的企业最终退出市场。

3.1 没有规范化的管理流程, 主动服务不够

ITIL是目前企业实现信息化管理的国际标准规范[3], 而大部分的企业IT部门没有实施ITIL, 而且仅仅实现IT系统的有效运行是不够的, 管理好IT系统, 为业务部门提供有效的决策支持还面临极大的挑战。国内企业在IT运维管理过程中, 大部分的IT管理人员效率低下, 主动服务意识不够, 特别是在IT业务正常的时候特别轻松。只有当事件已经发生并已造成业务影响时才能发现和着手处理, 尤其是涉及到企业核心电子业务的时候特别紧张, 这导致IT运维管理人员工作的大部分时间和精力都在忙于处理相对简单又重复的工作, 其工作质量可想而知相当差。尤其企业没有完善的事件预警机制, 经常是要等故障发生后才进行处理, 其结果就是不仅效率太低, 而且有些故障常常连锁发生, 这样不仅各业务部门, 而且信息部门本身对IT运维管理服务的满意程度大打折扣。

3.2 资源及资产管理不系统, 没有实现自动化管理

目前, 大多数企业都是直接利用财政部门下发的固定资产管理系统来完成资源及资产的信息化台账管理, 基本上不能实现资源及资产管理的动态化, 更谈不上实现信息化资产的精细化管理。企业的软件资源与IT设备资产名目繁多, 通过人工管理肯定效率低下, 而且经常出差错。例如, 软件资源和IT设备配置信息简单, 不够详尽, 而且随着时间的推移, 其经过维修及调整后与实际相差甚远;企业IT设备的更新与定期检查不够及时, IT设备巡查不够到位;IT设备购买、分配及报废等流程的管理效率低;IT设备的维修记录在台帐不能正确反映;软件资源根本没有建立有效的台帐管理, 软件升级管理缺乏有效信息。自动化程度低, 增加运维工作量。因此, 实现运维管理工作的自动化对企业来说已迫在眉睫。

3.3 缺乏绩效考核标准

目前, 绝大多数企业信息部门基本上都是按照IT基础架构功能各部分进行分割, 还有一些企业是按照其业绩进行分割, 完全没有采用IT服务工作的量化考核系统, 其工作绩效的计算没有可靠依据, 更没有对IT管理人员处理故障效率和质量的监督机制。一般情况下, l T管理员在解决故障时没有团结协作的精神, 多数情况下要解决故障需要部门之间的紧密协作, 而在企业IT运维管理的实际过程中, 互相推卸责任的现象时有发生。

3.4 IT运维管理缺乏统一管理机制

当前企业的数据和知识分布分散, 集中的知识库没有建立起来, 另外, 人员变动也会影响解决故障的速度和效率。现在大中型企业规模相对比较大, 往往拥有跨地区的子公司, 各个子公司的IT系统完全孤立, 例如某个电力集团, 采用的是分散管理, 没有集中建设管理集团下属各子公司都会单独地建设并维护各自独立的核心业务系统, 并同时配备各自的开发人员和运行维护人员, 这样就会造成大量的资源浪费, 不能实现最优资源的优化整合, 这样, 在出现大的技术故障时, 很难得到有效的解决。

3.5 缺乏运维管理服务的支撑工具

企业IT系统包括大量的IT硬件设备, 其类型非常繁杂, 分散在各个不同的网络, 同时缺乏有效统一的监管服务工具, 致使定位故障相当困难。

3.6 IT服务外包工作缺少有效监管

很多的政府机构的IT运维管理根本上都是采用运维服务外包模式, 因为对服务外包的主要内容、考核质量和运行效果没有考核标准, IT运维管理人员很难对服务外包的过程及其结果实现全面考核和管理。

4 大中型企业的IT运维服务平台的建设现状

建设企业IT运维管理平台[4]不仅能够全面监控和管理企业的IT基础设施, 而且可以协助企业建立全面可靠的、实现企业核心业务价值的综合信息管理平台。企业IT运维管理平台整合了完全符合ITIL流程的服务平台, 并集成了网络、服务器、应用、网络流量、存储监控, 故障管理、IT变更管理、知识库管理、资源资产管理等多个部分, 能够实现企业IT管理从传统的运营管理监控、数据统计分析、出现故障、解决故障模式, 向规范化管理模式转换, 依赖IT基础设施管理和运行维护流程的紧密结合, 从资源资产、物理网络、企业核心业务实时有效的监测、运行日志及网络安全等多个角度实现全方位的管理, 借助于ITIL等运维管理理念, 实现IT运维服务过程的标准化、流程化[5]、规范化, 实现IT管理质量的提升, 努力实现IT管理更好地服务企业的核心业务, 全面实现企业的业务服务管理 (BSM) 规范。

4.1 资产配置及服务管理

资产配置及服务管理实现企业业务及其企业客户的控制目标及需求, 同时可以提供准确的资产配置信息, 让资产使用人员者可以及时正确地决策, 为企业提供高效的IT服务管理流程规范。比如说, 对IT服务的发布及变更实施授权后, IT管理人员就能够快速地解决故障和问题, 从而可以减少因为不合适的资产配置及服务而引起的质量问题。最后, 资产配置及服务管理能够实现IT资产配置及服务能力的最优化。

资产配置及服务管理包括了企业IT服务生命周期中的全部资产及服务, 必须完成企业完整的资产目录, 从而可以快速管理全部资产, 也就是说, 资产配置及服务管理包括资产目录的维护, 有效管理从购买初期直到最终报废的整个生命周期的IT资产和服务资产。

4.2 故障管理

故障就是说指某个IT服务或某项IT服务的非计划的中断, 实现故障管理流程主要是依据服务级别协议的要求, 最小程度地影响客户和用户业务的情况下, 将此服务尽快恢复到正常状态。问题理流程包含了对IT服务中断或可能中断的故障进行有效的管理, 当然也包括从服务台或监控工具用户所报告的故障。

4.3 运维监控管理

IT运维平台监控系统可以监测所辖范围内的操作系统、网络硬件设备和各种实用软件等各类资源的运行状况, 实时记录并保存, 具体包括实施服务器和存储监控、网络和安全监控、数据库监控、Web应用监控、应用视图定制、与事件管理联动及与IT服务管理集成。

4.4 服务请求管理

服务请求是指IT部门向使用者提供的各种不同种类的IT需求, 主要有以下的几类, 首先是风险低、发生频繁、成本低的变更要求, 比如用户要重置口令密码, 请求对某些特定的服务器实现计划外的各种软件的安装等;其次就是IT信息的咨询需求, 这些需求也是频繁出现、风险低, 所以必须采用单独的处理流程来进行有效管理, 这些管理不是混合在正常事件和变更管理流程当中, 因而就成为了一种负担和障碍。另外服务请求能为企业用户提供一种获得IT标准服务的手段, 能为企业客户和使用者提供各种请求管理流程的服务和各种程度服务信息, 能够获得并且交付服务请求的标准服务组件, 同时能够协助管理人员处理一些普通服务信息, 如投诉等。

4.5 知识库管理

运维平台中知识管理是为了确保整个生命周期内使用者可以有效获得准确可靠的安全信息和相关数据, 有效提升企业制定其管理决策的水平, 而且知识管理始终贯穿在企业的整个生命周期, 并与各个环节都紧密联系在一起。

5 基于ITIL的IT运维服务管理

ITIL概念的引入, 使长期困扰企业IT部门的问题可以基本得到解决或缓解[6]。

借助ITIL的运维管理理念, 企业建设IT运维管理平台[7,8,9]可以适应企业的各种信息网络的混杂的IT环境, 结合企业各个部门不同专业的信息管理系统的分散管理模式, 从IT服务及企业业务出发, 对IT系统进行统一集中的运维服务信息化管理, 并从资源资产、信息网络、实时业务有效监测、生产日志、数据安全等各个方面实现有效管理, 并有效整合IT技术、业务功能、IT服务, 最终实现企业IT运维服务管理过程的规范化、自动化及其流程标准化[10], 提升企业IT故障应急处理的效率和能力, 大幅度提高IT部门的管理水平和服务质量[11]。

6 结束语

有效实现IT运维管理, 可实现对IT硬软件环境及网络等运行环境、企业业务系统和IT运维管理人员的全面综合管理, 为高效科学的业务运转提供有效保障。基于ITIL的企业IT运维管理流程优化方案适用于企业实施和应用的IT运维管理通用框架, 能够优化IT部门的IT运维管理流程, 提高IT部门的效率, 平衡IT负荷与业务需求。

参考文献

[1]罗金满, 陈华军, 蒙家晓, 关泽武.试谈大中型企业的IT运维管理[J].电脑编程技巧与维护, 2013, (18) :113-114.

[2]王巍, 虚拟化环境下的IT运维研究[D].济南:山东大学, 2012.

[3]顾宇.基于ITIL的IT运维服务管理探析[J].信息与电脑 (理论版) , 2011, 04:118.

[4]冯纯.基于ITIL的IT服务台软件在企业中的应用[J].中国科技信息, 2009, 09:101-102.

[5]安平, 基于ITIL的电子政务系统运维管理平台设计[D].上海:复旦大学, 2011.

[6]Ahmad, N., N.T.Amer, F.Qutaifan, A.Alhilali.Technology adoption model and a road map to successful implementation of ITIL[J].Journal of Enterprise Information Management, 2013, 26 (5) :553-576.

[7]张鹏, 基于ITIL的IT运维管理中心的分析与设计[D].北京:北京邮电大学, 2011.

[8]王志勇, 葛伦跃.基于ITIL的烟草信息化服务管理平台的研究与分析[J].电脑知识与技术, 2013, (30) .

[9]赵晶浩, 基于ITIL的数据汇交系统运维管理的研究[D].哈尔滨:东北石油大学, 2013.

[10]王丽丽, IT运维管理流程优化研究[D].北京:北京林业大学, 2010.

IT运维管理系统规划 篇5

MIS网络信息运维管理系统规划(征求意见稿)作者:张鹏 二〇一〇年一月 前言

托电信息化发展历经八年,从只有一个OA办公系统、数十台终端到如今拥有包括小型机在内的服务器五十余台、交换机等网络设备百余台、终端上千台。信息化工作的重点已经从信息系统建设向运维管理和系统应用的深度整合等转移。

目前,信息中心每天的工作量,多数都属于运维管理的范畴。信息中心从机组四期工程结束后就着手开始运维管理方面的建设工作,几年间相继上了蓝带思科桌面管理系统、东华的IT运维系统、青鸟桌面管理系统。这些系统的应用情况都不尽如人意,原因是多方面的,个人认为主要有以下几点:

1.运维管理的理念形成需要逐步成熟的过程。2.受到与运维相关的信息技术发展制约。3.现有运维相关的产品有各自的侧重或局限性。

信息中心正在实施的两个项目NETIQ和机房环境监测系统为我们提供了一个契机,我们可以建设一个真正适合自己的网络运维管理系统,这个时机已经基本成熟。

一、运维管理系统建设的可行性

信息中心运维工作主要来自网络设备、系统应用、机房设备、终端。NETIQ服务器监控系统可以对服务器、数据库进行集中监控管理。机房环境监测系统可以对机房温湿度、空调、UPS等指标进行集中监控管理。终端管理方面,可以考虑购置更好的产品加上二次开发或者在现有桌面管理系统的基础上进行二次开发。相对于以上,网络设备的管理使用SNMP基本可以满足运维需求,NETIQ可以实现,也可以在运维管理中心开发相应的管理模块。这些系统的建设,本身就是具有针对性的综合管理系统,而且可以为运维管理中心系统提供运维信息的采集平台,是运维管理系统建设的基础。

二、运维管理系统的构想

运维管理系统由外围管理系统群和运维管理中心两部分组成。外围管理系统群包括网络设备管理模块、NETIQ系统、机房环境监测系统、终端管理系统,外围系统群为运维管理中心提供运维信息采集平台。运维信息采集包括网络设备运维信息采集、服务器组运维信息采集、机房环境运维信息采集、终端运维信息采集。

运维管理中心主要包括以下几个部分:运维任务的生成、运维任务的处理、完成确认、知识库、运维统计分析、运维报告、绩效评价、违规处理、维护商管理、应急预案管理、系统权限等。㈠生成运维任务

运维任务的生成有两个途径,一个是从信息采集获得,另外可以手动生成。运维任务分为运行管理任务和维护管理任务两类,运行任务管理是指系统、设备在正常运行状态下的监控管理或操作,主要包括定期巡检任务、正常的配置操作、补丁管理、用户管理、升级操作等,巡检任务由系统按规定自动生成,包括信息中心人员的日常巡检和维护商的定期巡检。维护管理任务是指当设备、系统出现异常或故障时的处理过程。运维任务的生成包括的信息有:设备或系统名称、IP地址、报警信息、时间、运维编码等等,由终端直接发起的运维信息应该包含联系人的电话等,以便于运维人员接手任务后与发起人主动取得联系。生成的运维任务包括网络设备、应用系统、机房操作、终端运维等几种任务。运行管理和维护管理并没有严格的界限,往往是你中有我我中有你。㈡运维任务的处理

运维任务生成后,由管理人员按照各自的职责分工,领取相应的运维任务进行处理,运维任务处理过程及信息分类:

运维类别 网络设备包括:交换机、路由器、防火墙、VPN设备、行为管理设备、其他 应用系统包括:操作系统、应用服务、数据库、接口、其他

机房运维包括服务器、网络设备、空调系统、供电系统、消防系统、环境监控系统 终端运维包括:终端、外设 运维内容

网络设备包括配置操作:增加、更改、删除,其他操作:版本升级、设备更换、其他 应用系统包括:配置变更、软件安装、升级、用户管理、数据管理、日志管理、补丁管理、策略管理、其他

机房运维包括具体的设备信息

终端运维包括:电脑硬件、操作系统、应用程序、打印机、其他 处理过程

处理结果

原因分析 影响情况 对用户的影响情况(时间范围)

运维任务在处理过程中包含以下几个状态,分别是: 等待处理: 等待运维人员接手 执行状态:运维人员正在处理任务

挂起状态:运维过程中出现其他急需办理的事物或其他原因暂停执行 提交状态:任务处理完毕,等待完成确认 完成状态:一个任务完全结束后的状态

驳回状态:任务处理过程中信息有待补充等原因被驳回。

当任务处理人员发现需要维护商来处理的时候,将任务转给维护商,由维护商接手任务,相关人员配合共同完成运维任务并填写相应的记录,最后由运维人员给予维护商相应的评价。㈢运维任务的完成确认

对已经完成并提交的运维任务进行确认、评价,对于运维内容是否放入知识库给予确认,对于运维过程中存在的违规情况根据相关规定给予处罚确定等。㈣知识库

知识库的信息积累来自于运维管理系统和平时的手工录入,应做好信息的分类、查询功能。当运维任务生成后,系统会把相关的信息在知识库中进行检索,并把结果显示在任务中,供运维人员参考。㈤运维统计分析

当某些问题经常出现的时候,信息中心必须运用统计分析对设备、系统产生的问题或故障协同相关维护商,进行深入分析,找出原因,解决问题。另外运用统计分析可以为今后的运维工作提供指导方向,制定下一步运维计划。㈥运维报告

通过运维管理中心,对运维数据有选择的筛选、汇总,定期生成信息系统运维报告,以便于工作总结、分析、计划。运维报告应具有针对性,例如呈送公司领导的、呈送各部门的以及信息中心的整体报告。㈦绩效评价

运维系统内的各方包括终端用户、维护商、运维人员都是可以评价的对象。终端用户可以给打印机维护商评价;也可以给信息中心运维人员给予评价;维护商可以给维护人员评价;运维人员可以给维护商的工作给予评价;运维人员可以对终端用户使用计算机的情况给予评价。㈧违规处理 对于运维过程中发现违反信息系统相关制度的行为应予以必要的处理。需要做两方面工作:涉及这个内容的制度条款应该拿到系统中来,处理的方式方法有待确定;对于违规行为,在运维处理过程中应该做相应的证据记录。㈨维护商的管理

对维护商的信息集中管理,运维工作予以记录、评价,运维合同的到期提醒等,如何对维护商产生实际的约束力,发挥其在运维工作中应有的作用,是我们需要考虑的问题。

(十)应急预案管理

当设备或系统的故障达到规定程度时,启动应急预案,并对整个处理过程实现系统化管理,以及预案的演练等其他工作进行记录。

三、终端管理系统

目前通行的终端管理系统所包含的功能主要有:硬件信息的提取(CPU、内存、硬盘等)、操作系统基本信息(操作系统版本、安装的应用程序等)、软件分发、补丁管理、外设管理、远程管理、主机防护等。有的产品还具有接入认证、内外网隔离、硬盘加密、网络行为管理等功能。360安全套件在终端健康状况、插件管理、实时防护、木马查杀、垃圾清理等方面做的比较好。瑞星网络版则是着重防病毒。将这些软件的功能加以综合利用,建设终端管理系统平台(组),为运维管理中心提供数据。

厂区终端使用最多的是OFFICE办公软件和浏览器,出现问题最多的是浏览器,所以应当把对浏览器的运维作为终端运维的重点之一。此外终端管理系统收集的终端硬件信息可以与信息中心现有的资产管理系统建立联系,可以实现较为准确的资产定位,协同各部门信息员及时掌握资产的变动情况。

客户端的二次开发要求:客户端既属于终端管理系统,又可以和运维管理中心通信,同时可以对于我们所需的现有产品没有涉及到的进程或指标进行检测。

1、实时交互性

当运维人员需要远程维护时与终端用户进行询问、控制申请等信息交互,当运维任务结束后,终端用户可以给维护人员以相应的评价。运维管理中心收集到的终端健康情况也可以发送到目的终端,给使用者以相关的提醒。

2、人性化

终端使用人提交运维申请后,可以看到运维管理中心当前的运维状况,谁接手了自己提交的申请,自己排在第几位等信息。客户端运行应尽量避免对终端用户的正常工作形成干扰,如果能做到让使用者感觉很舒服又实用那是最好了。

3、资源占用率 客户端运行时,进程的大小,CPU占用率可以参考较为成熟的软件如360及瑞星运行时的情况。

4、定制化安装

对于信息中心维护范围内和维护范围外的终端,应该采取不同的安装策略。比如对维护范围外采用接入认证、监控健康状态、信息提醒等,但不启用维护功能。用户在安装客户端时,填写相应的信息以便系统管理。

四、运维系统建设工作重点 1.运维管理中心的开发 2.终端管理系统的建设

3.NETIQ系统所涉及监测指标的调整,与运维管理中心的接口准备 4.机房环境监测系统所涉及监测指标的调整,与运维管理中心的接口准备

5.对于特定应用系统的运行监测,NETIQ能否开发出对应的监测服务模块,或者应用系统的开发商可以开发出对自身运行状况的监测功能。6.与运维工作相关制度的完善、建立。

五、总结

业务应用:IT运维管理的核心 篇6

近年来,国内外各企事业单位都十分重视信息化建设,把加快信息化建设作为提高生产经营管理水平、促进业务流程优化、加强内部控制、提高决策质量和效率的重要手段。结合中国石油发展战略和业务需求,中国石油出台了统一的“十一五”信息技术总体规划,F5(企业信息系统管理)项目便是“十一五”信息技术总体规划中的一项,目标是建立集成的监控管理平台和统一、完善的运维管理体系,提高中国石油信息技术基础设施的可靠性和性能,从而保证中国石油各业务系统的高可用性,彻底改善IT服务的管理水平,提高客户满意度,降低IT服务支持成本。

被动的传统IT运维管理

市场研究机构Gartner调查发现,在导致IT基础设施出现故障的原因中,源自技术或产品方面的因素其实只占了 20%,而因为运维管理方面的原因则占到80%,可见IT系统运维及管理是相当重要的。企业每年对IT部门投资都不少,但是得到的效益却没有体现,问题仍然时常发生,感觉好像所有的投入都打了水漂。

企业的IT运维部门是一个吃力不讨好的部门,因为IT运维就是在后台默默地保证信息系统的正常运行,只有在问题发生的时候才想到还有IT部门的存在。这种现象是由于IT运维管理还处于传统模式,即无相应的运维监控软件或者是仅仅单独使用某项监控软件而没有联合使用。这种传统的IT运维管理是被动的管理,是孤岛式的管理,是与业务应用没有联动的管理。

1.被动管理

传统的IT运维管理是救火式的管理。通常是用户先于IT人员发现问题,然后再找到IT部门要求解决问题。这是由于传统的IT管理采用人工方式管理基础设施,网络管理是从各种IT基础设备出发的,仅仅是保障各类IT设备如服务器、数据库、存储设备、交换机等等基础设施的正常运行。

不采用任何管理软件,仅仅靠运维人员定期轮询,或者执行某项命令来检查设备,在系统规模较小时,只要参与运维的技术人员足够负责,人工运维方式是可以满足日常运维需要的。但是,当应用系统达到一定的规模后,这种运维方式的弊端就暴露出来了。轮询一遍要花费几个小时,这样,轮询周期越长也就代表越需要更久才能发现故障。这种被动式管理IT导致有了问题不能及时发现。

2. 无关业务、孤岛管理

有些企业虽然采用某一种或几种监控软件来监控IT基础设施,但这些监控软件都各自独立运作,没有进行对业务的整合监控。如果用户投诉业务应用不畅通,很难定位故障源,到底是网络、应用程序、数据库还是其他后台系统出了问题,或者是各部门踢皮球,都说自己所负责的设备正常?

好一些的IT主管会把各个部门集合到一起开会,讨论问题根源。传统的IT运维管理方式是各类设备的管理各自为政,丝毫没有关联性。处理故障不便于追根溯源。每个人的精力有限,在专业应用系统赖以生存的各基础设施支撑单元上很难做到专、精、准的多面手角色,加之由于管理范围的界定和监控手段的限制,运维人员很难直接判定问题是出在基础网络、系统服务器、数据库还是应用系统自身,故障难以定位将直接导致业务恢复时间的推迟,影响业务系统的正常运行,大大降低服务质量。

将IT运维与业务相关联

IT运维是在后台默默地保证各项业务应用系统的正常运行。IT运维工作是无形的,怎样把这种无形的运维变为有形、甚至量化,这就要把IT的运维与业务相关联。传统的IT运维管理中,基础设施的运维工作不能和业务相结合,仅仅是在设备管理的层面上。这就导致IT管理的成绩没有体现。想想看,如有业务应用不正常,那网络或者服务器之类的任何一种基础设备的正常运行又有什么用呢?业务应用是“1”,设备是“0”,没有了正常通畅的业务应用,那其他的都是空谈。只有在业务应用畅通的前提下,基础设施管理才有意义,才能体现IT运维管理的价值。

因此我们需要帮助企业IT:部门了解用户使用感受,关联真实用户感受和系统性能,指导问题事件定位和原因诊断 。

企业信息化发展过程首先是基础架构建设阶段,这个阶段主要是采购一些硬件和应用软件。随着采购的不断扩大,企业的IT组件不断完备,IT系统初具规模,这就产生了IT运维和管理的要求,即网络和系统监控(NSM)阶段,监控网络连通性和系统可用性,此阶段主要还是对IT设备的监控。随着企业业务日趋复杂,IT系统进一步扩大,这时就产生了对IT服务流程进行管理的需求,上升到第三阶段,即IT服务管理(ITSM)的阶段。以上三个阶段都是IT间接产生业务价值的阶段,对业务的顺畅起辅助监控的作用。

企业业务系统对IT系统依赖的不断增强,企业开始关心IT服务对业务带来的影响,强调从业务目标角度出发来管理IT,也就是到达第四个阶段——IT与业务融合的阶段,即BSM(Business Service Management,业务服务管理)阶段。企业可以根据业务目标对IT服务进行调整,以确保IT能够支持业务目标,从而直接产生业务价值(如图2所示)。

如今各类重要的IT应用系统相继在中国石油发挥着举足轻重的作用,所以IT应用系统的可用性尤其重要,例如ERP、OA、邮件、门户等各类重要的系统如果出现中断,都会给企业造成大量的经济损失,所以除了需要对各类应用系统部署冗余的设备以备保证其高可用性,同时也需要对应用系统进行监控和管理,并且进行关联管理。业务系统的可用性是由底层的各类基础设施的状态所决定的,因此建立一个有效的业务模型,将与某个业务相关的底层IT基础设施关联起来,该业务模型能够有效地定位故障根源。这样ERP的管理员只需要关心ERP业务的可用性,而没有必要去关注每台主机的性能参数和启动的进程,不但大大节约了运维时间,而且也提高了运维效率,使故障持续时间大大缩短了。

基于BSM的IT运维

当前中国石油IT运维管理的需求就是从业务出发,建立基于BSM解决方案的新型IT运维。

新型的IT运维管理系统要做得到的就是基于BSM架构的业务管理。

首先,要实时掌控最终用户对IT服务的使用体验,根据制定好的SLA(Service Level Agreement,服务等级协议)来管理业务服务的质量,这样就可以根据业务影响和SLA来对IT服务进行管理。

其次,通过端对端的应用交易时间测量,实现业务要求端对端的可见性;从最终用户的角度,来测量业务服务的响应性能,主动帮助运维人员在第一时间发现问题,以便在问题对用户造成不利影响之前,及时得到隔离、诊断和修复,把它们对业务的干扰降到最低。

第三,提供业务服务、应用及底层IT系统构架部件之间的映射关系。这种解决方案通常会基于一种称为CMDB(Configuration Management Database,配置管理数据库)来实现。通过服务依存关系映射技术,来展现业务服务、应用和底层IT系统构架部件之间的动态关系,这样就增进了对各种IT元素的掌控和理解。

第四, 借助业务服务与IT基础设施的依存关系,对告警事件进行管理。当IT系统的组件产生告警时,结合收集上来的底层的IT系统告警事件,对它们进行过滤、关联、聚合,根据对业务服务影响的严重性,来进行排序处理。

传统意义上的CMDB是服务流程中的一部分,是ITIL中最重要、最核心的概念之一,在以业务为核心的IT运维中,CMDB也是业务建模的主要工具。CMDB通过自动发现工具收集和一定范围的IT基础架构基础信息,包括配置项和关系,建立IT基础架构模型;并通过端到端的业务服务拓扑图来可视化展示业务系统所有部件和关联关系。

把这四方面的功能整合起来,从最终用户的角度来衡量业务影响和风险;自动发现业务服务、应用和底层IT系统构件,并建立依存关系;理解用户感受,监控用户业务响应时间 ,在用户受影响之前发现问题,以求满足下列功能:

1. 通过基于角色的业务视图,提供业务流和服务的可见性;

2. 从最终用户的角度来衡量业务影响和风险;

3. 设置和检测业务过程的SLA,了解应用性能对业务的影响;

4. 24×7小时端到端监控,从浏览器到后台实时监控所有交易;

5. 理解用户感受,监控用户业务响应时间 ,在用户受影响之前发现问题;

6. 主动发现和按优先级管理关键业务问题;

7. 通过自动把业务和底层运营信息建立关联来缩短平均问题修复时间;

8. 自动发现业务服务、应用和底层IT系统构件,并建立依存关系;

9. 通过联合的CMDB,来为IT环境提供一个“统一的真实数据”视图,这样就可以为用户提供一个主动的、以业务为中心的BSM解决方案,帮助用户极大地改善业务服务的性能和可用性,降低服务突然中断带来的风险。

提升IT部门的作用

以前,IT运维部门救火队式的混乱状况导致无法判断IT运维总体表现的好坏。而IT部门又是公认的成本中心,这就导致了在很多企业中IT部门总是承受着很多批评,IT人员的工作热情也不高。

而现在,IT运维部门实现了主动发现问题、提前处理故障;IT运维管理与实际的业务应用挂钩,IT运维部门的工作由无形化为有形;促进IT部门从成本中心向利润中心转变,这一切既有利于IT人员发挥其工作热情,也有利于IT部门在整个企业地位的提升。

中型企业IT运维管理 篇7

IT设备全生命周期运维管理是以IT设备作为研究对象,从设备运维系统的整体目标出发,统筹考虑IT设备的规划、采购、检修、技改的全过程,在满足安全、效能的前提下追求IT设备全生命周期成本最优,实现系统优化的科学方法。研究与IT设备运维管理工作相配套的全生命周期管理体系,不仅是企业资产全生命周期管理研究的有机组成部分,也是电力企业信息化工作的深化。它将为企业信息化工作的开展提供有力支撑,并促进资产全生命周期管理中研究成果与实践经验的总结、固化和推广应用[1]。

1 IT设备管理现状

1.1 电力企业设备分散管理难

电力企业属于资产分散型企业,IT设备使用部门多,使用地点范围大,设备应用范围广、区域地形复杂,维护管理难度大,涉及专业管理部门多、交叉点多。

1.2 设备信息管理脱节

目前,在大部分企业的IT设备管理是通过固定资产卡片进行信息传送来管理的。固定资产卡片通常由使用部门根据实物填制,再分发到财务部门进行信息反馈,财务部门根据信息确认卡片上实物价值。

目前,部分电力企业在这过程中往往出现以下问题:固定资产卡片信息不完整、不准确;固定资产卡片的流转时间过长,流转程序不规范;未建立固定资产卡片的信息共享平台,各固定资产使用部门不能迅速、快捷、实时反映固定资产变动情况,致使设备信息不一致[2]。

1.3 设备管理手段滞后

当今社会已经跨入信息时代,企业的管理不依托信息技术是不可想象的,但部分电力企业却仍没有建立起设备管理信息系统,由于设备数目庞大以及手工处理时遗留的问题将所有设备信息重新纳入管理信息系统的任务十分繁重,包括进行设备清查、设备分类、信息统计、信息录入等。有些企业回避新情况和新要求,仍然进行粗放式的管理,仅仅提供设备的完整、总体财务信息,但未能提供设备的明细信息。这种管理方式给设备管理带来很多弊端,不利于设备数据的查找、折旧处理、设备清查、数据统计等。

2 IT设备全生命周期运维管理的关键节点

2.1 运维管理方法

为了改变以往简单的IT设备管理模式,以便更加有效的对IT设备资产各阶段进行管控,首先要搭建一个信息管理平台以对IT设备管理进行全生命周期的有效跟踪与管理。IT设备的运维管理流程由规划、采购、检修、技改和报废5个节点构成闭环。

5个节点的有力衔接和高效实施,则由IT设备信息体系、IT设备故障分析体系和IT设备决策体系3个管理体系来完成。

2.2 运维管理模型

运维管理模型的示意图如图一所示。

3 IT设备全生命周期运维管理体系的作用

3.1 IT设备信息体系

IT设备信息体系为设备的运维管理奠定坚实的基础。根据满足电力企业IT设备的资产性质、资产地理分布、资产实物图片、资产价值分析等主题来设置IT设备台账的属性,多角度满足企业核算。使用信息系统构建来自动形成设备台账的功能体系以及在构建过程中的控制体系[3]。

系统接受设备新增需求后,设备来源有两个途径:一是通过采购新增,一是从仓库旧有设备中获取。两种途径均需在IT设备新增管理模块中增加一条台帐记录,区别在于前者是新创立一条记录,后者是从IT设备回收管理模块中将一条记录或者记录的一部分转移至本模块中。

通过第二条途径获得的IT设备在创建台帐记录后,依次更新IT设备回收模块、IT设备转移管理模块和IT设备新增管理模块。如设备使用部门有旧设备需要回收,则该转入IT设备回收流程。

3.2 IT设备故障分析体系

IT设备故障分析体系将每次故障发生的情况记录至息系统以进行故障分析。缺陷信息来源包含制造缺陷信息、到货验收缺陷信息、安装调试缺陷信息、维护缺陷信息等,以便在综合评价该设备时提供资料。缺陷较多较大的设备,应考虑启动有关调查或追究责任程序。故障分析全面整合设备台账信息与业务信息,加以分类、汇总以及利用集团报表系统的自动计算功能全面完整地展开对比分析、因素分析等多种分析模式,多方位满足企业管理需求。

IT设备故障分析体系和IT设备信息体系共同为IT运维提供技术标准。

系统接收IT设备维护需求时,在IT设备维护管理模块中记录问题信息,并将问题分配给相应的运维支持人员。

进行现场IT运维服务时,如需要更换IT设备,则流程转入IT设备新增管理流程。

如果需要更换配件,则配件有两种来源,一是通过采购,二是通过仓库获取配件。

运维支持人员完成维修工作后,需要在IT设备维护管理模块中记录故障处理方法,如果更换配件,则需要注明更换配件的名称、来源、价格等相关信息。

如果在维修工作中更换配件,需要在IT设备新增管理模块中更新设备台帐信息。

3.3 IT设备决策体系

IT设备决策体系全面整合设备台账信息、业务信息和IT设备故障分析体系的基本管理信息,结合设备的使用环境、相关工程计划、已采取的措施等定性信息,以及相同范围内目前设备的总价值、设备成新率等定量信息,为企业对某范围内IT设备是否进一步投入资产展开分析、决策,高屋建瓴,全面促进企业决策科学化、制度化,形成长效机制。IT设备决策体系负责为IT设备运维提供管理标准和工作标准。

综上所述,IT设备信息体系、IT设备故障分析体系和IT设备决策体系3大管理体系,通过跟踪监控IT设备的规划、采购、检修、技改和报废5个运维环节,紧密结合技术、工作和管理3个层面的要素,实现了对IT设备全生命周期的动态管控(如图二所示)。

4 IT服务管理平台的实现

IT服务管理平台基于IT设备全生命周期运维管理方案和已有的流程化问题跟踪管理软件平台进行开发配置,并将IT服务各流程固化入平台中,实现IT服务管理工作所需各项功能。本系统采用JIRA作为基础软件平台,JIRA是澳大利亚Atlassian公司开发的一款集项目计划、任务分配、需求管理、错误跟踪功能于一体的商业软件。该平台基于J2EE架构,具有功能强大、配置灵活、操作便捷、可扩展性良好的特点。

4.1 系统业务流程

采用JIRA作为系统平台的条件下,各种问题的业务处理流程,如图三所示:(1)最终用户提出问题,由问题负责人对问题进行记录。(2)问题负责人将问题分配给具体的问题处理人员。(3)问题处理人员接受问题,对问题进行处理。(4)问题负责人对已完成处理的问题进行测试,对问题处理结果进行验证。(5)验证不通过的问题由问题负责人重新分配,验证通过的问题由问题负责人关闭,关闭的问题同样可以重新激活,问题同时可以处于休眠状态,休眠状态激活后由问题负责人重新分配进行处理。

需要明确这里的“问题”是一个广义的概念,可以理解为各类IT服务事件,在本平台中包括设备新增、设备维修、设备转移、设备回收和设备报废以及应用系统运维和网络环境运维七类事件。

4.2 技术要点实现

在该工作平台的搭建过程中,问题处理的工作流模型和系统的权限模型是技术要点,下面分别对两点进行说明。

4.2.1 工作流模型

“工作流”是一个问题经过其生命周期的若干阶段和阶段的变迁,代表着实际的业务处理流程,JIRA通过一定数量的状态对问题进行处理来模拟问题的生命周期,每个状态代表生命周期的一个阶段。

JIRA的工作流由步骤和变迁组成。一个工作流的步骤标识工作流中一个问题的一个阶段,在某一时刻一个问题只能存在于一个步骤中,每一个工作流步骤对应一个状态。变迁是工作流中两个步骤之间的链接,每一个工作流步骤可以具有变迁,从而使一个问题从一个步骤移动到另外一个步骤中。

IT服务管理平台的运维管理工作流模型如图四所示,显示了问题在一个完整的生命周期所经历的流程。工作流模型显示了系统中各种状态的变更关系,其中5个方框代表工作流的步骤和状态,箭头代表工作流的变迁。

4.2.2 权限模型

JIRA平台中的权限设置极其灵活,权限管理可分为:系统权限、项目权限、问题权限、注释权限和附件权限。针对具体的一个项目,可以通过在JIRA系统中的建立一个权限模型来为该项目配置其独有的权限。

表一用户组与用户类型对应表与表二用户组与权限对应表共同构建了一个权限模型,将此权限模型命名为IT服务管理平台权限模型,并将此权限模型赋予IT服务管理平台该项目,即完成该平台的权限定义。

5 结束语

本文基于全生命周期管理的原则,根据IT设备运维计划以及使用现状的工作实践,着重介绍了实现IT设备全生命周期管理的5个关键节点和3大运维体系,使IT设备全生命周期管理变得规范、统一。根据全周期管理理念设计实现了IT服务管理平台,该平台在湖北省电力公司试验研究院上线1年以来,运行状况良好,其中,IT运维管理模块实现对IT运维工作的流程化管理,有效的解决了以往在IT运维工作中责任人不明确、问题处理不及时、处理方式不清晰、处理结果不透明等问题,并为IT运维工作提供有效的知识积累;IT设备信息管理模块实现对IT设备生命周期各阶段信息的有效掌控,使IT设备台帐更加清晰,设备转移及报废等信息更加明确,提升了IT服务管理水平,具有一定的参考价值。

参考文献

[1]郭万林.机械产品全生命周期设计[J].中国机械工程,2002,13(13).

[2]陆一春.以标准化建设促进电网企业管理水平的提升[J].华东电力,2009,(06).

中型企业IT运维管理 篇8

关键词:IT运维管理,企业核心价值,现状与对策

在竞争日益激烈的今天, 现代化企业若想获得长远发展就要具备一定的竞争优势, 这是企业核心价值的体现。而如何实现这一目标, 如何使企业核心竞争能力在瞬息万变的市场经济中长期处于一种优势, 无疑借助信息化的力量实现企业核心价值的提升已经在当前现代化企业管理者中达成一种共识。这是IT服务之所以会在现代化企业中担当越来越重要角色的原因, 也是信息化社会发展的必然。作为企业信息化建设主旋律的IT系统, 在近年来的企业发展中应用愈加广泛, 建设也愈加庞大, 然而随之而来的是滞后的IT运维管理与企业核心价值提升之间的矛盾也更加突显, 无论是从IT基础设施、IT业务、网络运行等多方面的IT资源都需要进行有效的管理与控制, 才能够保证IT系统在企业发展中强大优势的正常发挥。基于此, 强化企业IT运维管理, 积极探索通往企业核心价值的可行之路, 成为了当前重要课题。本文从企业IT运维管理的内容与价值出发, 结合目前我国中小企业IT运维管理其现状, 对如何强化企业IT运维管理, 提高企业核心竞争力进行了分析与研究。

一、企业IT运维管理的内容与价值

IT运维管理直接影响着企业发展是毋庸置疑的, 而企业利润来源对IT系统愈发依赖也是不争的事实。IT运维服务的主要内容包括IT系统框架整体维护管理与优化, 它涉及到IT系统多个方面, 如数据库、SAN环境、信息网络等多个平台的结构规划与优化调整。IT运维的目的在于保障企业IT系统正常、良好的运营状态, 保障系统能够连续运营从而为企业创造更多价值, 为企业获得长期竞争优势而打下基础。IT运维管理的价值在于通过IT运维管理让IT基础设施的最高效率得以发挥。通过具体的、可行的运维管理方案将企业核心业务与科学的管理工具和管理方法结合在一起, 让优质、高效的IT运维管理水平为企业、企业合伙人和企业员工提供更多以利益为中心的多种价值。提高IT运维管理水平其根本并不仅仅是为了让IT流程能够更加有效的对业务发展起到一定支持与帮助作用, 更为重要的是避免资源浪费, 保障IT资源最大化的为企业所用, 让IT系统真正成为提升企业核心竞争力的最佳工具。

二、企业IT运维管理现状分析

IT基础框架随着企业的广泛应用亦逐渐复杂和庞大, 随之而来的是企业一些核心业务与IT服务之间并不理想的整合程度, 而滞后的IT运维管理水平也让IT服务不但无法彰显其巨大功能, 更为企业发展带来诸多掣肘与障碍。纵观目前我国企业IT运维管理现状, 我们不难看出存在着一些共性的问题:

1、缺乏主动的IT运维管理模式

目前, 很多企业的IT运维管理仍旧无法摆脱传统被动的“救火式”管理模式。由于很多企业IT基础设施管理无法脱离人工管理方式, 而针对网络管理也仅是单纯的针对基础设备而言, 管理重点放在IT数据库、服务器、存储设备等是否能够正常运转等方面, 面对IT运维管理中出现的问题更多的不是IT运维管理和技术人员, 是由用户自行发现, 自行通过IT部门寻求帮助。而完全凭借人工定期轮询却不适当利用各种管理软件, 在IT系统规划相对来说比较小的时候还是可行的, 日常IT运维管理需求可以通过人工运维排查方式来解决, 但一旦IT应用系统规模扩大化后, 人工运维显然无法保障系统的有效运转, 人工轮询往往会花费几个甚至几十个小时, 随着轮询周期的延长, 故障被发现的时间就越久, 即便其中某一个小的故障没有进行及时排查与解决, 都会影响整个IT系统的正常运行。

2、缺乏与业务相契合的管理方式

IT运维管理脱离业务的“孤岛”现象存在于大部分企业中, 对于IT基础设施的运行, 很多企业虽然都采用了一种或者是多种监控软件进行监控, 但这些软件之间都是独立运行, 设备管理大多是各自为政, 一方面管理之间缺乏关联系业务性, 另一方面管理与业务也没有进行有机契合。由于人的精力是有限的, 在自己的专业领域中可能会做到精通, 但同时在多个应用系统中做到专业和精准则很困难。而监控手段以及管理范围的局限性也让运维管理人员很难对问题有一个直接判断, 是存在于基础网络中, 还是应用系统本身故障, 都无法准确定位, 故障难定位势必会延长业务修复时间, 这就会使严重IT系统的有效运转受到影响, 导致其服务质量和服务效率大大降低。

3、缺乏有效的量化考核制度

IT部门的职责划分一般是以基础框架功能来进行的, 很难对其工作进行量化考核, 而从事IT运维的服务人员也没有相应的绩效考核制度, 无法对其进行故障维护和维护质量给予监督与评价。在IT运维过程中很多问题都是“连锁式反应”, 并不是单独某个环节出现问题, 因此运维管理需多方联动才能及时清除故障, 而由于缺乏有效的量化考核制度, 责任不明, 职权不清, 使得在实际运维管理中互相指责、互相推诿的现象屡有发生。

4、缺乏有效的资产管理机制

IT软件与硬件等资产较多, 运维管理目前更侧重于人工管理, 很多企业针对IT资产缺乏有效的管理机制, 资产管理十分混乱, 经常会有IT系统设备巡检不及时、没有建立全面完整的IT设备管理台帐、软件更新和变更滞后, 以及IT设备的调拨使用、采购报废等流程不及时、不规范等问题发生。作为IT运维管理中重要的一部分内容, 资产管理机制的不完善与不健全, 会直接为IT运维管理带来难度。

5、缺乏有效的长期规划

很多企业在IT部门机构设置以及人员配置上并没有引起重视, 面对庞大的IT系统, 管理人员除了要保证企业信息系统能够稳定、安全的运行外, 还要让IT系统为相关业务部门进行决策提供有效的信息支持。然而当前企业IT运维管理人员不但缺少过硬的专业技术, IT运维管理经验更加匮乏, 这使得很多企业根本没有一个长期而有效的IT运维规划, 往往一些前期规划只能解决短期的、当下的问题, 并没有与企业战略发展目标相匹配的长期规划, 这使得IT系统产生大量“补丁工程”, 阻碍了企业通往核心价值的步伐。

三、强化企业IT运维管理的方法对策

从目前企业IT系统运维管理现状中我们不难看出, IT运维管理之所以在大多数企业中被弱化的原因, 既有机制与体制方面的因素, 也有人员和机构方面的因素。面对企业IT运维管理中存在的诸多问题, 很多大型企业采取了外包形式, 将IT运维管理交由专业机构与专业人员操作运行。外包作为一种管理方式, 可以最大程度的提高IT系统效率, 使系统资源实现最大化利用。但外包同时也存在着一定问题, 一是用户权限和运维人员管理存在有一定风险, 用户或者是开发人员越权操作现象无法避免;二是一般的外包商都没有相应的准入资质, 运维人员不满足资质要求, 运维管理缺乏标准化与规范化的管理保障;三是很多开发商受利益驱使以及人员流动性大等影响;没有对IT系统进行后期维护的能力;四是外包合同不严格、不规范, 权责不明确, 缺乏相应的重大事故处理机制以及安全保障机制, 一旦出现问题与重大事故后, 会让企业因没有管理与技术的责任判定而处于被动应付的状态。

外包方式在某些大型企业中虽然取得了一些良好效果, 但明显的这种方式对我国大部分中小企业并不适用, 若想最大程度的发挥IT系统在企业核心价值提升上的作用, 就要从企业自身建设着手, 构建有效的IT运维管理体系, 使其成为能够快速提高IT运维管理水平的“捷径”。IT运维管理体系可以从组织体系、制度体系、信息体系以及监督评价体系和培训体系等几个方面进行, 通过系统规划、分步实施, 逐级建立起以管理保障、技术保障、文化保障等为内容的IT运维管理工作体系。

1、加强组织体系建设, 设置有效的组织机构与管理人员

组织体系的构建是做好IT运维服务工作的基础与保障。首先, 企业应在相关负责人的统一布署与领导下, 设置有效的运维管理机构, 成立一支专业的、管理能力强的IT运维管理队伍。在机构设置上可以分为运维管理部和总体协调部, 其中IT系统疑难解答、咨询服务、人员培训、系统维护与维修、用户管理、版本升级以及基础设施管理等工作由运维管理部门负责;而总体协调部则负责对协调运维管理与企业业务之间, 运维管理各个环节之间的组织与协调, 保证运维管理的每个环节都环环相扣。

2、制订与企业发展相适应的IT运维制度与流程

IT运维管理水平的提高, 关键在于制订与企业发展相适应的工作制度与工作流程。对相关岗位与人员安排要做到科学合理, 职责分明, IT运维管理中的每一个环节都应有专人负责, 避免故障发生时互相推诿, 甚至是找不到具体的人员来解决问题。有了严格的工作制度, 就会让IT故障发生的第一时间迅速找到有关人员及时进行问题解决, 使IT系统整体运行不受影响。为了保证IT运维管理工作过程中各类资源之间的流转清晰明确, 应设置合理、高效的工作流程, 使各类信息数据以及处理过程做到可控、可查、可追溯。工作制度与工作流程应简单实用, 便于操作, 具有一定的可行性, 避免出现因脱离企业实际而最终流于形式的现象。

3、加强信息体系建设, 保证IT系统高效率运行

信息体系建设其主要内容就是对信息资源进行采集与处理, 使IT运维走上网络化管理的轨道, 使IT服务能力以及工作效率得以大幅度提高。信息体系建设主要是将信息的采集、传递与处理通过网络化来实现, 利用网络应用平台, 对IT运维的保障以及售后服务进行运态掌握, 通过与用户之间进行及时的沟通与联系, 提高IT系统维修服务的工作效率, 提升IT系统专业维修保障水平和能力, 保证IT系统高效率运行。

4、建立和完善有效的IT运维管理监督体系

很多企业会忽略对IT运维管理工作的监督, 面对IT数据、IT平台是否有效, 是否可用并不重视, IT系统在为企业带来高效便捷的同时, 也存在着安全性与稳定性方面的巨大隐患, 一些数据备份后因运维管理不到位而出现异常, 从而导致整个IT系统瘫痪的个案并不少见。因此, 建立和完善有效的IT运维管理监督体系成为了保证IT系统高效率运行的关键所在。监督与评价是保证IT运维管理工作执行力的有效手段, 它通过对运维管理机构和人员在服务意识、工作态度、管理过程以及客户反馈等多方面的监督、分析、验证和督促, 来系统全面的推进运维管理体系的整体构建与运行。企业中不同级别的负责人都应该对数据备份进行针对性的检查, 不同程度的对IT运维管理工作给予适度监督, 让运维管理不再单纯的是某个部门的事情, 而是每个人都要履行的责任与义务。

5、强化培训体系建设, 提升运维管理专业水平

从事IT运维管理的人员其专业水平, 以及IT产品效能能够持续发挥其巨大功能的途径就是强化培训体系。培训体系其内容主要有, 建立专业性、区域性的培训基础;开发维修指南、技术手册等培训教材;借助多媒体实现信息化网络培训教学方式;开拓创新循环培训、全员培训以及精英培训等多种模式;建立健全企业内部培训机制, 通过开展沟通艺术、行为规范和专业技能等多项业务培训, 提升运维管理队伍的专业技能和职业素养, 使IT运维管理整体专业水平得到有效提高。

6、准备IT运维平台关键环节的应急方案

对于一些需要全面管理且IT网络系统规模大的企业, 应及时的准备一些IT运维平台关键环节的解决方案和应急方案。一方面解决方案要与企业业务需求相匹配, 尤其是当企业业务管理有着非常明确的要求时, 应制订出包括业务流量监测、重点业务监控、核心业务稳定性监测等解决方案, 而针对企业业务流程化需求, 则可以借助“ITSM方案”来建设包括事件、问题、配置管理等多功能流转模块, 使IT运维管理机制更加有效。另一方面应急方案可以将实际故障预想的更为严重, 从而使方案更加全面和严密, 如当ERP系统平台无法正常使用, 一般应急方案会依靠运维人员对服务器进行远程登陆进行解决, 而如果ERP服务器网络异常则此方案则为无效方案, 因此, 准备更多应急方案来作为IT运维管理工作正常有序开展的基础与保障十分重要。

作为企业通往核心价值的必经之路———IT系统, 其运维管理水平与能力的高低直接影响着企业是否能够实现新时期的跨越与发展。而在IT系统广泛应用的今天, IT运维管理的方法与思路也是千变万化, 与时俱进的, 因此, 我们只有着眼于企业实际, 认真领悟IT运维管理其精髓, 学会如何正确利用IT系统为企业创造更多价值, 让IT运维不再是“昂贵的花瓶”, 而是帮助企业通向核心价值的最佳工具。

参考文献

[1]佚名.IT运维管理:通往企业核心价值[J].网管员世界, 2012 (3) :9

[2]林海.浅谈如何在企业实现IT运维作业规范化[J].企业技术开发:下旬刊, 2013, 32 (4) :62-64

上一篇:新教材中教学下一篇:话筒前的状态