IT运维

2024-07-02

IT运维(精选十篇)

IT运维 篇1

精准运维及其意义

1. 什么是精准运维

精准运维是一种IT服务方法, 它是要让IT运维服务工作围绕被服务对象的业务来展开, 从而进行心跳同步式的服务, 最大限度地利用资源, 提升业务体验, 实现服务价值, 而不仅仅是围绕信息系统本身 (软硬件) 来服务。

因此, 精准运维的理论体系架构本质上是以客户为导向的服务体系, 是以业务的心跳为基准的服务思想理念。精准运维是通过一系列方法掌握服务对象所使用信息系统的特性、业务特点, 以及该信息系统所服务的企业业务特性, 找准目标, 通过业务部门及时把用户的真实体验反馈给运维, 这样, 运维工作就能通过掌控信息系统运行风险、运行特点、资源调配情况和业务部门反馈的意见来优化信息系统, 从而精准的预测服务要求并开展服务计划, 提供和建议使用较小的代价有效展开主动服务和快速响应服务做到信息系统与业务心跳同步。

总结起来, 精准运维的基础是熟悉被服务对象, 知己知彼, 并建立风控模型 (该风控模型与信息安全风控不同) , 要素是主动服务与预测, 关键是掌握业务需求与变化;与精准运维密切相关的是业务所有者、信息系统、环境等。同时, 精准运维的行动离不开PDCA的方法。精准运维的框架图如图1。

从图上我们可以看到, 上层对下层是要求, 下层对上层是支撑, 影响业务的变化主要有六因素;风控模型是精准运维的定海神针;与运维工作关系密切的是业务所有者、信息系统与环境;技术实力是运维工作的支撑。以业务目标为导向, 业务所有者以及环境在信息系统运行过程中所面临的作业风险、业务风险、政策风险、管理风险和安全风险, 按照PDCA的方法进行风险评估、识别、规划、执行、回顾、改进等, 从而保持信息系统与业务需求的精确匹配, 达到心跳同步。

2. 精准运维的特点、意义

精准运维有别于传统运维, 有以下五大特点:以客户的业务为导向。服务要与业务精准同步。强调主动性、计划性的服务, 由救火队变为预防与救火并举。除了保障系统安全稳定可靠, 更强调用户体验、效率和效益。更重视服务价值的实现。

精准运维的意义有五个方面。

1.使运维服务过程更重视用户体验, 促Dev Ops落地

精准运维在服务过程中引入了业务需求作为控制变量, 并以此为导向开展运维, 充分了解了用户业务诉求, 并将用户体验作为最终目标, 这使得运维服务过程更注重用户体验, 摆脱了仅针对信息系统做文章的小格局, 有利于开发 (软件工程) 、技术运营和质量保障 (QA) 之间的沟通、协作与整合, 促进Dev Ops真正落地。

2.让运维服务的价值更得以突显, 并由“人天”来衡量转变为以其产生的价值来衡量

传统运维往往签订一个固定期限的运维协议, 服务的价值一般体现在多少人天、多少人年, 以时间作为标尺来衡量价值。而精准运维的目标是服务给客户带来多少价值并得到客户的认可, 体现在精准运维不仅追求系统运行安全稳定可靠, 更追求的用户体验、业务效率、业务效益等, 这种价值观的转变, 使服务的立意更高, 目标更高、客户的体验更好, 因而含金量也更高。换句话说, 精准运维让运维服务从低端走向高端, 可以走向按项目制、目标制来签订合作或服务要求。

3. 增强了运维的主动性, 使运维更加有计划性、条理性、预见性, 工作不至于被动

很多时候, IT运维服务带给人的印象似乎只是停留在“救火队员”的角色之上。运维人员往往是等到故障已经出现或瓶颈已经产生, 然后才采取应急处理措施予以恢复, 这种运维方法虽然能最终排除故障, 但无法规避对企业业务造成的损失。而精准运维主动关注业务需要、用户体验、系统运行动态和变化趋势, 并采取措施识别人机环境方面的风险并主动采取措施消除, 充分体现了运维的主动性、计划性、条理性和预见性, 真正实现主动预防性运维、防患于未然, 实现信息系统与业务的心跳同步。

4. 实现资源优化配置、提升资源利用率

IT系统于业务应用来说, 有可能资源不足, 也有可能资源过剩, 通过精准运维的方法, 不仅能解决资源不足问题, 还可有效应对资源过剩的局面, 将“闲置”资源充分利用起来。打个比方说, 一个营销系统每日的不超过万条记录的处理量, 但当时设计时却购置了配置很高的服务器, 当前的服务器性能只利用了不到10%。通过精准运维的分析与评估, 完全可以在当前的营销系统服务器上部署虚拟机, 作为其他信息系统的运行环境, 企业无需再购置新的服务器, 从而实现了资源的优化配置, 提升资源利用率。

5. 让运维更加向运营靠拢, 成为运营的一部分

所谓运营, 是指以网站为产品营销平台或产品本身, 为开展网络营销而做的一系列工作总称。精准运维不同于传统运维, 更为关注业务需求、用户体验, 通过对运营过程中的大数据从业务角度进行精准分析, 发现用户的需求与业务环节的关联关系, 进而从应用软件的角度进行业务模式、流程的改进与调整, 让业务更好满足用户需要, 从而找到新的业务增长点或改进方向。从这个角度来说, 精准运维让运维比历史上任何时候更接近运营, 且已成为运营的一部分, 能够为开展网络营销贡献巨大的价值。

精准运维该怎么做

1.精准运维的初始化—建立风控模型

了解运维系统的业务特点, 根据业务和系统运行情况与业务所有者一起着手建立风控模型。通过综合各方面信息, 结合业务, 从而建立风控模型, 梳理出风险清单。建立风控模型的过程也就是进行信息系统与业务的匹配度分析过程, 匹配度高的项必然风险小, 匹配度低的项势必风险高。

要素:风控模型的初步建立完成标志是与业务所有者达成共识。

2.精准运维日常运行之信息采集与反馈

首先, 以风控模型为基准, 及时了解业务所有者的具体要求并将系统的情况与所有者交流, 得到有价值的服务信息;其次, 可以利用自动化监控技术采集到用户端的用户体验数据, 如访问网站人数、登录系统效率、页面响应速度、访问流量等;也可以利用大数据及最新的ELK技术的方式采集系统日常运行的业务数据、资源使用情况数据、业务运行效率日志数据等。此外, 还可以不断与业务部门进行沟通协调, 采集用户的反馈与需求。

要素:双方都了解对方的意图, 并形成共识。

3.精准运维日常运行之预测及计划编制

根据采集信息进行预测与计划的编制, 所谓预测, 就是对尚未发生或目前还不确切的失误进行预先的估计和推断, 是现时对事物将要发生的结果进行探讨和研究。科学预测是建立在客观事物发展规律基础之上的科学推断。系统预测的实质就是充分分析、理解系统状况发展变化的规律。用相关性、数据趋势分析法及大数据分析技术对采集的数据进行挖掘分析, 分析出业务需求与资源之间的相关性、与运维人员之间的相关性, 分析出应用系统使用的历史与未来趋势, 根据趋势与现有资源的匹配性来实时优化系统资源和人力资源, 并编制详细的系统优化实施方案对系统进行优化。计划即是根据预测和业务所有者要求编制的行动方案。

要素:计划要得到所有者的认可, 如需要可优化风控模型。

4.精准运维日常运行之系统优化执行与实施

根据编制的优化实施方案精心组织实施, 且与业务方充分沟通, 在不影响业务的基础上完成系统优化、应急演练、风险措施改进的实施服务工作。

要素:注意行为规范。

5.精准运维日常运行之校验与评估

根据实施结果与业务运行情况及对系统运行情况的采集, 不断的校验实施效果, 再进一步评估改进, 通过PDCA循环往复直至达到系统与业务的精确匹配与心跳同步。

IT运维管理 篇2

现阶段本公司的IT运维管理,存在着重操作、轻理论、重结果、轻总结的情况。根据实际统计,在日常的IT运维中。大约70%以上的故障是由业务人员发现的,而IT运维人员更多是担任救火队员的角色,表明了运维工作存在着大量的监测盲点,IT运维的工作处于相对被动的状态。这种传统的“见招拆招”式的IT运维管理方式已经不能满足公司内部日趋扩大的信息化应用,而且在一定程度上也制约和影响了业务的开展。

如何提高工作效率,规避风险,更好的做好IT管理和运维工作,将作为现阶段运维工作的首要任务。我认为应从以下几个层面加强和完善IT管理和运维工作,可以改善IT运维工作的现状。

首先、要转变IT运维管理工作方式和理念。强调从技术型向管理型转变。公司的应用系统(OA、ERP)和网络系统已经成支撑业务正常运转的重要基础,保证应用系统和网络系统的正常运行和使用成为了IT运维工作的重中之重。IT运维部门的职能应当从传统的重服务轻管理,逐步转变为服务与管理并行,规范化与人性化相辅相成的模式,以适应现代化信息的工作模式。

第二、要建立完善的内部信息共享平台。从基础设施应用系统和业务服务三个方面打造完善的信息共享和资源监控平台。能建立有效的信息资源库,减低对关键技术人员的依赖,为日常IT运维和 管理工作提供有效的保障:基础设施管理方面,对网络,应用系统软、硬件等资源进行细化管理,详细记录电子设备的出入库、维保、报废等环节。保证资源的有效利用;应用系统管理方面,对于各类应用系统的备份,日常维护进行有效管理控制,保证所有应用系统数据的一致性、准确性、及时性、可用性和完整性,并根据实际需要不断进行改进、完善或更新;业务服务管理方面,尽可能的记录所有的事件要素,包括问题描述、解决方案、操作人员等等。使得部门对人员的考核有了量化 的标准,同时这个过程也有助于知识积累,形成有效的知识库,可以极大地减少对关键人员的依赖,降低人员流失的风险。

第三、清理、简化现有IT运维管理制度。形成适合公司管理实际的制度体系。以建立完整、规范、有效的内部规章制度体系为目标,紧密联系工作实际,按照适用、可行、合法、有效的原则,对现有规章制度进行全面的自查和清理。按照IT运维管理工作的职能分工分层次、分步骤地对制订的各项内部管理制度规程进行分类清理,从制度内容的适用性、可行性、依据和效力的合法性、执行的有效性等方面进行逐条审核,并结合实际工作,对上级部门制订的内部管理制度与当前实际工作不符的情况进行修订和完善。逐步摈弃传统的“人管人”的工作模式,形成以制度带动人,以制度带动工作的长效机制

第四、建立例行巡检和通报制度。IT运维部门的负责人和业务主管可通过内部信息共享这一平台,对业务进行有效的监督。一是定期对记录在案的相关事项进行巡检,审计已登记发生事项的规范性。二是对正在发生的事件实时跟踪,及时了解事件的进展状况。规范各个流程的操作,从源头避免业务差错的发生。三是建立定期采集问题,核实整改问题及问题通报三个环节的通报机制,以提升力IT运维管理的效率。

第五、加强与内部安保部门的业务合作。内部控制审计对组织治理、风险管理、改善控制效率和效果等方面有很大的促进作用。IT运维部门可配合内部安保部门进行运维管理,将内部控制审计作为常态化审计类型,通过这种方式,突出内控特点,运用规范的审计方法和评价体系,注重从控制、风险、管理等宏观层面查找问题、提出建议,以达到促进IT运维管理工作,完善内控和加强管理的目的。通过内部审计部门,加强督导、整改等工作的实效。在IT运维管理工作的过程中,不仅要发现问题解决问题,更重要的是要形成完善的IT运维管理工作规范和流程,在这点上。可以通过内部审计部门对公司内部进一步规范制度、程序和方法,形成对风险进行事前防范、事中控制、事后监督和纠正的动态过程和机制,强化重要业务环节的风险控制。加大检查力度,切实有效地推进督导、整改工作,建立内控管理的长效机制。

IT运维走向“贴身服务” 篇3

四项保障机制

为了实现电子政务运维管理与法院业务的深度融合,更要关注以下几方面的工作:

1.着力提高信息服务能力

以电子政务平台为基础,以强大的运维技术团队为支撑,充分发挥电子政务具有表现形式多样、传播速度快、互动性强的特点,为业务部门和人员量身定制电子政务工具、展示或传播业务信息、提高业务效果和工作效率,让业务人员切身感受到应用电子政务给业务工作带来的便捷和效率的提高。

2.建立电子政务培训机制

建立电子政务培训机制,加速信息与业务融合过程的技能培训,对提高业务工作效率和效果必将产生积极的作用。通过有组织的培训和个性化的引导,提高业务人员对电子政务应用技术的理解和认识,帮助业务人员更有效地驾驭信息系统,变被动使用为主动应用,对促进信息与业务融合具有重要的意义。

3.构建电子政务考核体系

建立电子政务绩效考核管理机制,通过行政管理手段为电子政务与业务融合提供必要的机制保障。考核电子政务信息数据录入不真实、不准确的问题,促进数据采集的真实性和实效性;考核电子政务网络信息安全,提高和加强信息安全意识。

4.形成螺旋上升发展态势

通过电子政务工作人员贴身服务机制,运维工程师与业务人员密切接触,深入了解业务实际工作流程,并将其整理转化为新的业务需求,为下一阶段的规模性开发建设积累经验,形成螺旋式上升的电子政务发展模式。

用管理破难题

北京市高级人民法院(下简称北京高院)在电子政务运维管理、探索提供贴身服务方面虽然已经初见成效,但实践中也暴露出问题。主要有以下几个方面:

1.协调难题

作为促进业务深度融合而发展出的贴身信息服务模式可以即时处理业务部门提出的电子政务需求,但法院业务部门提出的需求在什么样的规模下通过运维外包的贴身化信息服务模式予以满足?什么规模下作为独立项目开发申报?如果都通过贴身化的信息服务模式予以满足,势必混淆运维工作与开发工作的专业性界限,同时也会给传统运维工作造成极大压力。因此,在运维外包模式下发展以贴身服务为引导的业务深度融合机制,需要制定专门的策略,科学、有效、合理地控制贴身服务项目的规模和范围。

2.经费保障难题

目前,虽然北京高院运维服务全外包模式得到推广,成为我国电子政务运行最佳实践,但财政批准的运维经费,仍然是以一般运维工作结合运维资产为基础的核算方法。虽然在运维项目招标中通过“交办工作”的费用项目进行核算,但其费用额度和比例是尝试性的、是不高的,无法真正满足深度融合需要的支出。随着电子政务服务能力和水平的提升,即时性、阶段性的需求也必然越来越多,需要提供的贴身服务也会越来越多,投入的非一般性运维工作成本也会不断增加。在财政未设置该类别费用科目的前提下,仅凭借“交办工作”中有限的运维资金,很难使贴身服务工作得到充分满足。如果资金得不到保障,一方面可能造成业务部门提出的即时性需求难以满足,业务深度融合的效果和受惠面必然大打折扣;另一方面有限的资金也可能造成运维人员投入的不足和提供服务质量的下降,从而影响了运维工作与业务深度融合的实效。因此,要通过运维服务全外包模式,实现电子政务运维与业务的深度融合,需要财政部门给予充分的理解和支持。

3.人员配置难题

在实践中,业务部门提出的即时性需求的种类很多,需要提供电子政务服务的性质也不尽相同,如果全部通过驻场运维队伍解决,需要配置的专业种类和人员级别也很多。而根据运维管理的通常规范,我们要求运维服务机构提供的工程师是针对一般运维工作的,职能相对单一,有限的经费难以做出不同级别和专业的多名人员的配置方案。如果单纯依靠驻场运维机构解决全部业务即时性需求也会存在相当困难。灵活多样的运维人员配置方案,是运维与业务融合策略重点考虑的问题。

北京高院在运维实践中虽然遇到了不少困难,但已经取得的成果让我们逐渐意识到,以创新电子政务管理工作来对应法院业务工作的日常变化,也许正是解开“深度融合”难题的钥匙。这一关键难题的破解,不仅为运维工作开创了新的领域,也将为电子政务发展探索出一条可持续发展的新路。

链接

北京高院IT“贴身服务”显成效

面对越来越多的即时性业务需求,两年前,北京高院在电子政务运维项目招标时,就尝试性地将贴身服务工作机制以“交办任务”的方式纳入运维工作任务范围,虽然每年仅规定了250人日工作量,用于完成“交办任务”工作项目,但收到了良好的效果。

两年来,贴身服务机制共完成了22 个业务部门提出的“交办任务”169项。其中,针对已有系统的小型升级改造任务60余项,占36%;配合各类会议资料,完成电子政务工作任务40余项,占25%;配合临时性、阶段性工作完成的小型开发任务20余项,占12%;配合法院完成新业务的小型开发任务10余项,占6%。

IT运维管理之移动运维的应用研究 篇4

IT运维指的是基于计算机网络的基础设施建设完成之后, IT部门人员要采取相应的管理维护方法, 对设施的运行物理环境、软硬件环境以及其他业务系统等进行定期的维护管理, 因此, 也叫做IT运维管理。

我国的移动通讯在2000年左右开始快速发展, 在率先建成两级网关系系统的基础上, 实行资源管理、流程优化、数据集中管理以及完善网络服务等措施, 建成高度集约化的现代化运维管理体系。随后我国的通讯行业不断推陈出新, 网络业务量与用户量越来越大, 在此形势下, 网络运维工作要发挥重要作用。本文主要针对移动通讯的网络运维应用进行分析。

近年来, 我国的通讯业网络运维, 开始在高度集中运维、客户感知等方面不断创新, 但整体来看, 当前的移动运维虽然一直都很重视网络运维, 但在某些方面, 移动网络运维的内容不能很好结合公司的实际情况、市场变化、用户需求等, 导致很难突破现有的运维模式, 获得更好的市场利益与用户体验。因此, 移动通讯行业需要转变网络运维的定位, 将网络视为企业的重要资源进行经营, 在保障网络质量、安全的基础上, 提高运维效率和服务水平, 最重要的是提高网络运维的效益。

2 当前移动网络运维过程中存在的问题

根据分析当前移动网络运维现状, 发现当前依然存在网络运维缺乏流程化管理、运维集中化管理不完善、信息化管理效率较低等问题, 具体表现在以下几方面。

2.1 移动网络运维缺乏流程化管理

现代化管理的一个重要手段就是流程化管理, 只有标准的流程化管理方法, 才能使移动网络的运维管理工作保持统一的高质量。由于移动运营过程中, 使用的大设备及运维人员较多, 这就导致影响移动运维工作的因素复杂多样。如有些地区只考核运维人员的绩效, 导致维护工作因人而异, 网络质量参次不齐。由于忽略了对关键业务工作的流程化管理, 导致在运维管理中不能进行全过程的监督、控制、测量和考核, 也无法对整体通信网络运维工作的质量和效率进行统一过程控制。

2.2 通讯网络运维的集中化管理程度不足

为了打破以往网络运维体制以及网管系统功能的限制, 当前大部分地区的通讯网络运维普遍采用集中管理、分散维护的结构。分析全省通讯网络的运行情况发现, 虽然目前各地市都设立了各自的通讯网络管理中心, 对通讯网络的运行状况进行实时监控, 但依然存在各通讯网络运维中心之间网络维护流程并不完全一致, 各市、县专业维护职责界面不统一等现象, 整体上缺乏协调性和统一性。在专业性维护方面, 由于各市县人员构成不同, 人员配备存在差异, 能力差异较大, 尤其综合维护的能力有待加强。

2.3 通讯网络运维的信息化管理效率较低

在现代化信息管理中, 通讯网络资源信息管理系统是极其重要的数据信息管理基础, 只有在数据库有记录的通讯网络设备, 才能够通过这个平台进行管理。通讯网络资源数据信息标准化、集中化、统一化, 才能在通讯网络运行维护过程中使得资源利用更合理、有效, 减少浪费, 取得最大的经济效益, 提高维护人员的工作效率。然而就目前来看, 许多地区的运营公司通讯网络资源信息的集中化管理程度还比较低, 即使做到了部分网络资源如交换网、无线网、传输网资源的统一管理, 但由于部分设备商使用的通讯网络设备管理系统及软件平台有差异, 缺乏较为统一的信息管理平台。

另外, 部分信息的缺失, 导致网络运行数据不准确或不完整, 无法借助此平台完成对通讯网络运行维护状态的充分监控, 通讯网络资源管理系统形同虚设。在当前的通讯网络资源信息系统中, 还存在部分信息数据缺失、无法记录等情况, 造成整体信息不完整。加上各通讯网络维护团队使用的信息系统并不一致, 导致与总公司的通讯网络资源系统信息脱节, 无法做到全网有效的网络资源调度。不准确的网络资源信息, 又会在处理网络故障时误导工作人员, 极大影响了工作的进展, 使得故障处理耗时较长、效率低下。

3 优化移动通讯网络运维的建议

通讯网络运维管理服务是一个规范化的管理体系, 通过一系列互为关联、逐层细化的流程, 为端到端的高效运维管理与控制提供了规范和指南。

3.1 建立网络运维管理中心进行集中化管理和调度

在网络的运行维护转型中, 需要进行组织的集中化, 建立服务共享中心及控制中心。

(1) 集中地理上分散的团队, 实现远程化管理。如今网络的发展已使很多业务都可以远程进行, 突破了地理的限制, 因此, 大力开展集中化管理势在必行。使工具的部署更有效率, 充分利用工具的优越性和好处, 减少地理位置的影响, 更好更快地完成工作。

(2) 各地区要保持统一标准的服务水平, 不能因为地区性的人员能力差异等因素, 影响通讯网络运行维护的服务质量。同时加强对新业务和新技术的引进及实施部署, 加强对运维人员的培训。各地应保持统一的流程和工作规范, 以规范的流程来保证服务质量。

(3) 通过集中化管理灵活调配资源并提髙资源的利用率, 统筹考虑, 减少重复资源, 同时也缓和各地区或局部区域发生问题时资源紧张的问题, 平衡了网络空闲时间的资源闲置。集中化管理也使知识的分享及获取更加容易, 在需要丰富经验的网络运维工作中, 集中化模式离效的知识分享, 可以有效降低网络运维的风险。

3.2 形成流程化管理的制度

有效的流程化管理制度可以在有限资源内, 保证高标准的网络运维服务交付质量, 并有效降低运营商的运维成本。流程化是保证网络运维服务标准的重要方法, 对各区域的不同通讯网络, 要减少人为因素对服务结果的影响, 必需实行统一的标准化流程, 使之不受个人情况左右。通讯网络的服务质量不受个体影响, 而是通过流程及其关键过程性能参数、指标来控制和改进。形成用数据说话的标准规范, 对过程指标及过程参数进行控制及分析, 进行准确有效的把控, 实时有效地来控制执行情况。

3.3 建立统一的信息化管理平台

(1) 在当前的大数据时代, 只有充分进行信息化管理, 才能将服务做得更加完善到位。尤其是网络维护工作, 更需要将原来的被动维护转变为预防性的主动维护。减少网络故障及再发生的情况, 提升网络可用性。

(2) 进行数据管理, 对通讯网络运行情况进行数据分析, 及时控制潜在风险。另外, 通过对大数据的处理及分析, 保持持续创新和改进提升, 为客户创造更多的价值。

(3) 目前我国现有的通讯网络运维, 可以将一些基础设施 (如管道、基站、线路等) 简单重复的劳动密集型维护工作进行外包, 核心网络设备的维护工作选择优秀的内部运维队伍负责, 以保证通讯网络运行的总体质量与安全。

4 结语

运营商可以通过对机构人员、工具系统和流程这三个关键环节进行管理, 将管理理念分解到流程, 再将流程固化在系统。通过系统指挥人员按要求行事, 对人员进行集中化机构的统一管理, 来确保运维服务的质量与效率。

摘要:在当前信息化社会环境下, 移动通讯行业的发展越来越迅速。当前市场竞争越来越激烈, 运营商必需改变传统思维, 改变运营维护模式, 提高移动通讯网络运维的效率和质量, 才能在当前时代获得长远可持续的发展。

关键词:IT运维,管理,移动运维

参考文献

[1]鲁春丛.通信运维管理发展趋势[J].中兴通讯技术, 2010 (2) .

[2]孙长青.铜陵市地方税务局税务信息系统运维管理的探究[D].合肥:安徽大学, 2010.

IT运维部征文活动 篇5

运维事儿要严格,差旅计划手中握

身在他乡做异客,踏遍祖国好山河

……

咱们的运维工作中,出差再正常不过了,每当身负职责与使命来到一个新的陌生城市,不知道您是怀着一种怎样的情怀来面对呢?是满腔热血,充满使命感,还是悠然自得,一边享受当地的美食,一边欣赏城市的喧嚣?相信对于每一个人来说,都有不一样的动人故事,回忆这点滴青春,记录美好生活。

一、活动目的

1.传递员工乐观、快乐、积极的工作态度;

2.加强本地化及长期出差人员的归属感。

二、活动对象

运维部全体人员。

三、活动时间

即日起至2020年8月15号。

四、活动要求

征文内容:围绕出差途中各个地方的人文景观、经历感受、逸闻趣事、街头美食等都可作为本次活动的征文内容,禁止摘抄网络文章。

征文形式:题材不限,题目可自拟,可配备相关图片充实内容,自由发挥,字数不得低于1500字。

五、征文评选

本次活动收集的征文,部门经理将随机邀请3名公司领导担任评委,进行评分,为了公平性,所有作者信息将隐藏保密,评委仅对内容进行评分。同时部门经理不参与本次活动。

六、活动奖励

一等奖:1名,IPAD2 mini

二等奖:3名,移动硬盘1T

三等奖:5名,运动手环

七、投稿方式

烟草IT运维变“救火”为“防火” 篇6

建设IT运维体系不仅使信息系统为企业发展提供强有力的支撑,而且为行业决策提供了准确数据的保障,进而推动行业持续、快速发展。本文以“行业决策管理系统”运维单位建立规范运维体系的尝试与探索为例,阐释了烟草IT运维体系建设的基本思路。

二十一世纪以来,烟草行业信息化建设在以信息化带动工业化、以工业化促进信息化的战略指引下,按照“统一标准、统一平台、统一数据、统一网络”的方针,逐步实现系统集成、资源整合、信息共享的总体要求,全面启动数字烟草建设,有效地推动了行业的规范管理,行业信息化工作围绕应用系统建设取得了实质性进展。

电子政务与电子商务齐头并进

目前,烟草行业已经建立了以办公自动化为主要内容的行业电子政务体系,建成有“公文传输、公文流转、档案管理、门户网站”基本功能的办公自动化系统。

同时,“行业卷烟生产经营决策管理系统”(以下简称“决策管理系统”)的重点工程也已完成,初步实现了全行业卷烟生产经营数据的实时自动生成,有效保障了行业生产经营决策和宏观调控的科学性、及时性。该项目采用了物流数码跟踪技术,将卷烟生产计划管理与生产过程结合起来,通过“计划取码、物流跟踪、到货确认”这样一个流程,实现对行业生产经营的日跟踪、旬分析、月调控,有效地保障了卷烟生产经营基础数据采集和管理的准确性、及时性,实现数据采集自动化;形成了行业统一的数据交换与传输体系、标准体系、数据中心及应用集成平台,为行业信息化的集成与整合提供手段,也为行业现代化物流建设奠定了一定的基础。

国家烟草专卖局开发应用的专卖证件管理系统、统计和财务报表系统、卷烟工业基础软件、卷烟销售基础软件、烟叶基础软件等以及行业各单位自行开发建设的管理信息系统(MIS)、企业资源计划(ERP)、办公自动化(OA)、业务流程再造(BPR)、制造执行系统(MES)、供应链管理(SCM)、客户关系管理(CRM)、现代集成制造系统(CIMS)等,为行业数据中心的建立积累了大量的信息资源,奠定了一定的基础。

此外,烟草行业的电子商务系统也已初具规模。2003年,烟草行业取消了现场交易模式,一律在网上进行交易。随着行业卷烟交易方式的改革,行业内卷烟、烟叶和卷烟辅料等均在网上交易,完成了省内卷烟交易统一平台的建设工作。同时,以信息技术为手段的卷烟销售网络建设水平不断提高,有力地推进了传统商业向以“电话订货、网上配货、电子结算、现代物流”为主要特征的现代流通的转变。

这些信息系统的建设与使用,促进了卷烟生产、销售、物流等核心业务的发展,已与各项业务的开展紧密结合在一起,成为各企业业务发展的重要支撑。

IT运维问题多

信息化建设的迅猛发展对IT运维工作产生了大量需求,而后者发展的速度一直跟不上信息化建设的步伐。在2005年以前,行业的IT运维工作缺少统一管理、规范运作,存在多方面的问题。

首先,针对行业统一推广系统没有统一的、完整的、规范的运维管理规范与要求。各企业、各部门各自为政,虽然都按照各自实际情况建立了一些规章制度,但不完整,没有包含日常运维工作的方方面面,导致运维的效果参差不齐,难以发挥行业统一推广系统的功能效用。

其次,运维职责与流程不清晰。使用部门认为运维应该由建设部门负责,而建设部门认为系统已交付使用部门应用了,后期的工作应由使用部门自己负责,运维的职责不甚清晰,容易产生相互推诿的现象;此外,即使分清了职责,运维工作也没有一个规范的流程,同一项工作每个人的处理流程与方式都不相同,导致运维效率低下,会导致使用部门的积极性大为降低。

再次,没有支持运维管理体系落地的工具。基本上是通过纸质表格或邮件进行流程的控制,有的甚至没有任何痕迹化的记录;这导致对IT环境的监控和运维管理的手段不健全,缺乏对行业统一推广系统运行状况的统计分析和总结报表等。在实际运作过程中容易出现各种问题,且无法追溯造成问题的具体环节,这实际上使运维工作面临巨大的风险。

鉴于以上运维现状,行业的信息系统前些年运行情况和预期目标有较大的差异,有些系统的运行效率普遍不高,甚至系统废弃不用,成本效益低,制约了信息系统对业务的支撑效能。

具体需求 具体分析

IT运维管理的作用是使系统得到最充足的运行、效益得到最大的发挥。信息部门工作重点就是保障业务的连续性、系统的稳定性、数据的准确性。各企业、各部门对运维的要求集中在四个方面。

保障系统稳定:保障各信息系统平稳、高效运行,使业务能够顺利开展。确保系统不中断、不瘫痪是对运维工作的核心要求,这就需要开展主动预防性维护,如监控、巡检、评估、业务连续性分析等。

保障数据质量:数据是系统中的关键信息,也是业务开展情况的直接反映,保证数据完整、准确是运维的另一个重要目标。这就需要对数据采集、数据交换、数据上报、数据处理、数据传输、数据展现等各环节进行层层校验与控制,对相关环节的参与人员进行全面、系统的培训,从程序、人员、流程各方面进行规范以降低数据出错概率。

保障数据安全:行业业务数据都是各企业的核心数据,一旦泄露将会给企业带来无法弥补的损失,因此确保数据不泄露、保障信息安全是运维的另一重要需求。

确保恢复效率:若出现突发事件需要在第一时间发现异常、在最短的时间内恢复系统并解决问题,将故障对业务的影响降至最低,这是对运维的事后处理要求。

简言之,业务部门对运维的要求是:系统不瘫、数据不丢、流程不乱;而其中的流程不乱若能保障,则反过来就可确保系统不瘫、数据不丢,因此,如何保证程序不乱即规范运维是运维的重中之重。行业的IT运维工作,需要以流程规范为主,以监控和安全接入为辅,以智能操作为手段,以运维分析为方法,以提升运维质量为目的,最终提高企业整体运维管理水平。

技术、管理、运维,缺一不可

技术、管理和运维是烟草行业信息化建设的三大重点,三者缺一不可。行业信息系统的稳健和可持续运行,离不开行业规范的IT运维。

所谓规范的运维管理体系,就是运维的组织健全、制度完善、内容明确、流程清晰、标准统一、平台先进、质量可靠、考核有据,由面向设备转向面向服务,由分散式转向集中式运维,由救火式转向管家式主动服务,由粗放式管理转向科学化、规范化、自动化、信息化管理。

规范IT运维,对整个行业来说具有重大的意义。它能切实提高各企业与用户对信息系统使用的积极性与效率,使系统在行业核心业务环节产生预期的效果,促进烟草行业又好又快发展。企业的财务、生产、营销、采购、物流等各环节都离不开信息系统的支撑,规范的IT运维能够确保这些系统稳定、高效运行,从而保障这些核心业务的顺利开展,间接推动行业各项业务发展。

规范IT运维工作,使重点系统、重点项目的建设无后顾之忧,减少了规划审批时间;在系统建设完成交付使用后,规范运维则能够发挥系统应有的效能,并能以“需求为导向”,不断拓展和延伸系统的功能,深入推进重点信息化项目的迅速发展。这种对重点系统、重点项目的良性促进作用,能够形成示范效应,不断推进信息化深入发展,有效促进信息化与烟草产业深度融合。

此外,贯标工作是行业规范化、标准化发展的重要一步,近年来各类信息化标准也不断涌现。IT运维作为信息化建设的重要部分,其贯标工作一直得到高度关注。通过规范IT运维的实践,摸索适应烟草行业的IT运维服务标准,则有利于整个行业运维水平的提升。

借鉴行业内外IT运维建设方面的成功经验,在建设过程中,还需综合考虑以下几个方面问题:

首先,在建设适合企业自身的IT运维管理体系时,应综合考虑企业所处的环境,包括烟草行业政策环境、运维需求情况、企业自身的财力、技术实力以及当前的组织机构和人力资源情况等,并借鉴ITIL与ISO20000的精髓,建立以人员、组织机构、方针与目标、管理流程、管理手册和文档、技术工具融为一体的运维管理体系,并以“运维管理方法论”作为其内驱力,推动整个体系可持续发展。

其次,运维管理体系的方针与目标来源于运维需求,应从业务需求出发,对业务流程进行分析和需求调研,流程设计应考虑烟草特色和企业的业务实际,分清重点和难点,排定优先级别,一般先选择能快速见效的流程。不要试图马上做所有的事情,毕竟IT运维管理是一个长期的过程,是不断体现价值的自我完善和发展的过程。常用的实施方法有:从被动到主动、从简单到复杂、从客户到自我。

再次,体系的流程活动设计要服从于流程的总体目标,确保流程运转通畅;要关注到流程活动的落地,尤其是角色匹配与对应;流程要分布设计、分布建设,流程要文档化;流程要考虑到持续改进,以满足服务水平的提升要求,适应需求的不断变化;在可能的情况下,应简化流程而不是使流程更复杂,以确保体系建立有利于运维服务效率的提高。

IT运维管理关键问题探讨 篇7

1.1 IT运维机制不完善, 流程操作层面缺乏统一

没有建立起稳定、规范的IT运维机制。现有的IT运维流程的操作层面缺乏统一。如事件单提交之后, 事件预判和优先级的设定缺少统一、规范的指导文档, 仅以人员的主观经验或约定俗成的方式指导事件的处理过程。有识别但无规范, 有处理但无管理, 有人员但忙于救火, 有工具但支持力度不足。因此, “轻规范、重维护”的IT运维现状容易造成因个体技能差异带来IT运维的不稳定, 直接影响维护体系的效果。

1.2经验不少, 知识不多, 过度依赖核心人员

在实际工作中积累的、有价值的经验仅存在于头脑之中, 未能作为书面的知识记录规范地保存下来。经验始终仅能在小范围内得到传播和继承, 无法在更大的范围内体现其价值。这样导致了无论是事件性质的识别、优先级的界定, 还是疑难问题的分析诊断, 均汇总至少数核心人员进行处理。这样不仅增加了少数核心人员的工作量, 也容易产生工作流程的“瓶颈”, 降低运维团队整体的事件及问题处理效率。

1.3 IT运维的绩效考核机制尚不完善

主观的绩效考核难执行, 客观的绩效考核难制定, 模糊的绩效考核难见效。目前在绩效考核方面虽然采用填写工作表的方式对不同岗位的工作时间进行收集、评测和考核, 在一定程度上体现了IT运维人员的工作量情况, 但还是很难全面准确的反映IT运维人员真实的工作绩效表现。因此, IT运维人员绩效考核机制需要进一步完善, 帮助组织构建奖惩分明的文化和环境, 推动IT运维团队的良性持续的发展。

1.4 IT基础架构管理工具欠缺

基于门户、财务管理、采购管理、人事管理、文件服务等构成了公司的核心业务系统。这些复杂的核心系统保证了整体业务的顺畅运行。但作为支撑核心系统运行的IT基础架构, 目前仅有H3C的网络监控和基于Landesk的桌面管理系统。现有的IT管理工具偏重于技术层面的故障发现及预警, 对于发现的事件虽有相应的管理流程汇报, 但仍未找到合适的工具为其提供全面、安全、稳定的运行支持。

1.5缺乏有效、完善的CMDB (配置项管理数据库)

目前运行维护室仅有对关键应用系统相关IT设备设施的初步梳理, 虽然在一定程度上收集了部分配置项信息, 但是当前仅限于关键业务的、缺乏工具支持的、简单的CMDB建设很难满足今后全面实施信息化的需求。CMDB的建设是一个长期而艰巨的任务, 不仅需要更详细的配置项属性数据、更准确的相互关系信息, 而且也需要一个科学有效的配置管理模式及工具予以支持。

1.6缺少面向用户的IT服务报告

运行维护室对核心系统运行提供固定周期的IT管理报告, 如:系统运行报告、机房环境报告、备份报告、年度报告等等。但由于IT管理报告的内容多以技术语言提交且仅限部门内部和少数领导使用。作为外部用户的业务部门不仅无法接触, 而且受专业所限难以理解, 无法充分利用IT管理报告提供的信息。

在期望从成本中心向利润中心转型的过程中, 运行维护室面向外部用户时不能再以技术语言提交IT管理报告, 而应该提交符合一般用户阅读需要的IT服务报告, 实现IT运维的“服务于用户, 为用户所用”的目的。

二、加强IT运维管理措施

2.1建立统一的IT运维管理体系, 完善并规范IT运维流程

参照ITIL最佳实践并结合公司的实际情况, 将IT运维管理规范化为一系列标准流程, 包括服务台、事件管理、问题管理、变更管理、发布管理、配置管理和服务级别管理等。然后通过IT服务管理工具将各个IT运维流程集中在同一个平台上进行管理。基于标准的流程体系和统一的管理平台, 与IT运维相关的资源 (包括部门、人员) 得以有效整合, 并采用相互识别的“相同语言”进行深入、充分的沟通, 提高生产效率和信息传递的及时性。

2.2建立基于IT运维管理流程的IT人员绩效管理和激励机制

根据公司全面实施信息化的要求, 建议运行维护室组建具备完善的专业知识和管理能力的IT运维管理团队。因此, 建立与IT运维管理流程体系相符的人员绩效管理及激励机制显得尤为重要。建立量化KPI, 对包括服务效率及服务质量等多方面进行业绩考核。通过IT运维管理系统平台, 对IT运维人员的工作进行数量和质量上的记录、统计和分析。在基于ITIL流程明确IT人员岗位职责的基础上, 定义关键考核指标并通过IT运维管理系统收集数据, 进行整理、分析产生绩效报告, 最终实现IT绩效管理的信息化。

2.3提供面向客户的IT服务报告, 为业务部门和IT运维管理提供决策依据

参考ITIL及ISO20000的最佳实践, 可建立专门的工作流程对IT服务报告及IT运维服务管理信息作进一步的完善。实现向客户或业务部门以“客户化的语言”提供约定的服务信息, 同时也能为内部IT运维提供有价值的管理信息。如:某个时间段内那些方面的故障出现的数量最多;那些方面的故障解决的效率最高或最低;IT维护人员的工作负荷统计;问题分布在哪些系统或设备等。这些服务信息统计, 能帮助IT运维管理和决策部门进行决策和趋势分析, 从而做到对IT系统中的各类问题和相应的服务状况进行全面掌握和了解。

2.4支持经验和知识的共享化

提供丰富知识库和完善管理。用户通过知识库, 如FAQ、关键词检索等, 可以初步搜寻解决方法, 这样问题就会以最小的资源开销和最快的处理效率得以解决;IT维护人员通过知识库及时、准确地选择解决最优方案, 可解决大部分常规问题;资深运维人员、专家, 可以根据故障发生的频度, 把经过实践证明正确的解决方案形成知识库, 供其他运维人员使用;另外, 相关应用系统的业务处理人员可以通过共享的知识库或实践指导库, 提交或者获取相关业务处理的知识。

2.5建立并完善CMDB

实现用户、资产、以往问题的历史记录等可查询、可追溯IT运维管理系统通过组建CMDB对用户信息、资产信息进行记录和维护, 并把每个事件/问题与用户以及发生故障的资产对应起来, 形成历史记录以便查询和借鉴。如:某个用户报告某路由器通讯故障, 维护人员就可以根据资产编号查询到该路由器以往的故障状况。如该路由器出现过多次故障, 并且都是线路质量较差, 维护人员则可以根据这一依据向有关部门提出线路维护申请。

2.6推行服务级别管理, 提高客户对IT运维的服务满意度

在“内部市场化”的要求下, 最终用户的服务满意与否将成为IT运维质量的考评尺度。为此, 推行服务级别管理有利于明确用户/客户的业务需求并使之规范化、标准化。因为只有在服务双方都认可的服务范围内提供合乎需求的IT服务才能最终获得用户/客户满意的评价。比如:故障的响应时间约定、备品备件的替换原则、约定的设备巡检日期等。通过服务级别管理不仅可以提供清晰、规范的IT运维服务, 根据服务级别管理的流程可以对服务的结果进行持续改进。

三、结束语

企业IT运维系统流程设计 篇8

ITIL 要求IT部门建立以客户为中心、以服务为导向的IT服务管理流程, 这意味着企业CIO及所有IT人员都要转变传统思路, 从流程角度重新审视IT部门的日常活动, 把它们看作ITIL定义的某个IT管理流程的有机组成部分或具体应用[1,2]。

ITIL Service Support, IT服务管理的核心之一。1个职能和5个流程的服务结构为IT运维提供了行业最佳实践的指导, 提供了一个客观、严谨、可量化的标准和规范, 从而确保IT部门能够为企业的业务运作提供更好的IT技术支持。对企业来说, 实施ITIL Service Support的最大意义在于把IT与业务紧密地结合起来, 从而让企业的IT投资回报最大化。对IT部门而言, 实施ITIL Service Support的意义在于将IT日常运维管理过程中遇到的各种各样的“事”做了清晰梳理, 从而使得IT运维过程变得有序连贯, 有助于提高IT服务的能力和水平, 见图1。

1.1 事故管理

事故管理负责记录、归类和安排专家处理事故, 并监督整个处理过程, 直至事故得到解决和终止。事故管理的目的, 是在尽可能最小地影响客户和用户业务的情况下, 使IT系统恢复到服务级别协议所定义的服务级别。

1.2 问题管理

当事件在第一时间没得到及时解决, 就进入问题管理程序。

问题管理的重要性:通常80%的服务品质下降都是因为20%的问题, 所以专注于20%的问题解决可以大大地提升服务。

问题管理的目标:将IT基础设施内的错误引起的事故和问题对业务的负面影响减到最小, 并防止与这些错误相关的事故再度发生。为了实现这个目标, “故障管理”力求找到引发事故的根源, 然后才着手改善或纠正该情况。

问题管理流程具有被动和主动两个方面。被动方面是作为对一个或多个事故的反应而解决问题。问题分析方法包括以下内容:一是定义问题;二是按个体、地点、时间以及范围大小描述问题;三是建立可能的原因;四是测试最有可能发生的原因;五是验证真正的原因。主动方面的“故障管理”是指通过趋势分析和定期的事件统计表, 在事故发生前确定并解决问题和已知错误。

1.3 变更管理

变更管理流程的目标:确保利用标准化的方法和规程, 有效、及时地处理所有变更, 以便将由变更引起的事故对服务质量的影响减到最小或将事件数量减少, 并因此改进公司的日常运作。

最常见的是终端用户提出的请求, 其中有些是系统改进或增加功能的请求, 有些是常规变更 (如帮新进人员建立新的账号) , 有的可能是系统出错, 这在IT中通常称为事件, 如果是系统出错就要找出原因和解决步骤, 才能进入到变更管理的具体步骤:RFC提出变更请求, 变更请求应该包括RFC编号、问题编号、需要改变的配置项、变更的理由、如果不变更会造成的影响、变更人的联系方式;变更管理员负责监督变更从提出到解决的整个过程记录进CMDB、对变更请求进行过滤;同时提交变更到公司指定的变更管理委员会批准。变更管理需要有准确的CMDB配置管理数据库, 对变更进行分析。

1.4 发布管理

发布管理是指对经过测试后导入实际应用的新增或修改后的配置项, 进行分发和宣传的管理流程。发布管理以前又称为软件控制与分发, 它由变更管理流程控制。

1.5 配置管理

在前述变更管理中, 提到当一个RFC进入变更程序时, 管理员和CAB需要有一个方法评估变更可能造成的影响, 而评估需要的相关信息需要一个机制来提供, 这个机制就是配置管理。

配置管理的目标包括以下内容:一是对公司内部的所有IT资产和配置及其服务做出说明;二是提供有关配置及其记录的准确信息以支持所有其他的“服务管理”流程;三是为事故管理、故障管理、变更管理和发布管理提供坚实的基础;四是对照基础设施验证配置记录并纠正任何异常情况。

2 运维流程设计

流程的改进, 考虑到企业信息化实际情况, 分为两种。第一种为相对完善的运维流程, 即人员组织结构、流程角色相对满足的情况下, 逐步实现, 可以说是企业运维流程的长远目标;第二种为现有环境下, 人员角色和流程相对简单, 可以立即实施。笔者主要介绍比较完善的第一种流程[3,4]。

3 事故管理流程

3.1 流程图

事故管理流程见图2。

3.2 角色职责定义

3.2.1 用户

这部分用户为服务的最终对象, 通过电话向服务台提交故障请求。

3.2.2 服务台

服务台是连接最终用户与IT部门的一个信息交换平台, 职责包括以下内容:一是将最终用户通过电话提交的故障信息录入运维系统中, 并生成突发事件, 对突发事件进行分类, 按照流程处理;二是跟踪突发事件的解决状态;三是将解决方案提交知识库;四是关闭状态已解决的突发事件;五是将监控系统自动生成的事件按照流程处理;六是将未解决的事件关闭, 并提交事件经理;七是将一线不能解决的事件, 分配到二线。

3.2.3 事件经理

事件经理为突发事件管理流程的管理者, 管理并协调服务台、故障支持人员 (一线、二线) 的工作, 职责包括以下内容:一是跟踪突发事件的解决状态;二是处理并协调违反服务协议的突发事件;三是定期对突发事件进行分析, 将多发的突发事件提升为问题;四是判断事件是否需协同工作, 将协同工作的事件分配工单给一线处理;五是确认工单是否完成;六是将未解决关闭的事件提升为问题或变更;七是定期生成突发事件的管理报告。

3.2.4 一线人员

一线人员的职责包括以下内容:一是负责解决服务台分派的突发事件;二是向服务台提交解决方案;三是将不能解决的突发事件注明原因提交服务台;四是完成事件经理分派的工单。

3.2.5 二线人员

二线人员的职责包括以下内容:一是负责解决由服务台分派的一线未解决的事件, 并录入解决方案;二是对无法解决的事件提交服务台。

4 问题管理流程

4.1 流程图

问题管理流程见图3。

4.2 角色职责定义

4.2.1 事件经理

事件经理的职责包括以下内容:一是将无法解决的事件、故障升级为问题;二是将多发的突发事件升级为问题。

4.2.2 问题经理

问题经理负责管理问题管理流程, 通过主动和被动的活动减少突发事件数量, 减弱对业务的影响。问题经理的职责包括以下内容:一是对问题进行鉴别;二是将无解决方案的问题关闭;三是寻找问题发生的根本原因, 对问题进行分类;四是分派问题, 并跟踪问题的解决状态;五是将已经解决的问题提交知识库, 并关闭问题;六是定期生成问题报表。

4.2.3 问题分析专家

问题分析专家的职责包括以下内容:一是处理问题经理分派的问题;二是判断解决问题是否需要变更;三是将需要变更的问题升级到变更管理;四是解决问题、录入解决方案;五是如解决问题, 设备配置做了更改, 则提交配置管理流程, 更改CMDB。

5 配置管理流程

5.1 流程图

配置管理流程见图4。

5.2 角色职责定义

5.2.1 配置经理

配置经理是配置管理流程的负责人, 对过程、配置数据、数据结构、数据范围的定义直接负责;确定配置管理的范围, 控制的对象和所要记录到CMDB中去的信息;给其他支持流程提供接口, 确保它们能有效利用配置管理数据库 (CMDB) ;建立对配置管理数据库的安全控制手段, 确保唯有授权的配置元素 (CI) 才被使用;确定所要控制的配置元素 (CI) 的级别;建议和同意配置元素 (CI) 命名和编号的规范。并确保所有配置元素 (CI) 具有单一名字;制定和实行CI的登记步骤;确保完成配置管理报表。配置经理的职责包括以下内容:一是根据变更流程, 向配置管理员分派工单, 更改配置项;二是根据设备批量导入表, 向配置管理员分派工单, 更新CMDB;三是关闭已完成的工单。

5.2.2 配置管理员

配置管理员的职责包括以下内容:一是根据工单, 更改设备配置项信息、更新CMDB;二是将完成的工单提交配置项经理。

6 变更管理流程

6.1 流程图

变更管理流程见第91页图5。

6.2 角色职责定义

6.2.1 服务台

服务台的职责包括以下内容:一是将用户的新需求生成变更, 提交变更经理审批;二是将拒绝的变更关闭, 并通知用户;三是将需要更改配置项的变更提交配置管理流程。

6.2.2 事件、问题经理

事件、问题经理的职责包括以下内容:一是将需要变更的问题、事件提交变更流程;二是关闭完成的变更。

6.2.3 变更经理

变更经理负责管理协调识别、控制、跟踪和审计在一个领域中向IT请求的变更的所有活动;对变更任务进行审批;跟踪变更实施的状态。

变更经理的职责包括以下内容:一是对变更进行审批;二是对变更进行分类;三是与变更主管一起对变更进行计划、测试、确定实施方案;四是定期生成变更报表。

6.2.4 变更主管

制定变更构造计划, 并参与测试、实施;负责将批准的变更分派给变更实施者, 及时与变更经理沟通变更流程进度;提出变更流程改进措施。变更主管的职责包括以下内容:一是与变更经理一起对变更进行计划、测试、确定实施方案;二是分派变更、判断变更是否完成;三是将完成的变更提交服务台或事件、问题经理。

6.2.5 实施者

变更实施者负责实施变更、实施变更主管分配的变更任务;完成变更后, 录入实施记录。

实施者的职责是:对变更进行实施, 并完成分派下来的工单。

7 结束语

企业在实施完ITSM项目后, 往往会进入一个误区:认为IT服务管理变革结束了, 只要按照新的流程架构运行, IT服务管理水平自然就会得到很大的提升。其实这是一种误解, 还需要通过持续性的流程改善体系, 才能确保IT架构顺利地实现流程的推广实施, 提升服务管理流程有效性和效率。

摘要:IT综合运维管理体系, 需要建立IT规范的处理流程, 科学自动地完成人力资源分配, 确保每个问题及时解决。从事故管理、问题管理、变更管理、发布管理、配置管理5个方面, 简要介绍了ITIL服务管理流程, 并详细论述了事故管理、问题管理、配置管理、变更管理4个流程及其中的角色职责定义。

关键词:ITIL,IT运维,流程

参考文献

[1]彭东亮, 周春, 李福林, 等.应用ITIL服务管理思想推进军队医院信息管理规范化[J].海军医学杂志, 2009 (1) :67-69.

[2]航天工业管理编辑部.利用现代化手段规范企业信息化管理流程[J].航天工业管理, 2006 (6) :46-47.

[3]母俐丽, 刘一鸣, 刘伟.适合中小型企业的IT运维系统架构设计[J].现代计算机:专业版, 2012 (3) :66-69.

精益化IT运维关键技术研究 篇9

目前,电力行业IT支撑平台还没有统一的技术体制,更没有适合国内复杂环境和投资高速增长特点的成熟案例。为解决大量IT建设运维任务与电力IT技术人员不足的矛盾,提高IT系统建设质量、运维水平,实现IT精益化管理要求,解决大规模IT投资项目全过程管控、精益化信息运维和精益化通信运维3大问题,需要开展如下关键技术的研究:

建立基于合同、项目之间多对多联动关系的业务模型,实现IT系统建设全过程精细化管控;构建共享数据平台,实现系统运行状态可靠性分析、多维告警信息相关性分析机制、系统检修影响范围预评估,完成运维检修闭环管理。

1 业务活动联动性管理方法

电力信息化项目建设需要严格遵循合同来计算资金收支、管控项目进度计划,因此,需要建立合同、项目之间的业务模型,管理合同之间、项目之间、合同与项目之间的联动关系。同时,在审核流程中,通过联动关系量化判断因素,为审核人员提供辅助判断结果。

1.1 业务联动数据模型

根据实际业务需求分析,合同分类形成一种网状结构,例如,按照合同的资金流向将合同分为收入类合同和成本类合同,成本类合同又分为自建项目合同、技改大修项目合同、分包项目合同,而分包合同要对应收入合同。一个合同可以分拆为多个子合同,一个项目又可以由多个子项目组成,一个合同可包含多个项目、一个项目可以对应多个收入和支出合同,每个项目下又可能对应多个成本项目。项目与合同,项目与项目之间都是多对对多的关系。在进行项目过程管控和合同管理的时候,这种复杂的关联关系将影响上层项目与合同的进度整体管控、合同资金支付审核。

为建立上述的业务关系模型,需要建立虚拟合同和虚拟项目,将网状结构拆分为树形结构,构建了虚拟合同与实际合同、虚拟项目与实际项目之间的虚拟关联关系,从而在虚拟关联关系的基础上将实际的多对多的联动关系转换为一对多的关联关系,建立了合同与合同、项目与项目、合同与项目之间一对多关系,简化项目过程管控和合同资金支付的实现难度。

1.2 基于加权法的联动性计算方法

在构建业务联动性模型后,在审核流程中引入加权项,通过加权项权重、权值设置,在审核节点自动触发加权计算方法,根据业务联动关系收集加权项设置的数据,按照线性加权法计算该节点项目进度、合同执行情况,以及资金支付比例,为审核人员给出科学的辅助审查的建议值。

加权项设置在联动关系或者项目属性上。在联动关系上设置加权项,例如:项目与子项目之间、合同与子合同之间设置加权项,并根据子项目工程量或者资金比例设置权重,则在计算项目进度、合同完成率和资金支付比例时,需要根据子项目权重联动计算子项目进度、完成质量等,汇总得出项目进度、合同完成率和资金支付比例。

在项目属性之间设置加权项,是指在具有联动关系的属性之间设置加权项,并根据属性特点设置权重,例如,计算某一个项目应支付资金比例,则需要在项目进度、里程碑交付物、工作质量评价、环境因素评价等关联属性设置加权项和权重,根据获得的加权项的值和权重计算资金支付比例。

2 基于状态可靠性的检修预评估方法

2.1 运行状态可靠性分析

采集系统建设费用、运维成本、运行时长、运行状态、故障次数、检修次数,计算可靠性指标(MTTF(平均失效时间),平均无故障工作时间(MTBF)、平均修复时间(MTTR),故障率),反映建设期的建设质量、建转运质量。

MTTF作为最为广泛的衡量系统可靠性的参数,指系统平均能够正常运行多长时间才发生一次故障,系统可靠性越高,平均失效时间越短。MTBF越长可靠性越高,正确工作能力越强。MTBF的目的是找出设计中的薄弱环节,用于判断可维护性和不可维护性的系统。MTTR包含维护所需时间,获得配件时间,维修团队响应时间,记录所有任务时间以及重新投入运行时间。MTTR越短表示恢复性越好。通过对系统运行状态分析的可靠性研究,在某一方面反映运维团队的执行效率与可靠程度,另一方面通过对运维阶段发现的问题,追溯到建设期项目与合同配置项等信息,检查是否是建设期出现的缺陷。

2.2 多维告警相关性研究

信息、通信系统在运行过程中,针对异常现象会抛出告警信息,但这些告警信息的内容在故障定位和排除的时候其可参考性不强,并且没有对告警资源类型进行分类、分层详细说明,因此需要对告警进行过滤、分类等预处理,对告警原因进行层次化分析,找出发生告警的最初资源项。告警相关性分析如下图所示:

告警集中监视应包括告警分类、告警过滤、告警显示、告警操作(确认、清除、封锁)、告警提示(短信、语音)、告警根原因分析、告警查询、告警状态计算等功能。

告警过滤主要通过制定合理的告警过滤规则,从大量告警中屏蔽用户不关心的告警,过滤出重要告警从而有效防止告警风暴。告警过滤包括告警过滤规则定制、告警过滤规则应用。告警过滤规则定制指对告警等级、告警原因、告警所属设备、告警关联业务等制定相应的过滤规则,并存储到过滤规则库

告警原因分析依据告警之间的相关性,通过对众多的告警信息进行处理,找出根告警,从而定位出故障产生的根本原因。告警根原因分析包括规则制定、规则应用。告警相关性规则制定是通过资源对象之间的关联性、告警之间的相关性以及告警与资源对象之间的所属关系,动态判断根源告警与衍生告警之间的推导关系。

告警状态计算根据对象的层次关系,分析对象及下属子对象的告警信息,提取告警的最高等级作为该对象的告警等级,并计算该对象内所有告警数目和已确认告警数。

2.3 检修预评估方法

由于信息通信系统间的耦合度和关联度越来越高,一个系统功能点可能会影响多个系统,要求检修人员在进行检修工作前必须做好检修影响范围的分析做好对应的防范措施。但面对支撑电网的几十套核心业务系统和数以万计的系统间接口关系、数据横向纵向集成关系、数千台硬件设备间的拓扑关联关系和电力内外网的拓扑关系,检修人员缺乏全面了解如此庞大的系统关联关系,存在检修风险点分析不到位而造成检修过程中其他关联系统中断。

因此,需要建立检修预评估影响范围模型,识别关键检修步骤,评估每一个步骤的检修影响范围、检修成本和检修时间,结合最短路径法,根据所有关键步骤的检修影响范围、检修成本、检修时间3 个方面综合选择最优的检修方案,提高检修效率、降低检修风险与成本。

基于系统资源数据库,提供制定检修计划功能,通过对系统关联关系以及传输网络业务保护关系等计算,实现影响业务范围自动分析,完成检修计划的制定。针对检修的系统、设备和设施,利用通信网络、传输通道、通信业务、系统之间各种关系分析受到影响的通信业务。对于当前的检修单需要与正在执行的检修单进行相关性分析,避免多检修单执行时中断业务。

3 结束语

业务活动联动性管理方法、基于状态可靠性的检修预评估方法等关键技术,已经应用于电力行业精益化IT支撑平台,实现了信息通信系统建设、建转运、运维全过程管控,大幅提高运维效率和系统运行可靠性。

随着信息通信技术的发展、智能电网建设的深入,IT运维技术必然积极跟进才能,才能支撑电网的大发展,尤其是大数据分析、虚拟现实、基于RFID的物联网等新技术的发展和大规模应用,必将提升故障精确定位、系统运行风险预警、设备运行状态趋势预测、智能检修评估、日常自动巡检等方面性能,为精益化IT运维提供助力。

参考文献

[1]王晓磊,余长江.基于加权计算的自动审核算法[J].计算机与现代化,2014(4).

[2]李猷,马斌.企业生产经营管理系统的研究与实现[J].电脑知识与技术,2014,3(10):9.

[3]马斌,周平.大数据时代的数据挖掘[J].中国科技信息,2014(23).

[4]李雅洁,沈佳.信息资源管理系统在信息系统运维中的应用[J].电子制作,2013(12).

浅谈中型企业IT运维管理 篇10

关键词:队伍组成,专业化,队伍管理,监控措施,应急预案,运维策略,信息安全

0 引言

如何建设一支能够解决问题、创造价值、有活力的、不断进取的IT运维团队,并带领这支团队,充分发挥这个团队的优势力量,是运维业务有效开展的关键。运维策略是直接体现运维业务的经济价值所在。好的运维措施、方法可以延长设备使用寿命,充分发挥该设备、物品应有的作用,创造更高的经济价值;错误的运维措施、方法可能缩短设备使用寿命或毁坏设备,严重时会带来一场巨大的灾难。信息安全是IT运维质量最重要的指标之一,只有通过有效、可行的管理、监控手段才能降低安全风险,防止重要数据泄漏,保障数据安全。

1 IT运维队伍组成

IT运维涉及的专业有:网络、数据库、操作系统、服务器(包括小型机)、存储、桌面运维、视频会议、门户、美工、业务管理系统等。这些专业的专业性很强,需要专业化人才进行运维管理。各专业知识面不一样,能从事运维工作的业务面也不一样。如从事网络、操作系统专业的运维人员可以从事桌面运维工作,但从事桌面的运维人员不一定能从事网络、数据库、存储维护工作。对涉及信息安全的专业必须分开运维,如网络权限、数据库权限、操作系统权限、存储权限、业务管理系统权限管理这几个专业必须独立,不得互相兼用,但做技术的可以兼用。IT运维中技术难度低的工作,工作量较大,人员需求较多,而技术难度高的工作,工作量相对小,人员需求相对较少。因此以上提到的每个专业的人员都必须有,但总的工作可以统一协调安排。

IT运维管理人员较少,工作量大,因此对人员专业面、专业素质要求高。对重要专业要能吃得透,在项目建设中能把握住方案的要害,所组建的设备、系统平台既要保证运行可靠、高效,还要不浪费,而且便于维护。在运维中要能制定合理可行的运维策略,完全了解所管辖的设备运行和停运的风险。在指挥运维作业时,能指出不规范或错误的操作,能意识到相应的风险,并能做到不瞎指挥,不违章指挥。

运维人员按专业设组,每个组至少有一名技术专家,该专家负责解决该专业的疑难问题,根据日常运维业务量配备相应的技术人员,在信息安全不互斥的情况下可以兼用。

对以下两个专业特别指出:一是网络专业,该专业覆盖面大,专业性强,影响面大,因此从事网络专业人员的数量有一定要求,并具有5年及以上网络从业经验。专业上具有以下能力:能够独立配置该公司所有品牌的网络设备,能够随意组网,能够优化网络设备的安全策略,能够利用常用工具快速查找、分析、处理故障。二是数据库专业,该专业风险大,数据库一旦故障可能造成所有业务管理系统中断,严重会造成数据丢失,带来无法弥补的损失。因此必须取得DBA证书,并具有5年及以上从事数据库开发或维护工作经验的,才能独立从事数据库维护工作。

2 IT运维队伍的管理

一个团队要有凝聚力,相互协作,听指挥。尤其在处理疑难问题和应急情况处理时,更需要团队的力量。每个运维人员必须有相应的岗位及岗位职责。IT运维的岗位应按以上提到的IT专业设置。由于工作量的不平衡,在信息安全不互斥的情况下,可以兼任其它岗位,相互渗透,而且便于人才的培养。每台重要设备确定一个主责任人,特别重要的设备可以增加一个辅助维护人员。

IT技术更新极快,新技术学习、专业相互渗透、常规培训必须保证足够的时间和次数。每人每周参加一次集体的培训,相互培训、相互学习,取长补短。每个专业的技术专家每年至少得参加一次一周左右的外送培训。

每天发生的运维业务很多,有常规的、有临时的、有应急的。如何使这些业务不落掉,做到每个运维业务定人定责,随时能跟踪运维进度。因此我们需要利用我们的强项IT技术,建一个问题管理系统,对整个业务执行过程进行监控。做到定人提报问题或定时发布常规任务,定人分配问题。得到任务的人员及时对问题进行处理,如果个人处理不了,可以找相应专业的技术专家处理,技术专家处理不了可以找团队共同处理,直到问题关闭。问题的处理过程及措施都在系统中体现。问题处理不及时,或没达到用户的要求,将会报警并产生扣分项。

有了以上的问题管理系统,就可以监控、跟踪每个运维业务,提高信息共享、传输的效率,从而提高运维的工作效率,防止工作失误。周报、月报及每人的考核、团队的考核以系统中具体的数据为依据。

应急预案的编制、审核、演练、处理、记录、分析演练、分析事故处理等整个过程,对这个团队处理应急情况尤其重要。预案编制一定要可行、责任到位,而且要言简意赅,容易理解好接收。涉及到的专业、管理部门都要参与审核并签字通过。应急预案应定期演练,只有通过演练才能了解这个团队在处理应急问题时还哪些不足。整个应急预案的演练或事故处理都应该如实按预案要求做记录,为演练或事故分析提供依据。演练分析或事故处理分析可以为这个团队增加事故处理经验,并从中吸取教训。

3 IT运维策略

运维策略决定了运维的质量,直接体现经济价值。可以提前发现问题、解决问题,把事故扼杀在萌芽状态。可以继续发挥旧设备的作用,创造新价值。IT运维策略需要注意几点。

(1)运维应有侧重点,对管辖的设备划分重要等级,根据重要性确定具体设备的运维点、运维措施、运维方法、运维周期。核心机房设备最重要,其次是普通机房设备。

核心机房设备根据重要性排序:供电系统,消防系统,温、湿度控制系统,存储设备,核心交换机,重要服务器,汇聚交换机,普通服务器,边界设备。尘土、静电是机房设备最大的敌人,大功率设备的散热系统最容易产生故障被破坏,散热系统发生故障后就直接导致温度过高,从而毁坏设备,严重时会造成火灾。因此大功率设备的散热部位是维护的重点部位。

机房的散热、防尘、除湿、保湿就显得更重要。再次是数据库的重要,主要体现在数据库平台的入侵检测、安全监控,数据文件、日志文件的安全备份,异地容灾。

(2)重要设备的故障记录,每台重要设备的每次故障及故障处理过程都要有记录。这可以建一个小系统,录入重要设备的台账,记录所关心的重要参数。重要设备的维护策略、故障及处理记录在系统中体现,可供查询,建立动态台帐和历史档案。当新故障发生时,可以利用历时故障及处理过程加以分析,可以帮助新故障的处理。也能为以后维护该类设备提供经验,调整相应的维护策略。

(3)运维方法不当,容易毁坏设备,严重时会造成灾害,因此必须了解一些注意事项。

运维时重点注意两方面:一是防静电。IT设备根据设备所处的重要等级不同,部分设备的板卡可以热插拔。热插拔板卡时一定要注意防止身体上的静电传到设备上,避免毁坏设备。因此必须带上防静电腕带并接地。平时操作机房设备时也应该带上防静电腕带,这一点很多人都容易被忽视。二是跳线。有些设备的跳线很多,特别是新换板卡,跳线颜色、插头都是一样的,容易跳错,一定注意不能按经验跳线,要看说明书或图纸,否则容易烧毁板卡或设备。跳完线后,最好是请另一个同事根据图纸核实跳线,确认无误再对设备上电。

(4)每台重要设备、系统、平台的常规维护都应编写一个可行的、容易理解的、简单的操作流程,指导每次常规操作维护。

每个人对自己管辖的重要设备的操作流程要烂熟于心,并能指导协作的人员一起处理故障。以机房UPS每半年进行一次的充、放电为例,所有开关的开或关是有顺序的,且开机或关机的顺序是不同的,若关错一个都会烧坏UPS主机。另外,还有一组开关在正常情况是不能开的,但在关闭某些开关后又是可以开的,而这个功能又是需要的,若开错顺序或开了不该开的开关都会损坏设备,严重时会造成主机或电池爆炸,酿成火灾。因此必须应有一个可行的操作流程做指导。

对数据库的数据备份也同样存在顺序的问题或操作漏项问题。如果数据库没有完全停下,就不能做完全恢复的数据备份。另外只有数据文件的备份,无日志文件的备份,也不能做完全恢复的数据备份。因此如果没有数据备份和数据恢复的操作流程指导,数据备份和恢复就容易失误,造成数据丢失。

(5)重要设备降级使用,修旧利废。某些设备到了报废年限,但由于平时保养措施到位,状况良好的可以降级使用,提高旧设备的利用率。降级的原则是,主设备降为从设备,核心设备降为汇聚设备,存储设备降为备份设备,服务器降为实验平台或监控电脑。多台旧设备拼装使用,但这种情况通常在重要程度较低的末端使用。

(6)操作系统不要轻易重装。如果数据备份不全,重装系统时容易造成用户数据丢失,另外由于重装操作系统的时间太长,升级打补丁需要很长的时间,同时目前需要安装的安全软件和应用软件也越来越多,这将会影响用户办公。许多操作系统问题可以通过修复系统解决,除非中了系统类的病毒,必须重装系统。

4 IT信息安全

IT信息安全需从建设和运维两方面控制风险,从运维的角度就降低信息风险应注意几点事项。

(1)要有必要的网络安全监控措施,比如端点准入、入侵监测、网上行为管理、网络流量监控。

(2)掌控核心网络设备及出口网络设备的权限和密码、数据库及数据库平台的权限和密码、安装数据库平台的操作系统权限和密码、业务管理系统的权限和密码。以上四类权限和密码如果有一项掌控不了,或互相串通,都保证不了业务系统的数据安全。

(3)数据库安全是信息安全的根。数据库安全的监控手段很多,比如数据库日志监测、非法用户监测、数据库平台的非法访问监测、防火墙监测。

(4)网路设备、出口设备的安全策略设置优化直接影响网络安全。

本文来自 360文秘网(www.360wenmi.com),转载请保留网址和出处

【IT运维】相关文章:

上一篇:网络会计信息失真下一篇:供水专用变频器

本站热搜

    相关推荐