IT外包运营专业人员在公司中执行三项关键职能:在危机时刻展示人才的建筑师,建筑师和英雄。他们构思并帮助规划数字环境,构建必要的基础设施以支持这些环境并解决尚未演变或成为危机的问题。
正如他们在Geico的广告中所说,这是他们的工作。
今天,我想关注IT运营中不可避免的调试活动,特别是IT网络的复杂处理和危机预防。以充分尊重和我在改变IT运营在过去15年的经验,我认为IT专业人士应采取以下两点考虑,当谈到网络危机和网络犯罪既成事实。
发生了什么很多(大多数)危机都是由环境变化引起的。在诊断问题时,最好了解在不久的将来会发生的其他环境变化。如果您找不到明确的直接原因,请考虑一下:在不久的将来,哪些更改可能会导致此问题?这对解决对每个人毫无意义的远程问题特别有用。
例如,如果服务器停止传输信息,请首先检查服务器以确保服务器未挂起或关闭。硬盘未耗尽且服务器已正确连接到网络。如果您确定服务器本身没问题,则应扩展搜索以排除最近更改的其他问题。
如果连接失败。检查项目管理系统或更改记录以查看网络中发生的最新更改。究其原因,无法连接到服务器可以是路由器,交换机或防火墙配置错误,或者有人会不小心删除的DNS服务器日志或更改路由路径。问题也可能发生在其他地方,你看到的只是外观,而不是根本原因。
通过规划避免附带损害,事故可能令人沮丧。例如,出于安全原因加密夜间数据传输并将它们链接到现有服务器的硬件ID,因此当您更换服务器硬件时,由于密钥更改,隔夜数据传输会失败。强制自己启用新的替换服务器。避免附带损害的关键是做好功课,并在做出任何改变之前找到尽可能多的功能。您必须深化并识别任何相关特征,并对变更计划进行必要的调整。
更改列表的使用:Atul Gawande的列表显示了如何在书中执行操作:如何使用事物来查看如何使用列表来帮助我们更准确,安全和可靠地提供信息。在执行变更任务时,IT运营专业人员通常依靠记忆,培训和本能来执行关键任务。在这种情况下,如果订单不正确或省略了某些步骤,可能会出现问题。我建议使用核对表进行网络更改,以确保成功并避免危机。可靠的清单可以帮助您规划变更步骤,并在变更过程中完成工作。 ·准备工作:在实施变更之前,您应该做些什么?需要关闭或调整哪些服务器或设备?我应该通知谁?·实施 - 在变革过程中应该做些什么?哪些配置需要修改?
·检查更改是否生效。如何确定更改是否生效?你应该检查哪些元素?我应该使用哪些数据进行验证活动?
·紧急程序:如果情况恶化,应该采取什么遏制策略?你是如何准备好面对危机的?
·恢复 - 如何撤消实施变更的准备工作?认真执行此步骤可以帮助您避免其他方面的危机。
清单不必很长,只需要完整,准确和实用。即便如此,列表的使用是成功改变网络的关键。有关更多信息,请参阅撰写有关IT项目实施的文章的八个理由。
4.遵循“逐个更改”规则:我的个人规则是逐个实现网络中的主要更改。在这种情况下,即使存在问题,只有故障发生变化,只发现危机。如果两个或多个更改同时失败,您将遇到几个危机,此时的丢失与逐个实施更改完全不同。您可能认为通过简单地停止某些段来简单地实现一些更改是很诱人的,但是不要尝试这样做,因为它不值得冒风险。
5.了解您的位置:了解位置:当IT专业人员拒绝认为他们正在操纵测试系统时会发生最可怕的自我伤害,这会导致生产系统停滞不前。例如,在更新质量控制数据库时,IT管理员在登录到错误的设备时意外地清空了生产数据库。当您使用远程桌面程序时,很可能是您无意中连接到错误的设备,这会导致以前的错误。因此,即使您只是执行简单操作(例如主机名命令),也必须确保在开始工作之前已登录到正确的设备。如果您避免使用错误的设备并执行此操作,您会很高兴。
以上几点是变更管理指南中未提及或批准的所有实际步骤。这样做可以帮助您面对意外的运营IT危机或防止危机。