运维全球最大游戏网站过程中积累的SRE经验
随着流程的推广,这个团队变的越来越安静,部分是因为有了专门的交流环节,逐渐开始推行远程工作,以及团队逐渐变的国际化,但同时也是因为大部分工作都变成了一种例行任务:遵循事件模型的指导,任务完成后或者有什么不理解的地方时,可以升级上报给更资深的人员. 自动化 通过这种方式对调查过程实现自动化,意味着还可以借助软件对其实现更高程度的自动化. 通过制定指标将不同工单连接到不同的事件模型,这也意味着我们知道需要将自己的精力专注在何处.我们编写了在后台对日志文件进行梳理的脚本,借此更快速简单地找出与代码有关的问题,同时通过自动化方式响应客户的需求(“此问题是应用管理员用户 XXX 所做的某项变更导致的”),此外还采取了一系列其他措施. 在这些自动化机制的支持下,我们基于 Pexpect 为自己构建了一个自动化工具:http://ianmiell.github.io/shutit/,不过这就是另一个故事了.基本上在适应这些后我们养成了持续改进的良性循环. 回归流程本身 准备好所有这些资产后,如何预防这些资源随着时间流逝而贬值?此时流程本身非常重要. 为确保一切可以继续平滑运转,我们制定了两个重要流程:验伤(Triage),以及事后审查. 流程 – 验伤
我们有 5%-10% 的时间花在验伤流程中.另外,为了确定最准确的流程,之前已经付出了大量时间,不过这些付出获得了巨大的回报: 将需要采取的操作数量精简为必须的最少步骤 将尽可能多的任务包含在验伤流程中,这种做法对我们有很大的吸引力,但更重要的是确保流程本身的价值而非完整性.任何不常执行的操作通常会被跳过,并从验伤流程中忽略掉. 专注于通过流程节约成本 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |