监控体系建设(完整)
事件发生之后,监控系统需要能自动分析事件的关联信息,帮助运维人员尽可能的还原事件现场,提高分析问题的能力,关联信息主要有纵向和横向的关系,其中纵向的关联是把基础设施、网络、系统、应用域、应用、交易关联起来,任何一个环节出问题,向上计算出波及范围和受影响系统;横向的关联是以交易为中心,计算上下游的交易节点.下面分别是两个关联: 纵向关系: 横向关系: 4)事件触发 系统在设置报警策略时,可针对指标进行触发条件设置,触发条件按照类型分为阈值触发、基线触发、智能预测.系统根据不同的触发类型设置,采用的判断方式也不一样.具体明细如下: ??? 阈值触发 系统支持指标的阈值触发设置,当指标值达到设置的阈值时即可进行报警. -阈值的设置范围只能在该指标的数值范围内进行设置. –?阈值在设置时需要指定数值单位,防止数值因单位不同出现判断错误. –?在设置阈值时系统支持实时查看指标当日折现图和历史基线,帮助运维人员正确判断阈值的设置范围. ????基线触发 系统支持指标的基线触发设置,当指标值达到设置的基线时即可进行报警. -基线设置可按照昨日基线、月基线、周基线进行设置. -系统支持在选定的基线基础上进行上浮或下沉幅度的设置. -在设置基线时系统支持实时查看指标当日折现图和历史基线,帮助运维人员正确判断基线的设置范围. -系统支持按照平均基线进行设置. -基线设置时需要有一定的历史数据作为依据. ????智能预测 智能预测主要是通过历史数据的分析,通过人工智能算法预测未来可能出现的问题,这一块是未来监控事件优化的一个方向. 3、事件应急1)应急恢复 运维最基本的指标就是系统可用性,应急恢复的时效性是系统可用性的关键指标.通常来讲应急恢复的方法有不少,比如: ???服务整体性能下降或异常,可以考虑重启服务; ???应用做过变更,可以考虑是否需要回切变更; ???资源不足,可以考虑应急扩容; ???应用性能问题,可以考虑调整应用参数、日志参数; ???数据库繁忙,可以考虑通过数据库快照分析,优化SQL; ???应用功能设计有误,可以考虑紧急关闭功能菜单; ???还有很多…… 监控系统的事件丰富过程中需要尽可能关联上述的一些应急手段,供运维人员快速应急,比如服务启停工具、切换工具、程序回切工作等,比如下面这个应用服务启停工具例子: 2)现场保护 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |