微服务架构下的监控需要注意哪些方面?
结合目前国内正在兴起的智能运维,也许不久的将来,上面提到的监控的各种问题也就迎刃而解了。监控策略不在需要人工定义,转由机器学习负责,诸如策略添加,阈值设定,异常检测,故障定位,自动止损等逐步由系统负责,运维人员不再是“救火队长”。 京东云监控响应实践 京东云运维平台为数万台机器提供监控,部署,机器管理,权限管理,安全管理,审计和运营分析等功能,为京东云所有的业务在各类异构网络环境下提供标准和统一的运维支撑能力。 基于产品所处的发展阶段,用户规模的不同,报警频率也不尽相同。理想情况下,报警频率应该等同于故障频率,这里面体现了报警的准确度和召回率两个指标,如果每个报警都对应一个服务故障,则准确度为100%,同理,如果每次服务故障均有报警产生,则召回率为100%。大家可以基于上述两个指标,来衡量自己团队的现状,并针对性的制定提升计划即可。 对于响应流程,京东云有几个做的好的地方可以给大家参考: 首先,所有核心报警均有可靠的应对预案和处理机制,并通过定期的破坏演练持续进行完善。 其次,公司的监控中心会7x24值守,他们也会和业务线运维同学一样,接收所有影响核心系统稳定性的报警,收到报警后会进行通报,确保核心报警在发生后第一时间内有人处理并在规定的时间内处理完毕。如果未在规定的时间内处理完毕,监控中心会进行报警升级,通报该系统的管理人员,从而确保该报警可以得到更高的重视度和支持力度。 总结 对于监控系统的未来发展,长期来看,依托于Kubernetes的发展,在基础设施的各个领域,都会从百花齐放到几家独大,从而将标准化落地到基础设施的各个领域,进而促进整个生态的繁荣。 在监控方向,Prometheus在未来一段时间后,也许会是一个很好的选择。在Prometheus等工具解决了通用的监控场景并标准化之后,在其上的各类应用场景,如容量规划,流量监控,故障定位以及各种基于大数据和人工智能场景的落地等,就会出现百花齐放之势。 【本文为51CTO专栏作者“京东云”的原创稿件,转载请通过作者微信公众号JD-jcloud获取授权】 戳这里,看该作者更多好文 【编辑推荐】
点赞 0 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |