AIOps中的四大金刚都是谁?
如单机房故障自愈场景中的介绍,运维AI工程师需要具备机器学习知识并将其在运维领域落地的能力。运维AI工程师的职责如下: ![]() 平台研发工程师 在单机房故障自愈场景中,平台研发工程师需要关注三类平台的建设。如图所示: ![]() 基础运维平台:提供单机房故障自愈场景中的依赖平台,如:监控平台和流量调度平台。在日常运维中提供标准化运维数据获取和运维操作的基础,而在AIOps中,这部分接口需要能够同时支持人工和自动的数据获取和运维操作。 智能运维平台:提供对AI能力的支持,如:统一的数据服务(运维知识库)、运维开发框架,以及给AI策略实验和运行的运维策略框架等。 故障自愈机器人:针对单个业务场景进行平台化抽象,使之成为一个基础服务,基于AIOps平台研发和运行。 AIOps时代的职责和技能变化 平台研发工程师负责运维平台及基础组件的研发与建设。 在传统运维场景中,平台研发工程师负责平台、基础组件、类库和工具的研发工作。在针对运维的场景中,会覆盖与运维相关的服务管理、监控、变更、流量调度等平台。 ![]() 这部分平台是运维的基础,在AIOps时代仍然需要依赖于这些平台的建设。 同时在AIOps场景中,数据成为了中心,运维各种状态信息转换为大数据,机器学习则作用在大数据上进行分析。在百度AIOps的实践中,运维开发框架、运维知识库、运维策略框架共同组成了完整的智能运维平台,三大平台的建设和实施离不开大数据、机器学习架构的引入。 这就要求平台研发工程师具备大数据、机器学习平台架构师的多重身份,具备流式计算、分布式存储、机器学习平台、算法策略平台等一系列大数据和机器学习平台架构能力。 ![]() 运维研发工程师 基于多个业务线场景抽象出的单机房故障自愈解决方案,能够满足大部分场景需求,但并不意味着可以直接提供给各个业务线来使用。原因如下: 策略和参数需要进行调整 流量调度、容灾策略等策略,针对不同的业务线,配置并不相同。例如某些业务对响应时间敏感,跨地域的调度会带来较大的延迟,影响用户体验,这时就需要根据业务情况配置机房之间的跨机房流量调度延迟系数,来实现流量优先调度到延迟系数最低的机房。 通用框架无法满足所有需求 部分业务线需要对原有的策略进行部分重写才能够满足需求。例如,部分业务在流量调度时,需要联动服务降级来满足容量需求,这就需要额外增加服务降级联动的逻辑。 那么,就需要运维研发工程师出手来解决这个问题。根据业务线的实际情况,对策略和参数进行配置和调优,对通用框架无法满足的需求,进行定制化研发,使得单机房故障自愈方案能够实际应用在不同业务线上。 AIOps时代的职责和技能变化 运维研发工程师负责基于业务线特征的运维研发工作,在传统运维中,是运维自动化的实施者,实现了针对业务场景的自动化运维实施落地。其职责如下: ![]() 在AIOps时代,运维研发工程师承担了AIOps智能化运维解决方案在业务线实施落地的职责。他们是AIOps场景的实践者,将AIOps解决方案与业务架构特征相结合,实现AIOps在业务线的落地。 一方面,他们会与运维工程师紧密配合,对业务问题进行深度分析,理解业务的特点。 另一方面,他们与平台研发工程师、AI工程师相配合,基于AIOps解决方案的策略和框架,进行定制化开发,使其适合自身业务线的特征。 总结 本文介绍了运维工程师、运维AI工程师、平台研发工程师、运维研发工程师四种角色从自动化运维时代到AIOps智能化运维时代,其职责和技能的拓展与变化。AIOps技术为运维技术的发展带来了更多的机遇,对于每个参与到AIOps实施的个人或团队也是如此。四种角色既有术业专攻,同时又紧密协作,共同将AI能力引入为运维赋能。那么,你的选择是什么呢? 【编辑推荐】
点赞 0 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |