YH监控报警系统性能暴涨,用的全是开源组件
报警接入范围很广: 作为企业级的报警管理中心,是对企业的所有报警作统一的监控管理,报警接入的范围和监控工具覆盖的范围是一致的,从底层的基础设施、物理服务器、网络设备、存储设备、操作系统、云平台等,到中间件组件、数据库、WebServer和大数据组件等等,再到上层的业务和应用,如交易、应用等。 必须应对报警风暴: 当设备有异常情况出现时,设备可能产生大量的报警,有时会达到每秒几万条,而形成报警风暴,当报警接入范围很广时,报警风暴可能随时时不时发生,报警管理中心必须自身必须能应对这种情况,对报警数据进行有效处理。 报警处理逻辑复杂: 报警处理分为流处理和批处理,所谓流处理,是指一条报警接入之后过来之后,需要实时经过很多个逻辑处理单元之后才能入库,而在每个逻辑处理单元里面,都会频繁地操作告警数据库,和原有的报警上下文进行关联分析。无论是告警本身的处理,还是告警数据库,都存在巨大的性能压力。所谓批处理,是指定时地对报警库里面的数据做二次处理,报警处理中心有大量的批处理规则来处理各类不同的报警数据,同样会对报警处理机和数据库造成巨大的压力。 处理逻辑灵活配置可扩展: 由于报警接入范围很广,报警类型和报文格式复杂多样,每一类报警的解析不一样,每一类报警的处理逻辑也不一样。而且,随着时间的推移和业务的变化,报警类型会增加,原来的报警处理逻辑也需要随着运维场景的变化持续改进会变化,因此报警处理规则所以,不可能将报警处理逻辑写死,而必须做到灵活定义和可扩展高度可配。 上面的四个特性中,前三个合起来产生一个问题,那就是报警管理系统中心高性能的问题。 第四个特性是报警管理系统规则灵活配置的问题,那如何解决高性能和高可配的问题呢? 三、监控报警系统的关键技术实现设计 G行新一代上一代监控报警系统使用国外的商业套件,报警采集和报警处理都是采用的单机单线程处理,而报警存储采用的是单机版的内存数据库。 存在的问题是为解决告警风暴、高频报警的问题,而我们: 当出现告警风暴时,采集器可能丢数据,而数据库也会发生阻塞,导致告警处理效率低下,报警延迟时间达到分钟级。 告警处理逻辑只能支持比较简单的处理,对于复杂的高并发高频率的处理,是无法应付的。 为解决上述问题,G行新一代监控报警系统基于开源组件进行自主研发,从报警采集、处理和入库三大关键环节入手,解决报警高性能和规则高可配的问题的。 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |