一、有关故障监控与告警的基础知识
智能货柜同一般的软件有较大的区别,软件只涉及服务应用层面的交互,而智能货柜则既涉及到软件应用的交互,还涉及到硬件和软件的交互,因此智能货柜的故障和监控要比普通的APP以及系统要更加复杂,下面就故障监控与告警相关的背景和知识做相应的介绍。
1. 什么是故障?
百度百科对于故障的解释如下:
故障是系统不能执行规定功能的状态。通常而言,故障是指系统中部分元器件功能失效而导致整个系统功能恶化的事件。
而对于智能货柜来说,故障即是任何会影响设备正常售卖的事件,包括硬件上的故障,也包括软件上的故障。
故障的种类有可能是非常多的,对于产品而言只能在最开始系统设计的时候,尽可能的穷举出越多的故障,只有明确了故障的种类,才能监控到这些故障。
那我们为什么要做故障监控与告警系统呢?
对于智能货柜来说,每一个运营都需要负责非常多的设备,而不能时时刻刻守在设备旁边,也就无法及时知道设备发生了故障,因此故障监控与告警系统将会产生如下价值:
监控与告警的区别:其实本质上监控是告警的基础,只有具备了监控的信息,才能针对监控的信息去指定相应的规则和策略来进行告警。监控的信息是非常全和杂的,但是对于接受故障的用户来说,杂和全的信息会干扰用户的判断和决策,因此只有在监控信息基础上,针对相应的规则筛选出需要告警的信息来进行触达和展示,才能最大效率和准确的解决相应的故障。
监控和告警的目标则是一致的,即:
既然是从0到1的系统,那自然不免会涉及到非常多的工作需要去找。前期用户调研、竞品调研以及市场背景都要去了解。
用户调研:因为系统做出来不是给产品用的,因此必须要了解该系统使用对象的想法。一般来说针对公司自己软硬件的故障监控系统,都是给公司内部相关部门的人使用的,因此用户调研上相对来说会比较容易,需要了解使用对象的使用习惯、对于哪些故障类型比较关注,尽可能多的收集故障类型。
竞品调研:一般来说对于陌生的产品和系统,为了避免更少的踩坑,还是需要多多体验市场上存在的产品,包括成熟和不成熟的系统都可以去参考,能够产生许多的灵感。
以上2点是做该系统比较简单的工作,以下内容则涉及到故障监控与告警系统具体的产品设计方案。
1. 故障监控与告警系统的基础
首先要做故障的监控,就必须要了解和清楚怎么去监控设备硬件和软件的相关信息,主要通过如下方式去监控故障:
只有以上工作做到位后,才能具备监控和告警的基础,不然没有这些信息,后面也没办法实现故障的监控和告警。
2. 故障监控的类型
前期在故障类型较少的时候,有可能是通过开发代码定义故障类型,但是为了后续系统的拓展和兼容性,建议还是通过页面配置的方式来实现故障类型定义。
以下通过智能硬件的故障类型来给大家详细说明,故障类型的编辑可能涉及到如下字段来区分故障:
以上字段是对一个故障最基础的编辑和定义,当上报一个故障id时,则可以通过故障id去拉取该故障的其他信息。不同的业务可能对于故障的定义字段都不尽相同,需要根据业务去灵活制定。
3. 故障告警的规则和策略
正如上文提到的,故障监控和告警是两个不同的事情,监控是把所有上报的信息都会记录下来,所以信息一定是多而杂的,这些过多的信息如果都推送给相应的人员,那很可能是大大提高了用户处理错误信息的工作量,所以是需要规则和策略去筛选准确的故障信息进行推送。
那么告警规则和策略包含哪些信息呢?简单粗暴的来说,一个告警规则和策略需要包含告警的统计指标,告警推送的条件、告警的收敛规则。
举例如下:
比方说针对网络故障的告警,则对应的监控项为网络速度,那么创建一个告警规则需要定义如下信息:
那么当某台设备30分钟内上报网速小于20kb/s大于等于3次时,就需要通过告警推送到对应的人员。告警规则也是可以通过前端页面去灵活配置的,这也大大提高了系统的拓展性和广泛使用性,可以及时跟进数据情况修改和新增相应的告警规则。
4. 故障告警的方式和渠道
当系统监控到需要推送告警信息时,需要通过什么渠道推送告警信息呢?这里也涉及到前期用户调研的一些内容,一定是需要通过最简单、高效的渠道去推送到运维人员手中,主要有以下方式和渠道来进行推送告警信息:
以上列了主要的几种告警推送的方式和渠道,其实还包括一些其他的方式,比方说钉钉群、微信群、短信等,至于需要通过哪种方式去推送告警信息,一般都是需要根据业务来确定,也不一定是只通过一种方式去触达。为了保证告警的效果,可以多种方式同时推送,但是前期也需要平衡开发的成本和收益,选择一种最高效、开发难度最小的进行触达。
三、故障监控和告警系统总结
故障监控和告警系统其实相对来说还是一个比较简单的系统,但是如果需要从0到1的去搭建这样一个系统也是需要注意比较多的情况,尽可能系统化、模块化的去设计这样一个系统。
来源:机房动力环境监控 http://www.create-china.com.cn 本文采集于网络,如有问题有联系删除
北京金恒智能系统工程技术有限责任公司 版权所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.
法律声明:未经许可,任何模仿本站模板、转载本站内容等行为者,本站保留追究其法律责任的权利!
电话:86+10-62104277/2248/4249 传真:86+10-62104193-819 京ICP备10010038号-2网站XML
智慧机房
在线体验