1服务器硬件监控需求背景
随着IT业务系统的发展,越来越多的硬件资源投入使用。相比于以往的资源不足时代,当前基本都是资源过剩的状态,基础资源性能已不是最大的问题。现在用户更多关系的是硬件的状态。比如硬盘、内存条、风扇、电源是否有故障。因为这些基础部件大多做了冗余设计,坏掉一个可能从操作系统层面无法察觉,但已埋下隐患。
传统对于服务器的运维场景是需要大量的人员频繁进出机房观察设备状态指示灯进行巡检记录。此种方式不仅需要耗费大量的人力,而且还会存在故障发现不及时、不准确的问题。
2PIGOSSBSM硬件监控解决方案
2.1对X86服务器的监控
PIGOSSBSM监控系统可通过带外、带内方式对X86服务器硬件状态进行全面的监控,包括处理器、内存、硬盘、电源、风扇、温度、插槽等硬件状态和配置信息,同时也能够实时采集到服务器的硬件报错日志,代替管理员的日常机房巡检工作,使管理员实时了解到服务器底层硬件的运行情况。带外方式不通过操作系统,即使系统关机的状态下仍可监控服务器的基本硬件健康状况
能够监控到目前主流x86服务器和刀箱服务器类型,包括IBM、DELL、ThinkServer、HP、华为、浪潮等及其他支持IPMI协议的服务器。
图表:服务器硬件监控列表
同时系统也能够自动采集到服务器的品牌、型号、SN、PN,每个部件的配置信息,如内存频率、大小、厂商、序列号、PN号等资产配置信息。
图表:服务器硬件状态监控指标列表
图表:服务器物理硬盘状态及配置信息监控
图表:服务器物理内存状态及配置信息监控
图表:服务器硬件日志监控
PIGOSSBSM监控系统以统一的视图展现服务器的整体信息和健康度。同时能够以清晰形象的图标呈现服务器各个硬件组件的运行状态,当服务器的某个组件出现问题时,系统能够以不同的颜色提醒出现问题的硬件部件,如下图:
图表:服务器硬件一体化视图展现
2.2对小型机的硬件监控
PIGOSSBSM不仅支持对X86服务器的监控,同时也支持IBM、HP小型机的硬件状态监控。此外,PIGOSSBSM系统融入了一线工程师的运维经验,还能够对AIXErrorlog报错日志进行监控,真正从运维的角度,实现对服务器硬件信息的全面监控。
图表:对AIX服务器硬件errorlog监控信息
2.3对刀箱的监控
PIGOSSBSM支持对华为刀箱、HP刀箱全面的监控,不仅仅能监控到刀箱的硬件运行状态,也能监控到每个刀片的运行状态,对于一些关键的指标,如HBA卡、RAID卡、系统日志、刀片日志等。
PIGOSSBSM对刀箱的监控同样支持一体化的视图呈现,可以清晰的看到刀箱的整体状态和健康度,以及刀片的硬件运行状态,整个刀箱的运行情况一目了然。
图表:华为刀箱硬件状态一体化视图展现
3服务器远程管理
PIGOSSBSM提供对于x86服务器的远程vKVM功能。实现远程开关机、重启、远程虚拟KVM、虚拟媒体等功能,可以替代传统光驱、USB、键盘、鼠标。该功能不依赖于操作系统,不占用系统资源和网络资源,无需安装任何代理程序。
该功能解决了在服务器运维管理中,对复杂昂贵的KVM基础设施的需求。可在一个简单界面中,访问控制各不同品牌服务器。
图表:服务器vKVM管理
图表:服务器远程桌面显示
4硬件资产信息统计管理
PIGOSSBSM不仅能够监控服务器硬件状态,而且还提供对于服务器资产信息的统计管理功能。
系统能够自动采集服务器资产配置信息功能,可自动采集服务器的厂商、型号、SN、PN等关键信息,并且可以自动同步到相应的资产记录当中。可自定义资产购入时间、维保时间、维保到期时间等维护信息。当维保到即将到期,会出现高亮提示,实现资产全生命周期管理。
图表:资产信息列表
图表:服务器资产信息详情
5告警管理及通知
集中的告警管理是监测平台的最重要管理功能之一,系统提供完善的告警集中触发、查询、通知、处理、统计分析等功能。
PIGOSSBSM支持告警的屏蔽(黑名单)、压缩和过滤策略,减少误报。支持对持续重复告警进行压缩显示,避免大量重复告警造成信息拥堵。支持连续N次采集违反阀值才生成异常告警,支持M次采集中至少发生N次才产生告警等告警分析策略。
告警能够通过声音、邮件、短消息、