Ambari Server Alert 的故障排查
问题现象
本篇文章适用于 HDI(3.6) ,内置 Ambari-2.5 以上版本中常见的异常报警:
There are xx stale Alerts from 1 host(s):
问题分析
如果在 Ambari Server 中突然发现了大量的 stale alerts(>20),通常来说是因为 Ambari-agent 出现了线程异常,导致无法正常将 metrics 的结果返回给 Server。
该问题通常表现为所有的 HDI 服务都可以正常访问,但是 Ambar 监控界面中断断续续的出现 Ambari Server Alert 并且会断断续续的出现。
问题截图如下:
There are 36 stale Alerts from 1 host(s):
解决办法
使用 putty 登入头节点。
使用命令确认 Ambari-agent 的 PID: Ambari-agent status 。
使用命令:
top |grep 5130
确认 Ambari-agent 进程的 CPU 使用率.5130
需要替换成上条命令中的结果。如果 CPU 使用率为 100% 则使用命令:
service Ambari-agent restart
来重启 Ambari-agent service.稍等几分钟,再次刷新 Ambari 界面,Alert 消失。