Table of Contents

Ambari Server Alert 的故障排查

问题现象

本篇文章适用于 HDI(3.6) ,内置 Ambari-2.5 以上版本中常见的异常报警:

There are xx stale Alerts from 1 host(s):

问题分析

如果在 Ambari Server 中突然发现了大量的 stale alerts(>20),通常来说是因为 Ambari-agent 出现了线程异常,导致无法正常将 metrics 的结果返回给 Server。

该问题通常表现为所有的 HDI 服务都可以正常访问,但是 Ambar 监控界面中断断续续的出现 Ambari Server Alert 并且会断断续续的出现。

问题截图如下:

There are 36 stale Alerts from 1 host(s):

01 02

解决办法

  1. 使用 putty 登入头节点。

  2. 使用命令确认 Ambari-agent 的 PID: Ambari-agent status 。

    03

  3. 使用命令: top |grep 5130 确认 Ambari-agent 进程的 CPU 使用率. 5130 需要替换成上条命令中的结果。

    04

  4. 如果 CPU 使用率为 100% 则使用命令: service Ambari-agent restart 来重启 Ambari-agent service.

  5. 稍等几分钟,再次刷新 Ambari 界面,Alert 消失。