Socket timeout対策(Nagios)

2021-06-18

Nagiosで監視していると、以下のアラートが検知される事が多くなりました

Additional Info:
CHECK_NRPE: Socket timeout after 10 seconds.

サーバー自体はダウンやネットワーク障害が発生してるわけでなく、監視対象のサーバーの負荷が高かったりすると、監視サーバーと監視対象のサーバーとの間で応答が遅くなりタイムアウトが発生するのかと思います

根本的な改善ではないですが、nrpeのタイムアウトの設定を10秒から30秒に変更すれば改善されると思います
監視対サーバーで以下の設定ファイルを変更して、Nagiosを再起動すればOKです

設定ファイル:/usr/local/nagios/etc/objects/commands.cfg(環境によってディレクトリとは異なります)
変更箇所:設定ファイルで「-t 30」のオプションを追加する

# vi /usr/local/nagios/etc/objects/commands.cfg

define command{
    command_name    check_nrpe
    command_line    $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$ -t 30
}
# /etc/init.d/nagios restart

Linux

Posted by admin