Socket timeout対策(Nagios)
Nagiosで監視していると、以下のアラートが検知される事が多くなりました
Additional Info:
CHECK_NRPE: Socket timeout after 10 seconds.
サーバー自体はダウンやネットワーク障害が発生してるわけでなく、監視対象のサーバーの負荷が高かったりすると、監視サーバーと監視対象のサーバーとの間で応答が遅くなりタイムアウトが発生するのかと思います
根本的な改善ではないですが、nrpeのタイムアウトの設定を10秒から30秒に変更すれば改善されると思います
監視対サーバーで以下の設定ファイルを変更して、Nagiosを再起動すればOKです
設定ファイル:/usr/local/nagios/etc/objects/commands.cfg(環境によってディレクトリとは異なります)
変更箇所:設定ファイルで「-t 30」のオプションを追加する
# vi /usr/local/nagios/etc/objects/commands.cfg define command{ command_name check_nrpe command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$ -t 30 } # /etc/init.d/nagios restart
ディスカッション
コメント一覧
まだ、コメントがありません