Zabbixサーバーのキャッシュの使用率が高くなり障害検知(Zabbix server: More than 95% used in the value cache)

Zabbix Serverの障害メールで以下のメールが届きました。

Problem started at 17:06:40 on 2025.02.20
Problem name: Zabbix server: More than 95% used in the value cache
Host: Zabbix_Server01
Severity: Average
Operational data: 95.07 %
Original problem ID: 18938

この障害ですが、Zabbixサーバーのキャッシュの使用率が95%を超えている状態です。Zabbixサーバーのキャッシュは、トリガーの評価を高速化するために使用されるメモリ領域でこの領域が高くなる原因は以下となります

  • 監視アイテム数の増加: 監視アイテム数が増えると、値キャッシュに格納されるデータ量も増えるため、使用率が高くなる可能性があります。
  • トリガー数の増加: トリガー数が増えると、トリガーの評価処理が増えるため、値キャッシュの使用率が高くなる可能性があります。
  • 監視間隔の短縮: 監視間隔を短くすると、収集されるデータ量が増えるため、値キャッシュの使用率が高くなる可能性があります。
  • Zabbixサーバーの性能不足: ZabbixサーバーのCPUやメモリ性能が低い場合、値キャッシュの処理が追いつかなくなり、使用率が高くなる可能性があります。

対策としては、Zabbixサーバーの再起動すればメモリキャッシュは開放されるので、今回はこの方法で対応します

$ sudo systemctl restart zabbix-server.service

再起動すると、以下のようにメモリキャッシュがクリアされていますので、Zabbixサーバーのキャッシュの障害は解消されると思います

上記のZabbixサーバーのサーバーでの対応は一時的となります。根本的な対策としては以下の方法となります

  • 値キャッシュの設定確認:

    • zabbix_server.conf ファイルで VMwareCacheSize がコメントアウトされている場合、デフォルト値の8Mが使用されています。
    • 必要に応じて、VMwareCacheSize の値を増やすことを検討してください。ただし、メモリ不足にならないように注意が必要です。
      # VMwareCacheSizeを32Mに変更
      $ sudo vim /etc/zabbix/zabbix_server.conf
      VMwareCacheSize=32M
      
      # 設定反映の為にZabbixサーバーを再起動
      $ sudo systemctl restart zabbix-server.service
  • 監視アイテム数、トリガー数、監視間隔の見直し:

    • 不要な監視アイテムやトリガーがないか確認し、削減を検討してください。
    • 監視間隔が短すぎる場合は、必要に応じて間隔を長くすることを検討してください。
  • Zabbixサーバーの性能調査:

    • ZabbixサーバーのCPU使用率、メモリ使用率、ディスクI/Oなどを監視し、性能ボトルネックがないか確認してください。
    • 必要に応じて、Zabbixサーバーのハードウェアリソースを増強することを検討してください。
  • Zabbixサーバーのログ確認:

    • zabbix_server.log ファイルにエラーや警告が出ていないか確認してください。
    • エラーや警告が出ている場合は、原因を特定し、対処してください。

スポンサーリンク

0
0