showmountの出力で識別したNFSサーバの表示によるPromQLでのディスク容量が不足した原因特定の時間短縮
- 著者:
- ラベル: CDSL-TR-206
- 公開日: Aug. 07, 2024
- 更新日: Aug. 07, 2024
- ダウンロード数: 0
Network File System(以下NFS と定義する) は,ネットワーク上で複数のコンピュータがファイルシステムを共有できる仕組みである.NFS サーバにおいてディスク容量が不足する障害が発生した時,2次対応の担当エンジニアはPromQL を用いてディスク使用率のグラフを見る.課題は,PromQL のクエリ作成時に,ディスク容量が不足する障害の根本原因となるNFS サーバがどのIP アドレス及びホスト名であるかをドキュメントで見る必要があることである.これにより,ディスク容量が不足する障害の原因の特定にかかる時間が長くなってしまう.本稿の提案では,showmount コマンドの出力の差分の有無でNFS のマウント関係の変化を検知し,変化があった場合にクエリ対象の選択肢すべてに対してリモートでshowmount コマンドを使用することでNFS サーバの特定を行う.そして,NFS サーバにおけるディスク容量不足のアラートが発生した際に,特定したNFS サーバのIP アドレス及びホスト名をSlack のメッセージへ出力する.基礎実験では,CDSL の学生4 人にディスク使用率のグラフを表示するPromQL のクエリを用いて,NFS サーバを特定したうえでディスク使用率のグラフを見て,原因の特定を行ってもらった.PromQL のクエリ対象を選択し始めてから,どのIP アドレス及びホスト名に対して対処が必要であるかをSlack メッセージにて送信するまでの時間を計測した.結果は,平均約303 秒であった.このことから,NFS サーバを特定し,ディスク使用率が不足していることを確認するのには時間がかかると分かった.評価実験では,提案を適用した状態でCDSL の学生5 人にディスク使用率のグラフを表示するPromQL のクエリを用いて,NFS サーバのディスク使用率のグラフを見て,原因の特定を行ってもらう.PromQL のクエリ対象を選択し始めてから,ディスク容量が不足しているNFS サーバを特定するまでにかかった時間を評価する. ...