サーバへのSSH接続時間にもとづく順位付けによるアラートの並べ替え
- 著者:
- ラベル: CDSL-TR-232
- 公開日: Jan. 20, 2025
- 更新日: Jan. 20, 2025
- ダウンロード数: 0
Cloud and Distributed Systems Laboratory(以下CDSL と呼ぶ) では,7 台の物理サーバの死活監視を行っている.監視サーバとして,Prometheus とAlertmanager をもちいている.CDSL の学生は,物理サーバに対してICMP による通信エラーのアラートを受け取ると,物理サーバの再起動や電源の起動を行うことで対処する.Alertmanager はアラートをseverity ごとにグループ化する設定を行っているため,すべてのアラートのseverity が同じになることがある.課題は,グループ化されたアラートのseverity が全て同じ値で設定されているため,オンコール担当の学生がどのアラートを解決するべきなのか判断ができないことである.そのため,解決されるべきアラートのエスカレーションが後回しになり,MTTR が増加する.本稿では,物理サーバごとに,障害が発生する前に学生がサーバにSSH 接続した時間の割合を表す直前接続度を設定し,直前接続度の値が大きいものから順番に,順位をつける方式を提案する.直前接続度は,サーバへのSSH 接続時間が,障害発生時刻から遡る時間内のどのくらいの割合を占めるのかというVM ごとの値であり,VM ごとの直前接続度を平均したものが物理サーバごとの直前接続度となる.また,順位の高いものから並べたアラートを通知する.評価実験では,各物理サーバにおいてVM を所有しているCDSL の4 年生の人数をもとにアラートの通知順の指標を作成した.そして作成したアラートの通知順の指標に対して,提案ソフトウェアから通知されるアラートの通知順が一致するかどうかを比較した.その後,いくつのアラートが通知順の指標と一致しているかを指標との一致率として表し,指標との一致率を評価する.指標との一致率は,グループ内の全アラートの件数のうち,いくつのアラートが指標と同じ通知順であったのかを,百分率で表す.実験内容は,物理サーバとスイッチングハブを接続するLAN ケーブルを引き抜くことで,ICMP による通信エラーのアラートを通知することである.結果は,6 つのアラートのうち,2 つのアラートの通知順が指標の通知順と一致したため,指標との一致率が約33%であった. ...