障害が発生したサーバのSSHの接続ユーザ数が最も多いチケットの通知による発行から調査までの時間の短縮
- 著者:
- ラベル: CDSL-TR-243
- 公開日: Aug. 04, 2025
- 更新日: Aug. 04, 2025
- ダウンロード数: 1
東京工科大学コンピュータサイエンス学部の研究室であるCloud and Distributed Systems Labo-ratory(以後,CDSL とする) では,ESXi がインストールされている10 台のサーバが稼働していることを確認するために監視システムを導入している.監視システムがアラートを作成すると,その内容をもとにチケットが作成される.1 次チケットの担当者として割り当てられた学生は,調査を行う.課題は,1 次チケットが発行されてから1 次チケットの担当者が1 次調査を開始するまでに時間がかかることである.理由は,調査が行われていない1 次チケットのうち,どのチケットから調査をすべきなのかについて明記したルールがなく,発行日時が古いチケットの調査が遅れることがあったためである.基礎実験では,1次チケットが発行されてから1 次チケットの担当者が1 次調査を開始するまでの時間を計測した.1 次チケットは全28 件あり,調査が開始された1 次チケットは26 件である.そのうち,0 分から1440 分のチケットが5 件,1440 分から2880 分のチケットが1 件,2880 件から4320 分のチケットが2 件,4320 分から5760 分のチケットが2 件,5760 分から7200 分のチケットが1 件,7200 分から8640 分のチケットが0件,8640 分から10080 分のチケットが2 件,10080 分以上が経過しているチケットが13 件である.1 次調査の開始までに1 週間以上が経過していたチケットがあり,調査が迅速に行われていないといえる.提案の対象は,ICMP パケットによるサーバとの疎通確認に失敗したことを示すアラートと,ノードのメトリクスが異常であることを示すアラートのチケットである.提案では,アラートが通知された監視対象であるサーバに対してICMP パケットによる疎通確認を行い,返答がない場合は「疎通不可」,返答がある場合は「疎通可能」の2 種類のラベルのいずれかをチケットに付与する.同時に,1 次チケットが発行された時刻におけるサーバのSSH の接続ユーザ数をチケットのスコアとする.ESXi をハイパーバイザーとするサーバからアラートが通知されている場合は,ESXi 上の仮想マシンにインストールされているUbuntuServer のSSH の接続ユーザ数をそれぞれ計測し,合計した値をチケットのスコアとする.その後,スコアが最も高いチケットを1 次チケットの担当者に通知する.スコアが同じチケットがある場合は,ラベルにもとづいて並び替えられる. ...