システム障害の復旧時におけるPod数の最も多い対象のアラートを選出することによるチケット登録件数の限定
- 著者:
- ラベル: CDSL-TR-247
- 公開日: Aug. 07, 2025
- 更新日: Aug. 07, 2025
- ダウンロード数: 1
障害を迅速に解決することは,ビジネスへの影響を最小限に抑え,ユーザの信頼を維持するうえで重要である.障害の発生時に通知されたアラートはチケットシステムへ登録される.チケットシステムへ登録されたチケットは1 次調査の対応者によって調査される.障害発生時に障害発生箇所に関連して障害発生箇所以外からアラートが通知されチケットとして登録される場合がある.課題は障害の発生箇所と障害の発生箇所以外のアラートが通知されチケットとして登録されてしまうことで,1 次の調査者がどのチケットから対応すればいいか判別がつきにくくなることである.提案では,障害発生時にチケットシステムに登録されるアラートを限定するためにPod 数を用いる.監視対象に配置されているKubernetes のPod の台数を対象ごとに取得し,その中で最もPod 数の多い対象にアラートを限定し,チケットとして登録する.基礎実験では,2025 年4 月26 日に発生したシステム障害で登録されたチケットの件数をまとめる.障害はKubernetes クラスタのNode 上に配置していたvmware exporter のPod が,メトリクス取得元であるESXi の電源停止により正常に動作しなくなっていた事例である.この障害は監視対象であるNode がダウンしたことによってPod のアラートが通知され,チケットとして登録された.そのため,障害発生箇所をNode のチケットとし,障害発生箇所以外をPod のチケットとした.チケットの件数は,障害発生箇所であるNode のチケットが1 件,障害発生箇所以外で通知されたPod のチケットが8 件登録されており,障害発生箇所以外のチケットも登録されていることを確認した. ...