障害発生時における解決ステータスの確認までのアラート抑制によるチケットの集約
- 著者:
- ラベル: CDSL-TR-240
- 公開日: Jul. 30, 2025
- 更新日: Jul. 30, 2025
- ダウンロード数: 1
東京工科大学コンピュータサイエンス学部の研究室である, Cloud and Distributed Systems Labo-ratory のシステム監視では, Prometheus とAlertmanager から通知されたアラートをチケット作成用のシステムでチケットにする. 課題は, 障害の発生時に冗長なチケットが作成されていることである. 同一のホストからの同じアラートに対して個別にチケットが作成されると, 運用者の対応負荷や視認性の低下を招き, 障害対応の遅延要因となる. 本研究では, 監視システムにおいて, 同じアラート名の過去のアラートのステータスがResolved になっているかを確認し, チケット数を抑制する手法を提案する. アラート発生時にalertname とinstance を取得し,過去に同名アラートがResolved 状態になっているかを確認することで, チケットを発行するか, 発行しないかを制御する. 土曜日から翌週の金曜日までは, 状態を維持し,Resolved にならなかった場合はクローズし, 新しくチケットを作成する. 重複したチケットについては, 既存チケットのコメントに追記していくことで, 履歴を残していく. 同一アラートでホストが異なる場合は, 2件目が登録されたところで, 共通のルートチケットを作成し, そこの子チケットに登録して集約していく.重複したチケットについては, コメントに追記していく. 基礎実験では,2025 年の6 月16 日から7 月8 日にCDSL で通知されたアラートの3191 件の内, Redmine にチケットが登録され, 1 次対応を行った33 件のチケットを使用した.そこで重複しているチケットを調べ, 何件を集約できるか確認した. その結果, 33件中27 件が重複しているチケットとなり6 件まで集約することができた. ...