構成管理データベースを使用した重みづけとアラートの通知件数の削減
- 著者:
- ラベル: CDSL-TR-225
- 公開日: Dec. 24, 2024
- 更新日: Dec. 24, 2024
- ダウンロード数: 0
障害発生時に原因の切り分け作業が遅くなると企業は金銭的リスクを負う.オンコールエンジニアは障害発生時に一時的な原因箇所の切り分けとエスカレーションを行う.課題は障害の発生箇所が1 箇所であることに対して障害の発生箇所ではない監視対象からアラートが通知されることである.障害の発生箇所以外からアラートが通知されることで,エスカレーションにかかる時間が増加する.本稿ではシステム同士の構成を管理する構成管理データベースから依存関係を取得し重みを算出する.また通知されたアラートの中から重みの値が最大値の対象とそれ以外のアラートでまとめることでアラート通知件数を削減する.評価実験ではシナリオを元に対象に対して障害を発生させる.評価指標は,通知されたアラート件数である.その後,通知されたアラートから重要なアラートと関連するアラートの通知件数,エスカレーションにかかる作業量の2 つを評価する.評価実験のシナリオは物理機器に接続するLAN ケーブルの接続不良とNFS サーバを配置するOS のファイルシステムの容量が80%を超えた際にNFS サーバ側とクライアント側の両方でアラートが通知される2 つである.通知されたアラートの件数で比較対象のAlertManager のみをもちいた場合のアラートの通知件数はLAN ケーブルの接続不良の障害シナリオでは39 件となり,NFS サーバを配置しているOS のファイルシステムの容量が80%を超えたシナリオでは4件となった.AlertManager と提案ソフトウェアを組み合わせた場合のアラート通知件数はLAN ケーブルの接続不良の障害シナリオでは2 件,NFS サーバを配置しているOS のファイルシステムの容量が80%を超えたシナリオでは2 件となった.結果的にアラートの通知件数を約91%削減できた.また通知されたアラートをまとめた際のLAN ケーブルの接続不良の障害シナリオでは,関連して通知されたアラートがAlertManager のみの場合が33 件となり,AlertManager と提案ソフトウェアをもちいた場合が1 件であった.障害発生箇所から通知された重要なアラートはAlertManager と提案ソフトウェアをもちいた場合が1 件でAlertManager のみの場合が6 件となった.エスカレーションにかかる作業量はAlertManagerと提案ソフトウェアの場合が0.5,AlertManager のみの場合が0.84 となった. ...