障害時のアラート名とホスト名の重複判定を用いたグルーピングによるチケット件数の削減

東京工科大学コンピュータサイエンス学部の研究室である, Cloud and Distributed Systems Labo-ratory(CDSL)では,研究室内で運用する物理サーバや,ネットワーク機器が稼働しているか確認するため監視を行っている.監視システムは設定されたメトリクスの値が閾値を超えた場合にアラートを通知する.通知されたアラートはチケットシステムに登録される.課題は,通知されたアラート1 件1 件を全てチケットとして登録しているため,次に同じアラートが通知された際に,重複してチケットが登録されてしまうことである.提案では,通知されたアラートからアラート名と,アラート内の監視対象のIP アドレスまたはホスト名を表す文字列であるinstance を抽出し,すでに登録されているチケット内に同じアラート名または同じinstance が含まれているかを判定してグルーピング処理を行う.同じアラート名で異なるinstance を含むアラートが通知された場合は,そのアラート名の共通の親チケットを作成し,その子チケットとして登録する.同じアラート名とinstance のアラートが通知された場合は最初に作成されたチケットにコメントという形で追加する.評価では,2025 年10 月21 日から11 月1 日の間で,全てのアラートをチケットとして登録している場合と提案ソフトウェアを適用した場合のチケット件数を比較した.提案手法は,最後に通知されてから4 時間を区切りとし,それ以降に通知されたアラートは新たに親チケットとして登録する.チケット件数を比較した結果,通知されたアラートを全てチケットとして登録する場合は342 件となり,提案ソフトウェアでは,135 件となった.提案ソフトウェアは通知された全てのアラートをチケットとして登録する場合と比較して約61%チケット件数を削減した.また,提案手法で削減された135 件のうち,アラート名が異なる場合かつinstance が異なる場合でチケットをグルーピングしていることはなかった.一方で,135 件のうち,同じアラート名かつ同じinstance だが,直近で4 時間以内にそのアラートが通知されていなかったため,まとめきれなかったチケットが62 件存在した. ...