障害アラートから生成AIのスクリプトの適用とメトリクスのしきい値を基準とした正常判定による復旧時間の短縮

アラートに対する対応は学生の手作業によって行われており,アラートの内容確認,原因調査,必要に応じた復旧作業までの一連の作業は個人の知識や経験に依存している.課題は,アラートの通知から監視担当の学生が行う復旧に時間かかかることである.本稿では,アラート通知に含まれるエラー内容やメトリクスを抽出,整形し,それをもとに対処スクリプトを生成するソフトウェアを提案する.提案手法では,監視システムから通知されるJSON 形式のアラートをもとに,生成AI に対してプロンプトを構築し,障害の復旧を行えるスクリプトを生成する.生成されたスクリプトを一時的に実行し,設定されたしきい値と比較して,メトリクスに異常があるかを判定する.異常がある場合は,再度プロンプトを構築する処理を行う.1 回目のプロンプトは,JSON 形式のアラートのみを入力として固定の文で構築し,2 回目以降は,スクリプトの実行結果やエラー内容,しきい値との差分を含めてプロンプトを更新する.基礎実験は,Redmine のPod のメモリ使用率が90%を超えた状況を対象として行った.その際,監視システムで設定されたメモリ使用率のしきい値を90%として,生成されたスクリプトの実行によってメモリ使用率が90%を下回るかどうかで生成されたスクリプトの判定を行った.その結果,スクリプトの実行後に対象のメトリクスが改善されたかどうかを基準とする方が,より正確な評価ができることが分かった. ...