障害のアラートから生成AIで作成したスクリプトの適用によるメモリ使用率の減少判定をもちいた復旧時間の短縮
- 著者:
- ラベル: CDSL-TR-259
- 公開日: Dec. 06, 2025
- 更新日: Dec. 06, 2025
- ダウンロード数: 1
システム運用でのアラート対応では,監視担当者が障害の原因の調査や復旧作業を行う.課題は,アラートが通知された際に障害の復旧に時間がかかることである.提案手法は,監視システムから送信されるJSON 形式のアラートを提案ソフトウェアが受信し,生成AI をもちいて障害の対処を行う対処スクリプトを生成する.生成された対処スクリプトを監視対象に適用し,監視システムから取得したメトリクスをもとにしきい値が下回ったかどうかの判断を行う.しきい値を下回っていない場合,結果を生成AIのプロンプトに反映し再生成を行う.評価実験では,3 種類の障害事例を対象として提案手法が障害を復旧できたかどうかを検証した.1 つ目は,Redmine のPod のメモリ使用率がしきい値である90%を超えた事例を再現し,10 回の試行を行った.その結果,10 回の試行のうち8 回の試行では生成された対処スクリプトを適用させることでメモリ使用率が90%を下回ることを確認できた.2 つ目は,CDSL で運用しているDoktor のNode のメモリ使用率がしきい値である90%を超えた事例を再現し,同様に10 回の試行を行った.その結果,10 回のうち4 回の試行でメモリ使用率が90%を下回ることを確認できた.3 つ目は,Node のファイルシステム使用率が90%を超えた事例を再現し,10 回の試行を行った.その結果,10 回のうち1 回の試行でファイルシステム使用率が90%を下回ることを確認できた. ...