ログのタイムスタンプとコンテナ名での99パーセンタイルの閾値による障害原因の調査時間の短縮

システムで障害が発生した際,管理者はログを確認するためにKibana にアクセスし,障害の原因調査を行う.課題は,障害の原因調査でログを確認する際,専門知識やスキルが不足していると原因の特定や復旧に時間を要することである.提案手法では,タイムスタンプとコンテナ名をもとにログ件数をある時間間隔ごとにコンテナ名別に集計を行う.集計結果をコンテナ名ごとに昇順に並び替え,99 パーセンタイルの位置にあるログ件数を閾値とする.閾値を超える値を異常値として検出し,障害が発生しているコンテナ名を特定する.評価実験では,ユーザID を管理するサーバであるSTNS のbuilder コンテナで起きた障害をシナリオとして,検出の可否と提案ソフトウェアありの調査に要する時間の測定の2 つを評価指標とする.検出の可否の測定は,1 週間分の検索期間と集計間隔を変更し,提案ソフトウェアで障害が発生したコンテナを特定できたか測定する.提案ソフトウェアありの調査に要する時間の測定は,被験者が提案ソフトウェアを使用して障害の発生箇所を特定するまでの時間を計測し,人が行う必要がある作業と自動化が可能な作業をそれぞれ測定した.検出の可否の測定は,2025 年11 月3 日の14 時から2025年11 月3 日の17 時33 分に行った.検出の可否の測定では,集計間隔が1 分と5 分と15 分の場合,各検索期間で検出でき,10 分と30 分の場合,各検索期間で検出できなかった.提案ソフトウェアありの調査に要する時間の測定は,2025 年11 月5 日の16 時25 分から2025 年11 月5 日の16 時59 分に行い,障害原因の全体の調査時間は1892 秒であった.人が行う必要がある作業に要した時間は774 秒であり,全体の作業時間の約41%を占めている.一方,自動化が可能な作業に要した時間は1118 秒であり,全体の作業時間の約59%を占めている.この結果から,全体の作業時間の半分以上を自動化が可能な作業で占めていることがわかり,管理者が行う作業の一部を削減したことを確認できた.また,障害の原因調査における負担の軽減と調査全体の時間短縮により障害の原因調査の効率化に寄与している. ...