タイムスタンプとコンテナ名を用いたログ集計による障害原因の調査時間の短縮

CDSL-TR-245 Aug. 05, 2025 更新: Aug. 05, 2025 ダウンロード: 27

概要

ログはシステムの実行記録であり，開発や保守に使用される．ログファイルはFilebeat で収集され，Logstash によって構造化される．構造化されたログはElasticsearch に保存され，Kibana で可視化される．ログファイルの収集にFilebeat を使用する．収集したログはLogstash で構造化される．構造化されたログはElasticsearch で保存され，ログはKibana で可視化する．システムで障害が起きた際，管理者はKibana でログを検索し，原因調査を行う．2025 年3 月20 日から2025 年4 月20 日の期間にCDSL のログサーバでログが約140 万件出ていた．ログの検索をする際，約140 万件の中から障害の原因に関係するログを見つけるため，クエリ検索や時間の絞り込みを行う必要がある．課題は，障害が発生してログを調査する際にログの検索クエリの作成にスキルやログのメッセージを理解するための専門知識が必要である．そのため，スキルや経験が不足していると調査による原因の特定や解決に時間がかかることである．基礎実験ではSTNS の障害の原因調査でログの調査にかかる時間を計測した．障害の原因調査にかかった時間の合計は約238 分であり，ログの調査に約41 分であった．これは，全体の約17.2%であり，ログの調査にかかった時間は，全体の時間のうち2 番目に時間がかかっていた．提案手法は，Elasticsearch のログのタイムスタンプをもとに過去3 時間分のログを15 分ごとに件数で集計する．15 分ごとのログ件数から中央値を求め，最新の15 分のログ件数と比較を行う．中央値より最新の時間帯のログ件数が多い場合，異常有りと判断することで障害に関連するコンテナ名を特定する．評価実験では，STNS の障害とRook-Cephで起きた障害の2 種類のシナリオを対象に，管理者が特定した原因と提案ソフトウェアで特定した原因を比較し，各シナリオにおいて障害に関連するコンテナ名を検出できたかの検出率で評価する． ...

画像プレビュー