WebアクセスログのステータスコードとURLの分類による検索の応答時間の短縮

システム管理者は原因を調査することで,システム障害の対応策を決める.ログはシステムの動作を記録したデータであり,原因の調査に用いられる.システム管理者はログを検索することでシステム障害の原因の絞り込みや発生時刻を特定している.検索の応答時間はシステム障害が解消するまでの時間に含まれる.したがって,検索の応答時間の増加はシステム障害が解消するまでの時間の増加につながる.課題はシステム障害の原因調査のためにログ検索をする際に,ログの検索対象の件数が多くなるにつれ,検索の応答時間が長くなることである.提案ではHTTP アクセスログから共通したステータスコードとURL ごとに分けて保存することで,ログの検索時に条件に当てはまらない検索対象を検索する時間を無くし,検索の応答時間を短縮した.基礎実験として障害対応の時間を調査するために,Kubernetes クラスタ内で発生したEvicted エラーの原因を調査した時間を記録した.システム障害対応で行った項目のうち,Web サーバーを構築しているFlask のPod のログ検索の時間が合計で4 分であった.システム障害の対応時間の全体が26 分であったため,約15%がログ検索の時間であることが分かった. ...