コンテナ監視のメトリクスとログの記録時間の照合による原因を記載したアラートの通知

監視システムは,対象に異常が起きた際にアラートを通知する目的で使用される.これらのシステムがメトリクスを取得し,監視することで,システムを安全に運用している.アラートの閾値や継続時間は監視システムの管理者の判断に依存している.課題は,システムの異常がアラートとして通知されず,異常に対する調査や対処ができないことである.提案は,監視システムにおいて監視対象のアプリケーションのHTTP ステータスコードが200 以外である場合に,その原因箇所を監視対象のログを確認することで特定し,異常があった場合にアラートを通知する手法である.ログの確認は,Istio-proxy,アプリケーションコンテナ,ノードの順に行う.提案手法によるアラート通知は,監視システムに設定されたアラートルールとは別に行われる.基礎実験を,監視対象のアプリケーションのHTTP ステータスコードが503 である4 件のケースを対象として行い,原因箇所を特定できるかを検証した.また,ログ抽出の条件のうちログの記録時間に関する条件が,実際の異常に対してログを取得できる条件であるかを評価した.既存のアラートルールでは,HTTP ステータスコードが200 以外の状態が180 秒間継続した場合にアラートを通知する設定となっているため,これら4件のケースはアラートルールによるアラート通知の対象外である.結果は,4 件中3 件のケースにおいてログにもとづいた原因箇所の特定ができた. ...