ファイルの拡張子と中身の有無によるフィルタリングと情報エントロピーをもちいたログの特定
- 著者:
- ラベル: CDSL-TR-212
- 公開日: Dec. 02, 2024
- 更新日: Dec. 02, 2024
- ダウンロード数: 0
ログはシステムの障害対応に使用される.ログの管理や検索にはElasticsearch を使用することがある.その際,ログファイルを収集するためにFilebeat を使用し,収集したログはLogstash で変換され,Kibana で可視化する.Filebeat では収集対象のログファイルのディレクトリ指定を行う必要があり,ログファイルがシステム内のどこにあるのかを探す必要がある.しかし,/var/log ディレクトリ以外かつ,拡張子が.log 以外のログファイルの特定には時間がかかる.そこでログファイルがVM 内のどこにあるのかを特定する手法を提案する.提案手法では,ファイルの情報エントロピーをもちいてログファイルの特定を行う.ファイルの拡張子による除外を行った後,ファイルの各バイト値の出現頻度から情報エントロピーを計算し,情報エントロピー値が提案手法の基礎実験より算出した閾値(0~2 と5~6) の範囲にあるファイルをログファイルとする.評価結果として,ログファイル検出率は,MySQL では10 個のログファイルのうち9 つのファイルであり90 %,Apache とSQLite では7 つ,HAProxy とRedis では6 つのログファイルのうちすべてのログファイルをしたので100 %となった.ログファイル未検出率は,MySQL では10個のログファイルのうち1 つのファイルであり10 %,Apache とSQLite では7 つ,HAProxy とRedis では6 つのログファイルのうち未検出のログファイルはなかったので0 %となった.ログファイル誤検出率は,MySQL では検出したファイル29 個のうち非ログファイルは20 個であり約68.97 %,Apache では検出したファイル7 個のうち非ログファイルは7 個であり0 %,SQLite では検出したファイル10 個のうち非ログファイルは3 個であり30 %,HAProxy では検出したファイル15 個のうち非ログファイルは9 個であり60 %,Redis では検出したファイル8 個のうち非ログファイルは2 個であり25 %となった. ...