ファイルにおける行ごとの最頻文字数の一致率を用いたログの特定
- 著者:
- ラベル: CDSL-TR-199
- 公開日: Aug. 01, 2024
- 更新日: Aug. 01, 2024
- ダウンロード数: 0
システムに障害が発生した際,管理者はログを検索し,原因の特定を行う.ログを検索する際,Elasticsearch を使用する場合があり,ログファイルを収集するためにFilebeat を使用し,収集したログはKibana で可視化する.その際,Filebeat では収集対象のログファイルのディレクトリ指定を行う必要があり,それらは管理者が行う.その場合,VM 内の多数あるファイルの中からすべてのログファイルの収集に時間がかかる.そこで本稿ではログファイルがVM 内のどこにあるのかを自動で識別する手法を提案する.本稿の提案手法では,ファイルを文字単位で分析し,最も頻出する文字をカウントして1 行あたりの最頻文字の出現数の一致率が仮に10 %以上ならログファイルと識別する.基礎実験では,Ubuntu 24.04,K3s vl.29.5+k3s1,Helm v3.3.15.2,WordPress 6.5.4,Python 3.12 の仮想環境がインストールVM 内の全ファイルの読み込みに要する時間を測定した.実験の結果,226858 件のファイルの読み込みに約1141.67秒の時間を要した.評価実験では,VM 内のログファイルを探すために要した時間を評価する. ...