レーベンシュタイン距離の正規化をもちいたログのグループ化による検索時の表示件数の削減

ログは,システムの動作状況を記録したデータであり,システム障害の原因特定に使用される.ログの収集から可視化までの過程で,Fluentd,Elasticsearch,Kibana が使用される.Fluentd でログを収集し,Elasticsearch で管理,検索が行われる.Elasticsearch に格納されたデータをもとに,Kibana で可視化する.課題は,管理者が原因調査のためにログを検索する際に,冗長なログによる原因箇所の見逃しにより原因特定に時間がかかることである.提案手法では,比較を行うログのフィールドの定義とレーベンシュタイン距離の正規化をもちいて類似度を算出し,ログをグループ化してブラウザで表示する.基礎実験から算出した類似度をもとに閾値をレーベンシュタイン距離の正規化で0.76 とし,0.76 を超えた複数のログのグループ化を行う.評価では,提案適用前と提案適用後におけるログの表示件数を比較した.実験では,Elasticsearch に格納された1998 年サッカーワールドカップのアクセスログを対象とし,クエリを使用してログの表示件数を確認した.提案適用前の検索時の表示件数が79 件,71 件,87 件である3 つのクエリを使用して比較を行った.結果は,表示件数が79 件の場合,30 件のログがグループ化により14件になり,表示件数が63 件となった.その結果,約20.25%のログが削減された.表示件数が71 件の場合,23 件のログがグループ化により10 件になり,表示件数が58 件となった.その結果,約18.30%のログが削減された.87 件の場合,16 件のログがグループ化により7 件になり,表示件数が78 件となった.その結果,約10.34%削減された.したがって,類似したログをグループ化することにより検索する際の表示件数を平均で約16.30%削減することができた. ...