データサイズの相関係数を用いた未使用VMの特定と圧縮によるバックアップフォルダのストレージの削減

東京工科大学クラウド・分散システム研究室では,サーバ内のVM のバックアップデータをNASで管理している.サーバ内の全VM をフルバックアップすると1 日あたり3TB のストレージが必要になる.このバックアップデータは5 日間保持されるため,合計で15TB のストレージが必要になる.バックアップデータの圧縮を行うことでフォルダのデータサイズを縮小させることができる.しかし,バックアップデータからVM を復元するためには解凍する必要がある.そのため,作業を行うVM のフォルダを圧縮するべきではない.よって,作業をしていないVM のフォルダのみを圧縮する必要がある.作業をしていないVM を判断する方法として,バックアップデータのファイルのサイズを分析することが挙げられる.課題はバックアップファイルのサイズのみを考慮した場合,圧縮するフォルダと圧縮しないフォルダの判断が出来ないことである.この課題の解決方法として,圧縮対象のバックアップデータ量と作業していないVM のデータ量の変化相関係数を算出し,圧縮するフォルダを自動選別する手法を提案する.評価実験では20 台のVM で相関係数を算出し,選別の際の相関係数の閾値を0.5 から0.1 ずつ増加させた際の正解率を比較した.評価実験では,VM を使用している人にアンケートを行い,圧縮するフォルダの正解率を出して評価を行った.評価実験を行った結果,一番高い正解率は85.0%であり,その際の相関係数の閾値は0.5 と0.6 である. ...