Sock Shopにおける負荷試験を反映したPodのCPUとメモリ使用率の閾値によるアラート設計

マイクロサービスで構成されているEC サイトではスパイクアクセスの発生による障害時にアラートストームが起こる.これにより,管理者の対処が阻害され障害復旧の遅れにつながる.復旧が遅れることで,サービスの運営元は多大な損失を被る.マイクロサービスで動作しているEC サイトのデモアプリケーションとしてSock Shop がある.本稿では,このSock Shop を対象にアラートストームを起こさないための提案をしている.提案として,仮にCPU 使用率とメモリ使用率の値が80%を閾値としアラートを出す条件とし,負荷試験を行い閾値を適当な値にする.本稿で構築したSock Shop のスパイクアクセス発生タイミングと提案で使用するメトリクスとエラーの関係に関しての実験をした.実験の結果,CPU 使用率は負荷の大きさによって値に変化があったが,メモリ使用率は値の変化が極めて小さかった.また,提案で定めた閾値の80%のような一意の値は,アラートの閾値に適さないことが判明した.今後は,値の上がり幅やレスポンスタイムのような別のメトリクスをアラート条件として実験をする. ...