Sock Shopにおける異常となる応答時間の予測CPU使用量を閾値としたアラートストームの防止
- 著者:
- ラベル: CDSL-TR-169
- 公開日: Dec. 14, 2023
- 更新日: Dec. 14, 2023
- ダウンロード数: 0
マイクロサービスで動作しているEC サイトでは,アラートストームが発生することにより,管理者はこれの解読に時間を奪われ障害対応の遅れに繋がり,多大な損失を被る.デモアプリケーションとしてSock Shop がある.本稿では,このSock Shop を対象にアラートの条件を提案しアラートストームを防止することを目標とする.アラートストームの基準は30 分に50 件とする.基礎実験では,CPU 使用率が80%以上をアラート生成の条件とし,30 分間毎秒のユーザ数200 の負荷試験をした.結果,77 件のアラートが生成され,アラートストームが発生した.よって,CPU 使用率の閾値によるアラートは適さないとした.提案では,各サービスのCPU 使用量,応答時間を用いて応答時間が異常となる予測CPU 使用量を累乗近似から求める.この近似曲線は負荷によるCPU 使用量と応答時間の増加量が一定でないため累乗近似を用いる.CPU 使用量がこの予測値に対して80%以上をアラートを生成する条件とした.異常となる応答時間は3,000(ms) とした.実験では,5 秒に1 人ユーザを増加させ毎秒の最大ユーザ数400 による負荷を30 分間発生させた.結果は,アラートストームの基準とした50 件未満である33 件のアラートが生成され,基礎実験の77 件より44 件減少した. ...