50代ITエンジニアの積み上げ日記

50代からの学び直しブログ

【完結】SageMakerの課金が止まらない!

がじゅまるの苗🌱です。

 

今回のタイトルに書いた通り、ここ数日間焦りまくったSageMaker課金問題が無事解決したことを確認できましたので、完結編としてブログを書いてみたいと思います。

 

関連する過去記事はこちら。

gajumarusdgs.hatenablog.com

gajumarusdgs.hatenablog.com

 

課金停止のエビデンス

Cost Explorerの画面キャプチャを貼っておきます。

 

このグラフからも見てとれるように、3/14から急激なコスト上昇があり、3/17以降に収束に向かい、現時点(3/19)まで課金ゼロの状態で推移しています。

 

 

では、これまでの経過を時系列でふりかえってみます。

 

前ぶれ:Free Tier limit alert

2023/03/12 8:30

  • 通知が届いてビックリしたが、日曜朝だったのが幸いだった。
  • SageMakerのコンソール画面で、消せるリソースは消したのがこのタイミング。
  • ただ、この時はエンドポイントが「InService」で残っていることには気づいていなかった。

 

2023/03/14 15:18

  • この通知は正直何を対処すればいいのかイメージがつかず、意味がよくわからなかった。

 

青天の霹靂:AWS Budgets: My Monthly Cost Budget has exceeded your alert threshold

2023/03/16 21:04

  • えっ、ナニコレ???(めちゃくちゃ青ざめた)
  • 下記の状態を確認。何が起きてるのかまったく理解できず、パニックに陥った
    • SageMakerのエンドポイントがコンソール画面から削除できない
    • CloudWatch Logsのロググループに5分毎にログが溜まり続けている
  • ググって調べても埒が明かないので、有識者に相談するしかないと思った
  • ルビコンさん(@RubiconLink)に相談⇒翌日夜に相談する段取りを整えた

 

打開:ルビコン神降臨

2023/03/17 20:00~

  • AWS CloudShellからCLIコマンドでモニタリングスケジュールを削除
  • SageMakerコンソールからエンドポイントを削除
  • CloudWatch Logsのロググループへのログ出力停止を確認
  • AWS CloudShellからCLIコマンドでSageMakerのExperimentsおよびTrialsを削除

 

 

結局、何が原因だったのか?

  • 2023/03/10に実施したハンズオンで作成したリソースが完全に削除できていなかったことが原因。
  • 今回一番コストが嵩んだ「ml.m4.xlargeのノートブックインスタンス」は無料利用枠が125H分あるものの、それを超過して課金が継続された。
  • ノートブックインスタンス自体は削除していたものの、エンドポイントが残存していたことで、ゾンビインスタンスが稼働しているかのような状態になってしまった。
  • ゾンビインスタンスの稼働時間は191.192H(約8日間)
    (125H(無料利用枠上限時間)+ 66.192H(無料利用枠超過時間))
  • つまり、3/10~3/17の8日間、無駄な課金コストを発生させてしまっていた!

 

今回の一件は大変よい勉強になりました。

みなさんもSageMakerを使う際はくれぐれもご注意ください。

 

この記事が誰かのお役に立てれば幸いです。

 

以上、がじゅまるの苗🌱でした。