A不正解
EC2 に推論サーバーを自前で構築して運用する
EC2 での自前構築はリアルタイム推論を実現できますが、サーバーの構築・パッチ・スケーリングを自社で運用する必要があります。
『運用をできるだけ抱えない』という要件を満たさないため不正解です。
ある企業が、学習済みモデルを、サーバーの構築や運用をできるだけ自分で抱えずに、低レイテンシのリアルタイム推論として本番提供したいと考えています。この要件を満たすデプロイ方法として最も適切なものはどれですか。
運用負荷を抑えてリアルタイム推論を提供する方法を選ぶ問題。
EC2 に推論サーバーを自前で構築して運用する
EC2 での自前構築はリアルタイム推論を実現できますが、サーバーの構築・パッチ・スケーリングを自社で運用する必要があります。
『運用をできるだけ抱えない』という要件を満たさないため不正解です。
推論の結果を事前計算して S3 に置いておく
事前計算の結果配信は、入力パターンが限られる場合の工夫ですが、未知の入力に対してその場で予測を返すことができません。
リアルタイム推論の要件を満たさないため不正解です。
SageMaker のリアルタイム推論エンドポイントにデプロイする
正解。SageMaker のリアルタイム推論エンドポイントは、インフラの構築・運用をマネージドに任せつつ、低レイテンシのオンライン推論を API として提供できます。運用負荷を抑えられます。
SageMaker のバッチ変換ジョブで定期実行する
バッチ変換はマネージドで運用負担は小さいものの、データをまとめてオフラインで処理する方式です。
その場で応答を返すリアルタイム推論の要件を満たさないため不正解です。
『運用を抱えずに』+『低レイテンシのリアルタイム』の両方を満たすのは SageMaker リアルタイム推論エンドポイントです。EC2 自前構築(リアルタイムは可能だが運用を抱える)、バッチ変換(マネージドだがオフライン)のように、どちらか一方しか満たさない選択肢を要件で切るのがポイントです。