報酬と方策の学習を体験できる AWS サービスを選ぶ問題。

ある企業が、新人 ML プラクティショナー向けの研修を設計しています。エージェントの行動に報酬を与えて方策を改善していく学習の流れを、報酬関数を自分で設計しながらシミュレーション環境で対話的に体験できるようにしたいと考えています。この要件に最も適した AWS サービスはどれですか。

1 / 1

回答を選択してください

正解C

解説

問題の概要

報酬と方策の学習を体験できる AWS サービスを選ぶ問題。

満たすべき条件

1「行動に報酬を与えて方策を改善」試行錯誤と報酬で学ぶ＝強化学習の流れ
2「シミュレーション環境で対話的に体験」報酬関数を設計して実践できる DeepRacer が該当

選択肢ごとの解説

A不正解

Amazon SageMaker JumpStart

SageMaker JumpStart は、事前学習済みモデルや既製ソリューションをすぐに使い始められるモデルハブで、研修の入口としては魅力的に見えます。

ただしSageMaker JumpStartで提供されるのはモデルとサンプルであり、報酬関数を設計してエージェントを訓練する対話的なシミュレーション環境は含まれないため、本問の要件を満たしません。

B不正解

Amazon Bedrock

Amazon Bedrock は、基盤モデルを API やプレイグラウンドで利用できるフルマネージドサービスで、生成 AI を対話的に試すことはできます。

ただし扱うのはプロンプトと生成結果であり、行動に報酬を与えて方策を改善する学習プロセスを体験する仕組みはないため不正解です。

C正解

AWS DeepRacer

正解。AWS DeepRacer は、3D レーシングシミュレーターで報酬関数を設計し、エージェント（車両）が試行錯誤で走行方針を改善していく過程を体験できる学習向けサービスです。行動への報酬と方策の改善という強化学習の流れを、対話的に実践できます。

D不正解

Amazon Personalize

Amazon Personalize は、ユーザーの行動データから個別のレコメンドを生成するマネージドサービスです。

「行動」を扱う点は共通しますが、利用者が報酬関数を設計して学習過程を体験する仕組みはなく、推論結果をアプリに組み込むためのサービスのため不正解です。

ポイント

『行動への報酬で方策を改善する過程を、対話的なシミュレーションで体験する』はAWS DeepRacer（3D レーシングシミュレーターで報酬関数を設計して学ぶ強化学習の入門サービス）です。
DeepRacer では具体的に、コースのどこを走ると高い報酬を与えるかを自分でコード（報酬関数）として定義し、仮想の小型車を何度も走らせて、報酬が最大になる走行ライン（方策）を車が試行錯誤で学んでいく様子を観察・調整できます。報酬関数を変えると走り方がどう変わるかを繰り返し試せるのが特徴です。
SageMaker JumpStart は既製モデルのハブ、Bedrock は基盤モデルの利用、Personalize はレコメンド生成で、いずれも報酬関数を設計して学習過程を体験する環境は提供しません。

解説

💡ポイント

関連リンク

ポイント