ある AI チームが、チャットモデルの応答を改善する手法を比較しています。人間が出力の良し悪しを評価したフィードバックを使い、モデルの応答を人間の好みや価値観に沿うよう調整する手法を何と呼びますか。

1 / 1
回答を選択してください
正解D

解説

人間のフィードバックでモデルを整える手法を選ぶ問題。

  • 1人間が出力の良し悪しを評価したフィードバックを使い人間の評価を 報酬 にする
  • 2人間の好みや価値観に沿うよう調整応答の整合=RLHF
A不正解

ファインチューニング

ファインチューニングは、ラベル付きデータでモデルを特定タスクに適応させる追加学習の総称です。

人間の評価(報酬)を使って好みに沿わせる仕組みそのものを指す用語ではないため、本問の答えとしては RLHF がより適切です。

B不正解

継続的事前トレーニング

継続的事前トレーニングは、ラベルなしデータでモデルの知識を広げる追加学習です。

人間の評価を報酬として好みに沿わせる手法ではないため不正解です。

C不正解

転移学習

転移学習は、あるタスクの知識を別のタスクに流用する考え方です。

人間のフィードバックを報酬に使う調整手法ではないため不正解です。

D正解

RLHF

正解。RLHF は、人間が出力を評価したフィードバックを報酬として使い、モデルの応答を人間の好みや価値観に沿うよう調整する手法です。安全で役立つ応答に近づけます。

ポイント

正解の『RLHF(人間のフィードバックによる強化学習)』を押さえます。
・人間が出力を評価したフィードバックを報酬として使い、モデルの応答を人間の好みや価値観に沿うよう調整する手法。
・より安全で役立つ応答に近づける、責任ある AI に関わる重要技術。