指示と応答のペアで学習する手法を選ぶ問題。

ある企業が、モデルの応答が指示への従い方にばらつきがある点を改善したいと考えています。「指示（プロンプト）と望ましい応答」のペアを集めたデータでモデルを学習させ、指示に従う能力を高める手法はどれですか。

1 / 1

回答を選択してください

正解C

解説

問題の概要

指示と応答のペアで学習する手法を選ぶ問題。

満たすべき条件

1「「指示（プロンプト）と望ましい応答」のペア」指示→応答の ペアデータ で学習する
2「指示に従う能力を高める」指示追従を学ばせる＝指示チューニング

選択肢ごとの解説

A不正解

継続的事前トレーニング

継続的事前トレーニングは、ラベルなしの大量データでドメイン知識を追加学習する手法です。

指示と応答のペアで指示追従を学ばせる手法ではないため不正解です。

B不正解

RAG（検索拡張生成）

RAG は、外部ナレッジを検索して回答を補強する手法で、重みは更新しません。

指示と応答のペアで指示追従を学ばせる手法ではないため不正解です。

C正解

指示チューニング

正解。指示チューニングは、指示と望ましい応答のペアからなるデータで学習させ、指示に従う能力を高めるファインチューニングの一種です。例えば『この文章を 3 行で要約して』→ 模範の要約文、『英語に翻訳して』→ 正しい英訳、『箇条書きにして』→ 箇条書きの例、のように多様な指示と模範解答のペアを大量に学ばせることで、初めて見る指示にも従いやすくなります。

D不正解

プロンプトテンプレート

プロンプトテンプレートは、入力の形式を標準化して一貫性を高める手法で、学習を伴いません。

指示と応答のペアで学習して指示追従を高める手法ではないため不正解です。

ポイント

正解の『指示チューニング (instruction tuning)』の考え方を押さえます。
・指示と望ましい応答のペアからなるデータで学習し、指示に従う能力を高めるファインチューニングの一種。
・ユーザーの意図に沿った応答を返しやすくする。
継続的事前トレーニング（ラベルなしでドメイン知識）・RAG（外部参照）・プロンプトテンプレート（形式標準化・学習なし）とは別です。

解説

💡ポイント

関連リンク

ポイント