A不正解
継続的事前トレーニング
継続的事前トレーニングは、ラベルなしの大量データでドメイン知識を追加学習する手法です。
指示と応答のペアで指示追従を学ばせる手法ではないため不正解です。
ある企業が、モデルの応答が指示への従い方にばらつきがある点を改善したいと考えています。「指示(プロンプト)と望ましい応答」のペアを集めたデータでモデルを学習させ、指示に従う能力を高める手法はどれですか。
指示と応答のペアで学習する手法を選ぶ問題。
継続的事前トレーニング
継続的事前トレーニングは、ラベルなしの大量データでドメイン知識を追加学習する手法です。
指示と応答のペアで指示追従を学ばせる手法ではないため不正解です。
RAG(検索拡張生成)
RAG は、外部ナレッジを検索して回答を補強する手法で、重みは更新しません。
指示と応答のペアで指示追従を学ばせる手法ではないため不正解です。
指示チューニング
正解。指示チューニングは、指示と望ましい応答のペアからなるデータで学習させ、指示に従う能力を高めるファインチューニングの一種です。例えば『この文章を 3 行で要約して』→ 模範の要約文、『英語に翻訳して』→ 正しい英訳、『箇条書きにして』→ 箇条書きの例、のように多様な指示と模範解答のペアを大量に学ばせることで、初めて見る指示にも従いやすくなります。
プロンプトテンプレート
プロンプトテンプレートは、入力の形式を標準化して一貫性を高める手法で、学習を伴いません。
指示と応答のペアで学習して指示追従を高める手法ではないため不正解です。
正解の『指示チューニング (instruction tuning)』の考え方を押さえます。
・指示と望ましい応答のペアからなるデータで学習し、指示に従う能力を高めるファインチューニングの一種。
・ユーザーの意図に沿った応答を返しやすくする。
継続的事前トレーニング(ラベルなしでドメイン知識)・RAG(外部参照)・プロンプトテンプレート(形式標準化・学習なし)とは別です。