ある企業が、ファインチューニングを実施したものの期待した効果が出ず、データ準備から見直すことにしました。ファインチューニングの効果を高めるためのデータ準備として最も適切なものはどれですか。

1 / 1
回答を選択してください
正解A

解説

ファインチューニング用データ準備の適切な方針を選ぶ問題。

  • 1ファインチューニングの効果を高める適応の を上げたい
  • 2データ準備として最も適切なもの高品質・代表的・適切にラベル付け=キュレーション
A正解

タスクに沿った高品質で代表的なデータを、適切にラベル付けして用意する

正解。ファインチューニングは、対象タスクに沿った高品質・代表的・適切にラベル付けされたデータを用意することで効果が高まります。データのキュレーションとガバナンスが重要です。

B不正解

品質は気にせず、とにかく大量のデータを集める

量が多くても品質が低いデータではかえって性能が下がることがあります。

品質を無視してよいわけではないため不正解です。

C不正解

ラベルは付けず、ランダムなデータをそのまま使う

ファインチューニングはラベル付きデータを使って特定タスクに適応させる手法です。

ラベルなしのランダムなデータでは効果的な適応ができないため不正解です。

D不正解

タスクと無関係なデータをできるだけ混ぜる

無関係なデータを混ぜると、対象タスクへの適応がぼやけて性能が下がります

タスクに沿ったデータを用意すべきなので不正解です。

ポイント

ファインチューニング用データの準備は『タスクに沿った高品質・代表的なデータを、適切にラベル付け』が基本。データのキュレーションとガバナンス(権利・プライバシー・偏りの管理)が重要です。『量さえあれば品質は不問』『ラベルなしでよい』『無関係データを混ぜる』はいずれも性能を下げる誤りです。