A正解
タスクに沿った高品質で代表的なデータを、適切にラベル付けして用意する
正解。ファインチューニングは、対象タスクに沿った高品質・代表的・適切にラベル付けされたデータを用意することで効果が高まります。データのキュレーションとガバナンスが重要です。
ある企業が、ファインチューニングを実施したものの期待した効果が出ず、データ準備から見直すことにしました。ファインチューニングの効果を高めるためのデータ準備として最も適切なものはどれですか。
ファインチューニング用データ準備の適切な方針を選ぶ問題。
タスクに沿った高品質で代表的なデータを、適切にラベル付けして用意する
正解。ファインチューニングは、対象タスクに沿った高品質・代表的・適切にラベル付けされたデータを用意することで効果が高まります。データのキュレーションとガバナンスが重要です。
品質は気にせず、とにかく大量のデータを集める
量が多くても品質が低いデータではかえって性能が下がることがあります。
品質を無視してよいわけではないため不正解です。
ラベルは付けず、ランダムなデータをそのまま使う
ファインチューニングはラベル付きデータを使って特定タスクに適応させる手法です。
ラベルなしのランダムなデータでは効果的な適応ができないため不正解です。
タスクと無関係なデータをできるだけ混ぜる
無関係なデータを混ぜると、対象タスクへの適応がぼやけて性能が下がります。
タスクに沿ったデータを用意すべきなので不正解です。
ファインチューニング用データの準備は『タスクに沿った高品質・代表的なデータを、適切にラベル付け』が基本。データのキュレーションとガバナンス(権利・プライバシー・偏りの管理)が重要です。『量さえあれば品質は不問』『ラベルなしでよい』『無関係データを混ぜる』はいずれも性能を下げる誤りです。