A不正解
学習(train)セット
学習セットはモデルの重みを学習させるためのデータです。
最終評価のために取り置くデータではないため不正解です。
ある ML チームが、モデルの最終報告に使う評価値の信頼性を確保しようとしています。学習やハイパーパラメータ調整には一切使わず、最後に取り置いて、モデルの最終的な汎化性能を評価するために使うデータセットはどれですか。
最終的な汎化性能を評価するデータセットを選ぶ問題。
学習(train)セット
学習セットはモデルの重みを学習させるためのデータです。
最終評価のために取り置くデータではないため不正解です。
テスト(test)セット
正解。テストセットは、学習やハイパーパラメータ調整に一切使わず最後まで取り置き、最終的な汎化性能を一度だけ評価するために使うデータです。
検証(validation)セット
検証セットは学習中のハイパーパラメータ調整・モデル選択に使うデータです。
最後に取り置く最終評価用のデータではないため不正解です。
サンプリングした学習データの一部
学習データの一部は、たとえサンプリングしてもモデルが学習で見たデータです。
見たことのあるデータでの評価は楽観的になり、最終評価には使えないため不正解です。
正解の『テスト(test)セット』を押さえます。
・学習やハイパーパラメータ調整に一切使わず最後まで取り置き、最終的な汎化性能を一度だけ評価するためのデータ。
・本番に近い偏りのない性能が分かる。
学習セット(重みの学習)・検証セット(学習中の設定比較)・特徴量ストア(特徴量の保存)はいずれも最終評価のためのデータセットではありません。