ある ML チームが、モデルの最終報告に使う評価値の信頼性を確保しようとしています。学習やハイパーパラメータ調整には一切使わず、最後に取り置いて、モデルの最終的な汎化性能を評価するために使うデータセットはどれですか。

1 / 1
回答を選択してください
正解B

解説

最終的な汎化性能を評価するデータセットを選ぶ問題。

  • 1学習やハイパーパラメータ調整には一切使わず学習にも調整にも 使わない
  • 2最終的な汎化性能を評価するために使う最後の評価用=テストセット
A不正解

学習(train)セット

学習セットはモデルの重みを学習させるためのデータです。

最終評価のために取り置くデータではないため不正解です。

B正解

テスト(test)セット

正解。テストセットは、学習やハイパーパラメータ調整に一切使わず最後まで取り置き、最終的な汎化性能を一度だけ評価するために使うデータです。

C不正解

検証(validation)セット

検証セットは学習中のハイパーパラメータ調整・モデル選択に使うデータです。

最後に取り置く最終評価用のデータではないため不正解です。

D不正解

サンプリングした学習データの一部

学習データの一部は、たとえサンプリングしてもモデルが学習で見たデータです。

見たことのあるデータでの評価は楽観的になり、最終評価には使えないため不正解です。

ポイント

正解の『テスト(test)セット』を押さえます。
・学習やハイパーパラメータ調整に一切使わず最後まで取り置き、最終的な汎化性能を一度だけ評価するためのデータ。
・本番に近い偏りのない性能が分かる。
学習セット(重みの学習)・検証セット(学習中の設定比較)・特徴量ストア(特徴量の保存)はいずれも最終評価のためのデータセットではありません。