ある ML チームが、データセットの分割方針を整理しています。学習中に、ハイパーパラメータの調整やモデルの選択(どの設定が良いか比較)に使うために取り分けておくデータセットはどれですか。

1 / 1
回答を選択してください
正解C

解説

ハイパラ調整・モデル選択に使うデータセットを選ぶ問題。

  • 1ハイパーパラメータの調整やモデルの選択設定の 良し悪しを比較 する
  • 2取り分けておくデータセット比較用に分けたデータ=検証セット
A不正解

学習(train)セット

学習セットはモデルの重みを学習させるためのデータです。

ハイパーパラメータの調整・モデル選択に取り分けるデータではないため不正解です。

B不正解

テスト(test)セット

テストセットは最終的な性能評価に一度だけ使うデータです。

学習中のハイパーパラメータ調整に使うものではないため不正解です。

C正解

検証(validation)セット

正解。検証セットは、学習中にハイパーパラメータの調整やモデルの選択に使うデータです。学習には直接使わず、設定の良し悪しの判断に用います。

D不正解

本番の推論データ

本番の推論データは、デプロイ後にモデルへ入力される未知の実データです。

学習中の設定比較のために事前に取り分けておくデータセットではないため不正解です。

ポイント

正解の『検証(validation)セット』を押さえます。
・学習中にハイパーパラメータの調整やモデルの選択(設定の比較)に使うデータ。
・学習には直接使わず、設定の良し悪しの判断に用いる。
学習セット(重みの学習)・テストセット(最終評価)・推論ログ(運用の履歴)はいずれもハイパーパラメータ調整に取り分けるデータセットではありません。