ある ML チームが、構築した需要予測モデルを検証したところ、学習データに対しては非常に高い精度を出すのに、新しい未知のデータでは精度が大きく下がってしまいました。この状態を何と呼びますか。

1 / 1
回答を選択してください
正解D

解説

学習で高精度・新データで低精度の状態名を選ぶ問題。

  • 1学習データに対しては非常に高い精度訓練データには 適合しすぎ
  • 2新しい未知のデータでは精度が大きく下がって汎化できない=オーバーフィッティング
A不正解

アンダーフィッティング(学習不足)

アンダーフィッティングは、学習データに対してすら精度が低い状態です。

学習データで高精度という本問の状況とは異なるため不正解です。

B不正解

データドリフト

データドリフトは、運用中に入力データの分布が学習時からずれていくことで精度が落ちる現象です。

本問は学習直後の検証で既に未知データに弱い状態であり、時間経過による分布変化が原因ではないため不正解です。

C不正解

データバイアス

データバイアスは、学習データの偏りが特定の集団への不公平な予測として現れる問題です。

本問は学習データへの過剰適合による汎化の失敗であり、公平性の問題ではないため不正解です。

D正解

オーバーフィッティング(過学習)

正解。オーバーフィッティングは、学習データに過剰に適合し、ノイズや細部まで覚えてしまった結果、未知のデータへの汎化性能が下がる状態です。

ポイント

正解の『オーバーフィッティング(過学習)』を押さえます。
・学習データに過剰に適合し、ノイズや細部まで覚え込んでしまう状態。
・学習データでは高精度でも、未知データでは精度が下がり汎化できない。
アンダーフィッティングは学習データでも精度が低い別の状態で、正則化(抑制手法)・ハイパーパラメータ(設定値)はそもそも『状態』の名前ではありません。