学習で高精度・新データで低精度の状態名を選ぶ問題。

ある ML チームが、構築した需要予測モデルを検証したところ、学習データに対しては非常に高い精度を出すのに、新しい未知のデータでは精度が大きく下がってしまいました。この状態を何と呼びますか。

1 / 1

回答を選択してください

正解D

解説

問題の概要

学習で高精度・新データで低精度の状態名を選ぶ問題。

満たすべき条件

1「学習データに対しては非常に高い精度」訓練データには 適合しすぎ
2「新しい未知のデータでは精度が大きく下がって」汎化できない＝オーバーフィッティング

選択肢ごとの解説

A不正解

アンダーフィッティング（学習不足）

アンダーフィッティングは、学習データに対してすら精度が低い状態です。

学習データで高精度という本問の状況とは異なるため不正解です。

B不正解

データドリフト

データドリフトは、運用中に入力データの分布が学習時からずれていくことで精度が落ちる現象です。

本問は学習直後の検証で既に未知データに弱い状態であり、時間経過による分布変化が原因ではないため不正解です。

C不正解

データバイアス

データバイアスは、学習データの偏りが特定の集団への不公平な予測として現れる問題です。

本問は学習データへの過剰適合による汎化の失敗であり、公平性の問題ではないため不正解です。

D正解

オーバーフィッティング（過学習）

正解。オーバーフィッティングは、学習データに過剰に適合し、ノイズや細部まで覚えてしまった結果、未知のデータへの汎化性能が下がる状態です。

ポイント

正解の『オーバーフィッティング（過学習）』を押さえます。
・学習データに過剰に適合し、ノイズや細部まで覚え込んでしまう状態。
・学習データでは高精度でも、未知データでは精度が下がり汎化できない。
アンダーフィッティングは学習データでも精度が低い別の状態で、正則化（抑制手法）・ハイパーパラメータ（設定値）はそもそも『状態』の名前ではありません。

解説

💡ポイント

関連リンク

ポイント