ある企業のレビューで、過去の偏った採用実績データで学習したモデルが、同じ偏りを再現していることが分かりました。学習データに含まれる偏りが、そのままモデルの予測の偏りとして現れてしまう問題を何と呼びますか。

1 / 1
回答を選択してください
正解D

解説

学習データ由来の偏りの名前を選ぶ問題。

  • 1学習データに含まれる偏りデータそのものの 偏り
  • 2モデルの予測の偏りとして現れてしまう偏りが学習に反映=データバイアス
A不正解

ハルシネーション

ハルシネーションは、生成 AI が事実に基づかない内容をもっともらしく出力する問題です。

モデルの出力品質の問題ですが、学習データの偏りが予測に再現される問題ではないため不正解です。

B不正解

オーバーフィット

オーバーフィットは、学習データに過剰に適合して未知データで精度が落ちる問題です。

学習の汎化の問題であり、データの偏りが予測の偏りとして現れる問題ではないため不正解です。

C不正解

データドリフト

データドリフトは、運用中に入力データの分布が学習時から徐々にずれていく問題です。

時間経過による変化の問題であり、最初から学習データに含まれていた偏りの再現ではないため不正解です。

D正解

データバイアス

正解。データバイアスは、学習データに含まれる偏りが、そのままモデルの予測の偏りとして現れる問題です(特定の属性の過多・過少、歴史的な偏見など)。

ポイント

正解の『データバイアス』を、具体例で押さえます。
・データバイアスとは、学習データに含まれる偏りが、そのままモデルの予測の偏りとして現れる問題です。
・具体例: 過去の採用が男性に偏ったデータで学習するとモデルも男性を高く評価してしまう/特定の地域・年齢層のデータが少ないと、その層の予測精度だけ落ちる、など。
・公平性を損なう主要な原因で、データの代表性の確保やバイアス検出(SageMaker Clarify など)で対処します。