A正解
さまざまなケースや属性を幅広く含んでいる
正解。多様性のあるデータセットは、さまざまなケースや属性を幅広く含むため、特定の状況に偏らず汎化・公平性が高まります。
ある企業が、公平で信頼できるモデルを作るためのデータセットの調達方針を定めています。AI の学習に使うデータセットが備えていることが望ましい特性として、適切なものを 2 つ選んでください。
望ましいデータセットの特性を 2 つ選ぶ問題。
さまざまなケースや属性を幅広く含んでいる
正解。多様性のあるデータセットは、さまざまなケースや属性を幅広く含むため、特定の状況に偏らず汎化・公平性が高まります。
クラスや属性の偏りが小さく保たれている
正解。バランスの取れたデータセットは、クラスや属性の件数の偏りが小さいため、多数派に引きずられず少数のケースも適切に学べます。
同一ケースの複製を増やしてデータ量を確保している
複製でデータ量を水増ししても、含まれる情報は増えず、特定パターンへの偏りを強めるだけです。
望ましいのは多様なケースを幅広く含むことのため不正解です。
収集しやすい単一チャネルのデータに集中している
単一チャネルへの集中は効率的に見えますが、そのチャネルの利用者層に偏ったデータセットになります。
望ましいのは多様性とバランスのため不正解です。
最も多いクラスのデータをさらに優先して集めている
多数派クラスをさらに増やすと、クラス間の不均衡が拡大し、少数派への精度が落ちます。
望ましいのはクラスや属性の偏りが小さいバランスのため不正解です。
望ましいデータセットの特性は『多様性(さまざまなケースや属性を幅広く含む)』『バランス(クラスや属性の偏りが小さい)』です(ほかに代表性・正確なラベル・包括性など)。これらが汎化性能と公平性を高めます。『少数例の重複』『個人情報の無保護』『でたらめなラベル』はいずれも偏り・プライバシー問題・誤学習を招き、望ましくありません。