望ましいデータセットの特性を 2 つ選ぶ問題。

ある企業が、公平で信頼できるモデルを作るためのデータセットの調達方針を定めています。AI の学習に使うデータセットが備えていることが望ましい特性として、適切なものを 2 つ選んでください。

1 / 1

複数選択してください

正解A, B

解説

問題の概要

望ましいデータセットの特性を 2 つ選ぶ問題。

満たすべき条件

1「データセットが備えていることが望ましい特性」良い学習につながる データの質
2「適切なものを 2 つ」多様性・バランス が該当

選択肢ごとの解説

A正解

さまざまなケースや属性を幅広く含んでいる

正解。多様性のあるデータセットは、さまざまなケースや属性を幅広く含むため、特定の状況に偏らず汎化・公平性が高まります。

B正解

クラスや属性の偏りが小さく保たれている

正解。バランスの取れたデータセットは、クラスや属性の件数の偏りが小さいため、多数派に引きずられず少数のケースも適切に学べます。

C不正解

同一ケースの複製を増やしてデータ量を確保している

複製でデータ量を水増ししても、含まれる情報は増えず、特定パターンへの偏りを強めるだけです。

望ましいのは多様なケースを幅広く含むことのため不正解です。

D不正解

収集しやすい単一チャネルのデータに集中している

単一チャネルへの集中は効率的に見えますが、そのチャネルの利用者層に偏ったデータセットになります。

望ましいのは多様性とバランスのため不正解です。

E不正解

最も多いクラスのデータをさらに優先して集めている

多数派クラスをさらに増やすと、クラス間の不均衡が拡大し、少数派への精度が落ちます。

望ましいのはクラスや属性の偏りが小さいバランスのため不正解です。

ポイント

望ましいデータセットの特性は『多様性（さまざまなケースや属性を幅広く含む）』『バランス（クラスや属性の偏りが小さい）』です（ほかに代表性・正確なラベル・包括性など）。これらが汎化性能と公平性を高めます。『少数例の重複』『個人情報の無保護』『でたらめなラベル』はいずれも偏り・プライバシー問題・誤学習を招き、望ましくありません。

解説

💡ポイント

関連リンク

ポイント