ある AI チームが、社内の複数のモデル候補を公平な条件で比べる方法を探しています。複数のモデルや手法を、共通の標準データセットと指標で同じ条件のもとに比較・評価する取り組みを何と呼びますか。

1 / 1
回答を選択してください
正解A

解説

共通条件でモデルを比較する取り組みを選ぶ問題。

  • 1共通の標準データセットと指標で同じ条件のもとに比較・評価条件をそろえた 横並び比較=ベンチマーク
A正解

ベンチマーク

正解。ベンチマークは、共通の標準データセットと指標を使い、複数のモデルや手法を同じ条件で横並びに比較・評価する取り組みです。公平な比較ができます。

B不正解

A/B テスト

A/B テストは、本番のユーザーに 2 案を振り分けて成果を比較する方法です。

実環境での比較であり、標準データセットによる横並び評価ではないため不正解です。

C不正解

ヒューマン評価

ヒューマン評価は、人間が出力の質を判断する方法です。

質的評価に有効ですが、共通データセット・指標による定量的な横並び比較の取り組みではないため不正解です。

D不正解

レッドチーミング

レッドチーミングは、攻撃者の視点でリスクを引き出す評価です。

安全性の検査であり、性能の横並び比較ではないため不正解です。

ポイント

正解の『ベンチマーク』を押さえます。
・共通の標準データセットと指標を使い、複数のモデルや手法を同じ条件で横並びに比較・評価する取り組み。
・条件をそろえることで、どれが優れているかを公平に判断できる。