A正解
ベンチマーク
正解。ベンチマークは、共通の標準データセットと指標を使い、複数のモデルや手法を同じ条件で横並びに比較・評価する取り組みです。公平な比較ができます。
ある AI チームが、社内の複数のモデル候補を公平な条件で比べる方法を探しています。複数のモデルや手法を、共通の標準データセットと指標で同じ条件のもとに比較・評価する取り組みを何と呼びますか。
共通条件でモデルを比較する取り組みを選ぶ問題。
ベンチマーク
正解。ベンチマークは、共通の標準データセットと指標を使い、複数のモデルや手法を同じ条件で横並びに比較・評価する取り組みです。公平な比較ができます。
A/B テスト
A/B テストは、本番のユーザーに 2 案を振り分けて成果を比較する方法です。
実環境での比較であり、標準データセットによる横並び評価ではないため不正解です。
ヒューマン評価
ヒューマン評価は、人間が出力の質を判断する方法です。
質的評価に有効ですが、共通データセット・指標による定量的な横並び比較の取り組みではないため不正解です。
レッドチーミング
レッドチーミングは、攻撃者の視点でリスクを引き出す評価です。
安全性の検査であり、性能の横並び比較ではないため不正解です。
正解の『ベンチマーク』を押さえます。
・共通の標準データセットと指標を使い、複数のモデルや手法を同じ条件で横並びに比較・評価する取り組み。
・条件をそろえることで、どれが優れているかを公平に判断できる。