A正解
レッドチーミング
正解。レッドチーミングは、専門家が攻撃者の視点でわざと有害な出力や脆弱性を引き出そうと試み、デプロイ前にリスクを洗い出す評価手法です。安全性の向上に使われます。
ある企業が、生成 AI チャットボットの公開前に安全性の最終確認を行います。専門家が攻撃者の視点で、わざと有害な出力や脆弱性を引き出そうと試みて、デプロイ前にリスクを洗い出す評価手法を何と呼びますか。
攻撃者視点で脆弱性を洗い出す評価手法を選ぶ問題。
レッドチーミング
正解。レッドチーミングは、専門家が攻撃者の視点でわざと有害な出力や脆弱性を引き出そうと試み、デプロイ前にリスクを洗い出す評価手法です。安全性の向上に使われます。
ペネトレーションテスト
ペネトレーションテストは、ネットワークやシステムへの侵入可否を検証するセキュリティテストです。
インフラの侵入試験であり、モデルの有害出力を引き出す評価(レッドチーミング)とは対象が異なるため不正解です。
A/B テスト
A/B テストは、本番ユーザーに 2 案を振り分けて成果を比較する方法です。
効果検証の方法であり、攻撃視点でリスクを洗い出す手法ではないため不正解です。
ベンチマーク評価
ベンチマーク評価は、標準データセットでの性能の横並び比較です。
性能測定であり、攻撃視点での安全性検査ではないため不正解です。
正解の『レッドチーミング』を押さえます。
・専門家が攻撃者の視点で、わざと有害な出力や脆弱性を引き出そうと試み、デプロイ前にリスクを洗い出す評価手法。
・見つかった問題に事前に対処でき、安全性を高める。