A正解
ROUGE = 要約の品質評価
正解。ROUGE は、生成した要約が参照要約とどれだけ重複するかを測る指標で、主に要約タスクの品質評価に使われます。
ある AI チームが、要約と翻訳それぞれの品質を自動評価する指標を選んでいます。テキスト生成タスクの自動評価指標と、その代表的な対象タスクの対応として正しいものを 2 つ選んでください。
評価指標とタスクの正しい対応を 2 つ選ぶ問題。
ROUGE = 要約の品質評価
正解。ROUGE は、生成した要約が参照要約とどれだけ重複するかを測る指標で、主に要約タスクの品質評価に使われます。
BLEU = 機械翻訳の品質評価
正解。BLEU は、生成した翻訳が参照訳とどれだけ一致するかを測る指標で、主に機械翻訳タスクの品質評価に使われます。
ROUGE = 機械翻訳の品質評価
対応が逆です。ROUGE は要約の品質評価で代表的に使われる指標で、機械翻訳の代表的な指標は BLEU です。
ROUGE と BLEU の対象タスクの入れ替えは定番のひっかけです。
BLEU = 要約の品質評価
対応が逆です。BLEU は機械翻訳の品質評価で代表的に使われる指標で、要約の代表的な指標は ROUGE です。
BERTScore = 推論速度の評価
BERTScore は、埋め込みを使って意味的な近さを評価する指標です。
速度の指標ではないため、対応が誤っており不正解です。
テキスト生成の自動評価指標は、何と何を比べるかで使い分けます。
・ROUGE: 生成した要約と参照要約の n-gram の重複を測る。主に要約の評価。
・BLEU: 生成した翻訳と参照訳の n-gram の一致を測る。主に機械翻訳の評価。
・BERTScore: 埋め込みを使って意味的な近さを測る。表現が違っても意味が合えば高評価。
ROUGE と BLEU は対象タスク(要約/翻訳)の入れ替えが定番のひっかけです。