ある AI チームが、要約と翻訳それぞれの品質を自動評価する指標を選んでいます。テキスト生成タスクの自動評価指標と、その代表的な対象タスクの対応として正しいものを 2 つ選んでください。

1 / 1
複数選択してください
正解A, B

解説

評価指標とタスクの正しい対応を 2 つ選ぶ問題。

  • 1自動評価指標と、その代表的な対象タスクの対応指標と タスク の組み合わせ
  • 2正しいものを 2 つROUGE=要約・BLEU=翻訳 が正しい
A正解

ROUGE = 要約の品質評価

正解。ROUGE は、生成した要約が参照要約とどれだけ重複するかを測る指標で、主に要約タスクの品質評価に使われます。

B正解

BLEU = 機械翻訳の品質評価

正解。BLEU は、生成した翻訳が参照訳とどれだけ一致するかを測る指標で、主に機械翻訳タスクの品質評価に使われます。

C不正解

ROUGE = 機械翻訳の品質評価

対応が逆です。ROUGE は要約の品質評価で代表的に使われる指標で、機械翻訳の代表的な指標は BLEU です。

ROUGE と BLEU の対象タスクの入れ替えは定番のひっかけです。

D不正解

BLEU = 要約の品質評価

対応が逆です。BLEU は機械翻訳の品質評価で代表的に使われる指標で、要約の代表的な指標は ROUGE です。

E不正解

BERTScore = 推論速度の評価

BERTScore は、埋め込みを使って意味的な近さを評価する指標です。

速度の指標ではないため、対応が誤っており不正解です。

ポイント

テキスト生成の自動評価指標は、何と何を比べるかで使い分けます。
ROUGE: 生成した要約と参照要約の n-gram の重複を測る。主に要約の評価。
BLEU: 生成した翻訳と参照訳の n-gram の一致を測る。主に機械翻訳の評価。
BERTScore: 埋め込みを使って意味的な近さを測る。表現が違っても意味が合えば高評価。
ROUGE と BLEU は対象タスク(要約/翻訳)の入れ替えが定番のひっかけです。