評価指標とタスクの正しい対応を 2 つ選ぶ問題。

ある AI チームが、要約と翻訳それぞれの品質を自動評価する指標を選んでいます。テキスト生成タスクの自動評価指標と、その代表的な対象タスクの対応として正しいものを 2 つ選んでください。

1 / 1

複数選択してください

正解A, B

解説

問題の概要

評価指標とタスクの正しい対応を 2 つ選ぶ問題。

満たすべき条件

1「自動評価指標と、その代表的な対象タスクの対応」指標と タスク の組み合わせ
2「正しいものを 2 つ」ROUGE=要約・BLEU=翻訳 が正しい

選択肢ごとの解説

A正解

ROUGE = 要約の品質評価

正解。ROUGE は、生成した要約が参照要約とどれだけ重複するかを測る指標で、主に要約タスクの品質評価に使われます。

B正解

BLEU = 機械翻訳の品質評価

正解。BLEU は、生成した翻訳が参照訳とどれだけ一致するかを測る指標で、主に機械翻訳タスクの品質評価に使われます。

C不正解

ROUGE = 機械翻訳の品質評価

対応が逆です。ROUGE は要約の品質評価で代表的に使われる指標で、機械翻訳の代表的な指標は BLEU です。

ROUGE と BLEU の対象タスクの入れ替えは定番のひっかけです。

D不正解

BLEU = 要約の品質評価

対応が逆です。BLEU は機械翻訳の品質評価で代表的に使われる指標で、要約の代表的な指標は ROUGE です。

E不正解

BERTScore = 推論速度の評価

BERTScore は、埋め込みを使って意味的な近さを評価する指標です。

速度の指標ではないため、対応が誤っており不正解です。

ポイント

テキスト生成の自動評価指標は、何と何を比べるかで使い分けます。
・ROUGE: 生成した要約と参照要約の n-gram の重複を測る。主に要約の評価。
・BLEU: 生成した翻訳と参照訳の n-gram の一致を測る。主に機械翻訳の評価。
・BERTScore: 埋め込みを使って意味的な近さを測る。表現が違っても意味が合えば高評価。
ROUGE と BLEU は対象タスク（要約／翻訳）の入れ替えが定番のひっかけです。

解説

💡ポイント

関連リンク

ポイント