ROUGE
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)は、人が作った参照要約と生成要約の間で、共通する単語や n-gram(連続する語)がどれだけ重なるかを数える、要約タスク向けの評価指標です。重なりが多いほど高スコアになります。
語の表面的な一致を見るため、同じ意味でも言い換えると点が下がりやすく、意味的な近さで評価する指標は BERTScore のため不正解です。
ある AI チームが、言い換えの多い生成文を表面一致の指標だけで評価することに限界を感じています。生成テキストの品質を、単語の表面的な一致だけでなく、埋め込みを使った意味的な近さで評価する指標はどれですか。
意味的な近さで評価する指標を選ぶ問題。
ROUGE
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)は、人が作った参照要約と生成要約の間で、共通する単語や n-gram(連続する語)がどれだけ重なるかを数える、要約タスク向けの評価指標です。重なりが多いほど高スコアになります。
語の表面的な一致を見るため、同じ意味でも言い換えると点が下がりやすく、意味的な近さで評価する指標は BERTScore のため不正解です。
BERTScore
正解。BERTScore は、生成テキストと参照テキストの各単語を BERT などの言語モデルで埋め込み(意味を表す数値ベクトル)に変換し、ベクトル同士の近さ(コサイン類似度)で意味的な一致度を測る評価指標です。単語が違っても意味が近ければ高スコアになるため、『車 → 自動車』のような言い換えにも対応できます。語の表面的な一致だけを見る ROUGE/BLEU を補完します。
BLEU
BLEU(Bilingual Evaluation Understudy)は、参照訳との n-gram(連続する語)の一致に基づく機械翻訳の評価指標です。
表面一致ベースであり、埋め込みによる意味的な評価ではないため不正解です。
パープレキシティ
パープレキシティは、モデルが次の語をどれだけ自信を持って予測できたか(予測の確からしさ)を表す指標で、値が低いほど次の語の予測が確からしく、モデルが言語をうまく捉えていることを示します。
生成文と参照文の意味的な近さを測る指標ではないため不正解です。
テキスト生成の代表的な評価指標を押さえます。
・ROUGE: 要約評価で、参照要約との語・n-gram の重なりを数える(表面一致ベース)。
・BLEU: 機械翻訳評価で、参照訳との n-gram の一致を見る(表面一致ベース)。
・BERTScore: 生成と参照を埋め込み(ベクトル)に変換し、意味的な近さで評価する(言い換えに強い)。
表面一致の ROUGE/BLEU は言い換えに弱く、意味的な近さで評価したいときは BERTScore を使います。