分類タスクの評価指標を 2 つ選ぶ問題。

ある ML チームが、不良品判定（分類）モデルの評価指標を、回帰用の指標と区別して選んでいます。分類タスクのモデルの性能を測るのに使われる評価指標として適切なものを 2 つ選んでください。

1 / 1

複数選択してください

正解A, B

解説

問題の概要

分類タスクの評価指標を 2 つ選ぶ問題。

満たすべき条件

選択肢ごとの解説

A正解

適合率

正解。適合率（precision）は、モデルが「陽性」と判定したもののうち、実際に正しかった割合を表す分類タスクの評価指標です。例えば不良品判定で『不良』と判定した 100 個のうち実際に不良が 90 個なら適合率は 0.9。誤検知（良品を不良と誤ること）の少なさを示します。

B正解

再現率

正解。再現率（recall）は、実際に「陽性」であるもののうち、モデルが正しく拾えた割合を表す分類タスクの評価指標です。例えば実際の不良品 50 個のうち 40 個を『不良』と拾えたら再現率は 0.8。見逃し（不良を良品と誤ること）の少なさを示します。

C不正解

RMSE

RMSE（二乗平均平方根誤差）は、回帰タスクで予測誤差の大きさを測る指標です。例えば住宅価格や気温などの連続値を予測したとき、予測値と実測値のずれの大きさを表します。

不良品か否かというカテゴリの正誤は測れないため、分類の指標としては不正解です。

D不正解

MAE

MAE（平均絶対誤差）も、回帰タスクの誤差指標です。例えば売上予測で、実測値と予測値のずれを絶対値で平均した大きさを表します。

連続値の誤差を測るもので、分類の性能指標ではないため不正解です。

E不正解

パープレキシティ

パープレキシティは、言語モデルの次語予測の指標です。例えば言語モデルが次に来る単語をどれだけ自信を持って当てられるか（予測の確からしさ）を測ります。

分類の正誤を測るものではないため、分類モデルの性能指標としては不正解です。

分類タスクの評価指標には『適合率（precision）（陽性と判定したうち正しかった割合）』『再現率（recall）（実際に陽性のうち拾えた割合）』があります（両者を調和平均した F1 スコアもよく使われます）。