適合率
正解。適合率(precision)は、モデルが「陽性」と判定したもののうち、実際に正しかった割合を表す分類タスクの評価指標です。例えば不良品判定で『不良』と判定した 100 個のうち実際に不良が 90 個なら適合率は 0.9。誤検知(良品を不良と誤ること)の少なさを示します。
ある ML チームが、不良品判定(分類)モデルの評価指標を、回帰用の指標と区別して選んでいます。分類タスクのモデルの性能を測るのに使われる評価指標として適切なものを 2 つ選んでください。
分類タスクの評価指標を 2 つ選ぶ問題。
適合率
正解。適合率(precision)は、モデルが「陽性」と判定したもののうち、実際に正しかった割合を表す分類タスクの評価指標です。例えば不良品判定で『不良』と判定した 100 個のうち実際に不良が 90 個なら適合率は 0.9。誤検知(良品を不良と誤ること)の少なさを示します。
再現率
正解。再現率(recall)は、実際に「陽性」であるもののうち、モデルが正しく拾えた割合を表す分類タスクの評価指標です。例えば実際の不良品 50 個のうち 40 個を『不良』と拾えたら再現率は 0.8。見逃し(不良を良品と誤ること)の少なさを示します。
RMSE
RMSE(二乗平均平方根誤差)は、回帰タスクで予測誤差の大きさを測る指標です。例えば住宅価格や気温などの連続値を予測したとき、予測値と実測値のずれの大きさを表します。
不良品か否かというカテゴリの正誤は測れないため、分類の指標としては不正解です。
MAE
MAE(平均絶対誤差)も、回帰タスクの誤差指標です。例えば売上予測で、実測値と予測値のずれを絶対値で平均した大きさを表します。
連続値の誤差を測るもので、分類の性能指標ではないため不正解です。
パープレキシティ
パープレキシティは、言語モデルの次語予測の指標です。例えば言語モデルが次に来る単語をどれだけ自信を持って当てられるか(予測の確からしさ)を測ります。
分類の正誤を測るものではないため、分類モデルの性能指標としては不正解です。
分類タスクの評価指標には『適合率(precision)(陽性と判定したうち正しかった割合)』『再現率(recall)(実際に陽性のうち拾えた割合)』があります(両者を調和平均した F1 スコアもよく使われます)。