ある ML プロジェクトで、クレンジング済みの生のデータを加工して、予測に役立つ新しい入力変数(例: 日付から「曜日」や「月初フラグ」を作る)を設計する作業を進めています。この作業が該当する工程はどれですか。

1 / 1
回答を選択してください
正解A

解説

予測に有効な入力変数を作る作業を選ぶ問題。

  • 1予測に役立つ新しい入力変数モデルが学びやすい 特徴量 を作る
  • 2設計する作業= 特徴量エンジニアリング
A正解

特徴量エンジニアリング

正解。特徴量エンジニアリングは、生データを加工して予測に役立つ入力変数(特徴量)を設計・作成する作業です。例えば『日付から曜日や月初フラグを作る』『住所から都道府県を切り出す』『購入履歴から直近 30 日の購入回数を集計する』のように、モデルが学びやすい新しい変数を生み出します。良い特徴量はモデルの精度を大きく左右します。

B不正解

データ前処理(クレンジング)

データ前処理(クレンジング)は、欠損補完や形式統一でデータを整える作業です。例えば『欠損値を平均値で埋める』『株式会社と(株)などの表記ゆれを統一する』『重複行や明らかな外れ値を取り除く』のように、汚れたデータをきれいにします。

新しい入力変数を設計して作る作業とは目的が異なるため不正解です。

C不正解

モデル評価

モデル評価は、学習したモデルの性能を測る作業です。

入力変数を設計して作る作業とは別の段階のため不正解です。

D不正解

モニタリング

モニタリングは、デプロイ後のモデルの挙動を監視する作業です。

入力変数を設計して作る作業とは別の段階のため不正解です。

ポイント

正解の『特徴量エンジニアリング』の位置づけを押さえます。
・生データを加工して、予測に役立つ入力変数(特徴量)を設計・作成する。
・データ前処理(整える)とは別で、整えた後に行うことが多い。
・良い特徴量はモデルの精度を大きく左右する。
モデル評価(性能測定)・モニタリング(本番監視)とは段階が違います。