Transformer ベースの言語モデル
Transformer ベースの言語モデルは、自己注意機構(self-attention:文中の各単語が、同じ文のほかのどの単語とどれだけ関係するかを計算して重み付けし、文脈を捉える仕組み)でテキストを扱い、主にテキスト生成や翻訳に使われます。
画像を生成する用途には最適化されていないため不正解です。
あるデザイン会社が、広告制作の素材づくりを効率化するため、テキストの説明文を入力すると、それに合った画像を新しく生成する生成 AI を導入したいと考えています。この用途に適したモデルの種別はどれですか。
テキストから画像を生成するモデル種別を選ぶ問題。
Transformer ベースの言語モデル
Transformer ベースの言語モデルは、自己注意機構(self-attention:文中の各単語が、同じ文のほかのどの単語とどれだけ関係するかを計算して重み付けし、文脈を捉える仕組み)でテキストを扱い、主にテキスト生成や翻訳に使われます。
画像を生成する用途には最適化されていないため不正解です。
拡散モデル
正解。拡散モデルは、ランダムなノイズから段階的にノイズを除去して画像を生成するモデルで、テキストの説明文に基づく画像生成(text-to-image)に広く使われます。
埋め込みモデル
埋め込みモデルは、テキストや画像を意味のベクトルに変換するモデルで、出力は数値ベクトルです。
検索や類似度比較には使えますが、新しい画像を生成することはできないため不正解です。
画像分類モデル
画像分類モデルは、入力された画像をあらかじめ決めたカテゴリに割り当てる判別型のモデルです。
画像を扱う点は共通しますが、画像を『理解』する方向であり、テキストから画像を『生成』する用途には使えないため不正解です。
モデル種別は『何を入力し、何を出すか』で見分けます。
・拡散モデル: ノイズ除去の過程で画像などを生成(テキスト→画像の代表)。
・Transformer 言語モデル: 主にテキストを生成。
・埋め込みモデル: ベクトルを出力(生成しない)。
・画像分類モデル: カテゴリを出力する判別型(生成しない)。
『画像を新しく作る』なら拡散モデルです。