テキストから画像を生成するモデル種別を選ぶ問題。

あるデザイン会社が、広告制作の素材づくりを効率化するため、テキストの説明文を入力すると、それに合った画像を新しく生成する生成 AI を導入したいと考えています。この用途に適したモデルの種別はどれですか。

1 / 1

回答を選択してください

正解B

解説

問題の概要

テキストから画像を生成するモデル種別を選ぶ問題。

満たすべき条件

1「テキストの説明文を入力すると」テキストを条件にした生成（text-to-image）
2「画像を新しく生成する」画像生成に適した 拡散モデル が該当

選択肢ごとの解説

A不正解

Transformer ベースの言語モデル

Transformer ベースの言語モデルは、自己注意機構（self-attention：文中の各単語が、同じ文のほかのどの単語とどれだけ関係するかを計算して重み付けし、文脈を捉える仕組み）でテキストを扱い、主にテキスト生成や翻訳に使われます。

画像を生成する用途には最適化されていないため不正解です。

B正解

拡散モデル

正解。拡散モデルは、ランダムなノイズから段階的にノイズを除去して画像を生成するモデルで、テキストの説明文に基づく画像生成（text-to-image）に広く使われます。

C不正解

埋め込みモデル

埋め込みモデルは、テキストや画像を意味のベクトルに変換するモデルで、出力は数値ベクトルです。

検索や類似度比較には使えますが、新しい画像を生成することはできないため不正解です。

D不正解

画像分類モデル

画像分類モデルは、入力された画像をあらかじめ決めたカテゴリに割り当てる判別型のモデルです。

画像を扱う点は共通しますが、画像を『理解』する方向であり、テキストから画像を『生成』する用途には使えないため不正解です。

ポイント

モデル種別は『何を入力し、何を出すか』で見分けます。
・拡散モデル: ノイズ除去の過程で画像などを生成（テキスト→画像の代表）。
・Transformer 言語モデル: 主にテキストを生成。
・埋め込みモデル: ベクトルを出力（生成しない）。
・画像分類モデル: カテゴリを出力する判別型（生成しない）。
『画像を新しく作る』なら拡散モデルです。

解説

💡ポイント

関連リンク

ポイント