トークン
トークンは、テキストを区切ったモデルの処理単位で、単語そのものや「東京」「都」のような部分文字列、記号などに分割されます(例: 「お問い合わせ」が「お」「問い合わせ」のように複数トークンに分かれる)。LLM はこのトークン列を順に処理し、入出力量や料金の数え方の基準にもなります。
ただし区切っただけでは字面の比較しかできず、言い回しが違うテキストの意味の近さは計算できないため不正解です。
ある企業が FAQ 検索の改善を計画しています。利用者の質問と FAQ の言い回しが違っても、意味が近ければ検索でヒットするようにするため、各テキストを、意味の近さを数値的に計算できる表現へ変換して保存する方針です。この表現を表す用語はどれですか。
意味ベースの検索を支える数値表現の用語を選ぶ問題。
トークン
トークンは、テキストを区切ったモデルの処理単位で、単語そのものや「東京」「都」のような部分文字列、記号などに分割されます(例: 「お問い合わせ」が「お」「問い合わせ」のように複数トークンに分かれる)。LLM はこのトークン列を順に処理し、入出力量や料金の数え方の基準にもなります。
ただし区切っただけでは字面の比較しかできず、言い回しが違うテキストの意味の近さは計算できないため不正解です。
チャンク
チャンクは、長い文書を扱いやすく分割したまとまりです。
分割しただけのテキストでは意味の近さは数値計算できず、チャンクを埋め込みに変換して初めて距離で比較できるようになるため不正解です。
プロンプト
プロンプトは、モデルに与える指示や入力文そのものです。例えば「次の文章を 3 行で要約してください」という命令や、参考資料・出力形式の例・役割設定(「あなたは経理担当です」)などをまとめてモデルに渡すテキストを指し、その書き方を工夫することをプロンプトエンジニアリングと呼びます。
本問が問うのは保存して比較に使う意味の表現であり、モデルへの指示の与え方ではないため不正解です。
埋め込み
正解。埋め込み (embeddings) は、単語や文の意味を数値ベクトルに変換したものです。意味が近いほどベクトルも近くなるため、言い回しが違っても距離(類似度)の計算で意味ベースの検索ができます。
『意味の近さを数値(距離)で比較する』は埋め込み (embeddings)。各テキストを数百〜数千次元のベクトル(数値の並び)に変換し、ベクトル同士の距離(コサイン類似度やユークリッド距離など)を計算します。距離が小さい=意味が近い、と判定できるため、質問文をベクトル化して、保存済みベクトルの中から距離が最も近い上位数件を取り出せば、言い回しが違っても意味の近い FAQ をヒットさせられます(これがセマンティック検索や RAG の検索段の仕組み)。トークン(処理単位)・チャンク(分割したまとまり)は、どちらもテキストのままで意味の近さは計算できない点で区別します。