ナレッジベース取り込みの前段で文書を分割する処理を選ぶ問題。

ある企業が、長い社内マニュアルを Amazon Bedrock のナレッジベースに取り込み、質問に関連する箇所だけを検索して回答に使う構成を構築しています。取り込みの前段として、文書を埋め込みへの変換と検索に適した、意味のまとまりへ分割する必要があります。この分割処理を表す用語はどれですか。

1 / 1

回答を選択してください

正解C

解説

問題の概要

ナレッジベース取り込みの前段で文書を分割する処理を選ぶ問題。

満たすべき条件

1「関連する箇所だけを検索」文書を 検索単位のまとまり にしておく必要がある
2「意味のまとまりへ分割」チャンク化（トークン化より粗い粒度）が該当

選択肢ごとの解説

A不正解

トークン化

トークン化は、テキストをモデルが処理する最小単位（トークン）に区切る処理です。

同じ『分割』でも粒度が違い、単語や部分文字列レベルでは検索単位として細かすぎます。検索に使うまとまりへの分割はチャンク化のため不正解です。

B不正解

ファインチューニング

ファインチューニングは、ラベル付きデータでモデルの重みを追加学習し、特定タスクに適応させる手法です。事前学習済みの基盤モデルを土台に、自社の問い合わせ対応データや専門分野の文章などを追加で学習させて、口調や専門知識をモデル自体に覚え込ませます（RAG が「外部の文書を検索して渡す」のに対し、ファインチューニングは「モデルの中身を更新する」点が違います）。

本問はナレッジベース取り込みの前処理が論点であり、モデルの再学習ではないため不正解です。

C正解

チャンク化

正解。チャンク化は、長い文書を検索や埋め込みに適した意味のあるまとまり（チャンク）に分割する前処理です。例えば数百ページの社内マニュアルを、見出しや段落の区切りで「数百〜千文字程度のかたまり」に切り分け、〈第3章経費精算の手順〉のような単位ごとに 1 チャンクとして扱います。ナレッジベースでは、チャンク化 → 埋め込み生成 → ベクトル保存の順で取り込み、質問に近いチャンクだけを検索して回答に使います。

D不正解

埋め込みの生成

埋め込みの生成は、分割済みのまとまり（チャンク）を意味のベクトルに変換する処理で、取り込みの流れではチャンク化の後段にあたります。各チャンクを埋め込みモデルに通して数百〜数千次元の数値の並び（ベクトル）に変え、ベクトルストアに保存します。これにより、後で質問文も同じ方法でベクトル化し、距離が近いチャンクを意味ベースで検索できるようになります。

本問が問うのはその前段の『分割』そのものであり、工程の順序が違うため不正解です。

ポイント

RAG / ナレッジベースの取り込みは『チャンク化（分割）→ 埋め込み生成（ベクトル化）→ ベクトルストア保存』の順で覚えます。混同しやすいトークン化は『モデルが読む最小単位への分割』で粒度がもっと細かく、埋め込みの生成は分割の後段の工程です。『検索に使うまとまりへの分割』と来たらチャンク化です。

解説

💡ポイント

関連リンク

ポイント