スキャンした請求書や申込書などの文書画像から、文字だけでなく表やフォームの項目を構造化データとして自動抽出したい場合に最も適した AWS のサービスはどれですか。

1 / 1
回答を選択してください
正解D

解説

文書画像からデータを抽出する AI サービスを選ぶ問題。

  • 1文書画像からスキャン文書/PDF が入力=Textract
  • 2表やフォームの項目単なる OCR を超えた構造抽出
  • 3構造化データとして自動抽出帳票処理の自動化=Textract
A不正解

Amazon Rekognition

Amazon Rekognition は、画像・動画から 物体・シーン・顔などを検出する 画像分析サービスで、画像内の文字検出も限定的にできます。

ただし請求書やフォームの 表・項目を構造化データとして抽出する文書特化の機能 は Textract の役割のため不正解です。

B不正解

Amazon Transcribe

Amazon Transcribe は、音声をテキストに書き起こす 音声認識サービスです。

名前が Textract と似ていますが、入力は 音声・録音データ であり、スキャンした 文書画像 から表・フォームを抽出する本問の要件は満たせないため不正解です。

C不正解

Amazon Comprehend

Amazon Comprehend はテキストから感情やエンティティを抽出する NLP サービスです。

文書画像そのものから文字や表を読み取る OCR の役割は Textract のため不正解です。

D正解

Amazon Textract

正解。Amazon Textract は、文書画像や PDF から文字(OCR)や表・フォームの項目を構造化データとして自動抽出する AI サービスです。請求書・申込書・帳票などの処理自動化に使われます。

ポイント

『文書画像から文字・表・フォーム抽出』は Amazon Textract(OCR+構造抽出)。画像の物体・顔検出は Rekognition、名前が似た Transcribe は音声の文字起こし。『何から何を取り出すか』で区別する。