OSS フレームワークでビッグデータ処理を行うサービスを選ぶ問題。

Apache Spark や Hadoop などのオープンソースフレームワークを使って、大規模データのビッグデータ処理を行いたい場合に最も適した AWS のサービスはどれですか。

1 / 1

回答を選択してください

正解B

解説

問題の概要

OSS フレームワークでビッグデータ処理を行うサービスを選ぶ問題。

満たすべき条件

選択肢ごとの解説

A不正解

AWS Glue

AWS Glue は、データの抽出・変換・ロード（ETL）に特化した サーバーレスのデータ統合サービス です。

内部で Spark を利用しますが用途は ETL に限られ、Hadoop / Spark / Hive などの OSS フレームワークを自由に選んで大規模処理を実行するマネージドクラスタ は EMR のため不正解です。

B正解

Amazon EMR

正解。Amazon EMR は、Apache Spark・Hadoop・Hive・Presto などのオープンソースのビッグデータフレームワークを、マネージドなクラスタ上で実行するサービスです。大規模なデータ処理・分析・機械学習の前処理などを、クラスタの構築・運用負荷を抑えて行えます。

C不正解

Amazon Kinesis Data Streams

Kinesis Data Streams は、ストリーミングデータをリアルタイムに取り込み、複数のアプリへ配信する サービスです。

データの 入口（取り込み） を担うものであり、Spark や Hadoop による 大規模データの分散処理基盤ではない ため不正解です。

D不正解

Amazon Athena

Amazon Athena は、S3 上のデータへ SQL でアドホックにクエリするサーバーレスの分析サービス です。

SQL での問い合わせが用途であり、Spark や Hadoop のフレームワークを使った大規模なデータ処理ジョブの実行基盤ではない ため不正解です。

『Spark/Hadoop』『ビッグデータ処理』は Amazon EMR。S3 への SQL クエリは Athena、ETL は Glue、ストリームの取り込みは Kinesis と用途で区別する。