Apache Spark や Hadoop などのオープンソースフレームワークを使って、大規模データのビッグデータ処理を行いたい場合に最も適した AWS のサービスはどれですか。

1 / 1
回答を選択してください
正解B

解説

OSS フレームワークでビッグデータ処理を行うサービスを選ぶ問題。

  • 1Apache Spark や HadoopOSS ビッグデータフレームワーク=EMR
  • 2ビッグデータ処理大規模分散処理=EMR
A不正解

AWS Glue

AWS Glue は、データの抽出・変換・ロード(ETL)に特化した サーバーレスのデータ統合サービス です。

内部で Spark を利用しますが用途は ETL に限られ、Hadoop / Spark / Hive などの OSS フレームワークを自由に選んで大規模処理を実行するマネージドクラスタ は EMR のため不正解です。

B正解

Amazon EMR

正解。Amazon EMR は、Apache Spark・Hadoop・Hive・Presto などのオープンソースのビッグデータフレームワークを、マネージドなクラスタ上で実行するサービスです。大規模なデータ処理・分析・機械学習の前処理などを、クラスタの構築・運用負荷を抑えて行えます。

C不正解

Amazon Kinesis Data Streams

Kinesis Data Streams は、ストリーミングデータをリアルタイムに取り込み、複数のアプリへ配信する サービスです。

データの 入口(取り込み) を担うものであり、Spark や Hadoop による 大規模データの分散処理基盤ではない ため不正解です。

D不正解

Amazon Athena

Amazon Athena は、S3 上のデータへ SQL でアドホックにクエリするサーバーレスの分析サービス です。

SQL での問い合わせが用途であり、Spark や Hadoop のフレームワークを使った大規模なデータ処理ジョブの実行基盤ではない ため不正解です。

ポイント

『Spark/Hadoop』『ビッグデータ処理』は Amazon EMR。S3 への SQL クエリは Athena、ETL は Glue、ストリームの取り込みは Kinesis と用途で区別する。