AWS Glue
AWS Glue は、データの抽出・変換・ロード(ETL)に特化した サーバーレスのデータ統合サービス です。
内部で Spark を利用しますが用途は ETL に限られ、Hadoop / Spark / Hive などの OSS フレームワークを自由に選んで大規模処理を実行するマネージドクラスタ は EMR のため不正解です。
Apache Spark や Hadoop などのオープンソースフレームワークを使って、大規模データのビッグデータ処理を行いたい場合に最も適した AWS のサービスはどれですか。
OSS フレームワークでビッグデータ処理を行うサービスを選ぶ問題。
AWS Glue
AWS Glue は、データの抽出・変換・ロード(ETL)に特化した サーバーレスのデータ統合サービス です。
内部で Spark を利用しますが用途は ETL に限られ、Hadoop / Spark / Hive などの OSS フレームワークを自由に選んで大規模処理を実行するマネージドクラスタ は EMR のため不正解です。
Amazon EMR
正解。Amazon EMR は、Apache Spark・Hadoop・Hive・Presto などのオープンソースのビッグデータフレームワークを、マネージドなクラスタ上で実行するサービスです。大規模なデータ処理・分析・機械学習の前処理などを、クラスタの構築・運用負荷を抑えて行えます。
Amazon Kinesis Data Streams
Kinesis Data Streams は、ストリーミングデータをリアルタイムに取り込み、複数のアプリへ配信する サービスです。
データの 入口(取り込み) を担うものであり、Spark や Hadoop による 大規模データの分散処理基盤ではない ため不正解です。
Amazon Athena
Amazon Athena は、S3 上のデータへ SQL でアドホックにクエリするサーバーレスの分析サービス です。
SQL での問い合わせが用途であり、Spark や Hadoop のフレームワークを使った大規模なデータ処理ジョブの実行基盤ではない ため不正解です。
『Spark/Hadoop』『ビッグデータ処理』は Amazon EMR。S3 への SQL クエリは Athena、ETL は Glue、ストリームの取り込みは Kinesis と用途で区別する。