Amazon EMR
Amazon EMR は、Spark や Hadoop を クラスタ上で実行する ビッグデータ処理基盤です。
大規模処理はできますが、クラスタの構成・管理を伴うため、サーバーレスでマネージドな ETL という本問の要件には Glue が適するため不正解です。
さまざまなデータソースからデータを抽出し、分析しやすい形に変換して別の保存先へ読み込む ETL 処理を、サーバーレスで実行できるサービスはどれですか。
サーバーレスで ETL を行うサービスを選ぶ問題。
Amazon EMR
Amazon EMR は、Spark や Hadoop を クラスタ上で実行する ビッグデータ処理基盤です。
大規模処理はできますが、クラスタの構成・管理を伴うため、サーバーレスでマネージドな ETL という本問の要件には Glue が適するため不正解です。
AWS Glue
正解。AWS Glue は、データの抽出・変換・読み込み(ETL)をサーバーレスで実行できるマネージドサービスです。データソースを自動で検出してデータカタログを作成し、変換ジョブを実行して分析しやすい形に整えます。サーバの管理は不要です。
Amazon Data Firehose
Amazon Data Firehose は、ストリーミングデータを変換しながら S3 などへ配信し続ける サービスです。
対象は 流れ続けるデータのロード であり、さまざまなソースからの バッチ的な抽出・変換・読み込み(ETL) を担う本問の要件には Glue が適するため不正解です。
AWS Lambda
AWS Lambda は汎用のサーバーレスコード実行サービスで、小規模なデータ変換に使うこともできます。
ただし データカタログ・クローラー・ジョブ管理といった ETL 専用の仕組み はなく、実行時間の上限もあるため、マネージドな ETL という本問の要件には Glue が適するため不正解です。
『ETL』『抽出・変換・読み込み』『サーバーレス』は AWS Glue。SQL クエリは Athena、可視化は QuickSight、ストリーミングは Kinesis と分析パイプラインで役割が分かれる。