Sebuah perusahaan ingin memproses big data dalam skala besar menggunakan framework open source seperti Apache Spark dan Hadoop. Layanan AWS mana yang PALING sesuai untuk kebutuhan ini?

1 / 1
Pilih jawaban
BenarB

Penjelasan

Pertanyaan yang menanyakan layanan mana yang menjalankan pemrosesan big data menggunakan framework OSS.

  • 1Apache Spark dan HadoopFramework OSS big data = EMR
  • 2memproses big dataPemrosesan terdistribusi skala besar = EMR
ASalah

AWS Glue

AWS Glue adalah layanan integrasi data tanpa server yang mengkhususkan diri dalam ekstraksi, transformasi, dan pemuatan data (ETL).

Meskipun menggunakan Spark secara internal, kasus penggunaannya terbatas pada ETL; kluster terkelola untuk menjalankan pemrosesan skala besar dengan framework OSS yang dipilih secara bebas seperti Hadoop, Spark, dan Hive adalah Amazon EMR, sehingga opsi ini tidak tepat.

BBenar

Amazon EMR

Benar. Amazon EMR adalah layanan yang menjalankan framework big data open source seperti Apache Spark, Hadoop, Hive, dan Presto pada kluster terkelola. Layanan ini memungkinkan pemrosesan data skala besar, analitik, dan pra-pemrosesan ML sambil meminimalkan overhead operasional dalam membangun dan mengelola kluster.

CSalah

Amazon Kinesis Data Streams

Kinesis Data Streams adalah layanan yang mengambil data streaming secara real time dan mengirimkannya ke beberapa aplikasi.

Layanan ini menangani sisi masukan (pengambilan) data; BUKAN platform pemrosesan terdistribusi untuk data skala besar menggunakan framework seperti Spark dan Hadoop, sehingga opsi ini tidak tepat.

DSalah

Amazon Athena

Amazon Athena adalah layanan analitik tanpa server yang menjalankan kueri SQL ad hoc pada data yang disimpan di S3.

Kasus penggunaannya adalah kueri berbasis SQL; BUKAN platform untuk menjalankan pekerjaan pemrosesan data skala besar menggunakan framework seperti Spark dan Hadoop, sehingga opsi ini tidak tepat.

Poin penting

'Spark/Hadoop' dan 'pemrosesan big data' merujuk pada Amazon EMR. Bedakan berdasarkan kasus penggunaan: kueri SQL ke S3 menggunakan Athena, ETL menggunakan Glue, dan pengambilan stream menggunakan Kinesis.