Une entreprise souhaite traiter du big data à grande échelle à l'aide de frameworks open source tels qu'Apache Spark et Hadoop. Quel service AWS est LE PLUS adapté à cette exigence ?

1 / 1
Sélectionnez une réponse
CorrectB

Explication

Question demandant quel service exécute le traitement du big data à l'aide de frameworks OSS.

  • 1Apache Spark et HadoopFrameworks OSS de big data = EMR
  • 2traiter du big dataTraitement distribué à grande échelle = EMR
AIncorrect

AWS Glue

AWS Glue est un service d'intégration de données sans serveur spécialisé dans l'extraction, la transformation et le chargement de données (ETL).

Bien qu'il utilise Spark en interne, son cas d'usage se limite à l'ETL ; un cluster géré pour exécuter des traitements à grande échelle avec des frameworks OSS librement choisis comme Hadoop, Spark et Hive est Amazon EMR, donc cette option est incorrecte.

BCorrect

Amazon EMR

Correct. Amazon EMR est un service qui exécute des frameworks open source de big data tels qu'Apache Spark, Hadoop, Hive et Presto sur un cluster géré. Il permet le traitement de données à grande échelle, l'analyse et le prétraitement ML tout en minimisant la charge opérationnelle liée à la construction et à la gestion de clusters.

CIncorrect

Amazon Kinesis Data Streams

Kinesis Data Streams est un service qui ingère des données de streaming en temps réel et les distribue à plusieurs applications.

Il gère le côté entrée (ingestion) des données ; ce n'est PAS une plateforme de traitement distribué pour des données à grande échelle utilisant des frameworks tels que Spark et Hadoop, donc cette option est incorrecte.

DIncorrect

Amazon Athena

Amazon Athena est un service d'analyse sans serveur qui exécute des requêtes SQL ad hoc sur des données stockées dans S3.

Son cas d'usage est l'interrogation basée sur SQL ; ce n'est PAS une plateforme pour exécuter des jobs de traitement de données à grande échelle à l'aide de frameworks tels que Spark et Hadoop, donc cette option est incorrecte.

À retenir

« Spark/Hadoop » et « traitement du big data » désignent Amazon EMR. Distinguer par cas d'usage : les requêtes SQL sur S3 utilisent Athena, l'ETL utilise Glue, et l'ingestion de streams utilise Kinesis.