Question demandant quel service exécute le trait…

Une entreprise souhaite traiter du big data à grande échelle à l'aide de frameworks open source tels qu'Apache Spark et Hadoop. Quel service AWS est LE PLUS adapté à cette exigence ?

1 / 1

Sélectionnez une réponse

CorrectB

Explication

Aperçu de la question

Question demandant quel service exécute le traitement du big data à l'aide de frameworks OSS.

Conditions à remplir

1「Apache Spark et Hadoop」Frameworks OSS de big data = EMR
2「traiter du big data」Traitement distribué à grande échelle = EMR

Explication par option

AIncorrect

AWS Glue

AWS Glue est un service d'intégration de données sans serveur spécialisé dans l'extraction, la transformation et le chargement de données (ETL).

Bien qu'il utilise Spark en interne, son cas d'usage se limite à l'ETL ; un cluster géré pour exécuter des traitements à grande échelle avec des frameworks OSS librement choisis comme Hadoop, Spark et Hive est Amazon EMR, donc cette option est incorrecte.

BCorrect

Amazon EMR

Correct. Amazon EMR est un service qui exécute des frameworks open source de big data tels qu'Apache Spark, Hadoop, Hive et Presto sur un cluster géré. Il permet le traitement de données à grande échelle, l'analyse et le prétraitement ML tout en minimisant la charge opérationnelle liée à la construction et à la gestion de clusters.

CIncorrect

Amazon Kinesis Data Streams

Kinesis Data Streams est un service qui ingère des données de streaming en temps réel et les distribue à plusieurs applications.

Il gère le côté entrée (ingestion) des données ; ce n'est PAS une plateforme de traitement distribué pour des données à grande échelle utilisant des frameworks tels que Spark et Hadoop, donc cette option est incorrecte.

DIncorrect

Amazon Athena

Amazon Athena est un service d'analyse sans serveur qui exécute des requêtes SQL ad hoc sur des données stockées dans S3.

Son cas d'usage est l'interrogation basée sur SQL ; ce n'est PAS une plateforme pour exécuter des jobs de traitement de données à grande échelle à l'aide de frameworks tels que Spark et Hadoop, donc cette option est incorrecte.

À retenir

« Spark/Hadoop » et « traitement du big data » désignent Amazon EMR. Distinguer par cas d'usage : les requêtes SQL sur S3 utilisent Athena, l'ETL utilise Glue, et l'ingestion de streams utilise Kinesis.

Explication

💡À retenir

Liens connexes

À retenir