Una empresa desea procesar big data a gran escala utilizando frameworks de código abierto como Apache Spark y Hadoop. ¿Qué servicio de AWS es el MÁS adecuado para este requisito?

1 / 1
Selecciona una respuesta
CorrectoB

Explicación

Pregunta que pide identificar qué servicio ejecuta procesamiento de big data usando frameworks OSS.

  • 1Apache Spark y HadoopFrameworks OSS de big data = EMR
  • 2procesar big dataProcesamiento distribuido a gran escala = EMR
AIncorrecto

AWS Glue

AWS Glue es un servicio de integración de datos sin servidor especializado en extracción, transformación y carga de datos (ETL).

Aunque utiliza Spark internamente, su caso de uso se limita a ETL; un clúster administrado para ejecutar procesamiento a gran escala con frameworks OSS elegidos libremente como Hadoop, Spark y Hive es Amazon EMR, por lo que esta opción es incorrecta.

BCorrecto

Amazon EMR

Correcto. Amazon EMR es un servicio que ejecuta frameworks de big data de código abierto como Apache Spark, Hadoop, Hive y Presto en un clúster administrado. Permite el procesamiento de datos a gran escala, análisis y preprocesamiento de ML mientras se minimiza la sobrecarga operativa de construir y gestionar clústeres.

CIncorrecto

Amazon Kinesis Data Streams

Kinesis Data Streams es un servicio que ingiere datos de streaming en tiempo real y los entrega a múltiples aplicaciones.

Gestiona el lado de entrada (ingesta) de los datos; NO es una plataforma de procesamiento distribuido para datos a gran escala usando frameworks como Spark y Hadoop, por lo que esta opción es incorrecta.

DIncorrecto

Amazon Athena

Amazon Athena es un servicio de análisis sin servidor que ejecuta consultas SQL ad hoc sobre datos almacenados en S3.

Su caso de uso es la consulta basada en SQL; NO es una plataforma para ejecutar trabajos de procesamiento de datos a gran escala usando frameworks como Spark y Hadoop, por lo que esta opción es incorrecta.

Punto clave

'Spark/Hadoop' y 'procesamiento de big data' apuntan a Amazon EMR. Distinguir por caso de uso: las consultas SQL sobre S3 usan Athena, el ETL usa Glue y la ingesta de streams usa Kinesis.