Một công ty muốn xử lý dữ liệu lớn quy mô lớn bằng các framework mã nguồn mở như Apache Spark và Hadoop. Dịch vụ AWS nào PHÙ HỢP NHẤT với yêu cầu này?

1 / 1
Hãy chọn một đáp án
ĐúngB

Giải thích

Câu hỏi yêu cầu xác định dịch vụ nào chạy xử lý dữ liệu lớn bằng framework OSS.

  • 1Apache Spark và HadoopFramework OSS dữ liệu lớn = EMR
  • 2xử lý dữ liệu lớnXử lý phân tán quy mô lớn = EMR
ASai

AWS Glue

AWS Glue là dịch vụ tích hợp dữ liệu serverless chuyên về trích xuất, chuyển đổi và tải dữ liệu (ETL).

Mặc dù sử dụng Spark bên trong, trường hợp sử dụng của nó giới hạn ở ETL; cluster được quản lý để chạy xử lý quy mô lớn với các framework OSS được chọn tự do như Hadoop, Spark và Hive là Amazon EMR, do đó tùy chọn này không đúng.

BĐúng

Amazon EMR

Đúng. Amazon EMR là dịch vụ chạy các framework dữ liệu lớn mã nguồn mở như Apache Spark, Hadoop, Hive và Presto trên cluster được quản lý. Nó cho phép xử lý dữ liệu quy mô lớn, phân tích và tiền xử lý ML trong khi giảm thiểu chi phí vận hành khi xây dựng và quản lý cluster.

CSai

Amazon Kinesis Data Streams

Kinesis Data Streams là dịch vụ nhập dữ liệu streaming theo thời gian thực và phân phối đến nhiều ứng dụng.

Nó xử lý phía đầu vào (nhập) của dữ liệu; KHÔNG phải nền tảng xử lý phân tán cho dữ liệu quy mô lớn sử dụng các framework như Spark và Hadoop, do đó tùy chọn này không đúng.

DSai

Amazon Athena

Amazon Athena là dịch vụ phân tích serverless thực thi các truy vấn SQL ad hoc trên dữ liệu lưu trữ trong S3.

Trường hợp sử dụng của nó là truy vấn dựa trên SQL; KHÔNG phải nền tảng để chạy các công việc xử lý dữ liệu quy mô lớn sử dụng các framework như Spark và Hadoop, do đó tùy chọn này không đúng.

Điểm cần nhớ

'Spark/Hadoop' và 'xử lý dữ liệu lớn' đều chỉ đến Amazon EMR. Phân biệt theo trường hợp sử dụng: truy vấn SQL vào S3 dùng Athena, ETL dùng Glue, và nhập stream dùng Kinesis.