Câu hỏi yêu cầu xác định dịch vụ nào chạy xử lý …

Một công ty muốn xử lý dữ liệu lớn quy mô lớn bằng các framework mã nguồn mở như Apache Spark và Hadoop. Dịch vụ AWS nào PHÙ HỢP NHẤT với yêu cầu này?

1 / 1

Hãy chọn một đáp án

ĐúngB

Giải thích

Tóm tắt câu hỏi

Câu hỏi yêu cầu xác định dịch vụ nào chạy xử lý dữ liệu lớn bằng framework OSS.

Điều kiện cần thỏa

1「Apache Spark và Hadoop」Framework OSS dữ liệu lớn = EMR
2「xử lý dữ liệu lớn」Xử lý phân tán quy mô lớn = EMR

Giải thích từng lựa chọn

ASai

AWS Glue

AWS Glue là dịch vụ tích hợp dữ liệu serverless chuyên về trích xuất, chuyển đổi và tải dữ liệu (ETL).

Mặc dù sử dụng Spark bên trong, trường hợp sử dụng của nó giới hạn ở ETL; cluster được quản lý để chạy xử lý quy mô lớn với các framework OSS được chọn tự do như Hadoop, Spark và Hive là Amazon EMR, do đó tùy chọn này không đúng.

BĐúng

Amazon EMR

Đúng. Amazon EMR là dịch vụ chạy các framework dữ liệu lớn mã nguồn mở như Apache Spark, Hadoop, Hive và Presto trên cluster được quản lý. Nó cho phép xử lý dữ liệu quy mô lớn, phân tích và tiền xử lý ML trong khi giảm thiểu chi phí vận hành khi xây dựng và quản lý cluster.

CSai

Amazon Kinesis Data Streams

Kinesis Data Streams là dịch vụ nhập dữ liệu streaming theo thời gian thực và phân phối đến nhiều ứng dụng.

Nó xử lý phía đầu vào (nhập) của dữ liệu; KHÔNG phải nền tảng xử lý phân tán cho dữ liệu quy mô lớn sử dụng các framework như Spark và Hadoop, do đó tùy chọn này không đúng.

DSai

Amazon Athena

Amazon Athena là dịch vụ phân tích serverless thực thi các truy vấn SQL ad hoc trên dữ liệu lưu trữ trong S3.

Trường hợp sử dụng của nó là truy vấn dựa trên SQL; KHÔNG phải nền tảng để chạy các công việc xử lý dữ liệu quy mô lớn sử dụng các framework như Spark và Hadoop, do đó tùy chọn này không đúng.

Điểm cần nhớ

'Spark/Hadoop' và 'xử lý dữ liệu lớn' đều chỉ đến Amazon EMR. Phân biệt theo trường hợp sử dụng: truy vấn SQL vào S3 dùng Athena, ETL dùng Glue, và nhập stream dùng Kinesis.

Giải thích

💡Điểm cần nhớ

Liên kết liên quan

Điểm cần nhớ