Dịch vụ nào có thể chạy theo dạng serverless quy trình ETL trích xuất dữ liệu từ nhiều nguồn dữ liệu, chuyển đổi nó thành dạng thuận tiện cho phân tích, và nạp vào một điểm đến khác?

1 / 1
Hãy chọn một đáp án
ĐúngB

Giải thích

Chọn một dịch vụ thực hiện ETL theo dạng serverless.

  • 1trích xuất dữ liệuPhần Extract của ETL
  • 2chuyển đổi nó thành dạng thuận tiện cho phân tích, và nạp vào một điểm đến khácPhần Transform/Load của ETL = Glue
  • 3quy trình ETLMục đích chính của Glue
ASai

Amazon EMR

Amazon EMR là một nền tảng xử lý dữ liệu lớn chạy Spark và Hadoop trên một cụm.

Nó có thể xử lý quy mô lớn, nhưng liên quan đến việc cấu hình và quản lý một cụm, nên yêu cầu ETL serverless, được quản lý thì Glue mới đáp ứng, nên đáp án này sai.

BĐúng

AWS Glue

Đúng. AWS Glue là một dịch vụ được quản lý có thể chạy trích xuất, chuyển đổi và nạp (ETL) theo dạng serverless. Nó tự động phát hiện các nguồn dữ liệu, xây dựng một data catalog, và chạy các job chuyển đổi để định hình dữ liệu thành dạng thuận tiện cho phân tích. Không cần quản lý máy chủ.

CSai

Amazon Data Firehose

Amazon Data Firehose là một dịch vụ liên tục đưa dữ liệu streaming tới các điểm đến như S3 trong khi chuyển đổi nó.

Nó nhắm tới việc nạp dữ liệu chảy liên tục, nên yêu cầu trích xuất, chuyển đổi và nạp (ETL) theo dạng batch từ nhiều nguồn thì Glue mới đáp ứng, nên đáp án này sai.

DSai

AWS Lambda

AWS Lambda là một dịch vụ chạy mã serverless đa dụng và có thể dùng cho các chuyển đổi dữ liệu nhỏ.

Tuy nhiên, nó không có các cơ chế chuyên dụng cho ETL như data catalog, crawler hay quản lý job và có giới hạn thời gian chạy, nên yêu cầu ETL được quản lý thì Glue mới đáp ứng, nên đáp án này sai.

Điểm cần nhớ

'ETL', 'trích xuất, chuyển đổi, nạp' và 'serverless' chỉ tới AWS Glue. Truy vấn SQL là Athena, trực quan hóa là QuickSight, và streaming là Kinesis, nên vai trò được phân chia trong toàn pipeline phân tích.