150+ câu trắc nghiệm Dữ liệu lớn (BigData) có đáp án

Câu 1

Chức năng chính của Apache Kafka là gì?

A. Lưu trữ dữ liệu lịch sử cho mục đích phân tích.
B. Truyền tải dữ liệu theo thời gian thực giữa các hệ thống.
C. Xử lý và biến đổi dữ liệu theo lô.
D. Quản lý siêu dữ liệu của dữ liệu lớn.

Câu 2

Bạn đang làm việc với một tập dữ liệu lớn chứa thông tin về các bài đăng trên mạng xã hội. Bạn muốn phân tích xem những chủ đề nào đang được thảo luận nhiều nhất. Kỹ thuật nào sau đây là phù hợp nhất?

A. Phân tích hồi quy (regression analysis)
B. Phân tích phân cụm (cluster analysis)
C. Phân tích chủ đề (topic modeling)
D. Phân tích chuỗi thời gian (time series analysis)

Câu 3

Điều gì KHÔNG phải là một lợi ích của việc sử dụng các giải pháp Big Data?

A. Cải thiện việc ra quyết định dựa trên dữ liệu.
B. Giảm chi phí lưu trữ và xử lý dữ liệu.
C. Khả năng xử lý dữ liệu lớn và phức tạp.
D. Đảm bảo tính bảo mật tuyệt đối của dữ liệu.

Câu 4

Trong lĩnh vực Big Data, thuật ngữ 'data governance' (quản trị dữ liệu) có ý nghĩa gì?

A. Quá trình di chuyển dữ liệu giữa các hệ thống.
B. Quá trình đảm bảo chất lượng, tính toàn vẹn, bảo mật và tuân thủ của dữ liệu.
C. Quá trình xây dựng mô hình machine learning.
D. Quá trình trực quan hóa dữ liệu.

Câu 5

MapReduce là một mô hình lập trình để xử lý song song dữ liệu lớn. Giai đoạn nào sau đây KHÔNG thuộc quy trình MapReduce?

A. Map
B. Reduce
C. Sort
D. Extract

Câu 6

Bạn cần chọn một ngôn ngữ lập trình để phát triển các ứng dụng Big Data. Ngôn ngữ nào sau đây thường được sử dụng cho cả xử lý dữ liệu và xây dựng mô hình machine learning?

A. Java
B. Python
C. Scala
D. Tất cả các ngôn ngữ trên

Câu 7

Trong một hệ thống Big Data, bạn nhận thấy rằng hiệu suất truy vấn đang chậm. Nguyên nhân nào sau đây có thể KHÔNG phải là nguyên nhân?

A. Dữ liệu không được phân vùng (partitioned) đúng cách.
B. Truy vấn không được tối ưu hóa.
C. Phần cứng không đủ mạnh.
D. Dữ liệu được lưu trữ trong một cơ sở dữ liệu quan hệ truyền thống.

Câu 8

Trong bối cảnh của Big Data, thuật ngữ 'data wrangling' (xử lý dữ liệu) đề cập đến điều gì?

A. Quá trình lưu trữ dữ liệu vào một data warehouse.
B. Quá trình làm sạch, chuyển đổi và chuẩn bị dữ liệu để phân tích.
C. Quá trình xây dựng mô hình machine learning.
D. Quá trình trực quan hóa dữ liệu.

Câu 9

Bạn muốn sử dụng một công cụ để điều phối (orchestrate) các công việc (jobs) Big Data, chẳng hạn như chạy các quy trình ETL và huấn luyện mô hình machine learning theo lịch trình. Công cụ nào sau đây phù hợp nhất?

A. Hadoop
B. Spark
C. Oozie
D. Hive

Câu 10

Bạn cần xây dựng một hệ thống Big Data để phân tích dữ liệu giao dịch tài chính và phát hiện các hành vi gian lận. Yếu tố nào sau đây là quan trọng nhất?

A. Độ chính xác (accuracy)
B. Tốc độ (speed)
C. Khả năng mở rộng (scalability)
D. Tất cả các yếu tố trên

Câu 11

Trong quá trình xây dựng một mô hình machine learning trên dữ liệu lớn, bạn nhận thấy rằng mô hình của bạn đang bị 'overfitting' (quá khớp). Biện pháp nào sau đây có thể giúp giảm thiểu overfitting?

A. Tăng kích thước tập dữ liệu huấn luyện.
B. Giảm số lượng features (thuộc tính) được sử dụng trong mô hình.
C. Sử dụng kỹ thuật regularization.
D. Tất cả các biện pháp trên

Câu 12

Công nghệ nào sau đây thường được sử dụng để thu thập dữ liệu từ các nguồn streaming khác nhau (ví dụ: log files, sensor data)?

A. Hadoop
B. Spark
C. Kafka
D. Hive

Câu 13

Bạn cần xây dựng một ứng dụng Big Data để phân tích dữ liệu cảm biến từ các thiết bị IoT trong thời gian thực. Yêu cầu nào sau đây là quan trọng nhất?

A. Khả năng mở rộng (scalability)
B. Độ trễ thấp (low latency)
C. Độ tin cậy (reliability)
D. Tất cả các yêu cầu trên

Câu 14

Chọn phát biểu đúng nhất về Apache Spark.

A. Spark là một hệ thống lưu trữ dữ liệu phân tán, tương tự như HDFS.
B. Spark là một framework xử lý dữ liệu thời gian thực và xử lý hàng loạt nhanh chóng, sử dụng bộ nhớ đệm để tăng tốc độ.
C. Spark là một công cụ ETL (Extract, Transform, Load) để di chuyển dữ liệu giữa các hệ thống.
D. Spark là một ngôn ngữ lập trình mới được thiết kế cho Big Data.

Câu 15

Bạn đang thiết kế một hệ thống Big Data để lưu trữ và phân tích dữ liệu nhật ký (log data). Bạn muốn đảm bảo rằng dữ liệu của bạn là bất biến (immutable), nghĩa là một khi đã được ghi, dữ liệu không thể bị thay đổi. Công nghệ nào sau đây phù hợp nhất?

A. HDFS
B. Apache Kafka
C. Amazon S3
D. Tất cả các công nghệ trên

Câu 16

Bạn cần xây dựng một data pipeline để di chuyển dữ liệu từ một cơ sở dữ liệu quan hệ (RDBMS) vào Hadoop. Công cụ nào sau đây phù hợp nhất?

A. Sqoop
B. Flume
C. Kafka
D. Oozie

Câu 17

Giả sử bạn có một tập dữ liệu lớn chứa thông tin về các giao dịch mua hàng của khách hàng. Bạn muốn phân tích xem khách hàng nào có khả năng rời bỏ (churn) cao nhất. Phương pháp phân tích nào sau đây là phù hợp nhất?

A. Phân tích mô tả (descriptive analytics)
B. Phân tích dự đoán (predictive analytics)
C. Phân tích chẩn đoán (diagnostic analytics)
D. Phân tích chỉ định (prescriptive analytics)

Câu 18

Trong kiến trúc Data Mesh, trách nhiệm quản lý và sở hữu dữ liệu thuộc về ai?

A. Một nhóm quản trị dữ liệu trung tâm.
B. Các domain team (đội nhóm chuyên môn) sở hữu dữ liệu.
C. Đội ngũ kỹ sư dữ liệu.
D. Ban lãnh đạo công ty.

Câu 19

Thuật ngữ 'Data Lake' (Hồ dữ liệu) đề cập đến điều gì?

A. Một kho lưu trữ dữ liệu có cấu trúc, được tối ưu hóa cho truy vấn SQL.
B. Một hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS) quy mô lớn.
C. Một kho lưu trữ dữ liệu thô ở định dạng tự nhiên của nó, thường là object storage.
D. Một công cụ trực quan hóa dữ liệu để tạo dashboard.

Câu 20

HDFS (Hadoop Distributed File System) được thiết kế để làm gì?

A. Xử lý dữ liệu theo thời gian thực.
B. Lưu trữ dữ liệu lớn một cách phân tán trên nhiều máy chủ.
C. Quản lý tài nguyên cluster.
D. Cung cấp giao diện truy vấn SQL cho dữ liệu.

Câu 21

Trong một dự án Big Data, bạn cần lựa chọn một định dạng tệp để lưu trữ dữ liệu. Định dạng nào sau đây là phù hợp nhất cho việc lưu trữ dữ liệu có cấu trúc dạng cột, cho phép truy vấn nhanh hơn?

A. JSON
B. CSV
C. Parquet
D. XML

Câu 22

YARN (Yet Another Resource Negotiator) là một thành phần quan trọng trong hệ sinh thái Hadoop, nó có chức năng chính là gì?

A. Lưu trữ dữ liệu phân tán trên các node.
B. Quản lý tài nguyên và lập lịch công việc cho các ứng dụng.
C. Thực hiện các phép toán MapReduce.
D. Cung cấp giao diện truy vấn SQL cho dữ liệu Hadoop.

Câu 23

Chọn phát biểu đúng về hệ thống NoSQL.

A. NoSQL là một hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS) tuân thủ ACID.
B. NoSQL là một hệ thống cơ sở dữ liệu phi quan hệ, thường được sử dụng để xử lý dữ liệu lớn và dữ liệu phi cấu trúc.
C. NoSQL là một ngôn ngữ truy vấn dữ liệu tiêu chuẩn.
D. NoSQL là một công cụ ETL để di chuyển dữ liệu giữa các hệ thống.

Câu 24

Công cụ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu trong Hadoop sử dụng cú pháp SQL?

A. HDFS
B. YARN
C. Hive
D. MapReduce

Câu 25

Trong kiến trúc Kappa, dữ liệu được xử lý như thế nào?

A. Dữ liệu được xử lý theo cả hai đường dẫn: lô (batch) và thời gian thực (real-time).
B. Dữ liệu chỉ được xử lý theo đường dẫn lô.
C. Dữ liệu chỉ được xử lý theo đường dẫn thời gian thực.
D. Dữ liệu được xử lý bằng cách sử dụng cả MapReduce và Spark.

Câu 26

Bạn muốn triển khai một hệ thống Big Data trên đám mây. Lựa chọn nào sau đây cung cấp một nền tảng Hadoop-as-a-Service?

A. Amazon S3
B. Amazon EC2
C. Amazon EMR
D. Amazon RDS

Câu 27

Trong Big Data, 'Cardinality' (bản số) đề cập đến điều gì?

A. Số lượng cột trong một bảng.
B. Số lượng hàng trong một bảng.
C. Số lượng giá trị duy nhất trong một cột.
D. Kích thước của bảng dữ liệu.

Câu 28

Trong ngữ cảnh của Big Data, 'schema-on-read' có nghĩa là gì?

A. Cấu trúc dữ liệu phải được xác định trước khi dữ liệu được ghi vào hệ thống.
B. Cấu trúc dữ liệu được áp dụng khi dữ liệu được truy vấn, cho phép linh hoạt hơn trong việc lưu trữ dữ liệu.
C. Cấu trúc dữ liệu được lưu trữ cùng với dữ liệu trong một tệp duy nhất.
D. Cấu trúc dữ liệu được tự động suy luận từ dữ liệu.

Câu 29

Trong kiến trúc Lambda, lớp nào chịu trách nhiệm xử lý dữ liệu theo lô (batch processing)?

A. Lớp phục vụ (Serving Layer)
B. Lớp tốc độ (Speed Layer)
C. Lớp lô (Batch Layer)
D. Lớp tích hợp (Integration Layer)

Câu 30

Bạn cần xây dựng một hệ thống để xử lý dữ liệu log từ các máy chủ web trong thời gian thực để phát hiện các cuộc tấn công DDoS. Công nghệ nào sau đây phù hợp nhất?

A. Hadoop MapReduce
B. Apache Spark Streaming
C. Apache Hive
D. Apache Pig

Or check our Popular Categories...

Or check our Popular Categories...