1. Chức năng chính của Apache Kafka là gì?
A. Lưu trữ dữ liệu lịch sử cho mục đích phân tích.
B. Truyền tải dữ liệu theo thời gian thực giữa các hệ thống.
C. Xử lý và biến đổi dữ liệu theo lô.
D. Quản lý siêu dữ liệu của dữ liệu lớn.
2. Bạn đang làm việc với một tập dữ liệu lớn chứa thông tin về các bài đăng trên mạng xã hội. Bạn muốn phân tích xem những chủ đề nào đang được thảo luận nhiều nhất. Kỹ thuật nào sau đây là phù hợp nhất?
A. Phân tích hồi quy (regression analysis)
B. Phân tích phân cụm (cluster analysis)
C. Phân tích chủ đề (topic modeling)
D. Phân tích chuỗi thời gian (time series analysis)
3. Điều gì KHÔNG phải là một lợi ích của việc sử dụng các giải pháp Big Data?
A. Cải thiện việc ra quyết định dựa trên dữ liệu.
B. Giảm chi phí lưu trữ và xử lý dữ liệu.
C. Khả năng xử lý dữ liệu lớn và phức tạp.
D. Đảm bảo tính bảo mật tuyệt đối của dữ liệu.
4. Trong lĩnh vực Big Data, thuật ngữ ‘data governance’ (quản trị dữ liệu) có ý nghĩa gì?
A. Quá trình di chuyển dữ liệu giữa các hệ thống.
B. Quá trình đảm bảo chất lượng, tính toàn vẹn, bảo mật và tuân thủ của dữ liệu.
C. Quá trình xây dựng mô hình machine learning.
D. Quá trình trực quan hóa dữ liệu.
5. MapReduce là một mô hình lập trình để xử lý song song dữ liệu lớn. Giai đoạn nào sau đây KHÔNG thuộc quy trình MapReduce?
A. Map
B. Reduce
C. Sort
D. Extract
6. Bạn cần chọn một ngôn ngữ lập trình để phát triển các ứng dụng Big Data. Ngôn ngữ nào sau đây thường được sử dụng cho cả xử lý dữ liệu và xây dựng mô hình machine learning?
A. Java
B. Python
C. Scala
D. Tất cả các ngôn ngữ trên
7. Trong một hệ thống Big Data, bạn nhận thấy rằng hiệu suất truy vấn đang chậm. Nguyên nhân nào sau đây có thể KHÔNG phải là nguyên nhân?
A. Dữ liệu không được phân vùng (partitioned) đúng cách.
B. Truy vấn không được tối ưu hóa.
C. Phần cứng không đủ mạnh.
D. Dữ liệu được lưu trữ trong một cơ sở dữ liệu quan hệ truyền thống.
8. Trong bối cảnh của Big Data, thuật ngữ ‘data wrangling’ (xử lý dữ liệu) đề cập đến điều gì?
A. Quá trình lưu trữ dữ liệu vào một data warehouse.
B. Quá trình làm sạch, chuyển đổi và chuẩn bị dữ liệu để phân tích.
C. Quá trình xây dựng mô hình machine learning.
D. Quá trình trực quan hóa dữ liệu.
9. Bạn muốn sử dụng một công cụ để điều phối (orchestrate) các công việc (jobs) Big Data, chẳng hạn như chạy các quy trình ETL và huấn luyện mô hình machine learning theo lịch trình. Công cụ nào sau đây phù hợp nhất?
A. Hadoop
B. Spark
C. Oozie
D. Hive
10. Bạn cần xây dựng một hệ thống Big Data để phân tích dữ liệu giao dịch tài chính và phát hiện các hành vi gian lận. Yếu tố nào sau đây là quan trọng nhất?
A. Độ chính xác (accuracy)
B. Tốc độ (speed)
C. Khả năng mở rộng (scalability)
D. Tất cả các yếu tố trên
11. Trong quá trình xây dựng một mô hình machine learning trên dữ liệu lớn, bạn nhận thấy rằng mô hình của bạn đang bị ‘overfitting’ (quá khớp). Biện pháp nào sau đây có thể giúp giảm thiểu overfitting?
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Giảm số lượng features (thuộc tính) được sử dụng trong mô hình.
C. Sử dụng kỹ thuật regularization.
D. Tất cả các biện pháp trên
12. Công nghệ nào sau đây thường được sử dụng để thu thập dữ liệu từ các nguồn streaming khác nhau (ví dụ: log files, sensor data)?
A. Hadoop
B. Spark
C. Kafka
D. Hive
13. Bạn cần xây dựng một ứng dụng Big Data để phân tích dữ liệu cảm biến từ các thiết bị IoT trong thời gian thực. Yêu cầu nào sau đây là quan trọng nhất?
A. Khả năng mở rộng (scalability)
B. Độ trễ thấp (low latency)
C. Độ tin cậy (reliability)
D. Tất cả các yêu cầu trên
14. Chọn phát biểu đúng nhất về Apache Spark.
A. Spark là một hệ thống lưu trữ dữ liệu phân tán, tương tự như HDFS.
B. Spark là một framework xử lý dữ liệu thời gian thực và xử lý hàng loạt nhanh chóng, sử dụng bộ nhớ đệm để tăng tốc độ.
C. Spark là một công cụ ETL (Extract, Transform, Load) để di chuyển dữ liệu giữa các hệ thống.
D. Spark là một ngôn ngữ lập trình mới được thiết kế cho Big Data.
15. Bạn đang thiết kế một hệ thống Big Data để lưu trữ và phân tích dữ liệu nhật ký (log data). Bạn muốn đảm bảo rằng dữ liệu của bạn là bất biến (immutable), nghĩa là một khi đã được ghi, dữ liệu không thể bị thay đổi. Công nghệ nào sau đây phù hợp nhất?
A. HDFS
B. Apache Kafka
C. Amazon S3
D. Tất cả các công nghệ trên
16. Bạn cần xây dựng một data pipeline để di chuyển dữ liệu từ một cơ sở dữ liệu quan hệ (RDBMS) vào Hadoop. Công cụ nào sau đây phù hợp nhất?
A. Sqoop
B. Flume
C. Kafka
D. Oozie
17. Giả sử bạn có một tập dữ liệu lớn chứa thông tin về các giao dịch mua hàng của khách hàng. Bạn muốn phân tích xem khách hàng nào có khả năng rời bỏ (churn) cao nhất. Phương pháp phân tích nào sau đây là phù hợp nhất?
A. Phân tích mô tả (descriptive analytics)
B. Phân tích dự đoán (predictive analytics)
C. Phân tích chẩn đoán (diagnostic analytics)
D. Phân tích chỉ định (prescriptive analytics)
18. Trong kiến trúc Data Mesh, trách nhiệm quản lý và sở hữu dữ liệu thuộc về ai?
A. Một nhóm quản trị dữ liệu trung tâm.
B. Các domain team (đội nhóm chuyên môn) sở hữu dữ liệu.
C. Đội ngũ kỹ sư dữ liệu.
D. Ban lãnh đạo công ty.
19. Thuật ngữ ‘Data Lake’ (Hồ dữ liệu) đề cập đến điều gì?
A. Một kho lưu trữ dữ liệu có cấu trúc, được tối ưu hóa cho truy vấn SQL.
B. Một hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS) quy mô lớn.
C. Một kho lưu trữ dữ liệu thô ở định dạng tự nhiên của nó, thường là object storage.
D. Một công cụ trực quan hóa dữ liệu để tạo dashboard.
20. HDFS (Hadoop Distributed File System) được thiết kế để làm gì?
A. Xử lý dữ liệu theo thời gian thực.
B. Lưu trữ dữ liệu lớn một cách phân tán trên nhiều máy chủ.
C. Quản lý tài nguyên cluster.
D. Cung cấp giao diện truy vấn SQL cho dữ liệu.
21. Trong một dự án Big Data, bạn cần lựa chọn một định dạng tệp để lưu trữ dữ liệu. Định dạng nào sau đây là phù hợp nhất cho việc lưu trữ dữ liệu có cấu trúc dạng cột, cho phép truy vấn nhanh hơn?
A. JSON
B. CSV
C. Parquet
D. XML
22. YARN (Yet Another Resource Negotiator) là một thành phần quan trọng trong hệ sinh thái Hadoop, nó có chức năng chính là gì?
A. Lưu trữ dữ liệu phân tán trên các node.
B. Quản lý tài nguyên và lập lịch công việc cho các ứng dụng.
C. Thực hiện các phép toán MapReduce.
D. Cung cấp giao diện truy vấn SQL cho dữ liệu Hadoop.
23. Chọn phát biểu đúng về hệ thống NoSQL.
A. NoSQL là một hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS) tuân thủ ACID.
B. NoSQL là một hệ thống cơ sở dữ liệu phi quan hệ, thường được sử dụng để xử lý dữ liệu lớn và dữ liệu phi cấu trúc.
C. NoSQL là một ngôn ngữ truy vấn dữ liệu tiêu chuẩn.
D. NoSQL là một công cụ ETL để di chuyển dữ liệu giữa các hệ thống.
24. Công cụ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu trong Hadoop sử dụng cú pháp SQL?
A. HDFS
B. YARN
C. Hive
D. MapReduce
25. Trong kiến trúc Kappa, dữ liệu được xử lý như thế nào?
A. Dữ liệu được xử lý theo cả hai đường dẫn: lô (batch) và thời gian thực (real-time).
B. Dữ liệu chỉ được xử lý theo đường dẫn lô.
C. Dữ liệu chỉ được xử lý theo đường dẫn thời gian thực.
D. Dữ liệu được xử lý bằng cách sử dụng cả MapReduce và Spark.
26. Bạn muốn triển khai một hệ thống Big Data trên đám mây. Lựa chọn nào sau đây cung cấp một nền tảng Hadoop-as-a-Service?
A. Amazon S3
B. Amazon EC2
C. Amazon EMR
D. Amazon RDS
27. Trong Big Data, ‘Cardinality’ (bản số) đề cập đến điều gì?
A. Số lượng cột trong một bảng.
B. Số lượng hàng trong một bảng.
C. Số lượng giá trị duy nhất trong một cột.
D. Kích thước của bảng dữ liệu.
28. Trong ngữ cảnh của Big Data, ‘schema-on-read’ có nghĩa là gì?
A. Cấu trúc dữ liệu phải được xác định trước khi dữ liệu được ghi vào hệ thống.
B. Cấu trúc dữ liệu được áp dụng khi dữ liệu được truy vấn, cho phép linh hoạt hơn trong việc lưu trữ dữ liệu.
C. Cấu trúc dữ liệu được lưu trữ cùng với dữ liệu trong một tệp duy nhất.
D. Cấu trúc dữ liệu được tự động suy luận từ dữ liệu.
29. Trong kiến trúc Lambda, lớp nào chịu trách nhiệm xử lý dữ liệu theo lô (batch processing)?
A. Lớp phục vụ (Serving Layer)
B. Lớp tốc độ (Speed Layer)
C. Lớp lô (Batch Layer)
D. Lớp tích hợp (Integration Layer)
30. Bạn cần xây dựng một hệ thống để xử lý dữ liệu log từ các máy chủ web trong thời gian thực để phát hiện các cuộc tấn công DDoS. Công nghệ nào sau đây phù hợp nhất?
A. Hadoop MapReduce
B. Apache Spark Streaming
C. Apache Hive
D. Apache Pig
31. Trong Apache Kafka, ‘Topic’ (Chủ đề) được sử dụng để làm gì?
A. Để lưu trữ dữ liệu lâu dài.
B. Để phân loại và tổ chức các luồng dữ liệu (data streams).
C. Để thực hiện các phép toán xử lý dữ liệu.
D. Để quản lý tài nguyên cluster.
32. Công cụ nào sau đây thường được sử dụng để xây dựng các pipeline xử lý dữ liệu (data pipelines) phức tạp trong môi trường Big Data?
A. Microsoft Word.
B. Apache NiFi.
C. Adobe Photoshop.
D. Google Chrome.
33. Thuật ngữ ‘Data Skew’ (Lệch dữ liệu) trong Big Data đề cập đến vấn đề gì?
A. Dữ liệu bị mất mát trong quá trình truyền tải.
B. Dữ liệu bị trùng lặp.
C. Dữ liệu không được phân phối đều trên các node trong cluster, dẫn đến việc một số node phải xử lý nhiều dữ liệu hơn các node khác.
D. Dữ liệu không tuân thủ theo một định dạng nhất định.
34. Trong ngữ cảnh của Data Science và Big Data, ‘Feature Engineering’ (Kỹ thuật đặc trưng) là gì?
A. Quá trình lựa chọn các thuật toán machine learning phù hợp nhất.
B. Quá trình chuyển đổi dữ liệu thô thành các đặc trưng (features) có ý nghĩa và hữu ích để cải thiện hiệu suất của các mô hình machine learning.
C. Quá trình tối ưu hóa hiệu suất của cơ sở dữ liệu.
D. Quá trình trực quan hóa dữ liệu.
35. Trong ngữ cảnh Big Data, ‘Data Wrangling’ (Chuẩn bị dữ liệu) bao gồm những công việc gì?
A. Chỉ thu thập dữ liệu từ các nguồn khác nhau.
B. Chỉ tải dữ liệu vào hệ thống lưu trữ.
C. Làm sạch, chuyển đổi, và chuẩn bị dữ liệu để phân tích.
D. Chỉ xây dựng các mô hình machine learning.
36. YARN (Yet Another Resource Negotiator) là thành phần quan trọng trong Hadoop 2.0, có chức năng chính là gì?
A. Lưu trữ dữ liệu trong hệ thống tệp phân tán.
B. Quản lý và phân bổ tài nguyên cluster cho các ứng dụng.
C. Thực hiện các phép toán MapReduce.
D. Cung cấp giao diện SQL cho dữ liệu Hadoop.
37. Thuật ngữ ‘Data Lake’ (Hồ dữ liệu) trong Big Data thường được dùng để mô tả loại kho lưu trữ dữ liệu nào?
A. Một kho lưu trữ dữ liệu quan hệ đã được chuẩn hóa.
B. Một kho lưu trữ dữ liệu phi cấu trúc hoặc bán cấu trúc ở định dạng thô, chưa qua xử lý.
C. Một kho lưu trữ dữ liệu chỉ chứa dữ liệu giao dịch.
D. Một kho lưu trữ dữ liệu được tối ưu hóa cho việc báo cáo và phân tích OLAP.
38. Trong ngữ cảnh Big Data, CAP theorem phát biểu về sự đánh đổi giữa Consistency, Availability và Partition Tolerance. Theo CAP theorem, một hệ thống phân tán chỉ có thể đảm bảo tối đa bao nhiêu thuộc tính trong ba thuộc tính trên?
A. Cả ba thuộc tính cùng một lúc.
B. Tối đa hai thuộc tính.
C. Chỉ một thuộc tính duy nhất.
D. Tất cả các thuộc tính, nhưng chỉ trong điều kiện lý tưởng.
39. Trong môi trường Big Data, kỹ thuật ‘Sampling’ (Lấy mẫu) được sử dụng để làm gì?
A. Để tạo ra các bản sao của dữ liệu.
B. Để giảm kích thước của tập dữ liệu bằng cách chọn một tập hợp con đại diện của dữ liệu.
C. Để mã hóa dữ liệu.
D. Để làm sạch dữ liệu.
40. Trong bối cảnh Big Data, ‘Data Lakehouse’ là gì?
A. Một hệ thống quản lý cơ sở dữ liệu quan hệ truyền thống.
B. Một kiến trúc kết hợp các ưu điểm của Data Lake và Data Warehouse, cho phép lưu trữ cả dữ liệu thô và dữ liệu đã được xử lý, đồng thời hỗ trợ cả phân tích khám phá và phân tích báo cáo.
C. Một hệ thống chỉ lưu trữ dữ liệu phi cấu trúc.
D. Một hệ thống chỉ lưu trữ dữ liệu cấu trúc.
41. Trong kiến trúc Lambda, lớp (layer) nào chịu trách nhiệm xử lý dữ liệu theo thời gian thực (real-time) với độ trễ thấp?
A. Batch Layer.
B. Serving Layer.
C. Speed Layer.
D. Storage Layer.
42. Trong ngữ cảnh của MapReduce, ‘Combiner’ là gì?
A. Một loại bộ nhớ cache được sử dụng để tăng tốc độ xử lý.
B. Một hàm được chạy trên mỗi mapper để giảm lượng dữ liệu được truyền đến reducer.
C. Một công cụ để kết hợp nhiều job MapReduce thành một.
D. Một loại reducer đặc biệt được sử dụng cho dữ liệu phi cấu trúc.
43. Trong Apache Spark, ‘Transformation’ (Biến đổi) là gì?
A. Một hành động kích hoạt việc thực thi một job.
B. Một phép toán tạo ra một RDD mới từ một RDD hiện có.
C. Một phép toán lưu dữ liệu vào bộ nhớ.
D. Một phép toán in dữ liệu ra màn hình.
44. Kỹ thuật ‘Data Mining’ (Khai thác dữ liệu) được sử dụng để làm gì trong lĩnh vực Big Data?
A. Để nén dữ liệu lớn nhằm tiết kiệm không gian lưu trữ.
B. Để tìm kiếm các mẫu, xu hướng và thông tin hữu ích từ lượng lớn dữ liệu.
C. Để mã hóa dữ liệu nhằm bảo vệ khỏi truy cập trái phép.
D. Để chuyển đổi dữ liệu sang định dạng phù hợp cho báo cáo.
45. Công nghệ nào sau đây cung cấp khả năng xử lý luồng dữ liệu (stream processing) thời gian thực trong môi trường Big Data?
A. Hadoop MapReduce.
B. Apache Spark Streaming.
C. Hive.
D. Pig.
46. Trong Apache Cassandra, loại cơ sở dữ liệu NoSQL, dữ liệu được tổ chức như thế nào?
A. Theo mô hình quan hệ (Relational).
B. Theo mô hình khóa-giá trị (Key-Value).
C. Theo mô hình cột rộng (Wide-Column).
D. Theo mô hình đồ thị (Graph).
47. Ưu điểm chính của việc sử dụng định dạng dữ liệu Parquet trong Big Data là gì?
A. Dễ dàng đọc và viết bởi con người.
B. Tối ưu hóa cho việc lưu trữ dữ liệu theo hàng.
C. Tối ưu hóa cho việc lưu trữ dữ liệu theo cột, giúp giảm thiểu I/O khi truy vấn dữ liệu.
D. Hỗ trợ tất cả các loại dữ liệu.
48. Trong Apache Spark, ‘RDD’ là viết tắt của thuật ngữ nào?
A. Real-time Data Distribution.
B. Resilient Distributed Dataset.
C. Relational Data Definition.
D. Rapid Data Deployment.
49. Ưu điểm chính của việc sử dụng hệ thống NoSQL so với hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS) trong các ứng dụng Big Data là gì?
A. Hỗ trợ tốt hơn cho các giao dịch ACID.
B. Khả năng mở rộng và linh hoạt hơn trong việc xử lý dữ liệu phi cấu trúc và bán cấu trúc.
C. Hiệu suất truy vấn nhanh hơn cho các truy vấn phức tạp.
D. Tính nhất quán dữ liệu mạnh mẽ hơn.
50. Khi thiết kế một hệ thống Big Data, yếu tố nào sau đây quan trọng nhất để đảm bảo khả năng mở rộng (scalability)?
A. Sử dụng phần cứng mạnh nhất có thể.
B. Thiết kế hệ thống theo kiến trúc phân tán và có khả năng thêm node một cách dễ dàng.
C. Sử dụng một cơ sở dữ liệu quan hệ duy nhất.
D. Tối ưu hóa code để chạy nhanh hơn trên một máy duy nhất.
51. Khi phân tích dữ liệu chuỗi thời gian (time series data) trong Big Data, phương pháp nào sau đây thường được sử dụng để dự đoán các giá trị tương lai dựa trên các giá trị quá khứ?
A. Phân tích hồi quy tuyến tính (Linear Regression).
B. Phân tích phương sai (ANOVA).
C. Mô hình ARIMA (Autoregressive Integrated Moving Average).
D. Phân tích thành phần chính (Principal Component Analysis).
52. Công nghệ nào sau đây thường được sử dụng để xây dựng các ứng dụng machine learning trên dữ liệu lớn trong môi trường Big Data?
A. Microsoft Excel.
B. Apache Mahout hoặc Apache Spark MLlib.
C. Microsoft Word.
D. Adobe Photoshop.
53. Khi nào nên sử dụng kiến trúc Kappa thay vì kiến trúc Lambda trong xử lý Big Data?
A. Khi cần xử lý cả dữ liệu batch và real-time một cách độc lập.
B. Khi cần đảm bảo tính nhất quán tuyệt đối giữa dữ liệu batch và real-time.
C. Khi muốn đơn giản hóa kiến trúc hệ thống và giảm chi phí bảo trì.
D. Khi cần hỗ trợ nhiều ngôn ngữ lập trình khác nhau.
54. Công cụ nào sau đây thường được sử dụng để thu thập, xử lý và phân tích các bản ghi nhật ký (log) trong môi trường Big Data?
A. Microsoft Excel.
B. Apache Hadoop.
C. Splunk.
D. Tableau.
55. Thuật ngữ ‘Dark Data’ trong Big Data dùng để chỉ loại dữ liệu nào?
A. Dữ liệu đã được mã hóa.
B. Dữ liệu không được sử dụng hoặc phân tích, mặc dù có thể có giá trị.
C. Dữ liệu bị hỏng hoặc không đầy đủ.
D. Dữ liệu được lưu trữ trên các thiết bị di động.
56. Trong Apache Hadoop, ‘NameNode’ có vai trò gì?
A. Lưu trữ dữ liệu thực tế.
B. Quản lý metadata của hệ thống tệp, bao gồm thông tin về các tệp và thư mục.
C. Thực hiện các phép toán MapReduce.
D. Quản lý tài nguyên cluster.
57. Trong quá trình ETL (Extract, Transform, Load) để xây dựng Data Warehouse, giai đoạn ‘Transform’ (Biến đổi) bao gồm các hoạt động chính nào?
A. Thu thập dữ liệu từ các nguồn khác nhau.
B. Làm sạch, chuẩn hóa và tích hợp dữ liệu.
C. Tải dữ liệu đã xử lý vào Data Warehouse.
D. Sao lưu dữ liệu từ Data Warehouse.
58. Công cụ nào sau đây thường được sử dụng để trực quan hóa dữ liệu (data visualization) trong Big Data?
A. Microsoft PowerPoint.
B. Tableau.
C. Microsoft Word.
D. Notepad.
59. Công nghệ nào sau đây cung cấp khả năng xử lý truy vấn SQL trên dữ liệu được lưu trữ trong Hadoop?
A. Java.
B. Python.
C. Hive.
D. Scala.
60. Trong bối cảnh Big Data, thuật ngữ ‘Data Governance’ (Quản trị dữ liệu) đề cập đến điều gì?
A. Quá trình sao lưu và phục hồi dữ liệu.
B. Quá trình quản lý và bảo trì phần cứng lưu trữ dữ liệu.
C. Tập hợp các chính sách, quy trình và tiêu chuẩn để đảm bảo chất lượng, tính toàn vẹn và bảo mật của dữ liệu.
D. Quá trình chuyển đổi dữ liệu sang các định dạng khác nhau.
61. Đâu là một thách thức khi làm việc với dữ liệu streaming?
A. Xử lý dữ liệu đến liên tục với tốc độ cao
B. Đảm bảo tính toàn vẹn của dữ liệu
C. Xử lý dữ liệu không đầy đủ hoặc không chính xác
D. Tất cả các đáp án trên
62. Trong Apache Spark, khái niệm RDD (Resilient Distributed Dataset) là gì?
A. Một thuật toán machine learning
B. Một định dạng file
C. Một tập hợp dữ liệu phân tán bất biến
D. Một hệ thống quản lý cơ sở dữ liệu
63. Đâu là một thách thức lớn khi xử lý dữ liệu lớn (Big Data)?
A. Dung lượng lưu trữ
B. Tốc độ xử lý
C. Độ phức tạp của dữ liệu
D. Tất cả các đáp án trên
64. Công nghệ nào sau đây thường được sử dụng để xây dựng các data warehouse trên Hadoop?
A. Spark Streaming
B. Apache Hive
C. Apache Flume
D. Apache ZooKeeper
65. Đâu là một ví dụ về việc sử dụng Big Data trong lĩnh vực chăm sóc sức khỏe?
A. Dự đoán dịch bệnh
B. Phát triển thuốc mới
C. Cá nhân hóa điều trị
D. Tất cả các đáp án trên
66. Trong Hadoop, NameNode có vai trò gì?
A. Lưu trữ dữ liệu thực tế
B. Quản lý metadata của hệ thống file
C. Xử lý dữ liệu song song
D. Kết nối với các DataNode
67. Đâu là một lợi ích của việc sử dụng cloud computing cho Big Data?
A. Khả năng mở rộng linh hoạt
B. Chi phí thấp
C. Dễ dàng quản lý
D. Tất cả các đáp án trên
68. Trong Apache Spark, transformation là gì?
A. Một hành động trả về một giá trị
B. Một phép toán tạo ra một RDD mới từ một RDD hiện có
C. Một phương pháp lưu trữ dữ liệu
D. Một công cụ quản lý cluster
69. Đâu là một lợi ích chính của việc sử dụng Apache Kafka trong một hệ thống Big Data?
A. Lưu trữ dữ liệu lâu dài
B. Xử lý giao dịch ACID
C. Truyền dữ liệu theo thời gian thực với độ trễ thấp
D. Phân tích dữ liệu phức tạp
70. Thuật ngữ ‘schema-on-read’ thường được liên kết với loại cơ sở dữ liệu nào?
A. Cơ sở dữ liệu quan hệ (RDBMS)
B. Cơ sở dữ liệu NoSQL
C. Cơ sở dữ liệu hướng đối tượng
D. Cơ sở dữ liệu đồ thị
71. Trong machine learning, over fitting xảy ra khi nào?
A. Mô hình quá đơn giản để nắm bắt các mẫu trong dữ liệu
B. Mô hình học quá kỹ dữ liệu huấn luyện và không tổng quát hóa tốt cho dữ liệu mới
C. Dữ liệu huấn luyện không đủ lớn
D. Thuật toán không hội tụ
72. Công cụ nào sau đây thường được sử dụng để xây dựng các ứng dụng machine learning trên Big Data?
A. Apache Kafka
B. Apache Mahout
C. Apache Flume
D. Apache ZooKeeper
73. Trong kiến trúc Data Lake, dữ liệu được lưu trữ ở định dạng nào?
A. Dữ liệu đã được xử lý và chuyển đổi
B. Dữ liệu thô ở định dạng ban đầu
C. Dữ liệu quan hệ
D. Dữ liệu dạng key-value
74. Trong NoSQL, cơ sở dữ liệu dạng Document (tài liệu) lưu trữ dữ liệu dưới dạng nào?
A. Các hàng và cột
B. Các cặp key-value
C. Các tài liệu JSON hoặc XML
D. Các nút và cạnh
75. Khi nào nên sử dụng cơ sở dữ liệu cột (columnar database) thay vì cơ sở dữ liệu hàng (row database)?
A. Khi cần truy vấn toàn bộ hàng dữ liệu
B. Khi cần truy vấn một số lượng nhỏ cột trên một tập dữ liệu lớn
C. Khi cần thực hiện các giao dịch ACID
D. Khi cần cập nhật dữ liệu thường xuyên
76. YARN (Yet Another Resource Negotiator) là thành phần chính của Hadoop 2.0, có vai trò gì?
A. Lưu trữ dữ liệu phân tán
B. Quản lý tài nguyên và lập lịch công việc
C. Xử lý dữ liệu song song
D. Truy vấn dữ liệu SQL
77. Trong mô hình CAP theorem, chữ ‘C’ đại diện cho thuộc tính nào?
A. Consistency (Tính nhất quán)
B. Capacity (Dung lượng)
C. Complexity (Độ phức tạp)
D. Connectivity (Khả năng kết nối)
78. Định dạng file nào sau đây thường được sử dụng để lưu trữ dữ liệu cột trong Hadoop, giúp tối ưu hóa truy vấn?
A. CSV
B. JSON
C. Parquet
D. XML
79. Trong ngữ cảnh của Data Mining, kỹ thuật nào sau đây được sử dụng để tìm các mối quan hệ giữa các mục trong một tập dữ liệu?
A. Phân cụm (Clustering)
B. Phân loại (Classification)
C. Khai phá luật kết hợp (Association Rule Mining)
D. Hồi quy (Regression)
80. Trong ngữ cảnh của MapReduce, combiner có chức năng chính là gì?
A. Kết hợp dữ liệu từ nhiều mapper
B. Giảm lượng dữ liệu truyền giữa mapper và reducer
C. Phân chia công việc cho các mapper
D. Sắp xếp dữ liệu đầu vào
81. Trong machine learning, thuật ngữ ‘feature engineering’ đề cập đến điều gì?
A. Quá trình lựa chọn thuật toán phù hợp nhất
B. Quá trình tối ưu hóa siêu tham số của mô hình
C. Quá trình tạo và biến đổi các biến đầu vào để cải thiện hiệu suất mô hình
D. Quá trình đánh giá mô hình
82. Công cụ nào sau đây cho phép bạn chạy các truy vấn SQL trên dữ liệu được lưu trữ trong Hadoop?
A. HBase
B. Pig
C. Hive
D. Flume
83. Công cụ nào sau đây thường được sử dụng để thu thập, xử lý và phân tích log từ nhiều nguồn khác nhau trong môi trường Big Data?
A. MySQL
B. Elasticsearch, Logstash, Kibana (ELK Stack)
C. Microsoft Excel
D. Apache Hadoop
84. Công cụ nào sau đây thường được sử dụng để thu thập dữ liệu từ các nguồn khác nhau và đưa vào Hadoop?
A. Apache Hive
B. Apache Pig
C. Apache Flume
D. Apache Oozie
85. Công cụ nào sau đây được sử dụng để lập lịch và quản lý các workflow Hadoop?
A. Apache Pig
B. Apache Hive
C. Apache Oozie
D. Apache Flume
86. Trong kiến trúc Lambda, lớp nào chịu trách nhiệm xử lý dữ liệu theo thời gian thực?
A. Lớp Batch
B. Lớp Serving
C. Lớp Speed
D. Lớp View
87. Công cụ nào sau đây được sử dụng để điều phối các dịch vụ phân tán trong Hadoop?
A. Apache Spark
B. Apache ZooKeeper
C. Apache Flume
D. Apache Kafka
88. Trong kiến trúc Kappa, luồng dữ liệu được xử lý như thế nào?
A. Dữ liệu được xử lý theo lô định kỳ
B. Dữ liệu được xử lý theo thời gian thực
C. Dữ liệu được xử lý đồng thời theo lô và thời gian thực
D. Dữ liệu chỉ được lưu trữ mà không xử lý
89. Trong lĩnh vực tài chính, Big Data được sử dụng để làm gì?
A. Phát hiện gian lận
B. Đánh giá rủi ro
C. Cá nhân hóa dịch vụ
D. Tất cả các đáp án trên
90. Trong kiến trúc microservices, Big Data thường được sử dụng để làm gì?
A. Lưu trữ toàn bộ dữ liệu của ứng dụng
B. Phân tích hành vi người dùng và tối ưu hóa hiệu suất
C. Quản lý giao dịch
D. Điều phối các dịch vụ
91. Công cụ nào sau đây cung cấp khả năng xử lý luồng dữ liệu (stream processing) trong thời gian thực với độ trễ thấp, thường được sử dụng trong các ứng dụng như phát hiện gian lận và giám sát mạng?
A. Hadoop MapReduce
B. Apache Spark Streaming
C. Apache Flink
D. Apache Hive
92. Đặc điểm nào sau đây KHÔNG phải là một trong những đặc điểm chính của Big Data (thường được gọi là 5V)?
A. Volume (Khối lượng)
B. Velocity (Tốc độ)
C. Variety (Đa dạng)
D. Veracity (Độ tin cậy)
93. Trong ngữ cảnh Big Data, thuật ngữ ‘schema-on-read’ (lược đồ khi đọc) có nghĩa là gì?
A. Lược đồ dữ liệu phải được xác định trước khi dữ liệu được ghi vào hệ thống
B. Lược đồ dữ liệu được xác định khi dữ liệu được đọc từ hệ thống
C. Lược đồ dữ liệu được tự động suy luận từ dữ liệu
D. Lược đồ dữ liệu không quan trọng trong quá trình xử lý
94. Thuật ngữ ‘Data Lake’ (Hồ Dữ liệu) khác biệt so với ‘Data Warehouse’ (Kho Dữ liệu) chủ yếu ở điểm nào?
A. Data Lake lưu trữ dữ liệu đã được xử lý và chuyển đổi, trong khi Data Warehouse lưu trữ dữ liệu thô.
B. Data Lake lưu trữ dữ liệu có cấu trúc, trong khi Data Warehouse lưu trữ dữ liệu phi cấu trúc.
C. Data Lake lưu trữ dữ liệu thô ở định dạng gốc, trong khi Data Warehouse lưu trữ dữ liệu đã được xử lý và có cấu trúc.
D. Data Lake chỉ được sử dụng cho phân tích thời gian thực, trong khi Data Warehouse được sử dụng cho phân tích lịch sử.
95. Công cụ nào sau đây thường được sử dụng để thu thập, xử lý và phân tích dữ liệu nhật ký (log data) trong thời gian thực?
A. Hadoop MapReduce
B. Apache Spark
C. ELK Stack (Elasticsearch, Logstash, Kibana)
D. Hive
96. Kỹ thuật nào sau đây được sử dụng để giảm số lượng chiều dữ liệu (dimensionality reduction) trong Big Data, giúp giảm độ phức tạp tính toán và cải thiện hiệu suất mô hình?
A. Phân tích phương sai (ANOVA)
B. Phân tích thành phần chính (PCA)
C. Hồi quy tuyến tính (Linear Regression)
D. Cây quyết định (Decision Tree)
97. Trong ngữ cảnh của Big Data, CAP theorem (Định lý CAP) khẳng định rằng một hệ thống phân tán chỉ có thể đảm bảo tối đa bao nhiêu trong số ba thuộc tính sau: Tính nhất quán (Consistency), Tính khả dụng (Availability), và Tính chịu phân vùng (Partition tolerance)?
A. Cả ba thuộc tính cùng một lúc
B. Tối đa hai thuộc tính
C. Chỉ một thuộc tính duy nhất
D. Không thuộc tính nào cả
98. Trong cơ sở dữ liệu NoSQL, loại cơ sở dữ liệu nào phù hợp nhất để lưu trữ dữ liệu dạng đồ thị (graph data), ví dụ như mạng xã hội?
A. Key-value store
B. Document store
C. Column-family store
D. Graph database
99. Kỹ thuật nào sau đây được sử dụng để xử lý các sự kiện (events) liên tục trong thời gian thực (real-time) trong Big Data?
A. Batch processing
B. Stream processing
C. Data warehousing
D. Data mining
100. Trong hệ sinh thái Hadoop, YARN (Yet Another Resource Negotiator) có vai trò gì?
A. Lưu trữ dữ liệu phân tán
B. Quản lý tài nguyên và lập lịch công việc
C. Truy vấn dữ liệu bằng SQL
D. Xử lý dữ liệu theo thời gian thực
101. Công cụ nào sau đây thường được sử dụng để trực quan hóa dữ liệu (data visualization) trong Big Data?
A. Hadoop
B. Spark
C. Tableau
D. Cassandra
102. Công cụ nào sau đây thường được sử dụng để điều phối (orchestrate) các công việc (jobs) và quy trình (workflows) phức tạp trong môi trường Big Data?
A. Apache Hadoop
B. Apache Spark
C. Apache Airflow
D. Apache Kafka
103. Trong hệ sinh thái Hadoop, công cụ nào sau đây được sử dụng để truy vấn dữ liệu được lưu trữ trong HDFS (Hadoop Distributed File System) bằng ngôn ngữ SQL?
A. MapReduce
B. YARN
C. Hive
D. Pig
104. Trong mô hình lập trình MapReduce, chức năng `reduce` có nhiệm vụ chính là gì?
A. Lọc dữ liệu đầu vào
B. Chuyển đổi dữ liệu đầu vào thành các cặp key-value
C. Kết hợp và tổng hợp các giá trị có cùng key
D. Sắp xếp dữ liệu theo key
105. Một công ty muốn phân tích cảm xúc (sentiment analysis) của khách hàng về sản phẩm của họ từ các bài đăng trên mạng xã hội. Phương pháp nào sau đây là phù hợp nhất để thực hiện việc này với Big Data?
A. Sử dụng Excel để phân tích dữ liệu
B. Xây dựng một data warehouse
C. Sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) và machine learning trên nền tảng Big Data
D. Thuê một đội ngũ nhân viên để đọc và phân tích từng bài đăng
106. Trong lĩnh vực Big Data, ‘data lineage’ (dòng dõi dữ liệu) đề cập đến vấn đề gì?
A. Quá trình sao lưu và phục hồi dữ liệu
B. Theo dõi nguồn gốc và các biến đổi của dữ liệu từ khi thu thập đến khi sử dụng
C. Phân tích dữ liệu để tìm ra các mẫu và xu hướng
D. Mã hóa dữ liệu để bảo mật
107. Khi lựa chọn một định dạng tệp để lưu trữ dữ liệu lớn trong HDFS, định dạng nào sau đây thường được ưu tiên vì khả năng nén tốt và hỗ trợ schema evolution (tiến hóa lược đồ)?
A. CSV
B. JSON
C. Avro
D. TXT
108. Khi thiết kế một hệ thống Big Data, yếu tố nào sau đây cần được xem xét đầu tiên để đảm bảo khả năng mở rộng (scalability)?
A. Chọn ngôn ngữ lập trình phù hợp
B. Chọn cơ sở dữ liệu phù hợp
C. Phân tích yêu cầu về dữ liệu và khối lượng công việc
D. Tối ưu hóa phần cứng
109. Trong kiến trúc Kappa, lớp nào của kiến trúc Lambda bị loại bỏ?
A. Lớp Tốc độ (Speed Layer)
B. Lớp Lô (Batch Layer)
C. Lớp Phục vụ (Serving Layer)
D. Cả ba lớp đều được giữ lại
110. Một công ty thương mại điện tử muốn xây dựng một hệ thống đề xuất sản phẩm (recommendation system) cho khách hàng. Phương pháp nào sau đây là phù hợp nhất để xử lý lượng lớn dữ liệu giao dịch và tương tác của khách hàng?
A. Sử dụng một cơ sở dữ liệu quan hệ truyền thống
B. Xây dựng một data warehouse nhỏ
C. Sử dụng các thuật toán machine learning trên nền tảng Big Data như Spark MLlib
D. Thu thập dữ liệu thủ công và đưa ra các đề xuất dựa trên kinh nghiệm
111. Trong quá trình xử lý dữ liệu lớn, ‘data wrangling’ (xử lý dữ liệu lộn xộn) đề cập đến hoạt động nào?
A. Tạo ra các bản sao lưu dữ liệu
B. Sắp xếp dữ liệu theo thứ tự bảng chữ cái
C. Làm sạch, chuyển đổi và chuẩn bị dữ liệu để phân tích
D. Mã hóa dữ liệu để bảo mật
112. Trong ngữ cảnh Big Data, thuật ngữ ‘data governance’ (quản trị dữ liệu) đề cập đến điều gì?
A. Quá trình mã hóa dữ liệu để bảo mật
B. Quản lý và bảo đảm chất lượng, tính toàn vẹn và khả năng sử dụng của dữ liệu
C. Tối ưu hóa hiệu suất truy vấn dữ liệu
D. Phân tích dữ liệu để tìm ra các xu hướng
113. Trong kiến trúc Lambda, lớp (layer) nào chịu trách nhiệm xử lý dữ liệu theo lô (batch processing)?
A. Lớp Tốc độ (Speed Layer)
B. Lớp Phục vụ (Serving Layer)
C. Lớp Lô (Batch Layer)
D. Lớp Tích hợp (Integration Layer)
114. Trong machine learning với Big Data, kỹ thuật nào sau đây giúp giải quyết vấn đề ‘curse of dimensionality’ (lời nguyền chiều dữ liệu)?
A. Tăng kích thước tập dữ liệu
B. Giảm số lượng chiều dữ liệu
C. Sử dụng các thuật toán phức tạp hơn
D. Tăng tốc độ xử lý của máy tính
115. Trong mô hình lập trình MapReduce, chức năng `map` có nhiệm vụ chính là gì?
A. Kết hợp và tổng hợp các giá trị có cùng key
B. Sắp xếp dữ liệu theo key
C. Chuyển đổi dữ liệu đầu vào thành các cặp key-value
D. Lưu trữ dữ liệu vào HDFS
116. Khi thiết kế một hệ thống Big Data, yếu tố nào sau đây quan trọng nhất để đảm bảo tính sẵn sàng cao (high availability)?
A. Sử dụng phần cứng mạnh mẽ nhất
B. Sao chép dữ liệu và triển khai các cơ chế failover
C. Tối ưu hóa hiệu suất truy vấn dữ liệu
D. Sử dụng các thuật toán nén dữ liệu tiên tiến
117. Apache Kafka được sử dụng chủ yếu cho mục đích gì trong kiến trúc Big Data?
A. Lưu trữ dữ liệu lịch sử
B. Xử lý dữ liệu theo lô
C. Truyền tải dữ liệu theo thời gian thực
D. Phân tích dữ liệu tương tác
118. Trong lĩnh vực Big Data, thuật ngữ ‘data masking’ (che giấu dữ liệu) được sử dụng để làm gì?
A. Tăng tốc độ truy vấn dữ liệu
B. Bảo vệ dữ liệu nhạy cảm bằng cách che giấu hoặc thay thế nó
C. Nén dữ liệu để tiết kiệm không gian lưu trữ
D. Chuyển đổi dữ liệu sang định dạng khác
119. Công cụ nào sau đây thường được sử dụng để xây dựng các pipeline ETL (Extract, Transform, Load) trong môi trường Big Data?
A. Tableau
B. Apache Kafka
C. Apache NiFi
D. MongoDB
120. Một công ty muốn xây dựng một hệ thống phát hiện gian lận (fraud detection) trong thời gian thực cho các giao dịch thẻ tín dụng. Công nghệ nào sau đây là phù hợp nhất để xử lý luồng dữ liệu giao dịch liên tục và đưa ra cảnh báo ngay lập tức?
A. Hadoop MapReduce
B. Data warehousing
C. Stream processing với Apache Kafka và Apache Flink
D. Batch processing với Apache Spark
121. Công cụ nào sau đây được sử dụng để thu thập và truyền dữ liệu từ nhiều nguồn khác nhau vào Hadoop?
A. Hive
B. Pig
C. Flume
D. HBase
122. Kỹ thuật ‘feature engineering’ (kỹ thuật đặc trưng) trong Machine Learning là gì?
A. Quá trình chọn thuật toán Machine Learning phù hợp nhất.
B. Quá trình tạo và biến đổi các đặc trưng (features) từ dữ liệu thô để cải thiện hiệu suất của mô hình.
C. Quá trình đánh giá mô hình Machine Learning.
D. Quá trình triển khai mô hình Machine Learning.
123. Thuật ngữ ‘Data Lake’ (Hồ dữ liệu) dùng để chỉ:
A. Một kho lưu trữ dữ liệu có cấu trúc cao, được tối ưu hóa cho các truy vấn SQL.
B. Một kho lưu trữ dữ liệu thô ở định dạng gốc của nó, sẵn sàng cho nhiều mục đích sử dụng khác nhau.
C. Một hệ thống quản lý cơ sở dữ liệu quan hệ phân tán.
D. Một công cụ trực quan hóa dữ liệu cho phép tạo các báo cáo và dashboards.
124. Khi nào nên sử dụng cơ sở dữ liệu đồ thị (graph database) trong Big Data?
A. Khi dữ liệu có cấu trúc quan hệ phức tạp và cần phân tích các mối quan hệ.
B. Khi cần lưu trữ dữ liệu dạng cột.
C. Khi cần xử lý dữ liệu theo thời gian thực.
D. Khi cần lưu trữ dữ liệu dạng tài liệu.
125. Điều gì là quan trọng nhất khi thiết kế một hệ thống Big Data có khả năng mở rộng?
A. Sử dụng phần cứng đắt tiền nhất.
B. Thiết kế hệ thống sao cho có thể dễ dàng thêm các node (máy chủ) mới vào cụm.
C. Sử dụng một cơ sở dữ liệu duy nhất, lớn.
D. Tối ưu hóa cho một loại truy vấn cụ thể.
126. Trong ngữ cảnh của Big Data, ‘data wrangling’ (xử lý dữ liệu) đề cập đến:
A. Việc lưu trữ dữ liệu trong một Data Warehouse.
B. Quá trình làm sạch, biến đổi và chuẩn bị dữ liệu để phân tích.
C. Việc sử dụng các công cụ trực quan hóa dữ liệu.
D. Việc triển khai một hệ thống Spark.
127. Thuật ngữ ‘CAP theorem’ trong Big Data đề cập đến:
A. Một phương pháp để tối ưu hóa truy vấn SQL.
B. Một tập hợp các nguyên tắc thiết kế cho các hệ thống phân tán, liên quan đến tính nhất quán (Consistency), tính sẵn sàng (Availability) và khả năng chịu phân vùng (Partition tolerance).
C. Một kỹ thuật để nén dữ liệu lớn.
D. Một mô hình để dự đoán xu hướng dữ liệu.
128. Sqoop được sử dụng để:
A. Truy vấn dữ liệu NoSQL.
B. Chuyển dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ.
C. Xử lý dữ liệu theo thời gian thực.
D. Lưu trữ dữ liệu dạng cột.
129. Khi nào nên sử dụng kiến trúc Lambda thay vì kiến trúc Kappa?
A. Khi yêu cầu độ trễ thấp là ưu tiên hàng đầu.
B. Khi cần đảm bảo độ chính xác tuyệt đối của dữ liệu và có thể chấp nhận độ trễ cao hơn.
C. Khi muốn đơn giản hóa việc xử lý dữ liệu.
D. Khi chỉ có dữ liệu theo thời gian thực.
130. Avro là một:
A. Ngôn ngữ truy vấn dữ liệu.
B. Định dạng tuần tự hóa dữ liệu được sử dụng trong Hadoop.
C. Công cụ trực quan hóa dữ liệu.
D. Hệ thống quản lý tài nguyên cụm.
131. Trong ngữ cảnh của Big Data, ‘schema-on-read’ có nghĩa là:
A. Cấu trúc dữ liệu phải được xác định trước khi dữ liệu được ghi vào hệ thống.
B. Cấu trúc dữ liệu được xác định khi dữ liệu được đọc từ hệ thống.
C. Dữ liệu được lưu trữ trong một cơ sở dữ liệu quan hệ.
D. Dữ liệu được mã hóa trước khi lưu trữ.
132. Hadoop Distributed File System (HDFS) được thiết kế để:
A. Lưu trữ và xử lý dữ liệu trên một máy tính duy nhất.
B. Lưu trữ dữ liệu một cách tập trung trên một máy chủ lớn.
C. Lưu trữ dữ liệu một cách phân tán trên nhiều máy tính, giúp tăng khả năng chịu lỗi và hiệu suất.
D. Quản lý và truy vấn dữ liệu bằng ngôn ngữ SQL.
133. Apache Kafka là một:
A. Hệ thống quản lý cơ sở dữ liệu quan hệ.
B. Nền tảng truyền dữ liệu theo thời gian thực, có khả năng mở rộng và chịu lỗi cao.
C. Công cụ trực quan hóa dữ liệu.
D. Hệ thống quản lý tài nguyên cụm.
134. ZooKeeper được sử dụng để:
A. Truy vấn dữ liệu SQL.
B. Quản lý cấu hình, đồng bộ hóa và cung cấp dịch vụ tên cho các ứng dụng phân tán.
C. Xử lý dữ liệu theo thời gian thực.
D. Lưu trữ dữ liệu dạng cột.
135. MapReduce là một mô hình lập trình để:
A. Truy vấn dữ liệu từ cơ sở dữ liệu quan hệ.
B. Xử lý song song các tập dữ liệu lớn trên các cụm máy tính.
C. Xây dựng giao diện người dùng cho các ứng dụng web.
D. Quản lý và giám sát tài nguyên hệ thống.
136. Trong kiến trúc Lambda, lớp (layer) nào chịu trách nhiệm xử lý dữ liệu theo lô (batch processing)?
A. Lớp Tốc độ (Speed Layer)
B. Lớp Phục vụ (Serving Layer)
C. Lớp Lô (Batch Layer)
D. Lớp Tích hợp (Integration Layer)
137. Công cụ nào sau đây thường được sử dụng để xây dựng các pipeline ETL (Extract, Transform, Load) trong Big Data?
A. Tableau
B. Apache Kafka
C. Apache Spark
D. MongoDB
138. Công cụ nào sau đây được sử dụng để xây dựng các mô hình Machine Learning trên Hadoop?
A. Sqoop
B. Mahout
C. Flume
D. Avro
139. Phương pháp nào sau đây giúp giảm thiểu tác động của ‘cold start problem’ (vấn đề khởi động nguội) trong hệ thống gợi ý (recommendation system)?
A. Sử dụng lọc cộng tác (collaborative filtering).
B. Sử dụng lọc dựa trên nội dung (content-based filtering).
C. Sử dụng thuật toán phân cụm (clustering).
D. Tăng kích thước tập dữ liệu.
140. HBase là một:
A. Hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS).
B. Hệ thống quản lý cơ sở dữ liệu NoSQL, cột-định hướng, chạy trên Hadoop.
C. Công cụ trực quan hóa dữ liệu.
D. Công cụ lập lịch công việc.
141. Công cụ nào sau đây thường được sử dụng để quản lý và lập lịch các công việc Hadoop?
A. ZooKeeper
B. Oozie
C. Mahout
D. Avro
142. Yếu tố nào sau đây KHÔNG phải là một trong ‘5V’ của Big Data?
A. Value (Giá trị)
B. Velocity (Vận tốc)
C. Veracity (Độ tin cậy)
D. Volatility (Tính biến động)
143. Trong Big Data, kỹ thuật ‘data sampling’ (lấy mẫu dữ liệu) được sử dụng để:
A. Tăng kích thước của tập dữ liệu.
B. Giảm kích thước của tập dữ liệu để phân tích nhanh hơn.
C. Mã hóa dữ liệu.
D. Xóa dữ liệu trùng lặp.
144. Apache Hive cho phép người dùng truy vấn dữ liệu trong Hadoop bằng ngôn ngữ nào?
A. Java
B. Python
C. SQL-like (HQL)
D. C++
145. Điều gì là thách thức lớn nhất khi làm việc với dữ liệu phi cấu trúc (unstructured data) trong Big Data?
A. Khả năng lưu trữ dữ liệu.
B. Khả năng xử lý và phân tích dữ liệu.
C. Chi phí phần cứng.
D. Thiếu nhân lực có kỹ năng.
146. Trong kiến trúc Kappa, dữ liệu được xử lý như thế nào?
A. Chỉ xử lý theo lô.
B. Chỉ xử lý theo thời gian thực.
C. Xử lý cả theo lô và thời gian thực.
D. Không xử lý dữ liệu.
147. Kỹ thuật ‘data masking’ (che dấu dữ liệu) được sử dụng để:
A. Tăng cường chất lượng dữ liệu.
B. Bảo vệ thông tin nhạy cảm bằng cách thay thế hoặc ẩn dữ liệu.
C. Nén dữ liệu.
D. Di chuyển dữ liệu giữa các hệ thống.
148. Apache Pig là một:
A. Ngôn ngữ lập trình bậc cao để xử lý dữ liệu trong Hadoop.
B. Hệ thống quản lý cơ sở dữ liệu quan hệ.
C. Công cụ trực quan hóa dữ liệu.
D. Hệ thống quản lý tài nguyên cụm.
149. Spark Streaming được sử dụng để:
A. Xử lý dữ liệu theo lô.
B. Xử lý dữ liệu theo thời gian thực.
C. Lưu trữ dữ liệu dạng cột.
D. Truy vấn dữ liệu SQL.
150. Trong ngữ cảnh của Big Data, ‘data governance’ (quản trị dữ liệu) đề cập đến:
A. Việc lưu trữ dữ liệu trong một Data Lake.
B. Tập hợp các chính sách và quy trình để đảm bảo chất lượng, bảo mật và tuân thủ của dữ liệu.
C. Việc sử dụng các công cụ trực quan hóa dữ liệu.
D. Việc triển khai một hệ thống Hadoop.