1. Trong khai phá dữ liệu, phương pháp nào thường được sử dụng để giảm số lượng chiều dữ liệu, đồng thời giữ lại thông tin quan trọng nhất?
A. Phân tích phương sai (ANOVA)
B. Phân tích thành phần chính (PCA)
C. Hồi quy tuyến tính
D. Phân cụm K-means
2. Trong khai phá dữ liệu, mục đích của việc sử dụng ‘validation set’ là gì?
A. Để huấn luyện mô hình.
B. Để đánh giá hiệu suất của mô hình trên dữ liệu chưa thấy và điều chỉnh các tham số.
C. Để kiểm tra tính chính xác của dữ liệu.
D. Để tiền xử lý dữ liệu.
3. Thuật toán nào sau đây thường được sử dụng để tìm các quy luật kết hợp (association rules) trong dữ liệu giao dịch?
A. Apriori
B. Cây quyết định
C. Hồi quy tuyến tính
D. Phân cụm K-means
4. Trong khai phá dữ liệu, ‘curse of dimensionality’ đề cập đến vấn đề gì?
A. Khó khăn trong việc tìm kiếm các thuộc tính quan trọng nhất.
B. Sự gia tăng đáng kể về độ phức tạp tính toán và yêu cầu dữ liệu khi số lượng thuộc tính tăng lên.
C. Sự thiếu hụt dữ liệu.
D. Sự khó khăn trong việc trực quan hóa dữ liệu.
5. Đâu là một ví dụ về ứng dụng của khai phá dữ liệu trong lĩnh vực bán lẻ?
A. Dự đoán thời tiết
B. Phân tích cảm xúc trên mạng xã hội
C. Phân tích giỏ hàng để xác định các sản phẩm thường được mua cùng nhau
D. Dự đoán kết quả bầu cử
6. Trong khai phá dữ liệu, ‘feature engineering’ là gì?
A. Quá trình chọn ra các thuật toán khai phá dữ liệu phù hợp nhất.
B. Quá trình biến đổi hoặc tạo ra các đặc trưng mới từ các đặc trưng hiện có để cải thiện hiệu suất mô hình.
C. Quá trình chọn ra các đặc trưng (features) quan trọng nhất từ tập dữ liệu.
D. Quá trình đánh giá hiệu quả của các đặc trưng.
7. Thuật toán nào sau đây thường được sử dụng để phân loại dữ liệu dựa trên khoảng cách đến các điểm dữ liệu lân cận?
A. Cây quyết định
B. Máy học tăng cường (Boosting)
C. K-Nearest Neighbors (KNN)
D. Hồi quy Logistic
8. Trong ngữ cảnh của khai phá dữ liệu, ‘feature selection’ là gì?
A. Quá trình chọn ra các thuật toán khai phá dữ liệu phù hợp nhất.
B. Quá trình chọn ra các đặc trưng (features) quan trọng nhất từ tập dữ liệu.
C. Quá trình tạo ra các đặc trưng mới từ các đặc trưng hiện có.
D. Quá trình đánh giá hiệu quả của các đặc trưng.
9. Trong khai phá dữ liệu, ‘outlier’ là gì?
A. Một thuộc tính quan trọng trong tập dữ liệu.
B. Một giá trị dữ liệu nằm ngoài phạm vi thông thường của tập dữ liệu.
C. Một phương pháp tiền xử lý dữ liệu.
D. Một loại mô hình khai phá dữ liệu.
10. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu thiếu?
A. Phân tích hồi quy
B. Thay thế bằng giá trị trung bình hoặc trung vị
C. Phân tích tương quan
D. Phân tích thành phần chính (PCA)
11. Trong khai phá dữ liệu, ‘precision’ và ‘recall’ là gì?
A. Các phương pháp tiền xử lý dữ liệu.
B. Các độ đo đánh giá hiệu quả mô hình phân loại.
C. Các thuật toán phân cụm.
D. Các kỹ thuật giảm chiều dữ liệu.
12. Phương pháp nào sau đây thường được sử dụng để đánh giá mức độ tin cậy của các quy luật kết hợp (association rules)?
A. Support, confidence, và lift
B. Precision và recall
C. Accuracy và F1-score
D. RMSE và MAE
13. Phương pháp nào sau đây được sử dụng để tìm các nhóm đối tượng tương tự nhau trong một tập dữ liệu?
A. Hồi quy tuyến tính
B. Phân tích tương quan
C. Phân cụm (Clustering)
D. Cây quyết định
14. Thuật toán nào thường được sử dụng để xây dựng mô hình dự đoán dựa trên một tập hợp các luật ‘if-then’?
A. Mạng nơ-ron
B. Cây quyết định
C. Máy vector hỗ trợ (SVM)
D. Hồi quy Logistic
15. Phương pháp nào sau đây thường được sử dụng để chuẩn hóa dữ liệu?
A. Phân tích hồi quy
B. Z-score normalization
C. Phân tích tương quan
D. Phân tích thành phần chính (PCA)
16. Đâu là một ví dụ về ứng dụng của khai phá dữ liệu trong lĩnh vực y tế?
A. Dự báo giá cổ phiếu
B. Phát hiện gian lận thẻ tín dụng
C. Phân tích rủi ro tín dụng
D. Dự đoán khả năng mắc bệnh dựa trên dữ liệu bệnh sử và xét nghiệm
17. Đâu là một phương pháp đánh giá hiệu quả mô hình phân loại?
A. MAE (Mean Absolute Error)
B. RMSE (Root Mean Squared Error)
C. Độ chính xác (Accuracy)
D. R-squared
18. Khi triển khai một mô hình khai phá dữ liệu vào thực tế, yếu tố nào sau đây là quan trọng nhất để đảm bảo thành công?
A. Sử dụng thuật toán phức tạp nhất.
B. Đảm bảo mô hình dễ hiểu và có thể giải thích được cho người dùng cuối.
C. Sử dụng phần cứng mạnh nhất.
D. Huấn luyện mô hình trên lượng dữ liệu lớn nhất có thể.
19. Phương pháp nào sau đây thường được sử dụng để đánh giá sự tương quan giữa hai biến số?
A. Phân tích phương sai (ANOVA)
B. Phân tích hồi quy
C. Phân tích tương quan
D. Phân tích thành phần chính (PCA)
20. Trong khai phá dữ liệu, mục đích chính của việc tiền xử lý dữ liệu là gì?
A. Tăng kích thước của tập dữ liệu.
B. Làm cho dữ liệu phù hợp hơn để phân tích và cải thiện chất lượng mô hình.
C. Giảm số lượng biến trong tập dữ liệu.
D. Chọn ra các thuật toán khai phá dữ liệu phù hợp.
21. Trong khai phá dữ liệu, ‘overfitting’ xảy ra khi nào?
A. Mô hình quá đơn giản và không thể hiện được sự phức tạp của dữ liệu.
B. Mô hình học quá kỹ dữ liệu huấn luyện, dẫn đến khả năng khái quát hóa kém trên dữ liệu mới.
C. Mô hình không đủ dữ liệu để học.
D. Mô hình chỉ hoạt động tốt trên một tập con nhỏ của dữ liệu.
22. Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để giảm nhiễu trong dữ liệu?
A. Feature selection
B. Smoothing
C. Clustering
D. Association rule mining
23. Trong khai phá dữ liệu, ‘data mining’ khác với ‘data analysis’ như thế nào?
A. ‘Data mining’ tập trung vào việc xác nhận giả thuyết, trong khi ‘data analysis’ tập trung vào khám phá tri thức.
B. ‘Data mining’ là một phần của ‘data analysis’.
C. ‘Data analysis’ là một phần của ‘data mining’.
D. ‘Data mining’ tập trung vào khám phá tri thức, trong khi ‘data analysis’ tập trung vào việc xác nhận giả thuyết.
24. Trong khai phá dữ liệu, ‘cross-validation’ là gì?
A. Một phương pháp giảm chiều dữ liệu.
B. Một kỹ thuật đánh giá hiệu suất mô hình bằng cách chia dữ liệu thành nhiều phần và huấn luyện, kiểm tra trên các phần khác nhau.
C. Một phương pháp tiền xử lý dữ liệu.
D. Một thuật toán phân cụm.
25. Trong quá trình xây dựng mô hình, khi nào thì cần sử dụng kỹ thuật ‘regularization’?
A. Khi dữ liệu có quá nhiều giá trị thiếu.
B. Khi mô hình có dấu hiệu ‘overfitting’.
C. Khi cần giảm số lượng chiều dữ liệu.
D. Khi dữ liệu chưa được chuẩn hóa.
26. Đâu là một ví dụ về ứng dụng của khai phá dữ liệu trong lĩnh vực tài chính?
A. Dự đoán thời tiết
B. Phân tích cảm xúc trên mạng xã hội
C. Phân tích rủi ro tín dụng
D. Dự đoán kết quả bầu cử
27. Thuật toán nào sau đây thường được sử dụng để dự đoán giá trị liên tục?
A. Cây quyết định
B. Phân cụm K-means
C. Hồi quy tuyến tính
D. K-Nearest Neighbors (KNN)
28. Trong khai phá dữ liệu, ‘ensemble learning’ là gì?
A. Một phương pháp giảm chiều dữ liệu.
B. Một kỹ thuật kết hợp nhiều mô hình học máy để cải thiện hiệu suất.
C. Một phương pháp tiền xử lý dữ liệu.
D. Một thuật toán phân cụm.
29. Trong khai phá dữ liệu, ‘bias-variance tradeoff’ đề cập đến điều gì?
A. Sự cân bằng giữa độ chính xác và độ tin cậy của dữ liệu.
B. Sự cân bằng giữa việc giảm chiều dữ liệu và giữ lại thông tin quan trọng.
C. Sự cân bằng giữa việc giảm thiểu sai số do thiên vị (bias) và sai số do phương sai (variance) của mô hình.
D. Sự cân bằng giữa việc sử dụng dữ liệu huấn luyện và dữ liệu kiểm tra.
30. Trong khai phá dữ liệu, ‘ROC curve’ được sử dụng để làm gì?
A. Để giảm chiều dữ liệu.
B. Để đánh giá hiệu suất của mô hình phân loại nhị phân.
C. Để phân cụm dữ liệu.
D. Để tìm các quy luật kết hợp.
31. Trong khai phá dữ liệu, ‘recall’ (độ phủ) được định nghĩa là gì?
A. Tỷ lệ các dự đoán đúng trên tổng số các điểm dữ liệu.
B. Tỷ lệ các dự đoán dương tính đúng trên tổng số các dự đoán dương tính.
C. Tỷ lệ các dự đoán âm tính đúng trên tổng số các điểm dữ liệu âm tính.
D. Tỷ lệ các dự đoán dương tính đúng trên tổng số các điểm dữ liệu thực tế là dương tính.
32. Trong khai phá dữ liệu, mục tiêu của việc ‘feature selection’ (lựa chọn đặc trưng) là gì?
A. Tăng số lượng đặc trưng trong dữ liệu.
B. Chọn một tập hợp con các đặc trưng quan trọng nhất để sử dụng trong mô hình.
C. Chuyển đổi dữ liệu phân loại thành dữ liệu số.
D. Chuẩn hóa dữ liệu số.
33. Trong khai phá dữ liệu, ‘bias’ (thiên vị) trong dữ liệu có thể dẫn đến điều gì?
A. Mô hình hoạt động tốt hơn trên dữ liệu kiểm tra.
B. Mô hình khái quát hóa tốt hơn.
C. Mô hình đưa ra các dự đoán không công bằng hoặc không chính xác cho một số nhóm nhất định.
D. Mô hình hội tụ nhanh hơn.
34. Phương pháp nào sau đây thường được sử dụng để tìm các mẫu tuần tự trong dữ liệu, ví dụ như phân tích hành vi mua hàng theo thời gian?
A. Phân tích hồi quy
B. Phân cụm K-means
C. Luật kết hợp
D. Khai phá mẫu tuần tự (Sequential pattern mining)
35. Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để giảm số lượng chiều của dữ liệu trong khi vẫn giữ lại thông tin quan trọng?
A. Phân tích hồi quy
B. Phân tích thành phần chính (PCA)
C. Phân cụm K-means
D. Luật kết hợp
36. Kỹ thuật nào sau đây thường được sử dụng để giảm nhiễu trong dữ liệu trước khi áp dụng các thuật toán khai phá dữ liệu?
A. Chuẩn hóa dữ liệu
B. Làm sạch dữ liệu (Data cleaning)
C. Mã hóa one-hot
D. Giảm chiều dữ liệu
37. Phương pháp nào sau đây thường được sử dụng để chuẩn hóa dữ liệu số về một phạm vi nhất định, ví dụ như [0, 1]?
A. Mã hóa one-hot
B. Rời rạc hóa dữ liệu
C. Chuẩn hóa Min-Max (Min-Max scaling)
D. Giảm chiều dữ liệu
38. Độ đo nào sau đây được sử dụng để đánh giá sự tương đồng giữa hai cụm (clusters) trong phân cụm?
A. Độ chính xác (Accuracy)
B. Silhouette coefficient
C. RMSE (Sai số bình phương gốc trung bình)
D. MAE (Sai số tuyệt đối trung bình)
39. Trong khai phá dữ liệu, ‘precision’ (độ chính xác) được định nghĩa là gì?
A. Tỷ lệ các dự đoán đúng trên tổng số các điểm dữ liệu.
B. Tỷ lệ các dự đoán dương tính đúng trên tổng số các dự đoán dương tính.
C. Tỷ lệ các dự đoán âm tính đúng trên tổng số các điểm dữ liệu âm tính.
D. Tỷ lệ các dự đoán dương tính đúng trên tổng số các điểm dữ liệu thực tế là dương tính.
40. Trong khai phá dữ liệu, ‘ROC curve’ (đường cong ROC) được sử dụng để đánh giá điều gì?
A. Hiệu suất của mô hình hồi quy.
B. Hiệu suất của mô hình phân cụm.
C. Hiệu suất của mô hình phân loại ở các ngưỡng khác nhau.
D. Mức độ tương quan giữa các biến.
41. Kỹ thuật nào sau đây thường được sử dụng để chuyển đổi dữ liệu phân loại thành dữ liệu số để có thể sử dụng trong các thuật toán khai phá dữ liệu?
A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Mã hóa one-hot (One-hot encoding)
D. Giảm chiều dữ liệu
42. Kỹ thuật nào sau đây thường được sử dụng để xử lý dữ liệu văn bản trong khai phá dữ liệu?
A. Chuẩn hóa dữ liệu
B. Mã hóa one-hot
C. Phân tích tình cảm (Sentiment analysis)
D. Giảm chiều dữ liệu
43. Trong khai phá dữ liệu, ‘underfitting’ (thiếu khớp) xảy ra khi nào?
A. Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
B. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra.
C. Mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
D. Mô hình học quá kỹ dữ liệu huấn luyện.
44. Trong khai phá dữ liệu, ‘feature engineering’ (kỹ thuật đặc trưng) đề cập đến điều gì?
A. Quá trình lựa chọn các thuật toán khai phá dữ liệu phù hợp.
B. Quá trình chuyển đổi dữ liệu thô thành các đặc trưng (features) hữu ích hơn để cải thiện hiệu suất của mô hình.
C. Quá trình đánh giá hiệu suất của mô hình.
D. Quá trình triển khai mô hình vào sản xuất.
45. Trong khai phá dữ liệu, thuật ngữ ‘curse of dimensionality’ (lời nguyền chiều dữ liệu) đề cập đến vấn đề gì?
A. Sự khó khăn trong việc tìm kiếm các thuật toán khai phá dữ liệu phù hợp.
B. Sự gia tăng đáng kể về độ phức tạp tính toán và yêu cầu dữ liệu khi số lượng chiều (đặc trưng) tăng lên.
C. Sự khó khăn trong việc trực quan hóa dữ liệu có nhiều chiều.
D. Sự gia tăng về độ chính xác của mô hình khi số lượng chiều tăng lên.
46. Thuật toán nào sau đây thường được sử dụng để tìm các nhóm (cluster) trong dữ liệu mà không cần biết trước số lượng nhóm?
A. K-means
B. Phân cấp (Hierarchical clustering)
C. Cây quyết định
D. Hồi quy tuyến tính
47. Thuật toán nào sau đây thường được sử dụng để giảm chiều dữ liệu phi tuyến tính?
A. PCA (Phân tích thành phần chính)
B. LDA (Phân tích biệt tuyến tính)
C. t-SNE (t-distributed Stochastic Neighbor Embedding)
D. Hồi quy tuyến tính
48. Phương pháp nào sau đây được sử dụng để dự đoán giá trị liên tục dựa trên các biến đầu vào?
A. Phân loại
B. Hồi quy
C. Phân cụm
D. Luật kết hợp
49. Độ đo nào sau đây thường được sử dụng để đánh giá hiệu quả của mô hình phân loại?
A. RMSE (Sai số bình phương gốc trung bình)
B. Độ chính xác (Accuracy)
C. MAE (Sai số tuyệt đối trung bình)
D. MSE (Sai số bình phương trung bình)
50. Trong ngữ cảnh của khai phá dữ liệu, ‘overfitting’ (quá khớp) xảy ra khi nào?
A. Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
B. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra.
C. Mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
D. Mô hình không thể học được từ dữ liệu huấn luyện.
51. Thuật toán nào sau đây thường được sử dụng để xây dựng mô hình dự đoán bằng cách kết hợp nhiều cây quyết định?
A. K-means
B. Hồi quy tuyến tính
C. Rừng ngẫu nhiên (Random Forest)
D. Máy vector hỗ trợ (SVM)
52. Trong khai phá dữ liệu, ‘outlier’ (điểm ngoại lệ) là gì?
A. Một điểm dữ liệu có giá trị giống với các điểm dữ liệu khác.
B. Một điểm dữ liệu bị thiếu giá trị.
C. Một điểm dữ liệu có giá trị khác biệt đáng kể so với các điểm dữ liệu khác.
D. Một điểm dữ liệu được sử dụng để huấn luyện mô hình.
53. Thuật toán nào sau đây thường được sử dụng để phân loại dữ liệu bằng cách tìm một siêu phẳng (hyperplane) tối ưu để phân tách các lớp?
A. K-means
B. Hồi quy tuyến tính
C. Cây quyết định
D. Máy vector hỗ trợ (SVM)
54. Độ đo nào sau đây được sử dụng để đánh giá hiệu quả của mô hình hồi quy?
A. Độ chính xác (Accuracy)
B. F1-score
C. RMSE (Sai số bình phương gốc trung bình)
D. Precision
55. Phương pháp nào sau đây được sử dụng để khám phá các mối quan hệ giữa các mục (items) trong một tập dữ liệu, ví dụ như phân tích giỏ hàng?
A. Phân tích hồi quy
B. Phân cụm K-means
C. Luật kết hợp (Association rule mining)
D. Phân tích thành phần chính (PCA)
56. Trong khai phá dữ liệu, ‘lift’ trong luật kết hợp (association rules) đo lường điều gì?
A. Xác suất của một mục xuất hiện trong tập dữ liệu.
B. Độ tin cậy của luật kết hợp.
C. Mức độ mà sự xuất hiện của một mục làm tăng khả năng xuất hiện của một mục khác.
D. Sự phổ biến của một luật kết hợp.
57. Kỹ thuật nào sau đây thường được sử dụng để xử lý dữ liệu bị thiếu trong khai phá dữ liệu?
A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Điền giá trị trung bình/mode
D. Giảm chiều dữ liệu
58. Kỹ thuật nào sau đây thường được sử dụng để giảm số lượng giá trị khác nhau của một biến số (ví dụ: chuyển đổi biến tuổi thành các nhóm tuổi)?
A. Chuẩn hóa dữ liệu
B. Mã hóa one-hot
C. Rời rạc hóa dữ liệu
D. Giảm chiều dữ liệu
59. Phương pháp nào sau đây thường được sử dụng để đánh giá hiệu quả của mô hình phân loại khi dữ liệu bị mất cân bằng (ví dụ: một lớp chiếm tỷ lệ rất nhỏ)?
A. Độ chính xác (Accuracy)
B. F1-score
C. RMSE (Sai số bình phương gốc trung bình)
D. MAE (Sai số tuyệt đối trung bình)
60. Trong khai phá dữ liệu, ‘cross-validation’ (kiểm định chéo) được sử dụng để làm gì?
A. Tăng kích thước của dữ liệu huấn luyện.
B. Ước tính hiệu suất của mô hình trên dữ liệu mới.
C. Giảm số lượng đặc trưng trong dữ liệu.
D. Chuyển đổi dữ liệu phân loại thành dữ liệu số.
61. Bạn có một tập dữ liệu lớn về các giao dịch thẻ tín dụng, bao gồm cả các giao dịch gian lận. Mục tiêu là xây dựng một mô hình để phát hiện các giao dịch gian lận mới. Kỹ thuật khai phá dữ liệu nào phù hợp nhất?
A. Phân tích cụm
B. Phân loại
C. Hồi quy
D. Giảm chiều dữ liệu
62. Phương pháp nào sau đây thường được sử dụng để xử lý các giá trị thiếu (missing values) trong khai phá dữ liệu?
A. Loại bỏ các bản ghi chứa giá trị thiếu
B. Thay thế bằng giá trị trung bình (mean) hoặc trung vị (median)
C. Sử dụng thuật toán học máy để dự đoán giá trị thiếu
D. Tất cả các phương án trên
63. Trong khai phá dữ liệu, ‘precision’ (độ chính xác) là gì?
A. Tỷ lệ các trường hợp được dự đoán là dương tính thực sự là dương tính.
B. Tỷ lệ các trường hợp dương tính thực tế được dự đoán đúng.
C. Tỷ lệ các trường hợp âm tính thực tế được dự đoán đúng.
D. Tỷ lệ các trường hợp được dự đoán là âm tính thực sự là âm tính.
64. Cho một tập dữ liệu về khách hàng của một siêu thị, bạn muốn tìm hiểu xem những sản phẩm nào thường được mua cùng nhau. Kỹ thuật khai phá dữ liệu nào phù hợp nhất?
A. Phân tích hồi quy
B. Phân tích cụm
C. Khai thác luật kết hợp
D. Phân tích chuỗi thời gian
65. Đâu là một lợi ích của việc sử dụng PCA (Principal Component Analysis) trong khai phá dữ liệu?
A. Giảm số lượng chiều dữ liệu trong khi vẫn giữ lại phần lớn thông tin.
B. Tự động tìm kiếm các quy luật kết hợp.
C. Tự động xử lý các giá trị thiếu.
D. Tự động phân loại dữ liệu vào các lớp đã biết trước.
66. Trong khai phá dữ liệu, kỹ thuật ‘ensemble learning’ (học tập kết hợp) là gì?
A. Kết hợp nhiều mô hình học máy để cải thiện hiệu suất tổng thể.
B. Sử dụng một mô hình học máy duy nhất cho nhiều tác vụ khác nhau.
C. Tự động lựa chọn các tham số tốt nhất cho một mô hình học máy.
D. Tự động tạo ra các đặc trưng mới từ dữ liệu thô.
67. Khi nào thì nên sử dụng thuật toán SVM (Support Vector Machine)?
A. Khi cần phân loại dữ liệu với số lượng chiều cao và có ranh giới phức tạp giữa các lớp.
B. Khi cần tìm kiếm các quy luật kết hợp.
C. Khi cần phân cụm dữ liệu.
D. Khi cần dự đoán một biến mục tiêu liên tục.
68. Trong khai phá dữ liệu, ‘lift’ (hệ số nâng) trong quy luật kết hợp (association rules) đo lường điều gì?
A. Mức độ tăng khả năng xảy ra của một mục khi có mặt một mục khác.
B. Tần suất xuất hiện của một mục.
C. Độ tin cậy của một quy luật.
D. Sự hỗ trợ của một quy luật.
69. Bạn có một tập dữ liệu về thông tin của sinh viên, bao gồm điểm số các môn học, thông tin cá nhân, và hoạt động ngoại khóa. Bạn muốn phân nhóm sinh viên thành các nhóm có đặc điểm tương đồng để có thể đưa ra các chương trình hỗ trợ phù hợp. Kỹ thuật khai phá dữ liệu nào phù hợp nhất?
A. Phân tích hồi quy
B. Phân tích cụm
C. Phân loại
D. Khai thác luật kết hợp
70. Đâu là một thách thức lớn khi làm việc với dữ liệu lớn (big data) trong khai phá dữ liệu?
A. Khả năng mở rộng (scalability) của các thuật toán và cơ sở hạ tầng.
B. Sự thiếu hụt các công cụ và kỹ thuật khai phá dữ liệu.
C. Chi phí thấp để lưu trữ và xử lý dữ liệu.
D. Dễ dàng tìm thấy các chuyên gia khai phá dữ liệu có kinh nghiệm.
71. Trong khai phá dữ liệu, ‘recall’ (độ phủ) là gì?
A. Tỷ lệ các trường hợp dương tính thực tế được dự đoán đúng.
B. Tỷ lệ các trường hợp được dự đoán là dương tính thực sự là dương tính.
C. Tỷ lệ các trường hợp âm tính thực tế được dự đoán đúng.
D. Tỷ lệ các trường hợp được dự đoán là âm tính thực sự là âm tính.
72. Trong khai phá dữ liệu, thuật ngữ ‘overfitting’ (quá khớp) đề cập đến vấn đề gì?
A. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra.
B. Mô hình không đủ phức tạp để nắm bắt các mối quan hệ trong dữ liệu.
C. Dữ liệu huấn luyện chứa quá nhiều giá trị ngoại lệ.
D. Quá trình huấn luyện mô hình mất quá nhiều thời gian.
73. Trong khai phá dữ liệu, mục đích của việc chuẩn hóa dữ liệu (data normalization) là gì?
A. Đảm bảo rằng tất cả các biến có cùng thang đo.
B. Loại bỏ các giá trị ngoại lệ.
C. Xử lý các giá trị thiếu.
D. Giảm số lượng chiều dữ liệu.
74. Bạn có một tập dữ liệu về doanh số bán hàng hàng tháng của một sản phẩm trong 5 năm qua. Bạn muốn dự đoán doanh số bán hàng cho tháng tới. Kỹ thuật khai phá dữ liệu nào phù hợp nhất?
A. Phân tích hồi quy
B. Phân tích chuỗi thời gian
C. Phân tích cụm
D. Khai thác luật kết hợp
75. Trong bối cảnh khai phá dữ liệu, ‘feature engineering’ (kỹ thuật đặc trưng) là gì?
A. Quá trình lựa chọn các thuật toán khai phá dữ liệu phù hợp nhất.
B. Quá trình chuyển đổi dữ liệu thô thành các đặc trưng hữu ích để cải thiện hiệu suất mô hình.
C. Quá trình đánh giá hiệu quả của các mô hình khai phá dữ liệu.
D. Quá trình trực quan hóa dữ liệu để khám phá các mẫu.
76. Trong quá trình tiền xử lý dữ liệu, khi nào thì bạn nên sử dụng kỹ thuật ‘scaling’ (tỷ lệ hóa) dữ liệu?
A. Khi các biến có đơn vị đo lường và phạm vi giá trị khác nhau đáng kể.
B. Khi dữ liệu chứa nhiều giá trị thiếu.
C. Khi dữ liệu chứa nhiều giá trị ngoại lệ.
D. Khi bạn muốn giảm số lượng chiều dữ liệu.
77. Phương pháp nào sau đây được sử dụng để đánh giá tầm quan trọng của các đặc trưng (feature importance) trong một mô hình học máy?
A. Principal Component Analysis (PCA)
B. Cross-validation
C. Mean Squared Error (MSE)
D. Decision Tree (Cây quyết định)
78. Trong khai phá dữ liệu, ‘ROC curve’ (đường cong ROC) được sử dụng để làm gì?
A. Đánh giá hiệu suất của mô hình phân loại ở các ngưỡng khác nhau.
B. Trực quan hóa dữ liệu nhiều chiều.
C. Tìm kiếm các quy luật kết hợp.
D. Giảm số lượng chiều dữ liệu.
79. Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để giảm số lượng chiều dữ liệu trong khi vẫn giữ lại thông tin quan trọng?
A. Phân tích hồi quy
B. Giảm chiều dữ liệu
C. Phân cụm
D. Phân tích phương sai
80. Khi nào thì nên sử dụng thuật toán Random Forest?
A. Khi cần xây dựng một mô hình phân loại hoặc hồi quy có độ chính xác cao và khả năng chống overfitting tốt.
B. Khi cần tìm kiếm các quy luật kết hợp.
C. Khi cần phân cụm dữ liệu.
D. Khi cần giảm số lượng chiều dữ liệu.
81. Khi nào thì nên sử dụng phương pháp hồi quy tuyến tính (linear regression)?
A. Khi cần dự đoán một biến mục tiêu liên tục dựa trên một hoặc nhiều biến đầu vào.
B. Khi cần phân loại dữ liệu vào các lớp đã biết trước.
C. Khi cần phân cụm dữ liệu.
D. Khi cần tìm kiếm các quy luật kết hợp.
82. Thuật toán nào sau đây thuộc loại thuật toán phân loại (classification)?
A. K-means
B. Apriori
C. Decision Tree (Cây quyết định)
D. PCA
83. Phương pháp nào sau đây thường được sử dụng để đánh giá hiệu quả của một mô hình phân loại trong khai phá dữ liệu?
A. Độ chính xác (Accuracy)
B. Độ lệch (Bias)
C. Phương sai (Variance)
D. Độ tin cậy (Reliability)
84. Trong khai phá dữ liệu, ‘outlier’ (giá trị ngoại lệ) là gì?
A. Một giá trị dữ liệu nằm ngoài phạm vi giá trị thông thường.
B. Một giá trị dữ liệu bị thiếu.
C. Một giá trị dữ liệu không chính xác.
D. Một giá trị dữ liệu trùng lặp.
85. Kỹ thuật nào sau đây được sử dụng để tìm kiếm các quy luật kết hợp (association rules) trong khai phá dữ liệu?
A. Apriori
B. K-means
C. Support Vector Machine (SVM)
D. Principal Component Analysis (PCA)
86. Trong khai phá dữ liệu, mục tiêu chính của phân tích cụm (clustering) là gì?
A. Dự đoán giá trị của một biến mục tiêu dựa trên các biến đầu vào.
B. Phân loại các đối tượng vào các nhóm (cụm) dựa trên sự tương đồng của chúng.
C. Tìm kiếm các quy luật kết hợp giữa các biến.
D. Giảm số lượng chiều dữ liệu.
87. Trong khai phá dữ liệu, kỹ thuật ‘cross-validation’ (kiểm định chéo) được sử dụng để làm gì?
A. Ước tính hiệu suất của mô hình trên dữ liệu chưa thấy.
B. Tìm kiếm các quy luật kết hợp trong dữ liệu.
C. Giảm số lượng chiều dữ liệu.
D. Xử lý các giá trị thiếu.
88. Trong khai phá dữ liệu, ‘bias-variance tradeoff’ (đánh đổi giữa độ chệch và phương sai) đề cập đến điều gì?
A. Sự cân bằng giữa việc mô hình hóa dữ liệu quá đơn giản (high bias) và quá phức tạp (high variance).
B. Sự cân bằng giữa việc sử dụng nhiều đặc trưng (features) và ít đặc trưng.
C. Sự cân bằng giữa việc sử dụng nhiều dữ liệu huấn luyện và ít dữ liệu huấn luyện.
D. Sự cân bằng giữa độ chính xác (precision) và độ phủ (recall).
89. Khi nào thì nên sử dụng thuật toán K-means?
A. Khi cần phân loại dữ liệu vào các lớp đã biết trước.
B. Khi cần tìm kiếm các quy luật kết hợp.
C. Khi cần phân cụm dữ liệu thành các nhóm mà không biết trước số lượng cụm.
D. Khi cần giảm số lượng chiều dữ liệu.
90. Kỹ thuật nào sau đây thường được sử dụng để trực quan hóa dữ liệu nhiều chiều?
A. Scatter plot (biểu đồ phân tán)
B. Histogram (biểu đồ tần suất)
C. Box plot (biểu đồ hộp)
D. T-distributed Stochastic Neighbor Embedding (t-SNE)
91. Phương pháp nào sau đây được sử dụng để chuyển đổi dữ liệu định tính (categorical data) thành dữ liệu định lượng (numerical data) trong khai phá dữ liệu?
A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. One-hot encoding
D. Phân tích thành phần chính (PCA)
92. Khi đánh giá một mô hình phân cụm, độ đo nào sau đây thường được sử dụng để đo lường sự gắn kết (cohesion) của các cụm?
A. Silhouette coefficient
B. Mean Squared Error (MSE)
C. Precision
D. Recall
93. Trong một bài toán phân loại, khi mô hình dự đoán sai một điểm dữ liệu thuộc lớp dương tính (positive class), nhưng thực tế nó thuộc lớp âm tính (negative class), thì đây được gọi là lỗi gì?
A. True Positive
B. False Positive
C. True Negative
D. False Negative
94. Khi nào thì việc sử dụng ‘Naive Bayes’ classifier là phù hợp trong khai phá dữ liệu?
A. Khi các thuộc tính có mối tương quan mạnh mẽ với nhau
B. Khi cần một mô hình có độ chính xác cao nhất
C. Khi các thuộc tính độc lập với nhau
D. Khi dữ liệu có nhiều thuộc tính liên tục
95. Trong khai phá dữ liệu, mục đích của việc ‘chuẩn hóa dữ liệu’ (data normalization) là gì?
A. Loại bỏ các thuộc tính không liên quan
B. Chuyển đổi dữ liệu về một khoảng giá trị chung
C. Xử lý dữ liệu bị thiếu
D. Giảm số lượng chiều của dữ liệu
96. Trong khai phá dữ liệu, mục tiêu của việc sử dụng ‘association rule mining’ (khai thác luật kết hợp) là gì?
A. Dự đoán giá trị của một biến mục tiêu
B. Phân nhóm các đối tượng dữ liệu
C. Tìm kiếm các mối quan hệ giữa các biến trong dữ liệu
D. Giảm số lượng chiều của dữ liệu
97. Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để giảm số lượng chiều của dữ liệu trong khi vẫn giữ lại thông tin quan trọng nhất?
A. Phân tích tương quan
B. Giảm chiều dữ liệu
C. Phân cụm
D. Phân lớp
98. Trong khai phá dữ liệu, thuật ngữ ‘feature engineering’ (kỹ thuật đặc trưng) đề cập đến điều gì?
A. Quá trình lựa chọn các thuật toán khai phá dữ liệu phù hợp nhất
B. Quá trình chuyển đổi dữ liệu thô thành các đặc trưng (features) phù hợp để huấn luyện mô hình
C. Quá trình đánh giá hiệu suất của mô hình
D. Quá trình triển khai mô hình vào sản xuất
99. Khi nào thì việc sử dụng một mô hình cây quyết định (decision tree) trở nên không phù hợp trong khai phá dữ liệu?
A. Khi dữ liệu có nhiều thuộc tính liên tục
B. Khi cần một mô hình dễ diễn giải
C. Khi dữ liệu có nhiều mối quan hệ phi tuyến tính phức tạp
D. Khi cần một mô hình có độ chính xác cao
100. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu bị thiếu (missing data) trong khai phá dữ liệu?
A. Chuẩn hóa dữ liệu
B. Loại bỏ các thuộc tính không liên quan
C. Điền giá trị trung bình hoặc giá trị phổ biến nhất
D. Rút gọn dữ liệu
101. ROC (Receiver Operating Characteristic) curve thường được sử dụng để đánh giá hiệu suất của mô hình nào trong khai phá dữ liệu?
A. Mô hình hồi quy
B. Mô hình phân cụm
C. Mô hình phân lớp
D. Mô hình giảm chiều dữ liệu
102. Trong khai phá dữ liệu, thuật ngữ ‘outlier’ (điểm ngoại lệ) đề cập đến điều gì?
A. Một thuộc tính quan trọng trong dữ liệu
B. Một giá trị dữ liệu bất thường so với phần còn lại của tập dữ liệu
C. Một mô hình học máy hoạt động kém
D. Một lỗi trong quá trình thu thập dữ liệu
103. Đâu là một ứng dụng thực tế của phân tích cảm xúc (sentiment analysis) trong khai phá dữ liệu?
A. Dự đoán giá cổ phiếu
B. Phân tích phản hồi của khách hàng về một sản phẩm
C. Phát hiện gian lận trong giao dịch ngân hàng
D. Tối ưu hóa chuỗi cung ứng
104. Kỹ thuật nào sau đây giúp đánh giá mức độ quan trọng của các thuộc tính (features) trong một mô hình học máy?
A. Phân tích phương sai (ANOVA)
B. Phân tích tương quan
C. Feature Importance
D. Kiểm định t (t-test)
105. Trong khai phá dữ liệu, thuật ngữ ‘data mining’ và ‘knowledge discovery in databases (KDD)’ có ý nghĩa như thế nào?
A. Chúng hoàn toàn khác nhau và không liên quan đến nhau
B. Chúng là hai thuật ngữ đồng nghĩa và có thể sử dụng thay thế cho nhau
C. ‘Data mining’ là một bước trong quy trình ‘KDD’
D. ‘KDD’ là một bước trong quy trình ‘Data mining’
106. Đâu là một thách thức lớn khi làm việc với dữ liệu văn bản (text data) trong khai phá dữ liệu?
A. Dữ liệu văn bản luôn có cấu trúc rõ ràng
B. Dữ liệu văn bản thường có kích thước nhỏ
C. Dữ liệu văn bản thường không có cấu trúc và chứa nhiều nhiễu
D. Dữ liệu văn bản luôn có sẵn ở định dạng số
107. Trong khai phá dữ liệu, thuật ngữ ‘ensemble learning’ (học tập kết hợp) có nghĩa là gì?
A. Sử dụng một thuật toán duy nhất để giải quyết nhiều bài toán khác nhau
B. Kết hợp nhiều mô hình học máy khác nhau để cải thiện hiệu suất tổng thể
C. Chia nhỏ dữ liệu thành các phần nhỏ hơn để huấn luyện mô hình nhanh hơn
D. Sử dụng một tập dữ liệu lớn để huấn luyện một mô hình duy nhất
108. Trong khai phá dữ liệu, kỹ thuật nào sau đây được sử dụng để tìm kiếm các mẫu hoặc xu hướng trong dữ liệu theo thời gian?
A. Phân tích hồi quy (Regression analysis)
B. Phân tích chuỗi thời gian (Time series analysis)
C. Phân tích phương sai (ANOVA)
D. Phân tích thành phần chính (PCA)
109. Thuật toán nào sau đây thường được sử dụng để giảm số lượng thuộc tính trong một tập dữ liệu bằng cách chọn ra một tập con các thuộc tính quan trọng nhất?
A. Principal Component Analysis (PCA)
B. Feature Selection
C. K-means Clustering
D. Linear Regression
110. Lợi ích chính của việc sử dụng kỹ thuật ‘cross-validation’ (kiểm định chéo) trong khai phá dữ liệu là gì?
A. Tăng tốc độ huấn luyện mô hình
B. Giảm số lượng dữ liệu cần thiết để huấn luyện mô hình
C. Đánh giá khách quan hiệu suất của mô hình trên dữ liệu mới
D. Cải thiện khả năng diễn giải của mô hình
111. Trong khai phá dữ liệu, mục tiêu của việc sử dụng ‘principal component analysis (PCA)’ là gì?
A. Phân nhóm các đối tượng dữ liệu
B. Giảm số lượng chiều của dữ liệu trong khi vẫn giữ lại thông tin quan trọng
C. Tìm kiếm các quy luật kết hợp
D. Dự đoán giá trị của một biến mục tiêu
112. Khi nào thì việc sử dụng ‘k-Nearest Neighbors (k-NN)’ algorithm là phù hợp trong khai phá dữ liệu?
A. Khi dữ liệu có nhiều thuộc tính không liên quan
B. Khi cần một mô hình dễ diễn giải
C. Khi dữ liệu có cấu trúc phức tạp và phi tuyến tính
D. Khi cần một mô hình có khả năng xử lý dữ liệu lớn
113. Phương pháp nào sau đây thường được sử dụng để giảm thiểu tác động của outliers trong khai phá dữ liệu?
A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Sử dụng các thuật toán mạnh mẽ (robust algorithms)
D. Phân tích thành phần chính (PCA)
114. Trong khai phá dữ liệu, thuật ngữ ‘data warehouse’ (kho dữ liệu) đề cập đến điều gì?
A. Một cơ sở dữ liệu được thiết kế để hỗ trợ việc ra quyết định
B. Một công cụ để trực quan hóa dữ liệu
C. Một thuật toán để phân tích dữ liệu
D. Một phương pháp để làm sạch dữ liệu
115. Mục tiêu chính của việc sử dụng thuật toán K-means trong khai phá dữ liệu là gì?
A. Dự đoán giá trị của một biến mục tiêu dựa trên các biến đầu vào
B. Phân nhóm các đối tượng dữ liệu thành các cụm dựa trên sự tương đồng của chúng
C. Tìm kiếm các quy luật kết hợp giữa các mục trong một tập dữ liệu
D. Giảm số lượng chiều của dữ liệu
116. Trong khai phá dữ liệu, ‘support’, ‘confidence’, và ‘lift’ là các độ đo quan trọng trong thuật toán nào?
A. K-means
B. Apriori
C. Linear Regression
D. Decision Tree
117. Trong khai phá dữ liệu, ‘precision’ và ‘recall’ là các độ đo hiệu suất quan trọng trong bài toán nào?
A. Phân cụm
B. Phân lớp
C. Hồi quy
D. Giảm chiều dữ liệu
118. Trong ngữ cảnh của khai phá dữ liệu, ‘overfitting’ (quá khớp) có nghĩa là gì?
A. Mô hình hoạt động kém trên dữ liệu huấn luyện
B. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới
C. Mô hình quá phức tạp và mất nhiều thời gian để huấn luyện
D. Mô hình không thể học được từ dữ liệu
119. Phương pháp nào sau đây được sử dụng để khám phá các nhóm khách hàng có hành vi mua hàng tương tự nhau?
A. Phân tích hồi quy (Regression analysis)
B. Phân tích phân biệt (Discriminant analysis)
C. Phân tích cụm (Cluster analysis)
D. Phân tích chuỗi thời gian (Time series analysis)
120. Trong khai phá dữ liệu, kỹ thuật nào sau đây thường được sử dụng để xử lý sự mất cân bằng lớp (class imbalance) trong bài toán phân loại?
A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Oversampling hoặc undersampling
D. Phân tích thành phần chính (PCA)
121. Phương pháp nào sau đây thường được sử dụng để đánh giá hiệu quả của mô hình phân loại?
A. Root Mean Squared Error (RMSE)
B. Mean Absolute Error (MAE)
C. Độ chính xác (Accuracy), Precision, Recall, F1-score
D. R-squared
122. Phương pháp nào sau đây thường được sử dụng để phân tích tình cảm (sentiment analysis) trong dữ liệu văn bản?
A. Phân tích hồi quy
B. Phân tích tương quan
C. Naive Bayes
D. Phân tích phương sai (ANOVA)
123. Trong khai phá dữ liệu, phương pháp nào thường được sử dụng để giảm số lượng chiều dữ liệu, giúp giảm độ phức tạp tính toán và tránh overfitting?
A. Phân tích phương sai (ANOVA)
B. Phân tích thành phần chính (PCA)
C. Hồi quy tuyến tính (Linear Regression)
D. Phân cụm K-means
124. Thuật toán nào sau đây là một phương pháp phân cụm dựa trên mật độ?
A. K-means
B. Hierarchical clustering
C. DBSCAN
D. Principal Component Analysis (PCA)
125. Khi nào thì kỹ thuật ‘bootstrapping’ được sử dụng trong khai phá dữ liệu?
A. Khi muốn giảm chiều dữ liệu
B. Khi muốn ước lượng độ tin cậy của một thống kê bằng cách lấy mẫu lại từ dữ liệu
C. Khi muốn xử lý dữ liệu bị thiếu
D. Khi muốn mã hóa dữ liệu văn bản
126. Thuật toán nào sau đây thuộc loại học có giám sát?
A. K-means
B. Apriori
C. DBSCAN
D. Support Vector Machine (SVM)
127. Trong khai phá dữ liệu, khái niệm ‘overfitting’ đề cập đến tình huống nào?
A. Mô hình hoạt động kém trên cả tập huấn luyện và tập kiểm tra
B. Mô hình hoạt động tốt trên tập huấn luyện nhưng kém trên tập kiểm tra
C. Mô hình hoạt động tốt trên cả tập huấn luyện và tập kiểm tra
D. Mô hình không thể học được từ dữ liệu
128. Trong khai phá dữ liệu, mục tiêu chính của việc sử dụng kỹ thuật ‘association rule mining’ là gì?
A. Dự đoán giá trị của một biến số
B. Tìm các mối quan hệ hoặc sự phụ thuộc giữa các biến số
C. Phân loại dữ liệu thành các nhóm khác nhau
D. Giảm chiều dữ liệu
129. Thuật toán nào sau đây thường được sử dụng để dự đoán chuỗi thời gian?
A. K-means
B. Support Vector Machine (SVM)
C. ARIMA
D. PCA
130. Khi dữ liệu có sự mất cân bằng lớp (imbalanced classes), phương pháp nào sau đây có thể được sử dụng để cải thiện hiệu suất của mô hình phân loại?
A. Sử dụng độ chính xác (accuracy) làm độ đo đánh giá
B. Áp dụng kỹ thuật oversampling hoặc undersampling
C. Giảm số lượng thuộc tính
D. Tăng kích thước tập dữ liệu
131. Trong khai phá dữ liệu, mục tiêu của việc ‘chuẩn hóa dữ liệu’ (data normalization) là gì?
A. Xử lý các giá trị bị thiếu
B. Chuyển đổi dữ liệu về cùng một thang đo
C. Giảm chiều dữ liệu
D. Mã hóa dữ liệu văn bản
132. Trong khai phá dữ liệu, ‘độ đo hỗ trợ’ (support) được sử dụng để đánh giá điều gì trong luật kết hợp?
A. Độ chính xác của luật
B. Tần suất xuất hiện của tập mục trong cơ sở dữ liệu
C. Độ tin cậy của luật
D. Mức độ quan trọng của luật
133. Độ đo nào sau đây được sử dụng để đánh giá sự tương đồng giữa hai tập hợp?
A. Euclidean distance
B. Cosine similarity
C. Mean Squared Error (MSE)
D. Accuracy
134. Thuật toán nào sau đây thường được sử dụng để tìm các nhóm (cluster) trong dữ liệu mà không cần biết trước số lượng nhóm?
A. K-means
B. Hierarchical clustering
C. Linear Regression
D. Logistic Regression
135. Trong khai phá dữ liệu, thuật ngữ ‘curse of dimensionality’ (lời nguyền chiều dữ liệu) ám chỉ điều gì?
A. Sự khó khăn trong việc xử lý dữ liệu bị thiếu
B. Sự gia tăng độ phức tạp và giảm hiệu suất của mô hình khi số lượng thuộc tính tăng lên
C. Sự khó khăn trong việc trực quan hóa dữ liệu
D. Sự thiếu hụt dữ liệu huấn luyện
136. Trong quá trình tiền xử lý dữ liệu, kỹ thuật nào sau đây được sử dụng để xử lý các giá trị bị thiếu?
A. Feature scaling
B. Normalization
C. Imputation (điền giá trị)
D. Dimensionality reduction
137. Trong khai phá dữ liệu, ‘confidence’ (độ tin cậy) trong luật kết hợp được tính như thế nào?
A. Support(X -> Y) / Support(X)
B. Support(X -> Y) / Support(Y)
C. Support(X -> Y) / Total number of transactions
D. Support(X) / Total number of transactions
138. Trong khai phá dữ liệu, kỹ thuật nào sau đây được sử dụng để tìm các mẫu tuần tự (sequential patterns) trong dữ liệu?
A. Phân tích hồi quy
B. Phân tích tương quan
C. Sequential pattern mining
D. Phân tích phương sai (ANOVA)
139. Thuật toán nào sau đây thuộc loại học không giám sát?
A. Linear Regression
B. Logistic Regression
C. K-Nearest Neighbors (KNN)
D. K-means
140. Trong khai phá dữ liệu, ‘feature selection’ là quá trình:
A. Tạo ra các thuộc tính mới từ các thuộc tính hiện có
B. Lựa chọn một tập con các thuộc tính quan trọng nhất từ tập thuộc tính ban đầu
C. Chuyển đổi dữ liệu về cùng một thang đo
D. Xử lý dữ liệu bị thiếu
141. Trong khai phá dữ liệu, ‘feature engineering’ là quá trình:
A. Lựa chọn các thuộc tính quan trọng nhất
B. Chuyển đổi dữ liệu về cùng một thang đo
C. Tạo ra các thuộc tính mới từ các thuộc tính hiện có
D. Xử lý dữ liệu bị thiếu
142. Khi xây dựng mô hình cây quyết định, tiêu chí nào sau đây thường được sử dụng để chọn thuộc tính phân chia tại mỗi nút?
A. Độ lệch chuẩn
B. Phương sai
C. Entropy hoặc Gini impurity
D. Giá trị trung bình
143. Trong khai phá dữ liệu, kỹ thuật ‘one-hot encoding’ được sử dụng để làm gì?
A. Chuẩn hóa dữ liệu số
B. Mã hóa dữ liệu văn bản thành dạng số
C. Giảm chiều dữ liệu
D. Xử lý dữ liệu bị thiếu
144. Kỹ thuật nào sau đây có thể được sử dụng để giảm overfitting trong mô hình cây quyết định?
A. Tăng độ sâu của cây
B. Giảm số lượng thuộc tính sử dụng
C. Pruning (cắt tỉa cây)
D. Sử dụng one-hot encoding
145. Trong ngữ cảnh của khai phá dữ liệu, kỹ thuật nào sau đây thường được sử dụng để phát hiện các mẫu bất thường hoặc ngoại lệ trong tập dữ liệu?
A. Phân tích hồi quy
B. Phân tích tương quan
C. Phát hiện ngoại lệ (Anomaly detection)
D. Phân tích chuỗi thời gian
146. Phương pháp nào sau đây thường được sử dụng để đánh giá hiệu quả của mô hình phân cụm?
A. Accuracy
B. Precision
C. Silhouette score
D. R-squared
147. Độ đo nào sau đây được sử dụng để đánh giá hiệu quả của mô hình hồi quy?
A. Accuracy
B. Precision
C. Recall
D. Mean Squared Error (MSE)
148. Khi nào thì kỹ thuật ‘cross-validation’ được sử dụng trong khai phá dữ liệu?
A. Khi muốn giảm chiều dữ liệu
B. Khi muốn đánh giá hiệu suất của mô hình trên dữ liệu chưa thấy
C. Khi muốn xử lý dữ liệu bị thiếu
D. Khi muốn mã hóa dữ liệu văn bản
149. Trong khai phá dữ liệu, kỹ thuật nào sau đây được sử dụng để xử lý dữ liệu văn bản?
A. Principal Component Analysis (PCA)
B. K-means
C. Text mining (khai thác văn bản)
D. Linear Regression
150. Trong khai phá dữ liệu, thuật ngữ ‘ensemble learning’ (học tập tổ hợp) đề cập đến điều gì?
A. Việc sử dụng một thuật toán học máy duy nhất
B. Việc kết hợp nhiều mô hình học máy để cải thiện hiệu suất
C. Việc giảm chiều dữ liệu
D. Việc xử lý dữ liệu bị thiếu