1. Trong lĩnh vực xử lý ngôn ngữ tự nhiên, ‘knowledge graph’ (đồ thị tri thức) được sử dụng để làm gì?
A. Biểu diễn mối quan hệ giữa các thực thể và khái niệm.
B. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
C. Tóm tắt nội dung của văn bản.
D. Phân loại văn bản theo chủ đề.
2. Khi xử lý văn bản tiếng Việt, vấn đề nào sau đây là đặc thù so với tiếng Anh?
A. Xử lý các từ viết tắt.
B. Xử lý các từ đồng nghĩa.
C. Tách từ (word segmentation).
D. Nhận dạng thực thể có tên.
3. Trong xử lý ngôn ngữ tự nhiên, ‘TF-IDF’ là viết tắt của cụm từ nào?
A. Term Frequency – Inverse Document Frequency
B. Text Frequency – Inverse Document Format
C. Term Frequency – Integrated Data Frequency
D. Text Format – Inverse Document Frequency
4. Trong các phương pháp đánh giá mô hình sinh ngôn ngữ (ví dụ: mô hình dịch máy), độ đo BLEU (Bilingual Evaluation Understudy) được sử dụng để đánh giá yếu tố nào?
A. Độ chính xác của việc dự đoán từ tiếp theo
B. Mức độ tương đồng giữa văn bản được sinh ra và văn bản tham khảo
C. Khả năng khái quát hóa của mô hình trên dữ liệu mới
D. Thời gian cần thiết để mô hình sinh ra một câu
5. Trong xử lý ngôn ngữ tự nhiên, phương pháp nào thường được sử dụng để giảm số chiều của dữ liệu văn bản, giúp giảm độ phức tạp tính toán và cải thiện hiệu suất mô hình?
A. Mô hình hóa chủ đề (Topic Modeling)
B. Phân tích cú pháp (Parsing)
C. Biểu diễn word embedding (Word embedding)
D. Phân tích quan điểm (Sentiment Analysis)
6. Ứng dụng nào sau đây thể hiện việc sử dụng thành công của xử lý ngôn ngữ tự nhiên trong lĩnh vực y tế?
A. Phân tích cảm xúc của khách hàng về một sản phẩm.
B. Tự động tóm tắt hồ sơ bệnh án.
C. Dịch tự động các bài báo khoa học.
D. Tạo chatbot để trả lời các câu hỏi thường gặp.
7. Trong ngữ cảnh của chatbot, kỹ thuật ‘intent recognition’ (nhận dạng ý định) có vai trò gì?
A. Tạo ra các câu trả lời tự động.
B. Xác định mục đích hoặc mong muốn của người dùng dựa trên câu hỏi của họ.
C. Chuyển đổi văn bản thành giọng nói.
D. Lưu trữ lịch sử trò chuyện.
8. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật ‘word sense disambiguation’ (WSD) nhằm mục đích gì?
A. Tìm ra gốc của một từ (word stem).
B. Xác định ý nghĩa chính xác của một từ trong ngữ cảnh cụ thể.
C. Phân loại các từ theo loại từ (part-of-speech).
D. Dịch một từ sang ngôn ngữ khác.
9. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật ‘topic modeling’ (mô hình hóa chủ đề) nhằm mục đích gì?
A. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
B. Tóm tắt nội dung chính của một văn bản.
C. Phân loại văn bản theo chủ đề.
D. Tìm ra các chủ đề tiềm ẩn trong một tập hợp các văn bản.
10. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật ‘chunking’ (phân đoạn) thường được sử dụng để làm gì?
A. Chia văn bản thành các câu.
B. Chia câu thành các cụm từ có nghĩa.
C. Tìm gốc của từ.
D. Loại bỏ các từ dừng.
11. Phương pháp nào sau đây được sử dụng để đánh giá sự tương đồng giữa hai văn bản?
A. Part-of-speech tagging
B. Named entity recognition
C. Cosine similarity
D. Stemming
12. Cho đoạn văn bản: ‘Hôm nay, trời Hà Nội nhiều mây và có mưa rào.’ Thao tác nào sau đây thuộc về phân tích cú pháp (syntactic parsing)?
A. Xác định các thực thể có tên (named entities) như ‘Hà Nội’.
B. Phân tích ý nghĩa của câu văn.
C. Xây dựng cây cú pháp (parse tree) thể hiện cấu trúc ngữ pháp của câu.
D. Đếm tần suất xuất hiện của các từ trong câu.
13. Khi xây dựng một hệ thống phân tích cảm xúc (sentiment analysis), điều gì quan trọng nhất cần xem xét để đảm bảo tính chính xác của hệ thống?
A. Sử dụng một bộ từ điển cảm xúc lớn.
B. Huấn luyện mô hình trên một tập dữ liệu lớn và đa dạng.
C. Sử dụng các thuật toán stemming và lemmatization.
D. Loại bỏ tất cả các stop words.
14. Trong lĩnh vực xử lý ngôn ngữ tự nhiên, thuật ngữ ‘n-gram’ đề cập đến điều gì?
A. Một phương pháp biểu diễn từ dưới dạng vector.
B. Một chuỗi gồm n từ liên tiếp trong một văn bản.
C. Một kỹ thuật để sửa lỗi chính tả.
D. Một mô hình ngôn ngữ dựa trên mạng nơ-ron.
15. Trong mô hình hóa ngôn ngữ, ‘perplexity’ là gì?
A. Một kỹ thuật để giảm kích thước từ vựng.
B. Một độ đo đánh giá khả năng dự đoán của mô hình ngôn ngữ.
C. Một phương pháp để trích xuất các đặc trưng từ văn bản.
D. Một thuật toán để sửa lỗi chính tả.
16. Phương pháp nào sau đây có thể giúp cải thiện hiệu suất của mô hình ngôn ngữ khi dữ liệu huấn luyện bị thiếu?
A. Sử dụng mô hình lớn hơn.
B. Áp dụng kỹ thuật transfer learning.
C. Loại bỏ các stop words.
D. Sử dụng stemming.
17. Phương pháp nào sau đây KHÔNG thuộc về các kỹ thuật giảm chiều dữ liệu (dimensionality reduction) trong xử lý ngôn ngữ tự nhiên?
A. Principal Component Analysis (PCA)
B. Singular Value Decomposition (SVD)
C. Linear Discriminant Analysis (LDA)
D. Part-of-speech tagging (POS tagging)
18. Ứng dụng nào sau đây KHÔNG phải là một ứng dụng của xử lý ngôn ngữ tự nhiên trong lĩnh vực marketing?
A. Phân tích phản hồi của khách hàng trên mạng xã hội.
B. Tự động tạo nội dung quảng cáo.
C. Dự đoán giá cổ phiếu.
D. Cá nhân hóa trải nghiệm người dùng.
19. Phương pháp nào sau đây thường được sử dụng để xử lý vấn đề ‘Out-of-Vocabulary’ (OOV) trong các mô hình ngôn ngữ dựa trên từ (word-based)?
A. Stemming
B. Lemmatization
C. Byte Pair Encoding (BPE)
D. TF-IDF
20. Kỹ thuật nào sau đây thường được sử dụng để giảm thiểu ảnh hưởng của các từ phổ biến (ví dụ: ‘the’, ‘a’, ‘is’) trong quá trình phân tích văn bản?
A. Stemming
B. Lemmatization
C. Loại bỏ stop words
D. Part-of-speech tagging
21. Trong xử lý ngôn ngữ tự nhiên, ‘coreference resolution’ (giải quyết đồng tham chiếu) là gì?
A. Quá trình xác định các từ có nghĩa giống nhau.
B. Quá trình xác định các thực thể có tên trong văn bản.
C. Quá trình xác định các từ hoặc cụm từ đề cập đến cùng một đối tượng trong văn bản.
D. Quá trình phân tích cấu trúc ngữ pháp của một câu.
22. Ứng dụng nào sau đây KHÔNG phải là một ứng dụng phổ biến của kỹ thuật Named Entity Recognition (NER) trong xử lý ngôn ngữ tự nhiên?
A. Trích xuất thông tin từ văn bản
B. Phân tích quan điểm về sản phẩm
C. Phân loại văn bản theo chủ đề
D. Xây dựng tri thức đồ (Knowledge Graph)
23. Kỹ thuật nào sau đây thường được sử dụng để tạo ra các biến thể khác nhau của một câu, nhằm tăng cường dữ liệu huấn luyện cho các mô hình NLP?
A. Back-translation
B. Stemming
C. Lemmatization
D. Stop word removal
24. Trong các bước tiền xử lý văn bản, kỹ thuật ‘stemming’ (tách gốc từ) có tác dụng gì?
A. Loại bỏ các từ dừng (stop words) như ‘và’, ‘hoặc’.
B. Chuyển đổi các từ về dạng gốc của chúng.
C. Phân loại các từ theo loại từ (part-of-speech).
D. Sửa lỗi chính tả trong văn bản.
25. Khi đánh giá hiệu suất của một mô hình phân loại văn bản, độ đo ‘F1-score’ là gì?
A. Tỷ lệ các trường hợp được dự đoán đúng.
B. Trung bình điều hòa của precision (độ chính xác) và recall (độ phủ).
C. Tỷ lệ các trường hợp được dự đoán sai.
D. Diện tích dưới đường cong ROC.
26. Trong các mô hình transformer, cơ chế ‘self-attention’ (tự chú ý) cho phép mô hình làm gì?
A. Tập trung vào các từ quan trọng nhất trong câu.
B. Dịch văn bản sang ngôn ngữ khác.
C. Tóm tắt nội dung của văn bản.
D. Phân loại văn bản theo chủ đề.
27. Mục tiêu chính của kỹ thuật ‘machine translation’ (dịch máy) là gì?
A. Phân tích cấu trúc ngữ pháp của một câu.
B. Chuyển đổi văn bản từ một ngôn ngữ sang một ngôn ngữ khác một cách tự động.
C. Tóm tắt nội dung của một văn bản dài.
D. Nhận dạng các thực thể có tên trong văn bản.
28. Trong các mô hình học sâu cho NLP, recurrent neural network (RNN) đặc biệt phù hợp với loại dữ liệu nào?
A. Dữ liệu ảnh
B. Dữ liệu âm thanh
C. Dữ liệu chuỗi (ví dụ: văn bản, chuỗi thời gian)
D. Dữ liệu bảng
29. Trong lĩnh vực xử lý ngôn ngữ tự nhiên, ‘attention mechanism’ (cơ chế chú ý) giải quyết vấn đề chính nào trong các mô hình sequence-to-sequence?
A. Vanishing gradient (mất mát đạo hàm)
B. Thời gian huấn luyện quá lâu
C. Khả năng xử lý các chuỗi dài (long-range dependencies)
D. Sự thiếu hụt dữ liệu huấn luyện
30. Ưu điểm chính của việc sử dụng ‘word embeddings’ (ví dụ: Word2Vec, GloVe) so với các phương pháp biểu diễn từ truyền thống như ‘one-hot encoding’ là gì?
A. Word embeddings dễ tính toán hơn.
B. Word embeddings biểu diễn ngữ nghĩa của từ tốt hơn.
C. Word embeddings không yêu cầu dữ liệu huấn luyện lớn.
D. Word embeddings phù hợp hơn với các ngôn ngữ có cấu trúc phức tạp.
31. Trong một hệ thống hỏi đáp (Question Answering), thành phần nào chịu trách nhiệm trích xuất thông tin từ văn bản để trả lời câu hỏi?
A. Question encoder
B. Answer decoder
C. Context retriever
D. Information extractor
32. Khi xây dựng một hệ thống phân tích cảm xúc, bạn nhận thấy mô hình của mình hoạt động tốt trên dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu thực tế. Vấn đề này được gọi là gì?
A. Underfitting
B. Overfitting
C. Regularization
D. Normalization
33. Conditional Random Fields (CRF) thường được sử dụng cho tác vụ nào trong NLP?
A. Phân tích cảm xúc
B. Nhận dạng thực thể có tên (Named Entity Recognition)
C. Tóm tắt văn bản
D. Dịch máy
34. Khi xử lý văn bản thô, bước nào sau đây KHÔNG thuộc giai đoạn tiền xử lý?
A. Loại bỏ HTML tags
B. Chuyển đổi văn bản thành chữ thường
C. Huấn luyện mô hình
D. Loại bỏ dấu câu
35. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật nào sau đây thường được sử dụng để xác định loại từ (ví dụ: danh từ, động từ, tính từ) của mỗi từ trong một câu?
A. Tokenization
B. Stemming
C. Part-of-speech tagging
D. Stop word removal
36. Bag of Words (BoW) là một mô hình đơn giản trong NLP. Hạn chế lớn nhất của BoW là gì?
A. Không thể xử lý văn bản dài
B. Không giữ được thứ tự của từ trong câu
C. Yêu cầu lượng lớn bộ nhớ
D. Chỉ hoạt động với tiếng Anh
37. Mục tiêu của việc sử dụng word embeddings (ví dụ: Word2Vec, GloVe) trong NLP là gì?
A. Chuyển đổi từ thành dạng số để máy tính có thể xử lý
B. Giảm số lượng từ trong văn bản
C. Phân loại các từ theo loại từ (danh từ, động từ, tính từ)
D. Tìm gốc của từ để chuẩn hóa văn bản
38. Mục tiêu chính của stemming trong NLP là gì?
A. Tìm gốc của từ để chuẩn hóa văn bản
B. Phân loại các từ theo loại từ (danh từ, động từ, tính từ)
C. Loại bỏ các từ dừng (stop words) khỏi văn bản
D. Chia văn bản thành các token nhỏ hơn
39. Khi một mô hình NLP không thể khái quát hóa tốt trên dữ liệu mới và cho thấy hiệu suất kém, điều này thường được gọi là gì?
A. Overfitting
B. Underfitting
C. Regularization
D. Normalization
40. Phương pháp nào sau đây được sử dụng để đánh giá hiệu quả của một mô hình dịch máy?
A. BLEU (Bilingual Evaluation Understudy)
B. ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
C. TF-IDF
D. Word2Vec
41. TF-IDF là một kỹ thuật quan trọng trong NLP, TF (Term Frequency) trong TF-IDF thể hiện điều gì?
A. Tần suất xuất hiện của một từ trong toàn bộ văn bản
B. Tần suất xuất hiện của một từ trong một tài liệu
C. Tổng số từ trong một tài liệu
D. Số lượng tài liệu chứa một từ
42. Khi xử lý văn bản tiếng Việt, điều gì cần đặc biệt lưu ý so với tiếng Anh?
A. Tiếng Việt không có dấu
B. Tiếng Việt là ngôn ngữ đơn âm tiết
C. Tiếng Việt có cấu trúc ngữ pháp đơn giản hơn
D. Tiếng Việt có nhiều từ mượn từ tiếng Pháp
43. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật nào sau đây thường được sử dụng để chuyển đổi văn bản thành dạng số để máy tính có thể xử lý?
A. Tokenization
B. Normalization
C. Vectorization
D. Stemming
44. Trong ngữ cảnh của topic modeling (mô hình hóa chủ đề), LDA (Latent Dirichlet Allocation) là gì?
A. Một thuật toán phân cụm dữ liệu
B. Một mô hình sinh xác suất để khám phá các chủ đề tiềm ẩn trong một tập hợp các tài liệu
C. Một phương pháp để giảm chiều dữ liệu
D. Một kỹ thuật để tăng cường dữ liệu
45. Mô hình ngôn ngữ BERT (Bidirectional Encoder Representations from Transformers) nổi tiếng với khả năng gì?
A. Chỉ hiểu ngôn ngữ theo một hướng (từ trái sang phải)
B. Hiểu ngôn ngữ theo cả hai hướng (trái sang phải và phải sang trái)
C. Dịch văn bản từ tiếng Anh sang tiếng Việt
D. Tạo sinh văn bản mới hoàn toàn
46. Trong xử lý ngôn ngữ tự nhiên, ‘paraphrasing’ là gì?
A. Quá trình chuyển đổi văn bản thành giọng nói
B. Quá trình diễn đạt lại một câu hoặc đoạn văn bằng cách sử dụng các từ ngữ khác nhưng vẫn giữ nguyên ý nghĩa
C. Quá trình phân tích cấu trúc ngữ pháp của một câu
D. Quá trình tóm tắt một văn bản dài thành một phiên bản ngắn hơn
47. Kỹ thuật nào sau đây thường được sử dụng để giảm chiều dữ liệu trong NLP, giúp giảm độ phức tạp tính toán và cải thiện hiệu suất mô hình?
A. Tokenization
B. Stemming
C. Principal Component Analysis (PCA)
D. Stop word removal
48. Trong mô hình Word2Vec, mục đích của việc huấn luyện mô hình là gì?
A. Dự đoán từ tiếp theo trong một câu
B. Tìm ra mối quan hệ ngữ nghĩa giữa các từ
C. Phân loại văn bản dựa trên chủ đề
D. Chuyển đổi văn bản thành giọng nói
49. Khi triển khai một chatbot, bạn muốn lưu trữ thông tin về trạng thái của cuộc trò chuyện (ví dụ: các bước đã hoàn thành, thông tin đã thu thập). Bạn nên sử dụng kỹ thuật nào?
A. Stemming
B. Context management
C. Sentiment analysis
D. Named entity recognition
50. Khi đánh giá một mô hình sinh văn bản, chỉ số nào sau đây thường được sử dụng để đo lường tính đa dạng của văn bản được tạo ra?
A. BLEU score
B. Perplexity
C. Distinct-n
D. ROUGE score
51. Trong xử lý ngôn ngữ tự nhiên, ‘coreference resolution’ là gì?
A. Quá trình chuyển đổi văn bản thành giọng nói
B. Quá trình xác định tất cả các tham chiếu đến cùng một thực thể trong một văn bản
C. Quá trình phân tích cấu trúc ngữ pháp của một câu
D. Quá trình dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác
52. Khi xây dựng một mô hình phân loại văn bản, bạn sử dụng kỹ thuật cross-validation để làm gì?
A. Tăng tốc độ huấn luyện mô hình
B. Đánh giá hiệu suất của mô hình trên dữ liệu chưa thấy
C. Giảm kích thước của dữ liệu huấn luyện
D. Cải thiện khả năng diễn giải của mô hình
53. Trong kiến trúc Transformer, self-attention (tự chú ý) cho phép mô hình làm gì?
A. Tập trung vào các từ quan trọng nhất trong câu đầu vào
B. Dịch văn bản sang ngôn ngữ khác
C. Tạo ra các câu văn mới
D. Phân loại văn bản theo chủ đề
54. Trong ngữ cảnh của chatbot, ‘intent’ (ý định) đề cập đến điều gì?
A. Cảm xúc của người dùng
B. Mục đích của người dùng khi tương tác với chatbot
C. Ngôn ngữ lập trình được sử dụng để xây dựng chatbot
D. Số lượng người dùng đang sử dụng chatbot
55. Ứng dụng nào sau đây KHÔNG phải là một ứng dụng phổ biến của NLP?
A. Phân tích thị trường chứng khoán
B. Dịch máy
C. Phân tích cảm xúc
D. Chatbot
56. Trong các mô hình sequence-to-sequence, ‘teacher forcing’ là gì?
A. Một kỹ thuật để tăng cường dữ liệu huấn luyện
B. Một phương pháp để điều chỉnh trọng số của mô hình
C. Một chiến lược huấn luyện trong đó đầu ra thực tế từ bước trước được sử dụng làm đầu vào cho bước hiện tại
D. Một kỹ thuật để giảm overfitting
57. Trong lĩnh vực NLP, ‘perplexity’ là một thước đo đánh giá điều gì?
A. Độ phức tạp của thuật toán
B. Khả năng dự đoán của mô hình ngôn ngữ
C. Tốc độ xử lý của máy tính
D. Mức độ chính xác của phân tích cú pháp
58. Trong lĩnh vực NLP, ‘n-gram’ đề cập đến điều gì?
A. Một mô hình ngôn ngữ dựa trên mạng nơ-ron
B. Một chuỗi gồm n từ liên tiếp trong một văn bản
C. Một phương pháp để loại bỏ nhiễu trong dữ liệu văn bản
D. Một kỹ thuật để tóm tắt văn bản
59. Attention mechanism (cơ chế chú ý) được sử dụng rộng rãi trong các mô hình sequence-to-sequence. Mục đích chính của attention mechanism là gì?
A. Giảm kích thước của dữ liệu đầu vào
B. Cho phép mô hình tập trung vào các phần quan trọng nhất của dữ liệu đầu vào khi tạo ra đầu ra
C. Tăng tốc độ huấn luyện mô hình
D. Cải thiện khả năng song song hóa của mô hình
60. Trong xử lý ngôn ngữ tự nhiên, phương pháp nào thường được sử dụng để giảm số lượng từ trong văn bản bằng cách loại bỏ các từ không mang nhiều ý nghĩa?
A. Stemming
B. Tokenization
C. Stop word removal
D. Part-of-speech tagging
61. Trong xử lý ngôn ngữ tự nhiên, ‘semantic role labeling’ (gán vai trò ngữ nghĩa) là gì?
A. Quá trình phân tích cú pháp của câu
B. Quá trình xác định vai trò ngữ nghĩa của các thành phần trong câu (ví dụ: Agent, Patient, Instrument)
C. Quá trình dịch văn bản sang ngôn ngữ khác
D. Quá trình tóm tắt văn bản
62. Phương pháp nào sau đây thường được sử dụng để giảm số chiều của dữ liệu văn bản, giúp giảm thiểu chi phí tính toán và tăng hiệu suất của mô hình?
A. Tăng cường dữ liệu
B. Trích xuất đặc trưng
C. Giảm chiều dữ liệu
D. Phân tích quan hệ thực thể
63. Attention mechanism (cơ chế chú ý) trong mô hình Transformer có vai trò gì?
A. Tăng tốc độ huấn luyện mô hình
B. Giúp mô hình tập trung vào các phần quan trọng nhất của câu khi xử lý
C. Giảm kích thước của mô hình
D. Cải thiện khả năng dịch máy
64. Trong xử lý ngôn ngữ tự nhiên, PoS tagging (gán nhãn từ loại) là gì?
A. Quá trình phân tích cảm xúc của văn bản
B. Quá trình gán nhãn từ loại (ví dụ: danh từ, động từ, tính từ) cho mỗi từ trong câu
C. Quá trình dịch văn bản sang ngôn ngữ khác
D. Quá trình tóm tắt văn bản
65. Phương pháp nào sau đây thường được sử dụng để xử lý các từ không có trong từ điển (out-of-vocabulary words) trong mô hình ngôn ngữ?
A. Loại bỏ các từ đó
B. Thay thế bằng một token đặc biệt (ví dụ: UNK)
C. Dịch văn bản sang ngôn ngữ khác
D. Tóm tắt văn bản
66. Word embedding (nhúng từ) là gì?
A. Một phương pháp mã hóa văn bản thành hình ảnh
B. Một kỹ thuật biểu diễn từ dưới dạng vector số trong không gian nhiều chiều
C. Một thuật toán nén dữ liệu văn bản
D. Một phương pháp kiểm tra chính tả
67. Mục tiêu chính của Named Entity Recognition (NER) là gì?
A. Phân loại văn bản theo chủ đề
B. Nhận diện và phân loại các thực thể có tên trong văn bản
C. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác
D. Tóm tắt nội dung văn bản
68. Trong lĩnh vực NLP, ‘coreference resolution’ (giải quyết đồng tham chiếu) là gì?
A. Quá trình phân tích cú pháp của câu
B. Quá trình xác định các biểu thức ngôn ngữ (ví dụ: đại từ) đề cập đến cùng một thực thể
C. Quá trình dịch văn bản sang ngôn ngữ khác
D. Quá trình tóm tắt văn bản
69. Trong xử lý ngôn ngữ tự nhiên, mục đích của việc ‘disambiguation’ (phân biệt nghĩa) là gì?
A. Loại bỏ các từ dừng
B. Xác định nghĩa đúng của một từ trong ngữ cảnh cụ thể
C. Chuyển đổi văn bản thành giọng nói
D. Tóm tắt văn bản
70. Phương pháp nào sau đây được sử dụng để đánh giá sự tương đồng giữa hai văn bản?
A. Phân tích cú pháp
B. Tính cosine similarity giữa các vector biểu diễn văn bản
C. Gán nhãn từ loại
D. Loại bỏ stop words
71. Mục tiêu của việc sử dụng kỹ thuật ‘back translation’ (dịch ngược) trong huấn luyện mô hình dịch máy là gì?
A. Tăng tốc độ dịch máy
B. Tăng cường dữ liệu huấn luyện bằng cách tạo ra các câu mới từ dữ liệu hiện có
C. Giảm kích thước của mô hình
D. Cải thiện khả năng hiểu ngôn ngữ của mô hình
72. Trong lĩnh vực NLP, ‘zero-shot learning’ (học không cần dữ liệu) là gì?
A. Một phương pháp học máy không sử dụng bất kỳ dữ liệu nào
B. Một kỹ thuật cho phép mô hình thực hiện các tác vụ mà nó chưa từng được huấn luyện trực tiếp
C. Một thuật toán nén dữ liệu
D. Một phương pháp kiểm tra chính tả
73. Trong xử lý ngôn ngữ tự nhiên, ‘stop word’ (từ dừng) là gì?
A. Những từ quan trọng nhất trong văn bản
B. Những từ được sử dụng để kết nối các câu
C. Những từ phổ biến và ít mang ý nghĩa trong văn bản, thường bị loại bỏ
D. Những từ được sử dụng để biểu thị cảm xúc
74. Trong lĩnh vực NLP, ‘text generation’ (sinh văn bản) là gì?
A. Quá trình phân tích cú pháp của câu
B. Quá trình tạo ra văn bản mới từ một mô hình ngôn ngữ
C. Quá trình dịch văn bản sang ngôn ngữ khác
D. Quá trình tóm tắt văn bản
75. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật nào được sử dụng để chuyển đổi văn bản thành dạng số, giúp máy tính có thể hiểu và xử lý được?
A. Phân tích cú pháp
B. Biểu diễn văn bản
C. Xử lý hình ảnh
D. Phân tích cảm xúc
76. TF-IDF là một kỹ thuật phổ biến trong NLP, trong đó TF đại diện cho điều gì?
A. Term Frequency (Tần suất xuất hiện của từ)
B. Text Formatting (Định dạng văn bản)
C. Tree Filtering (Lọc cây)
D. Topic Finding (Tìm chủ đề)
77. Công cụ nào sau đây thường được sử dụng để thực hiện phân tích cú pháp trong tiếng Việt?
A. NLTK
B. Stanford CoreNLP
C. Underthesea
D. SpaCy
78. Mục tiêu của việc sử dụng kỹ thuật ‘data augmentation’ (tăng cường dữ liệu) trong NLP là gì?
A. Giảm kích thước của mô hình
B. Tăng cường dữ liệu huấn luyện bằng cách tạo ra các mẫu mới từ dữ liệu hiện có
C. Tăng tốc độ huấn luyện mô hình
D. Cải thiện khả năng dịch máy
79. Mô hình BERT (Bidirectional Encoder Representations from Transformers) cải tiến so với các mô hình ngôn ngữ trước đó như thế nào?
A. Chỉ có thể xử lý văn bản tiếng Anh
B. Huấn luyện trên dữ liệu nhỏ hơn
C. Sử dụng kiến trúc Transformer và huấn luyện theo cả hai hướng (trái và phải) của câu
D. Không cần dữ liệu huấn luyện
80. Trong ngữ cảnh của mô hình ngôn ngữ, perplexity được sử dụng để đánh giá điều gì?
A. Độ phức tạp của thuật toán
B. Khả năng dự đoán của mô hình
C. Tốc độ hội tụ của mô hình
D. Kích thước của dữ liệu huấn luyện
81. Bag-of-words (BoW) là gì?
A. Một phương pháp biểu diễn văn bản dưới dạng tập hợp các từ và tần suất của chúng, bỏ qua thứ tự
B. Một thuật toán tìm kiếm thông tin trên web
C. Một kỹ thuật phân tích cú pháp
D. Một mô hình ngôn ngữ dựa trên mạng nơ-ron
82. Khi xây dựng một hệ thống nhận dạng giọng nói (speech recognition), bước nào sau đây là quan trọng nhất để đảm bảo hệ thống hoạt động tốt trong môi trường ồn ào?
A. Sử dụng micro chất lượng cao
B. Huấn luyện mô hình trên dữ liệu giọng nói sạch
C. Sử dụng kỹ thuật loại bỏ tiếng ồn (noise reduction)
D. Tăng tốc độ xử lý của hệ thống
83. Khi xử lý văn bản tiếng Việt, thách thức lớn nhất thường gặp phải là gì?
A. Sự phong phú của từ đồng nghĩa
B. Tính đa dạng của các loại câu
C. Việc không có khoảng trắng giữa các âm tiết trong một từ ghép
D. Sự đơn giản của ngữ pháp
84. Khi xây dựng một hệ thống chatbot, bước nào sau đây là quan trọng nhất để đảm bảo chatbot hiểu đúng ý định của người dùng?
A. Xây dựng giao diện người dùng đẹp mắt
B. Huấn luyện mô hình nhận dạng ý định (intent recognition) chính xác
C. Tối ưu hóa tốc độ phản hồi của chatbot
D. Thêm nhiều tính năng phức tạp
85. Khi đánh giá một mô hình phân loại văn bản, độ đo nào sau đây thể hiện tỷ lệ các trường hợp được dự đoán là tích cực và thực tế cũng là tích cực?
A. Precision (Độ chính xác)
B. Recall (Độ phủ)
C. F1-score
D. Accuracy (Độ chính xác tổng thể)
86. Mô hình nào sau đây thường được sử dụng cho bài toán dịch máy (machine translation)?
A. Support Vector Machine (SVM)
B. Recurrent Neural Network (RNN) với kiến trúc Sequence-to-Sequence
C. K-Nearest Neighbors (KNN)
D. Decision Tree
87. Trong xử lý ngôn ngữ tự nhiên, ‘chunking’ là gì?
A. Quá trình chia văn bản thành các đoạn nhỏ hơn dựa trên ngữ nghĩa
B. Quá trình loại bỏ các từ dừng
C. Quá trình chuyển đổi từ về dạng gốc của nó
D. Quá trình phân tích cú pháp của câu
88. Trong lĩnh vực NLP, ‘knowledge graph’ (đồ thị tri thức) được sử dụng để làm gì?
A. Biểu diễn thông tin dưới dạng đồ thị, giúp máy tính hiểu và suy luận
B. Phân tích cảm xúc của văn bản
C. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác
D. Tóm tắt nội dung văn bản
89. Khi xây dựng một hệ thống tóm tắt văn bản, phương pháp nào sau đây thường được sử dụng để chọn ra các câu quan trọng nhất?
A. Loại bỏ các từ dừng
B. Sử dụng TF-IDF để đánh giá tầm quan trọng của các câu
C. Phân tích cú pháp
D. Dịch văn bản sang ngôn ngữ khác
90. Trong xử lý ngôn ngữ tự nhiên, stemming (cắt gốc từ) là gì?
A. Quá trình tìm kiếm từ đồng nghĩa
B. Quá trình loại bỏ các từ dừng
C. Quá trình chuyển đổi từ về dạng gốc của nó
D. Quá trình phân tích cú pháp của câu
91. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật nào được sử dụng để giảm số lượng từ trong văn bản bằng cách loại bỏ các từ phổ biến không mang nhiều ý nghĩa?
A. Stemming
B. Part-of-speech tagging
C. Stop word removal
D. Named entity recognition
92. Trong lĩnh vực NLP, thuật ngữ ‘n-gram’ đề cập đến điều gì?
A. Một mô hình ngôn ngữ dựa trên mạng nơ-ron.
B. Một chuỗi gồm n từ liên tiếp trong một văn bản.
C. Một phương pháp loại bỏ các từ dừng.
D. Một kỹ thuật stemming.
93. Cho câu: ‘Tôi đang học xử lý ngôn ngữ tự nhiên’. Nếu sử dụng stemming (ví dụ: Porter stemmer), từ nào có thể được chuyển đổi thành ‘hoc’?
A. ‘học’
B. ‘đang’
C. ‘xử lý’
D. ‘ngôn ngữ’
94. Trong NLP, kỹ thuật nào được sử dụng để chia một đoạn văn bản thành các đơn vị nhỏ hơn, chẳng hạn như từ hoặc câu?
A. Stemming
B. Tokenization
C. Lemmatization
D. Stop word removal
95. Mô hình nào sau đây thường được sử dụng để tạo ra văn bản mới, chẳng hạn như trong việc tạo thơ hoặc viết truyện ngắn?
A. Naive Bayes
B. Support Vector Machine (SVM)
C. Generative Adversarial Network (GAN)
D. K-means Clustering
96. TF-IDF là viết tắt của thuật ngữ nào?
A. Term Frequency – Inverse Document Frequency
B. Text Frequency – Inverse Data Frequency
C. Term Frequency – Integrated Document Frequency
D. Text Frequency – Integrated Data Frequency
97. Mục đích chính của stemming trong NLP là gì?
A. Tìm các thực thể có tên trong văn bản.
B. Gán nhãn từ loại cho mỗi từ trong câu.
C. Giảm các từ về dạng gốc của chúng.
D. Loại bỏ các từ dừng.
98. Cho một đoạn văn bản: ‘Hôm nay, trời rất đẹp. Tôi muốn đi dạo trong công viên.’ Sau khi thực hiện tokenization, kết quả sẽ là gì?
A. [‘Hôm nay trời rất đẹp Tôi muốn đi dạo trong công viên’]
B. [‘Hôm’, ‘nay’, ‘,’, ‘trời’, ‘rất’, ‘đẹp’, ‘.’, ‘Tôi’, ‘muốn’, ‘đi’, ‘dạo’, ‘trong’, ‘công’, ‘viên’, ‘.’]
C. [‘Hôm nay’, ‘trời’, ‘rất’, ‘đẹp’, ‘Tôi’, ‘muốn’, ‘đi’, ‘dạo’, ‘trong’, ‘công viên’]
D. [‘Hôm nay, trời rất đẹp.’, ‘Tôi muốn đi dạo trong công viên.’]
99. Kỹ thuật nào sau đây được sử dụng để giảm chiều dữ liệu trong word embeddings?
A. Tokenization
B. Stop word removal
C. Principal Component Analysis (PCA)
D. Stemming
100. Trong các mô hình transformer, cơ chế self-attention được sử dụng để làm gì?
A. Để tăng tốc độ huấn luyện mô hình.
B. Để cho phép mô hình tập trung vào các phần khác nhau của đầu vào khi xử lý nó.
C. Để giảm kích thước của mô hình.
D. Để loại bỏ các từ dừng.
101. Trong lĩnh vực NLP, BLEU score được sử dụng để đánh giá điều gì?
A. Độ chính xác của mô hình phân tích cảm xúc.
B. Độ chính xác của mô hình dịch máy.
C. Độ chính xác của mô hình nhận dạng thực thể có tên.
D. Độ chính xác của mô hình tóm tắt văn bản.
102. Sự khác biệt chính giữa stemming và lemmatization là gì?
A. Stemming tạo ra các từ gốc hợp lệ, trong khi lemmatization có thể tạo ra các từ không hợp lệ.
B. Stemming nhanh hơn nhưng có thể không chính xác bằng lemmatization.
C. Lemmatization nhanh hơn nhưng có thể không chính xác bằng stemming.
D. Stemming sử dụng từ điển, trong khi lemmatization không sử dụng.
103. Trong lĩnh vực NLP, POS tagging là viết tắt của?
A. Part-of-Speech tagging
B. Point-of-Sale tagging
C. Process-of-Speech tagging
D. Pattern-of-Speech tagging
104. Trong ngữ cảnh của mô hình ngôn ngữ, perplexity được sử dụng để làm gì?
A. Đo lường độ phức tạp của thuật toán.
B. Đo lường khả năng dự đoán của mô hình.
C. Đo lường tốc độ hội tụ của mô hình.
D. Đo lường kích thước của từ vựng.
105. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật nào được sử dụng để sửa lỗi chính tả trong văn bản?
A. Stemming
B. Spell checking
C. Lemmatization
D. Parsing
106. Trong lĩnh vực NLP, ‘Knowledge Graph’ được sử dụng để làm gì?
A. Để lưu trữ và quản lý thông tin về các thực thể và mối quan hệ giữa chúng.
B. Để dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
C. Để tóm tắt văn bản.
D. Để phân loại văn bản dựa trên chủ đề.
107. Mục tiêu của coreference resolution là gì?
A. Xác định tất cả các tham chiếu đến cùng một thực thể trong văn bản.
B. Dịch văn bản sang ngôn ngữ khác.
C. Tóm tắt văn bản.
D. Phân loại văn bản dựa trên chủ đề.
108. Trong lĩnh vực NLP, ‘zero-shot learning’ đề cập đến khả năng của mô hình để làm gì?
A. Học từ dữ liệu không có nhãn.
B. Học một nhiệm vụ mà không cần bất kỳ dữ liệu huấn luyện nào cho nhiệm vụ đó.
C. Học một nhiệm vụ với rất ít dữ liệu huấn luyện.
D. Học một nhiệm vụ nhanh hơn so với các mô hình khác.
109. Mục tiêu của Named Entity Recognition (NER) là gì?
A. Phân loại văn bản dựa trên chủ đề.
B. Xác định và phân loại các thực thể có tên trong văn bản (ví dụ: tên người, tổ chức, địa điểm).
C. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
D. Tóm tắt văn bản.
110. Mục tiêu chính của sentiment analysis (phân tích cảm xúc) là gì?
A. Xác định chủ đề chính của văn bản.
B. Xác định cảm xúc hoặc thái độ được thể hiện trong văn bản.
C. Dịch văn bản sang ngôn ngữ khác.
D. Tóm tắt văn bản.
111. Mô hình nào sau đây thường được sử dụng cho bài toán dịch máy (machine translation)?
A. Naive Bayes
B. Support Vector Machine (SVM)
C. Recurrent Neural Network (RNN) với kiến trúc Sequence-to-Sequence
D. K-means Clustering
112. Trong các mô hình ngôn ngữ, smoothing được sử dụng để giải quyết vấn đề gì?
A. Overfitting
B. Underfitting
C. Zero probability cho các n-gram chưa xuất hiện trong dữ liệu huấn luyện
D. Vanishing gradients
113. Trong lĩnh vực NLP, thuật ngữ ‘parsing’ đề cập đến điều gì?
A. Quá trình loại bỏ các từ dừng.
B. Quá trình phân tích cấu trúc cú pháp của một câu.
C. Quá trình chuyển đổi văn bản thành dạng số.
D. Quá trình giảm các từ về dạng gốc của chúng.
114. Thuật ngữ nào mô tả quá trình chuyển đổi văn bản thành dạng số để máy tính có thể xử lý?
A. Tokenization
B. Normalization
C. Vectorization
D. Stemming
115. Khi xây dựng chatbot, kỹ thuật nào thường được sử dụng để hiểu ý định của người dùng?
A. Named Entity Recognition (NER)
B. Sentiment Analysis
C. Intent Recognition
D. Machine Translation
116. Phương pháp nào sau đây giúp giải quyết vấn đề ‘vanishing gradient’ trong mạng nơ-ron sâu (deep neural networks)?
A. Sử dụng hàm kích hoạt sigmoid.
B. Sử dụng hàm kích hoạt ReLU.
C. Sử dụng L1 regularization.
D. Sử dụng PCA (Principal Component Analysis).
117. Trong lĩnh vực NLP, attention mechanism (cơ chế chú ý) được sử dụng để làm gì?
A. Để tăng tốc độ huấn luyện mô hình.
B. Để cho phép mô hình tập trung vào các phần quan trọng nhất của đầu vào khi đưa ra dự đoán.
C. Để giảm kích thước của mô hình.
D. Để loại bỏ các từ dừng.
118. Trong NLP, word embedding (ví dụ: Word2Vec, GloVe) được sử dụng để làm gì?
A. Để mã hóa các từ thành vectơ số, thể hiện ý nghĩa ngữ nghĩa của chúng.
B. Để phân tích cú pháp của câu.
C. Để loại bỏ các từ dừng.
D. Để thực hiện stemming.
119. Phương pháp nào sau đây thường được sử dụng để đánh giá sự tương đồng giữa hai văn bản?
A. Cosine similarity
B. Euclidean distance
C. Manhattan distance
D. All of the above
120. Bag of Words (BoW) là gì?
A. Một phương pháp biểu diễn văn bản dưới dạng tập hợp các từ, bỏ qua thứ tự của chúng.
B. Một phương pháp biểu diễn văn bản dưới dạng một chuỗi liên tục các từ.
C. Một phương pháp biểu diễn văn bản bằng cách sử dụng word embeddings.
D. Một phương pháp biểu diễn văn bản bằng cách sử dụng TF-IDF.
121. Trong xử lý ngôn ngữ tự nhiên, ‘tokenization’ là quá trình gì?
A. Quá trình chuyển đổi văn bản thành chữ thường.
B. Quá trình chia văn bản thành các đơn vị nhỏ hơn, chẳng hạn như từ hoặc cụm từ.
C. Quá trình loại bỏ các stop words.
D. Quá trình phân tích cú pháp của câu.
122. Trong xử lý ngôn ngữ tự nhiên, ‘lemmatization’ khác với ‘stemming’ như thế nào?
A. Lemmatization đưa từ về dạng gốc có nghĩa (lemma), trong khi stemming chỉ đơn giản loại bỏ các hậu tố và tiền tố.
B. Stemming đưa từ về dạng gốc có nghĩa (lemma), trong khi lemmatization chỉ đơn giản loại bỏ các hậu tố và tiền tố.
C. Lemmatization nhanh hơn stemming.
D. Stemming chính xác hơn lemmatization.
123. Phương pháp nào sau đây được sử dụng để đánh giá sự tương đồng giữa hai văn bản?
A. Cosine Similarity
B. Euclidean Distance
C. Manhattan Distance
D. Tất cả các đáp án trên
124. Trong kiến trúc Transformer, cơ chế nào giúp mô hình xử lý các chuỗi dài hiệu quả hơn so với RNNs?
A. Recurrence
B. Attention
C. Convolution
D. Pooling
125. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật nào được sử dụng để chuẩn hóa văn bản bằng cách sửa lỗi chính tả?
A. Kiểm tra chính tả (Spell checking)
B. Phân tích cú pháp (Parsing)
C. Nhận dạng thực thể (Named Entity Recognition)
D. Phân tích cảm xúc (Sentiment Analysis)
126. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật nào được sử dụng để giảm số lượng chiều của dữ liệu văn bản, giúp giảm độ phức tạp tính toán và cải thiện hiệu suất mô hình?
A. Phân tích cú pháp (Parsing)
B. Biểu diễn word embedding
C. Giảm chiều dữ liệu (Dimensionality Reduction)
D. Sinh văn bản (Text Generation)
127. Trong xử lý ngôn ngữ tự nhiên, ‘coreference resolution’ là gì?
A. Quá trình xác định các tham chiếu trong văn bản, chẳng hạn như ‘anh ấy’ đề cập đến ai.
B. Quá trình loại bỏ các stop words.
C. Quá trình chuyển đổi văn bản thành chữ thường.
D. Quá trình phân tích cú pháp của câu.
128. Khi xây dựng chatbot, kỹ thuật nào giúp chatbot hiểu được ý định của người dùng?
A. Nhận dạng ý định (Intent Recognition)
B. Sinh văn bản (Text Generation)
C. Phân tích cảm xúc (Sentiment Analysis)
D. Tóm tắt văn bản (Text Summarization)
129. Mục tiêu chính của việc sử dụng topic modeling (ví dụ: LDA) trong NLP là gì?
A. Xác định các chủ đề chính trong một tập hợp văn bản.
B. Phân loại văn bản thành các danh mục khác nhau.
C. Tóm tắt nội dung chính của văn bản.
D. Dịch văn bản sang một ngôn ngữ khác.
130. Kỹ thuật ‘back-translation’ được sử dụng để làm gì trong machine translation?
A. Tăng cường dữ liệu huấn luyện bằng cách dịch văn bản từ ngôn ngữ nguồn sang ngôn ngữ đích, sau đó dịch ngược lại về ngôn ngữ nguồn.
B. Đánh giá chất lượng của mô hình dịch máy.
C. Tóm tắt văn bản đã dịch.
D. Phân loại văn bản đã dịch.
131. Kỹ thuật nào sau đây được sử dụng để chuyển đổi văn bản thành dạng số, trong đó mỗi từ hoặc cụm từ được biểu diễn bằng một vector one-hot?
A. Word2Vec
B. GloVe
C. One-hot encoding
D. TF-IDF
132. Phương pháp nào sau đây được sử dụng để phân loại văn bản thành các danh mục khác nhau, chẳng hạn như phân loại email là spam hoặc không spam?
A. Text Generation
B. Text Summarization
C. Text Classification
D. Text Translation
133. Trong phân tích cảm xúc (sentiment analysis), mục tiêu chính là gì?
A. Xác định chủ đề chính của văn bản.
B. Xác định cảm xúc hoặc thái độ của người viết đối với một chủ đề cụ thể.
C. Tóm tắt nội dung chính của văn bản.
D. Dịch văn bản sang một ngôn ngữ khác.
134. Trong các mô hình ngôn ngữ, perplexity được sử dụng để làm gì?
A. Đo lường độ phức tạp của mô hình.
B. Đo lường khả năng dự đoán của mô hình.
C. Đo lường tốc độ huấn luyện của mô hình.
D. Đo lường kích thước của mô hình.
135. Kỹ thuật nào sau đây được sử dụng để tạo ra văn bản mới từ một mô hình ngôn ngữ đã được huấn luyện?
A. Text Summarization
B. Text Generation
C. Text Classification
D. Text Translation
136. Phương pháp nào sau đây được sử dụng để xác định các thực thể có tên (named entities) trong văn bản, chẳng hạn như tên người, tổ chức, địa điểm?
A. Named Entity Recognition (NER)
B. Sentiment Analysis
C. Topic Modeling
D. Text Summarization
137. Trong kiến trúc Transformer, cơ chế ‘self-attention’ có vai trò gì?
A. Cho phép mô hình tập trung vào các phần quan trọng nhất của câu khi xử lý.
B. Giúp mô hình dịch văn bản sang ngôn ngữ khác.
C. Giúp mô hình tóm tắt văn bản.
D. Giúp mô hình nhận diện các thực thể có tên.
138. Mục đích chính của việc sử dụng kỹ thuật ‘stemming’ trong NLP là gì?
A. Chuyển đổi văn bản thành chữ thường.
B. Loại bỏ các stop words.
C. Đưa các từ về dạng gốc của chúng.
D. Phân tích cú pháp của câu.
139. Trong lĩnh vực NLP, ‘stop words’ là gì?
A. Các từ mang ý nghĩa quan trọng nhất trong văn bản.
B. Các từ phổ biến nhưng ít mang ý nghĩa, thường bị loại bỏ trong quá trình tiền xử lý.
C. Các từ được sử dụng để đánh dấu sự kết thúc của một câu.
D. Các từ được sử dụng để liên kết các câu lại với nhau.
140. Trong mô hình BERT, masked language modeling (MLM) được sử dụng để làm gì?
A. Dự đoán các từ bị che giấu trong câu.
B. Dịch văn bản sang ngôn ngữ khác.
C. Tóm tắt văn bản.
D. Phân loại văn bản.
141. Trong các mô hình ngôn ngữ dựa trên mạng nơ-ron, recurrent neural networks (RNNs) thường được sử dụng để làm gì?
A. Xử lý dữ liệu tuần tự, chẳng hạn như văn bản.
B. Phân loại hình ảnh.
C. Phân tích dữ liệu tài chính.
D. Dự đoán thời tiết.
142. Trong xử lý ngôn ngữ tự nhiên, POS tagging (Part-of-Speech tagging) là gì?
A. Quá trình gán nhãn từ loại (ví dụ: danh từ, động từ, tính từ) cho mỗi từ trong câu.
B. Quá trình loại bỏ các stop words.
C. Quá trình chuyển đổi văn bản thành chữ thường.
D. Quá trình phân tích cú pháp của câu.
143. Kỹ thuật nào sau đây thường được sử dụng để tạo ra các bản tóm tắt ngắn gọn từ các văn bản dài?
A. Text Summarization
B. Text Classification
C. Text Generation
D. Text Translation
144. Mục tiêu của việc sử dụng TF-IDF (Term Frequency-Inverse Document Frequency) trong NLP là gì?
A. Xác định tần suất xuất hiện của các từ trong văn bản.
B. Đánh giá tầm quan trọng của một từ trong một văn bản so với toàn bộ tập hợp văn bản.
C. Loại bỏ các stop words.
D. Chuyển đổi văn bản thành chữ thường.
145. Mục tiêu của kỹ thuật ‘word embedding’ trong NLP là gì?
A. Chuyển đổi từ thành dạng số và biểu diễn chúng trong một không gian vector.
B. Loại bỏ các từ không quan trọng khỏi văn bản.
C. Phân tích cấu trúc ngữ pháp của câu.
D. Tạo ra các từ mới từ văn bản hiện có.
146. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật nào được sử dụng để tìm ra mối quan hệ giữa các từ trong một câu?
A. Phân tích cú pháp (Parsing)
B. Phân tích cảm xúc (Sentiment Analysis)
C. Nhận dạng thực thể có tên (Named Entity Recognition)
D. Mô hình hóa chủ đề (Topic Modeling)
147. Kỹ thuật nào sau đây được sử dụng để nhóm các văn bản có nội dung tương tự nhau thành các cụm (clusters)?
A. Text Summarization
B. Topic Modeling
C. Text Clustering
D. Machine Translation
148. Phương pháp nào sau đây thường được sử dụng để đánh giá chất lượng của mô hình dịch máy?
A. BLEU (Bilingual Evaluation Understudy)
B. TF-IDF (Term Frequency-Inverse Document Frequency)
C. Word2Vec
D. PoS Tagging (Part-of-Speech Tagging)
149. Kỹ thuật nào sau đây được sử dụng để chuyển đổi văn bản thành dạng số, phù hợp cho việc huấn luyện các mô hình máy học?
A. Stemming
B. Tokenization
C. Vector hóa văn bản (Text Vectorization)
D. Part-of-Speech Tagging
150. Trong lĩnh vực NLP, ‘n-gram’ là gì?
A. Một mô hình ngôn ngữ dựa trên mạng nơ-ron.
B. Một chuỗi gồm n từ liên tiếp trong một văn bản.
C. Một phương pháp loại bỏ stop words.
D. Một kỹ thuật phân tích cú pháp.