150+ câu trắc nghiệm Xử lý ngôn ngữ tự nhiên (NLP) có đáp án

Câu 1

Trong lĩnh vực xử lý ngôn ngữ tự nhiên, 'knowledge graph' (đồ thị tri thức) được sử dụng để làm gì?

A. Biểu diễn mối quan hệ giữa các thực thể và khái niệm.
B. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
C. Tóm tắt nội dung của văn bản.
D. Phân loại văn bản theo chủ đề.

Câu 2

Khi xử lý văn bản tiếng Việt, vấn đề nào sau đây là đặc thù so với tiếng Anh?

A. Xử lý các từ viết tắt.
B. Xử lý các từ đồng nghĩa.
C. Tách từ (word segmentation).
D. Nhận dạng thực thể có tên.

Câu 3

Trong xử lý ngôn ngữ tự nhiên, 'TF-IDF' là viết tắt của cụm từ nào?

A. Term Frequency - Inverse Document Frequency
B. Text Frequency - Inverse Document Format
C. Term Frequency - Integrated Data Frequency
D. Text Format - Inverse Document Frequency

Câu 4

Trong các phương pháp đánh giá mô hình sinh ngôn ngữ (ví dụ: mô hình dịch máy), độ đo BLEU (Bilingual Evaluation Understudy) được sử dụng để đánh giá yếu tố nào?

A. Độ chính xác của việc dự đoán từ tiếp theo
B. Mức độ tương đồng giữa văn bản được sinh ra và văn bản tham khảo
C. Khả năng khái quát hóa của mô hình trên dữ liệu mới
D. Thời gian cần thiết để mô hình sinh ra một câu

Câu 5

Trong xử lý ngôn ngữ tự nhiên, phương pháp nào thường được sử dụng để giảm số chiều của dữ liệu văn bản, giúp giảm độ phức tạp tính toán và cải thiện hiệu suất mô hình?

A. Mô hình hóa chủ đề (Topic Modeling)
B. Phân tích cú pháp (Parsing)
C. Biểu diễn word embedding (Word embedding)
D. Phân tích quan điểm (Sentiment Analysis)

Câu 6

Ứng dụng nào sau đây thể hiện việc sử dụng thành công của xử lý ngôn ngữ tự nhiên trong lĩnh vực y tế?

A. Phân tích cảm xúc của khách hàng về một sản phẩm.
B. Tự động tóm tắt hồ sơ bệnh án.
C. Dịch tự động các bài báo khoa học.
D. Tạo chatbot để trả lời các câu hỏi thường gặp.

Câu 7

Trong ngữ cảnh của chatbot, kỹ thuật 'intent recognition' (nhận dạng ý định) có vai trò gì?

A. Tạo ra các câu trả lời tự động.
B. Xác định mục đích hoặc mong muốn của người dùng dựa trên câu hỏi của họ.
C. Chuyển đổi văn bản thành giọng nói.
D. Lưu trữ lịch sử trò chuyện.

Câu 8

Trong xử lý ngôn ngữ tự nhiên, kỹ thuật 'word sense disambiguation' (WSD) nhằm mục đích gì?

A. Tìm ra gốc của một từ (word stem).
B. Xác định ý nghĩa chính xác của một từ trong ngữ cảnh cụ thể.
C. Phân loại các từ theo loại từ (part-of-speech).
D. Dịch một từ sang ngôn ngữ khác.

Câu 9

Trong xử lý ngôn ngữ tự nhiên, kỹ thuật 'topic modeling' (mô hình hóa chủ đề) nhằm mục đích gì?

A. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
B. Tóm tắt nội dung chính của một văn bản.
C. Phân loại văn bản theo chủ đề.
D. Tìm ra các chủ đề tiềm ẩn trong một tập hợp các văn bản.

Câu 10

Trong xử lý ngôn ngữ tự nhiên, kỹ thuật 'chunking' (phân đoạn) thường được sử dụng để làm gì?

A. Chia văn bản thành các câu.
B. Chia câu thành các cụm từ có nghĩa.
C. Tìm gốc của từ.
D. Loại bỏ các từ dừng.

Câu 11

Phương pháp nào sau đây được sử dụng để đánh giá sự tương đồng giữa hai văn bản?

A. Part-of-speech tagging
B. Named entity recognition
C. Cosine similarity
D. Stemming

Câu 12

Cho đoạn văn bản: 'Hôm nay, trời Hà Nội nhiều mây và có mưa rào.' Thao tác nào sau đây thuộc về phân tích cú pháp (syntactic parsing)?

A. Xác định các thực thể có tên (named entities) như 'Hà Nội'.
B. Phân tích ý nghĩa của câu văn.
C. Xây dựng cây cú pháp (parse tree) thể hiện cấu trúc ngữ pháp của câu.
D. Đếm tần suất xuất hiện của các từ trong câu.

Câu 13

Khi xây dựng một hệ thống phân tích cảm xúc (sentiment analysis), điều gì quan trọng nhất cần xem xét để đảm bảo tính chính xác của hệ thống?

A. Sử dụng một bộ từ điển cảm xúc lớn.
B. Huấn luyện mô hình trên một tập dữ liệu lớn và đa dạng.
C. Sử dụng các thuật toán stemming và lemmatization.
D. Loại bỏ tất cả các stop words.

Câu 14

Trong lĩnh vực xử lý ngôn ngữ tự nhiên, thuật ngữ 'n-gram' đề cập đến điều gì?

A. Một phương pháp biểu diễn từ dưới dạng vector.
B. Một chuỗi gồm n từ liên tiếp trong một văn bản.
C. Một kỹ thuật để sửa lỗi chính tả.
D. Một mô hình ngôn ngữ dựa trên mạng nơ-ron.

Câu 15

Trong mô hình hóa ngôn ngữ, 'perplexity' là gì?

A. Một kỹ thuật để giảm kích thước từ vựng.
B. Một độ đo đánh giá khả năng dự đoán của mô hình ngôn ngữ.
C. Một phương pháp để trích xuất các đặc trưng từ văn bản.
D. Một thuật toán để sửa lỗi chính tả.

Câu 16

Phương pháp nào sau đây có thể giúp cải thiện hiệu suất của mô hình ngôn ngữ khi dữ liệu huấn luyện bị thiếu?

A. Sử dụng mô hình lớn hơn.
B. Áp dụng kỹ thuật transfer learning.
C. Loại bỏ các stop words.
D. Sử dụng stemming.

Câu 17

Phương pháp nào sau đây KHÔNG thuộc về các kỹ thuật giảm chiều dữ liệu (dimensionality reduction) trong xử lý ngôn ngữ tự nhiên?

A. Principal Component Analysis (PCA)
B. Singular Value Decomposition (SVD)
C. Linear Discriminant Analysis (LDA)
D. Part-of-speech tagging (POS tagging)

Câu 18

Ứng dụng nào sau đây KHÔNG phải là một ứng dụng của xử lý ngôn ngữ tự nhiên trong lĩnh vực marketing?

A. Phân tích phản hồi của khách hàng trên mạng xã hội.
B. Tự động tạo nội dung quảng cáo.
C. Dự đoán giá cổ phiếu.
D. Cá nhân hóa trải nghiệm người dùng.

Câu 19

Phương pháp nào sau đây thường được sử dụng để xử lý vấn đề 'Out-of-Vocabulary' (OOV) trong các mô hình ngôn ngữ dựa trên từ (word-based)?

A. Stemming
B. Lemmatization
C. Byte Pair Encoding (BPE)
D. TF-IDF

Câu 20

Kỹ thuật nào sau đây thường được sử dụng để giảm thiểu ảnh hưởng của các từ phổ biến (ví dụ: 'the', 'a', 'is') trong quá trình phân tích văn bản?

A. Stemming
B. Lemmatization
C. Loại bỏ stop words
D. Part-of-speech tagging

Câu 21

Trong xử lý ngôn ngữ tự nhiên, 'coreference resolution' (giải quyết đồng tham chiếu) là gì?

A. Quá trình xác định các từ có nghĩa giống nhau.
B. Quá trình xác định các thực thể có tên trong văn bản.
C. Quá trình xác định các từ hoặc cụm từ đề cập đến cùng một đối tượng trong văn bản.
D. Quá trình phân tích cấu trúc ngữ pháp của một câu.

Câu 22

Ứng dụng nào sau đây KHÔNG phải là một ứng dụng phổ biến của kỹ thuật Named Entity Recognition (NER) trong xử lý ngôn ngữ tự nhiên?

A. Trích xuất thông tin từ văn bản
B. Phân tích quan điểm về sản phẩm
C. Phân loại văn bản theo chủ đề
D. Xây dựng tri thức đồ (Knowledge Graph)

Câu 23

Kỹ thuật nào sau đây thường được sử dụng để tạo ra các biến thể khác nhau của một câu, nhằm tăng cường dữ liệu huấn luyện cho các mô hình NLP?

A. Back-translation
B. Stemming
C. Lemmatization
D. Stop word removal

Câu 24

Trong các bước tiền xử lý văn bản, kỹ thuật 'stemming' (tách gốc từ) có tác dụng gì?

A. Loại bỏ các từ dừng (stop words) như 'và', 'hoặc'.
B. Chuyển đổi các từ về dạng gốc của chúng.
C. Phân loại các từ theo loại từ (part-of-speech).
D. Sửa lỗi chính tả trong văn bản.

Câu 25

Khi đánh giá hiệu suất của một mô hình phân loại văn bản, độ đo 'F1-score' là gì?

A. Tỷ lệ các trường hợp được dự đoán đúng.
B. Trung bình điều hòa của precision (độ chính xác) và recall (độ phủ).
C. Tỷ lệ các trường hợp được dự đoán sai.
D. Diện tích dưới đường cong ROC.

Câu 26

Trong các mô hình transformer, cơ chế 'self-attention' (tự chú ý) cho phép mô hình làm gì?

A. Tập trung vào các từ quan trọng nhất trong câu.
B. Dịch văn bản sang ngôn ngữ khác.
C. Tóm tắt nội dung của văn bản.
D. Phân loại văn bản theo chủ đề.

Câu 27

Mục tiêu chính của kỹ thuật 'machine translation' (dịch máy) là gì?

A. Phân tích cấu trúc ngữ pháp của một câu.
B. Chuyển đổi văn bản từ một ngôn ngữ sang một ngôn ngữ khác một cách tự động.
C. Tóm tắt nội dung của một văn bản dài.
D. Nhận dạng các thực thể có tên trong văn bản.

Câu 28

Trong các mô hình học sâu cho NLP, recurrent neural network (RNN) đặc biệt phù hợp với loại dữ liệu nào?

A. Dữ liệu ảnh
B. Dữ liệu âm thanh
C. Dữ liệu chuỗi (ví dụ: văn bản, chuỗi thời gian)
D. Dữ liệu bảng

Câu 29

Trong lĩnh vực xử lý ngôn ngữ tự nhiên, 'attention mechanism' (cơ chế chú ý) giải quyết vấn đề chính nào trong các mô hình sequence-to-sequence?

A. Vanishing gradient (mất mát đạo hàm)
B. Thời gian huấn luyện quá lâu
C. Khả năng xử lý các chuỗi dài (long-range dependencies)
D. Sự thiếu hụt dữ liệu huấn luyện

Câu 30

Ưu điểm chính của việc sử dụng 'word embeddings' (ví dụ: Word2Vec, GloVe) so với các phương pháp biểu diễn từ truyền thống như 'one-hot encoding' là gì?

A. Word embeddings dễ tính toán hơn.
B. Word embeddings biểu diễn ngữ nghĩa của từ tốt hơn.
C. Word embeddings không yêu cầu dữ liệu huấn luyện lớn.
D. Word embeddings phù hợp hơn với các ngôn ngữ có cấu trúc phức tạp.

Or check our Popular Categories...

Or check our Popular Categories...