Bạn đã từng tự hỏi làm thế nào một robot của công cụ tìm kiếm có thể phân tích dữ liệu của một trang web để lập chỉ mục? Nếu bạn sở hữu một trang web WordPress, đôi khi bạn muốn Googlebot nhanh chóng lập chỉ mục trang web của bạn, hoặc không lập chỉ mục một trang cụ thể nào đó. Vậy làm cách nào để làm điều đó?
Khi một công cụ tìm kiếm muốn tìm thông tin về trang web của bạn, điều đầu tiên nó tìm là file Robots.txt. File này chứa những hướng dẫn cho công cụ tìm kiếm về việc nên và không nên (index) lập chỉ mục. Tệp Robots.txt cho phép trình thu thập dữ liệu của công cụ tìm kiếm biết những URL SEO nào trên trang web của bạn mà nó có thể truy cập vào.
Một điểm cần lưu ý là tệp Robots.txt không phải là cách để ẩn một trang web khỏi Google. Thay vào đó, nó chỉ giúp ngăn trình thu thập dữ liệu gửi quá nhiều yêu cầu đến trang web của bạn.
File robots.txt là gì?
File robots.txt là một tệp văn bản đơn giản có phần mở rộng .txt. Tệp này là một phần của Giao thức Loại trừ Robot (REP) và chứa các quy định web quan trọng để định rõ cách các Robot Web (hoặc các Robot của các công cụ tìm kiếm) thu thập, truy cập, chỉ mục và hiển thị nội dung web cho người dùng.
Ngoài ra, REP còn bao gồm các lệnh như Meta Robots, Page-Subdirectory và Site-Wide Instructions. Điều này giúp chỉ đạo các công cụ tìm kiếm của Google xử lý các liên kết, ví dụ như Follow link hoặc Nofollow link.
Trên thực tế, việc tạo robots.txt trong Wordpress mang lại sự linh hoạt và sự tự chủ cho những người quản trị web, cho phép họ có quyền kiểm soát việc cho phép hoặc không cho phép các bot của công cụ tìm kiếm Google chỉ mục một số phần của trang web của họ.
Cú pháp của một file robots.txt
Các cú pháp trong tập tin robots.txt được coi là ngôn ngữ riêng của nó. Có 5 thuật ngữ phổ biến mà bạn sẽ thường thấy trong một file robots.txt. Những thuật ngữ này bao gồm:
1. User-agent: Đây là phần để chỉ định tên của các trình thu thập, truy cập dữ liệu web (ví dụ: Googlebot, Bingbot,…).
2. Disallow: Được sử dụng để thông báo cho các User-agent biết rằng họ không được phép thu thập dữ liệu từ các URL cụ thể nào đó. Mỗi URL chỉ được sử dụng 1 dòng Disallow.
3. Allow (chỉ áp dụng cho bọ tìm kiếm Googlebot): Lệnh này được sử dụng để thông báo cho Googlebot biết rằng nó được phép truy cập vào một trang hoặc thư mục con cụ thể. Tuy nhiên, có thể có trường hợp các trang hoặc thư mục con không được phép.
4. Crawl-delay: Đây là lệnh để thông báo cho các Web Crawler biết rằng họ phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của một trang. Tuy nhiên, lưu ý rằng bọ tìm kiếm Googlebot không công nhận lệnh này. Bạn có thể thiết lập tốc độ thu thập dữ liệu trong Google Search Console.
5. Sitemap: Lệnh này được sử dụng để cung cấp các vị trí của bất kỳ Sitemap XML nào được liên kết với URL hiện tại. Lưu ý rằng chỉ có công cụ tìm kiếm Google, Ask, Bing và Yahoo hỗ trợ lệnh này.
Đó là một số thuật ngữ quan trọng mà bạn cần biết khi làm việc với tập tin robots.txt.
Công dụng của file Robots.txt là gì?
Khi sử dụng công cụ tìm kiếm để tìm thông tin trên trang web của bạn, công cụ đầu tiên sẽ tìm kiếm file Robots.txt. File này có nhiệm vụ chỉ cho công cụ tìm kiếm biết những gì được phép và không được phép lập chỉ mục trên trang web của bạn. Ngoài ra, file Robots.txt cũng có thể chỉ định vị trí của trang web trên XML Sitemap.
Sau đó, công cụ tìm kiếm sẽ gửi “bot”, “robot” hoặc “spider” để thu thập thông tin trên trang web của bạn theo hướng dẫn trong file Robots.txt (tuy nhiên, nếu file Robots.txt nói với công cụ tìm kiếm rằng không được lập chỉ mục, chúng sẽ không gửi bot). Google, Bing và các công cụ tìm kiếm khác như Excite, Lycos, Alexa… đều có các bot riêng của họ.
Hầu hết các bot này xuất phát từ các công cụ tìm kiếm, tuy nhiên cũng có một số trang web sẽ gửi các bot riêng của mình. Ví dụ, một số trang web yêu cầu bạn đặt mã xác minh quyền sở hữu trang web, sau đó họ sẽ gửi bot để kiểm tra xem bạn đã đặt mã hay chưa.
Một quy tắc “vô điều kiện” trên internet là bots của bất kỳ công cụ tìm kiếm nào cũng phải tuân thủ hướng dẫn trong file Robots.txt. Nếu nội dung trong file chỉ định “đừng lập chỉ mục tôi” (Disallow), các bot sẽ ngay lập tức quay đầu và không lập chỉ mục nữa.
File robots.txt hoạt động ra sao?
Các công cụ tìm kiếm đóng vai trò quan trọng trong việc thu thập và sắp xếp dữ liệu trên các trang web. Đầu tiên, chúng sẽ sử dụng quá trình crawl (cào/ phân tích) để khám phá và thu thập dữ liệu từ các trang web. Quá trình này được thực hiện bằng cách theo dõi các liên kết từ trang này đến trang khác, cho phép công cụ thu thập dữ liệu từ hàng tỷ trang web khác nhau. Quá trình crawl này còn được gọi là “Spidering”.
Trước khi thực hiện quá trình spidering, các con bot của công cụ Google sẽ tìm kiếm tệp robots.txt trên trang web. Tệp robots.txt là một tệp chứa các thông tin về cách các công cụ tìm kiếm nên thu thập dữ liệu từ trang web đó. Nếu tệp robots.txt được tìm thấy, các con bot sẽ đọc tệp này trước khi tiếp tục quá trình crawl. Tệp robots.txt cung cấp các chỉ thị cụ thể cho các công cụ tìm kiếm, giúp hướng dẫn quá trình thu thập dữ liệu.
Nếu tệp robots.txt không chứa bất kỳ chỉ thị nào cho các công cụ tìm kiếm hoặc nếu không có tệp robots.txt cho trang web, các con bot sẽ tiếp tục thu thập thông tin từ các nguồn khác trên web. Qua đó, công cụ tìm kiếm có thể thu thập dữ liệu và xây dựng chỉ mục để đáp ứng yêu cầu tìm kiếm của người dùng.
File Robots.txt được đặt ở đâu?
File Robots.txt thường được đặt ở thư mục gốc của website. Để tạo một Robots.txt, bạn chỉ cần tạo một file trống và đặt tên là Robots.txt. Việc này sẽ giúp tránh các lỗi cho trang web của bạn và đồng thời cho phép tất cả các công cụ tìm kiếm thu thập thông tin về trang web của bạn.
Điểm danh 3 cách tạo file robots.txt Website Wordpress đơn giản
Nếu sau khi kiểm tra, bạn nhận thấy website của mình không có tệp robots.txt hoặc đơn giản là bạn muốn thay đổi tệp robots.txt của mình, dưới đây là 3 cách tạo tệp robots.txt cho Wordpress mà bạn có thể tham khảo:
Sử dụng Yoast SEO tạo file robots.txt
Trên giao diện WordPress Dashboard, bạn có thể dễ dàng chỉnh sửa hoặc tạo file robots.txt cho trang web WordPress của mình bằng một số bước đơn giản bằng Yoast SEO. Đầu tiên, hãy đăng nhập vào trang web của bạn. Sau khi đăng nhập, bạn sẽ được chuyển đến trang Dashboard.
Nhìn vào phía bên trái màn hình, bạn hãy nhấp vào mục “SEO“, sau đó chọn “Tools” và cuối cùng là “File editor“. Tuy nhiên, nếu tính năng chỉnh sửa file chưa được kích hoạt trên trang web WordPress của bạn, bạn sẽ không thấy tùy chọn này.
Để kích hoạt tính năng này, bạn cần sử dụng FTP (Giao thức truyền tải tập tin). Khi tính năng đã được kích hoạt, bạn sẽ thấy các tệp tin “robots.txt” và “.htaccess” – đây là nơi bạn có thể tạo hoặc chỉnh sửa tệp tin “robots.txt“.
Tạo file robots.txt qua Plugin All in One SEO
Một cách khác để tạo file robots.txt cho WordPress là sử dụng bộ Plugin All in One SEO. Đây là một công cụ hữu ích và dễ sử dụng cho WordPress.
Để tạo file robots.txt, bạn có thể truy cập vào giao diện chính của Plugin All in One SEO Pack. Tiếp theo, chọn All in One SEO > Features Manager và nhấp vào “Active” cho tùy chọn robots.txt.
Tạo thủ công rồi upload file robots.txt qua FTP
Nếu bạn không muốn sử dụng plugin để tạo file robots.txt cho Wordpress, tôi muốn chia sẻ với bạn một cách thủ công để tạo file này.
Một vài quy tắc khi tạo file robots.txt cho Website
Trong Wordpress, để các con bot có thể tìm thấy, file robots.txt nên được đặt trong thư mục cấp cao nhất của trang web. Chú ý rằng file này phân biệt chữ hoa và chữ thường, do đó tên file phải là robots.txt (không được viết là Robots.txt hay robots.TXT, …).
Nên tránh đặt /wp-content/themes/ hay /wp-content/plugins/ vào phần Disallow, vì điều này sẽ làm cản trở các công cụ nhìn nhận chính xác về giao diện của blog hoặc website của bạn. Một số User-agent có thể bỏ qua các file robots.txt chuẩn của bạn.
Điều này phổ biến với các User-agent không tốt như Malware robots (các bot chứa mã độc hại) và các trình Scraping (các quá trình tự động thu thập thông tin, bao gồm cả địa chỉ Email). Các file robots.txt thường được công khai trên web và có thể được truy cập bằng cách thêm /robots.txt vào cuối Root Domain.
Điều này có nghĩa là bất kỳ ai cũng có thể xem các chỉ thị của trang web của bạn, bất kể bạn muốn hay không muốn bot tìm thấy. Vì vậy, không nên sử dụng các file này để ẩn thông tin cá nhân của người dùng. Mỗi Subdomain trên một Root Domain sẽ có các file robots.txt riêng biệt.
Điều này có nghĩa là cả blog.example.com và example.com nên có các file robots.txt riêng (blog.example.com/robots.txt và example.com/robots.txt). Tóm lại, việc chỉ định vị trí của các sitemap liên kết với domain nên được thực hiện bằng cách thêm đường dẫn đến sitemap vào cuối file robots.txt.
Hướng dẫn cách khóa file Robots.txt và các công cụ tìm kiếm
Nếu bạn muốn ngăn chặn các bot từ các công cụ tìm kiếm xâm nhập vào trang web của mình, bạn có thể sử dụng mã sau đây:
“`html
# Mã để không cho phép bất kỳ công cụ tìm kiếm nào!
User-agent: *
Disallow: /
“`
Bạn cũng có thể ngăn chặn các bot xâm nhập và lấy thông tin của một số tệp cụ thể bằng cách sử dụng mã sau đây (đoạn mã này để ngăn chặn xâm nhập cho các thư mục cgi-bin, tmp và junk):
“`html
# Chặn các robot từ các thư mục / thư mục cụ thể
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
“`
Trong ví dụ trên, đường liên kết http://www.yoursitesdomain.com/junk/index.html sẽ bị chặn, nhưng http://www.yoursitesdomain.com/index.html và http://www.yoursitesdomain.com/someotherfolder/ sẽ có thể thu thập thông tin.
Lưu ý: Tệp Robots.txt hoạt động tương tự như biển báo “không xâm phạm”. Nó cho biết cho các bot biết liệu chúng có được phép thu thập dữ liệu từ trang web hay không, nhưng nó không thực sự ngăn chặn các bot xâm nhập. Các bot chuẩn và hợp pháp sẽ tuân thủ chỉ thị của bạn về việc cho phép hoặc không cho phép xâm nhập.
Vì vậy, bạn cần sử dụng các công cụ quản trị web cho Bingbot và Googlebot vì chúng không tuân thủ tệp Robots.txt. Nội dung dưới đây sẽ giúp bạn hiểu rõ hơn về vấn đề này.
Google, Bing và File Robots.txt
Các công cụ tìm kiếm như Google và Bing có thể không tuân thủ file tiêu chuẩn Robots.txt, do đó, bạn nên tạo tài khoản quản trị hệ thống Google và Bing và cấu hình tên miền của bạn để giảm tốc độ thu thập dữ liệu.
Bạn có thể tham khảo tài liệu của Google về file Robots.txt tại đường dẫn https://support.google.com/webmasters/answer/6062608?hl=en&visit_id=1-636252740320275113-2452672579&rd=1. Bên cạnh đó, bạn cũng nên sử dụng công cụ webmaster của Google để thiết lập các tham số cho Googlebot.
Một lời khuyên cho bạn là cấu hình file Robots.txt để giảm tốc độ thu thập thông tin từ trang web của bạn và giảm tài nguyên hệ thống yêu cầu. Điều này sẽ cải thiện lưu lượng truy cập trang web của bạn. Nếu bạn muốn giảm lưu lượng truy cập từ các công cụ như Yandex hoặc Baidu, bạn cần cấu hình file .htaccess.
Dưới đây là một đoạn mã mẫu cho file Robots.txt trong WordPress:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Hoặc bạn có thể sử dụng đoạn mã sau:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*
Sitemap: https://voviethoang.top/sitemap.xml (thay voviethoang.top bằng domain của bạn)
Hy vọng những thông tin trên sẽ hữu ích cho bạn.
Kết luận
Với những thông tin hướng dẫn về cách sử dụng và mục đích của file robots.txt, tôi hy vọng rằng bạn đã được trang bị thêm nhiều kiến thức hữu ích. Nếu bạn thấy bài viết này có ích, đừng quên truy cập Voviethoang.top để nhận thông tin mới nhất từ chúng tôi. Chúc bạn thành công!