Robots.txt Generator

Quy tắc phổ biến (Disallow):

Quy tắc cho phép (Allow - nếu đã chặn thư mục cha):

Kết quả Robots.txt:

Giới thiệu công cụ

Công cụ online | Công cụ "Robots.txt Generator" này giúp bạn dễ dàng tạo ra nội dung cho file robots.txt của website. File robots.txt là một tệp văn bản đơn giản được đặt ở thư mục gốc của website, dùng để chỉ dẫn cho các trình thu thập dữ liệu của công cụ tìm kiếm (như Googlebot, Bingbot) về việc những trang hoặc tệp nào chúng có thể hoặc không thể yêu cầu từ trang web của bạn. Việc sử dụng đúng các quy tắc trong robots.txt giúp kiểm soát cách website của bạn được thu thập thông tin, tối ưu hóa tài nguyên máy chủ và có thể ảnh hưởng đến việc lập chỉ mục.

Hướng dẫn sử dụng

Sử dụng công cụ này rất đơn giản. Hãy làm theo các bước sau để tạo file robots.txt phù hợp với nhu cầu của bạn:

1. Chọn User-agent

User-agent là tên của trình thu thập dữ liệu (robot) mà bạn muốn áp dụng quy tắc. Mặc định là * (All robots), nghĩa là quy tắc áp dụng cho tất cả các robot. Bạn có thể chọn một user-agent cụ thể nếu muốn có quy tắc riêng cho nó (ví dụ: Googlebot).

2. Chọn các quy tắc phổ biến (Disallow)

Đánh dấu vào các ô tương ứng với những thư mục hoặc tệp bạn muốn chặn không cho robot truy cập. Các lựa chọn này là những quy tắc phổ biến cho website WordPress. Ví dụ, chặn /wp-admin/ là một thực hành tốt để bảo mật.

3. Chọn các quy tắc cho phép (Allow)

Nếu bạn đã chặn một thư mục cha (ví dụ: Disallow: /wp-content/) nhưng muốn cho phép truy cập một số tệp hoặc thư mục con cụ thể bên trong nó, bạn có thể sử dụng quy tắc Allow. Ví dụ, Allow: /wp-content/uploads/ cho phép robot truy cập thư mục uploads ngay cả khi /wp-content/ bị chặn.

4. Thêm Sitemap URL

Nhập URL đầy đủ của tệp sitemap XML (ví dụ: https://yourdomain.com/sitemap.xml). Điều này giúp các công cụ tìm kiếm dễ dàng tìm thấy tất cả các trang quan trọng trên website của bạn.

5. Thêm quy tắc tùy chỉnh

Nếu bạn có các quy tắc cụ thể khác không có trong danh sách, hãy nhập chúng vào ô "Quy tắc tùy chỉnh". Mỗi quy tắc nên nằm trên một dòng riêng biệt (ví dụ: Disallow: /temp/ hoặc Allow: /important-file.html).

6. Tạo và Sao chép

  • Nhấn nút "Tạo Robots.txt". Nội dung file sẽ xuất hiện trong ô "Kết quả Robots.txt".
  • Kiểm tra kỹ nội dung đã tạo.
  • Nhấn nút "Sao chép kết quả" để copy toàn bộ nội dung.

7. Sử dụng file Robots.txt

Sau khi đã có nội dung, bạn cần tạo một file tên là robots.txt (chữ thường) và dán nội dung đã sao chép vào đó. Tải file này lên thư mục gốc (root directory) của website của bạn (thường là thư mục public_html, www, hoặc tương tự). Bạn có thể kiểm tra bằng cách truy cập yourdomain.com/robots.txt.

Lưu ý quan trọng

  • File robots.txt chỉ là một chỉ dẫn, không phải là một cơ chế bảo mật tuyệt đối. Các robot "ngoan" sẽ tuân theo, nhưng các robot xấu có thể bỏ qua.
  • Không sử dụng robots.txt để ẩn thông tin nhạy cảm. Thay vào đó, hãy sử dụng các phương pháp bảo mật phía máy chủ.
  • Kiểm tra kỹ các quy tắc của bạn, việc chặn sai có thể khiến website của bạn không được lập chỉ mục đúng cách.