• Home
  • WordPress
    • Thủ thuật WordPress
    • WordPress plugins
    • WordPress themes
    • Hosting và domain
  • Kiếm tiền
    • Google AdSense
    • Tiếp thị liên kết
    • Rút gọn link
  • Quà tặng
  • Khuyến mãi
  • Đánh giá
  • Dịch vụ
    • WordPress Hosting
    • Cài đặt WordPress
    • Quét mã độc website
    • Tối ưu WordPress
    • Mua theme Paradise
  • Thông báo
  • Liên hệ

WP Căn bản

Thủ thuật WordPress và kiếm tiền online

wordpress-theme-tot-nhat

Trang chủ » WordPress » Thủ thuật WordPress » Mẫu file robots.txt chuẩn dành cho website WordPress

Mẫu file robots.txt chuẩn dành cho website WordPress

16/07/2014 27/03/2018 Trung Hiếu 231 Bình luận

Mục lục bài viết

  1. Các quy tắc cơ bản của Robots Exclusion Standard
  2. Mẫu file robots.txt chuẩn dành cho WordPress

Mẫu file robots.txt chuẩn dành cho blog/ website WordPress.

mau-file-robots-txt-chuan-danh-cho-wordpress

Robots Exclusion Standard được phát triển từ năm 1994, nhằm giúp các webmaster có thể “tư vấn” cho các công cụ tìm kiếm cách thu thập thông tin từ blog/ website của họ. Nó hoạt động theo cách tương tự như các robot meta tag. Điểm khác biệt chính giữa chúng là các file robots.txt sẽ ngăn cản việc công cụ tìm kiếm truy cập vào một trang hoặc thư mục, trong khi các robot meta tag chỉ kiểm soát việc lúc nào thì trang hoặc thư mục đó được lập chỉ mục (index).

Đặt một file robots.txt trong thư mục gốc của tên miền cho phép bạn ngăn chặn công cụ tìm kiếm lập chỉ mục các tập tin và thư mục nhạy cảm. Ví dụ, bạn có thể ngăn chặn một công cụ tìm kiếm thu thập dữ liệu từ thư mục hình ảnh của bạn hoặc lập chỉ mục một tập tin PDF nằm trong một thư mục bí mật.

Các công cụ tìm kiếm “lớn” sẽ thực hiện theo các quy tắc mà bạn thiết lập. Tuy nhiên, không phải lúc nào các quy tắc mà bạn xác định trong tập tin robots.txt cũng được thi hành. Trình thu thập dữ liệu của các phần mềm độc hại và các công cụ tìm kiếm “nhỏ” có thể không tuân thủ các quy tắc và index bất cứ điều gì họ muốn. Rất may, các công cụ tìm kiếm “lớn” hoạt động theo các tiêu chuẩn này, bao gồm cả Google, Bing, Yandex, Ask và Baidu.

Các quy tắc cơ bản của Robots Exclusion Standard

Một tập tin robots.txt có thể được tạo ra trong vài giây. Tất cả những gì bạn phải làm là mở một trình soạn thảo văn bản (NotePad hoặc NotePad++) và lưu một tập tin trống với tên robots.txt. Sau khi thêm một số “quy tắc” vào tập tin, lưu nó lại và upload lên thư mục gốc của tên miền, tức là tại địa chỉ http://yourwebsite.com/robots.txt. Hãy đảm bảo bạn đã upload tập tin robots.txt vào thư mục gốc của tên miền, ngay cả khi WordPress được cài đặt trong một thư mục con.

Công cụ tìm kiếm sẽ kiểm tra tập tin robots.txt ở thư mục gốc của tên miền mỗi khi chúng bắt đầu tiến hành thu thập thông tin từ blog/ website của bạn. Lưu ý, bạn cần phải tạo các file robots.txt riêng biệt cho mỗi tên miền phụ và các giao thức khác nhau.

Không mất quá nhiều thời gian để có được một sự hiểu biết đầy đủ về Robots Exclusion Standard. Chỉ có một vài quy tắc để bạn tìm hiểu. Những quy tắc này thường được gọi là “chỉ thị”.

Ba chỉ thị chính của Robots Exclusion Standard là:

  • User-agent: xác định các công cụ tìm kiếm mà quy tắc được áp dụng.
  • Disallow: ngăn cản các công cụ tìm kiếm thu thập thông tin và lập chỉ mục.
  • Allow: cho phép các công cụ tìm kiếm thu thập thông tin và lập chỉ mục.

Dấu hoa thị (*) có thể được sử dụng như một ký tự đại diện cho tất cả các công cụ tìm kiếm. Ví dụ, bạn có thể thêm dòng sau vào file robots.txt để ngăn chặn các công cụ tìm kiếm thu thập thông tin trên toàn bộ blog/ website của bạn.

User-agent: *
Disallow: /

Các chỉ thị trên là hữu ích nếu bạn đang phát triển một blog/ website mới và không muốn các công cụ tìm kiếm lập chỉ mục khi nó chưa được hoàn thiện.

Một số blog/ website sử dụng chỉ thị Disallow mà không có dấu gạch chéo (/) để biểu thị một trang web có thể được thu thập dữ liệu. Điều này cho phép các công cụ tìm kiếm có đầy đủ quyền truy cập vào toàn bộ blog/ website của bạn.

User-agent: *
Disallow:

Để ngăn chặn việc thu thập dữ liệu với các thư mục hoặc đường dẫn cụ thể, bạn chỉ cần thêm đường dẫn hoặc tên thư mục vào sau chữ Disallow . Trong ví dụ dưới đây, tôi đã quy định các công cụ tìm kiếm không được phép thu thập thông tin của thư mục /images/ và toàn bộ các tập tin cũng như thư mục con chứa trong nó:

User-agent: *
Disallow: /images/

Điều này có được là do robots.txt sử dụng đường dẫn tương đối, không sử dụng đường dẫn tuyệt đối. Các dấu gạch chéo (/) thay thế cho thư mục gốc của tên miền và do đó áp dụng quy tắc cho toàn bộ blog/ website của bạn. Đường dẫn là trường hợp nhạy cảm, vì vậy hãy chắc chắn sử dụng đúng trường hợp khi xác định các tập tin, các trang và thư mục.

Mẫu file robots.txt chuẩn dành cho WordPress

Đây là một trong những mẫu file robots.txt chuẩn nhất, tối ưu nhất, được nhiều blogger WordPress nổi tiếng tin dùng. Bạn cũng có thể sử dụng nó cho blog/ website WordPress của mình. Tuy nhiên, hãy nhớ tùy biến nó cho phù hợp với từng hoàn cảnh cụ thể.

User-agent: *
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /?s=*
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*
Sitemap: https://wpcanban.com/sitemap_index.xml

view raw
robots.txt
hosted with ❤ by GitHub

Lưu ý:

  • Thay https://wpcanban.com/sitemap_index.xml bằng đường link đến XML sitemap của bạn.
  • Không nên chặn Google và các công cụ tìm kiếm khác thu thập dữ liệu trong các thư mục /wp-content/themes/ và /wp-content/plugins/. Điều đó sẽ cản trở việc Google có một cái nhìn chính xác nhất về giao diện blog/ website của bạn.

Bạn đang sử dụng mẫu file robots.txt nào cho blog/ website của mình? Theo bạn, mẫu file robots.txt đó có tối ưu không? Hãy chia sẻ nó với chúng tôi bằng cách sử dụng khung bình luận bên dưới.

Nếu bạn thích bài viết này, hãy subscribe blog của tôi để thường xuyên cập nhật những bài viết hay nhất, mới nhất qua email nhé. Cảm ơn rất nhiều. :)

4.8 / 5 ( 73 bình chọn )
  • Share on Facebook
  • Tweet on Twitter

Bài viết liên quan

Chuyên mục: Thủ thuật WordPress Thẻ: Robots.txt/ Thủ thuật SEO

dich-vu-cai-dat-website-wordpress-mien-phi

Nói về Trung Hiếu

Một người con của xứ Nghệ, hiện đang sinh sống tại Hà Nội. Theo dõi tôi trên Facebook để cập nhật những tin tức mới nhất liên quan đến WordPress nhé.

Bài viết trước « Top 10 website giúp bạn tìm kiếm thông tin về WordPress
Bài viết sau 4 Công cụ kiểm tra Google blacklist miễn phí tốt nhất »

Reader Interactions

Bình luận

    Trả lời Hủy

    Lưu ý:
    > Không sử dụng từ khóa trong mục "Tên".
    > Hãy sử dụng tên thật và địa chỉ email chính xác.
    > Vui lòng bình luận bằng tiếng Việt có dấu.
    Mọi bình luận trái quy định sẽ bị gỡ bỏ link hoặc xóa bỏ hoàn toàn.

  1. Lương Châu Tuấn viết

    19/04/2020 lúc 00:48

    Chào bạn,
    Mình có làm website về trang điện máy, không biết bên thiết kế đã cài robots chuẩn chưa. Mình nhờ bạn kiểm tra giúp em được không. Web bên mình là dienmaynhattin.vn. Mình cám ơn trước nhé.

    Trả lời
    • Trung Hiếu viết

      19/04/2020 lúc 07:36

      Website của bạn không phải làm bằng mã nguồn WordPress nên mình cũng không rõ lắm. Nhưng bạn nên tạo XML Sitemap và chèn link sitemap vào trong file robots.txt.

      Trả lời
  2. Hung Tran viết

    05/06/2020 lúc 17:19

    Anh ơi,
    Em chưa hiểu /wp-admin/admin-ajax.php là gì? Và tại sao lại allow bot vào đường dẫn đó ạ?
    Em có tìm hiểu khái niệm trên mạng mà chưa hiểu, anh giải thích cơ bản giúp em nhé.
    Cảm ơn anh!

    Trả lời
    • Trung Hiếu viết

      05/06/2020 lúc 19:11

      Một số theme và plugin cầ có Ajax mới hoạt động được bạn ạ. Nếu không allow nó thì Google sẽ báo lỗi không thể tải được đầy đủ tài nguyên trong quá trình thu thập dữ liệu.

      Trả lời
      • Hung Tran viết

        06/06/2020 lúc 13:50

        Dạ em cảm ơn anh ạ.
        Chúc anh sức khỏe nhé!

        Trả lời
« 1 … 7 8 9

Sidebar chính

NHẬN BÀI VIẾT QUA EMAIL

Hãy đăng ký ngay để là người đầu tiên nhận được thông báo qua email mỗi khi chúng tôi có bài viết mới!

Đừng quên truy cập vào email của bạn để xác nhận việc đăng ký nhé!

Theo dõi qua mạng xã hội

Dịch vụ WordPress Hosting

dich-vu-wordpress-hosting-gia-re-tot-nhat

Bạn đang tìm gì?

  • WordPress căn bản
  • Bảo mật WordPress
  • Tăng tốc WordPress
  • Sửa lỗi WordPress
  • Thủ thuật Genesis
  • Thủ thuật SEO

Dịch vụ tối ưu WordPress miễn phí

dich-vu-toi-uu-website-wordpress-chat-luong-cao

Bài viết mới nhất

  • Hướng dẫn sử dụng LiteSpeed Memcached 17/01/2021
  • Hướng dẫn nén ảnh bằng plugin LiteSpeed Cache 08/01/2021
  • Hướng dẫn nâng cấp PHP 8 cho website WordPress 15/12/2020
  • Sửa lỗi không hiện hình ảnh và mô tả khi share link lên Zalo 11/11/2020
  • Hiển thị mô tả cho category và tag trong WordPress 05/11/2020
  • Cải tiến công cụ tìm kiếm mặc định của WordPress 31/10/2020

Dịch vụ quét mã độc miễn phí

quet-ma-doc-mien-phi-cho-website

Footer

Bình luận mới nhất

  • Hải trong 5 Lời khuyên giúp tăng Adsense CTR của bạn lên 500%
  • Nhật trong Hướng dẫn nén ảnh bằng plugin LiteSpeed Cache
  • Nồi Phở Sài Gòn trong Khắc phục lỗi email vào spam khi gửi mail từ hosting cPanel
  • Nga Pham trong Bật mí về các công nghệ mà WP Căn bản đang sử dụng

Bình luận nhiều nhất (tháng)

  1. Doligo (7)
  2. Tuyen (7)
  3. Tien Coin (4)
  4. lê hải (3)
  5. Nguyễn Văn Long (3)
  6. Thành (3)

Thông tin hữu ích

  • Quy định sử dụng
  • Chính sách bảo mật
  • Bản quyền nội dung

Thống kê WP Căn bản

10 Chuyên mục - 978 Bài viết - 37217 Bình luận

Bản quyền © 2014 - 2020 · WP Căn bản · Sử dụng Paradise child theme và dịch vụ WordPress Hosting