• Trang chủ
  • WordPress
    • Thủ thuật WordPress
    • WordPress Plugins
    • WordPress Themes
  • Hosting và Domain
  • Kiếm tiền online
  • Đánh giá
  • Khuyến mãi
  • Thông báo
wpcb-logo

WP Căn bản

Kiến thức căn bản cho người dùng WordPress

paradise-child-theme-wordpress-theme-tot-nhat
  • Dịch vụ WordPress Hosting
  • Dịch vụ tối ưu WordPress
  • Dịch vụ quét mã độc WordPress
  • Mua Paradise child theme
Trang chủ » WordPress » Thủ thuật WordPress » Mẫu file robots.txt chuẩn dành cho website WordPress
hosting-tot-nhat-danh-cho-wordpress

Mẫu file robots.txt chuẩn dành cho website WordPress

Cập nhật: 19/06/2022 Trung Hiếu 254 Bình luận

Mục lục Hiện
  • 1. File robots.txt là gì?
  • 2. Các quy tắc cơ bản của Robots Exclusion Standard
  • 3. Cách tạo file robots.txt trong WordPress
    • 3.1. Tạo file robots.txt bằng phương pháp thủ công
    • 3.2. Tạo file robots.txt bằng plugin
  • 4. File robots.txt chuẩn cho website WordPress

Mẫu file robots.txt chuẩn dành cho website WordPress, có thể áp dụng cho tất cả các website.

mau-file-robots-txt-chuan-danh-cho-wordpress

Nếu các bạn chưa biết thì robots.txt là một trong những file có vai trò rất quan trọng đối với việc SEO website. Nó không những quy định cách thức các công cụ tìm kiếm có thể thu thập và lập chỉ mục trên website mà còn có thể ảnh hưởng tới khả năng hiển thị của website (tính thân thiện với thiết bị di động) khi Google Bots truy xuất dữ liệu. Do đó, có một file robots.txt chuẩn là bước đầu tiên mà các bạn cần làm khi tối ưu website cho các công cụ tìm kiếm.

Tham khảo thêm:

  • Hướng dẫn tạo XML sitemaps với plugin Yoast SEO
  • Làm thế nào để chặn index subpages trong WordPress?

File robots.txt là gì?

Robots Exclusion Standard được phát triển từ năm 1994, nhằm giúp các webmaster có thể “tư vấn” cho các công cụ tìm kiếm cách thu thập thông tin từ website của họ. Nó hoạt động theo cách tương tự như các robot meta tag. Điểm khác biệt chính giữa chúng là các file robots.txt sẽ ngăn cản việc công cụ tìm kiếm truy cập vào một trang hoặc thư mục, trong khi các robot meta tag chỉ kiểm soát việc lúc nào thì trang hoặc thư mục đó được lập chỉ mục (index).

Đặt một file robots.txt trong thư mục gốc của tên miền cho phép bạn ngăn chặn công cụ tìm kiếm lập chỉ mục các tập tin và thư mục nhạy cảm. Ví dụ, bạn có thể ngăn chặn một công cụ tìm kiếm thu thập dữ liệu từ thư mục hình ảnh của bạn hoặc lập chỉ mục một tập tin PDF nằm trong một thư mục bí mật.

Các công cụ tìm kiếm lớn sẽ thực hiện theo các quy tắc mà bạn thiết lập. Tuy nhiên, không phải lúc nào các quy tắc mà bạn xác định trong tập tin robots.txt cũng được thi hành. Trình thu thập dữ liệu của các phần mềm độc hại và các công cụ tìm kiếm nhỏ có thể không tuân thủ các quy tắc và index bất cứ điều gì họ muốn. Rất may, các công cụ tìm kiếm lớn hoạt động theo các tiêu chuẩn này, bao gồm cả Google, Bing, Yandex, Ask và Baidu.

Các bạn có thể tham khảo thêm tài liệu về file robots.txt do chính Google cung cấp tại đây.

Các quy tắc cơ bản của Robots Exclusion Standard

Không mất quá nhiều thời gian để có được một sự hiểu biết đầy đủ về Robots Exclusion Standard. Chỉ có một vài quy tắc mà bạn cần phải tìm hiểu. Những quy tắc này thường được gọi là “chỉ thị”.

Ba chỉ thị chính của Robots Exclusion Standard là:

  • User-agent: xác định các công cụ tìm kiếm mà quy tắc được áp dụng.
  • Disallow: ngăn cản các công cụ tìm kiếm thu thập thông tin và lập chỉ mục.
  • Allow: cho phép các công cụ tìm kiếm thu thập thông tin và lập chỉ mục.

Dấu hoa thị (*) có thể được sử dụng như một ký tự đại diện cho tất cả các công cụ tìm kiếm. Ví dụ, bạn có thể thêm dòng sau vào file robots.txt để ngăn chặn các công cụ tìm kiếm thu thập thông tin trên toàn bộ website của bạn.

User-agent: *
Disallow: /

Các chỉ thị trên là hữu ích nếu bạn đang phát triển một website mới và không muốn các công cụ tìm kiếm lập chỉ mục khi nó chưa được hoàn thiện.

Một số website sử dụng chỉ thị Disallow mà không có dấu gạch chéo (/) để biểu thị một trang web có thể được thu thập dữ liệu. Điều này cho phép các công cụ tìm kiếm có đầy đủ quyền truy cập vào toàn bộ website của bạn.

User-agent: *
Disallow:

Để ngăn chặn việc thu thập dữ liệu với các thư mục hoặc đường dẫn cụ thể, bạn chỉ cần thêm đường dẫn hoặc tên thư mục vào sau chữ Disallow . Trong ví dụ dưới đây, tôi đã quy định các công cụ tìm kiếm không được phép thu thập thông tin của thư mục /images/ và toàn bộ các tập tin cũng như thư mục con chứa trong nó:

User-agent: *
Disallow: /images/

Điều này có được là do robots.txt sử dụng đường dẫn tương đối, không sử dụng đường dẫn tuyệt đối. Các dấu gạch chéo (/) thay thế cho thư mục gốc của tên miền và do đó áp dụng quy tắc cho toàn bộ website của bạn. Đường dẫn là trường hợp nhạy cảm, vì vậy hãy chắc chắn sử dụng đúng trường hợp khi xác định các tập tin, các trang và thư mục.

Cách tạo file robots.txt trong WordPress

Có 2 cách khác nhau để làm điều này: tạo bằng phương pháp thủ công hoặc sử dụng plugin.

Tạo file robots.txt bằng phương pháp thủ công

Một tập tin robots.txt có thể được tạo ra trong vài giây. Tất cả những gì bạn phải làm là mở một trình soạn thảo văn bản (NotePad hoặc NotePad++) và lưu một tập tin trống với tên “robots.txt”.

tao-file-robots-txt-bang-notepad

Sau khi thêm một số quy tắc vào tập tin, hãy lưu nó lại và upload lên thư mục gốc của tên miền, tức là tại địa chỉ https://yourwebsite.com/robots.txt. Hãy đảm bảo bạn đã upload tập tin robots.txt vào thư mục gốc của tên miền, ngay cả khi WordPress được cài đặt trong một thư mục con.

upload-file-robots-txt-len-host

Tạo file robots.txt bằng plugin

Các plugin hỗ trợ SEO website WordPress (Yoast SEO, Rank Math, AIOSEO…) hầu hết đều được trang bị sẵn tính năng tạo file robots.txt. Ví dụ đối với plugin Yoast SEO, các bạn có thể truy cập SEO => Tools => File editor => click vào nút Create robots.txt file.

click-vao-nut-create-robots-txt-file

Sau khi file robots.txt mặc định được tạo ra, các bạn có thể tùy chỉnh nội dung của nó rồi click vào nút Save changes to robots.txt để lưu lại.

tao-file-robots-txt-bang-plugin-yoast-seo

Công cụ tìm kiếm sẽ kiểm tra tập tin robots.txt ở thư mục gốc của tên miền mỗi khi chúng bắt đầu tiến hành thu thập thông tin từ website của bạn. Lưu ý, các bạn sẽ cần phải tạo các file robots.txt riêng biệt cho mỗi tên miền phụ (subdomain) và các giao thức khác nhau.

File robots.txt chuẩn cho website WordPress

Đây là một trong những mẫu file robots.txt chuẩn nhất, tối ưu nhất, được nhiều blogger WordPress nổi tiếng tin dùng. Bạn cũng có thể sử dụng nó cho website WordPress của mình. Tuy nhiên, hãy nhớ tùy biến nó cho phù hợp với từng hoàn cảnh cụ thể.

User-agent: *
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /?s=*
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*
Sitemap: https://wpcanban.com/sitemap_index.xml

Lưu ý:

  • Thay https://wpcanban.com/sitemap_index.xml bằng đường link đến XML sitemap của bạn.
  • Không nên chặn Google và các công cụ tìm kiếm khác thu thập dữ liệu trong các thư mục /wp-content/themes/ và /wp-content/plugins/. Điều đó sẽ cản trở việc Google có một cái nhìn chính xác nhất về giao diện website của bạn. Ngoài ra, nó cũng có thể gây ra lỗi website không thân thiện với thiết bị di động.

Bạn đang sử dụng mẫu file robots.txt nào cho website WordPress của mình? Theo bạn, mẫu file robots.txt đó có thực sự tối ưu hay không? Hãy chia sẻ nó với chúng tôi thông qua khung bình luận bên dưới.

Nếu bạn thích bài viết này, hãy theo dõi blog của tôi để thường xuyên cập nhật những bài viết hay nhất, mới nhất nhé. Cảm ơn rất nhiều. :)

Đang tải đánh giá...
  • Facebook
  • Twitter (X)
  • LinkedIn
  • Pinterest
  • Tumblr
  • Zalo

Bài viết liên quan

Hiển thị đánh giá 5 sao trên Google một cách đơn giản
Hiển thị đánh giá 5 sao trên Google một cách đơn giản
Xóa base slug của custom post type và taxonomy
Xóa base slug của custom post type và taxonomy
Tự động tạo alt-text cho hình ảnh trong WordPress
Tự động tạo alt-text cho hình ảnh trong WordPress

Chuyên mục: Thủ thuật WordPress Thẻ: Thủ thuật SEO

wpcanban-com-facebook-group

Nói về Trung Hiếu

Một người con của xứ Nghệ, hiện đang sinh sống tại Hà Nội. Tôi là người sáng lập và đứng sau mọi hoạt động của WP Căn bản. Tìm hiểu thêm về tôi tại đây.

Bài viết trước « Top 10 website giúp bạn tìm kiếm thông tin về WordPress
Bài viết sau 4 Công cụ kiểm tra Google Blacklist miễn phí tốt nhất »

Reader Interactions

Bình luận

    Để lại một bình luận Hủy

    Tất cả các bình luận đều sẽ được kiểm duyệt nghiêm ngặt. Mọi bình luận trái quy định sử dụng sẽ bị gỡ bỏ link hoặc xóa bỏ hoàn toàn. Vui lòng đọc kỹ quy định trước khi bình luận. Xin cảm ơn!

  1. nhathongminh 1 bình luậnviết

    13/03/2019 lúc 11:46

    Cảm ơn bạn đã đóng góp cho cộng đồng WP 1 bài viết bổ ích

    Bình luận
  2. Ngô Văn Cương 114 bình luậnviết

    11/03/2019 lúc 22:18

    Mẫu này cần chặn thêm vài con bot nữa ad à

    Bình luận
  3. Ngọc lan 1 bình luậnviết

    11/03/2019 lúc 16:51

    Mình đã thêm file robots.txt giống như bạn hướng dẫn, bài viết rất hay.

    Bình luận
  4. Nam Blog 1 bình luậnviết

    31/01/2019 lúc 17:07

    hay lắm cảm ơn bạn

    Bình luận
  5. Ngoc Tran 1 bình luậnviết

    25/01/2019 lúc 15:19

    Anh cho em hỏi. Những cái nào mình không khai báo thì mặc định sẽ Allow có đúng ko ạ?
    Ví dụ của em là:
    User-agent: *
    Disallow: /wp-admin/
    Disallow: /readme.html
    Disallow: /license.txt
    Disallow: /?s=*
    Allow: /wp-admin/admin-ajax.php
    Allow: /wp-admin/images/*
    Em không khai báo wp-content thì mặc định wp-content sẽ Allow có đúng không ạ?

    Bình luận
    • Trung Hiếu Quản lýviết

      25/01/2019 lúc 15:46

      Đúng rồi bạn.

      Bình luận
  6. Pháp 10 bình luậnviết

    03/12/2018 lúc 21:18

    Anh @Trung Hiếu cho em hỏi:
    Các câu lệnh này nghĩa là gì vậy anh?
    Disallow: /?s=*
    Disallow: /search?q=*
    Disallow: *?replytocom

    Nên xài cho file robots.txt không anh?

    Bình luận
    • Trung Hiếu Quản lýviết

      04/12/2018 lúc 07:43

      Disallow: /?s=* => chặn index trang kết quả tìm kiếm mặc định của WordPress. Dấu * tương ứng với từ khóa tìm kiếm.
      Disallow: /search?q=* => chặn index trang kết quả tìm kiếm tùy chỉnh của WordPress. Ví dụ bên mình dùng Google Custom Search thì sẽ có link trang kết quả tìm kiếm là https://wpcanban.com/search?q=* (dấu * tương ứng với từ khóa tìm kiếm).
      Disallow: *?replytocom => chặn index link reply bình luận. Trước đây Yoast SEO trang bị sẵn tính năng cho phép xóa bỏ link reply-to-comment nhưng từ phiên bản 7.0 trở đi thì họ đã loại bỏ nó. Sở dĩ người ta chặn index link này vì nó gây ra lỗi trùng lặp nội dung. Nhưng có vẻ hiện tại vấn đề này đã được khắc phục mà không cần phải chặn index bằng robots.txt hay loại bỏ bằng plugin nữa.

      Bình luận
      • Pháp 10 bình luậnviết

        04/12/2018 lúc 07:49

        Cảm ơn anh rất nhiều ạ.

        Bình luận
  7. Tước Hảo 1 bình luậnviết

    16/10/2018 lúc 22:46

    Tên miền 1:

    User-agent: googlebot
    Disallow: /

    User-agent: *
    Allow: /
    Sitemap: http://abc.com/sitemap_index.xml

    Ý nghĩa: trang web abc.com, bot google bị chặn không dc index, tất cả các bot còn lại được phép.

    —

    Tên miền 2:

    User-agent: Baiduspider
    Allow: /

    Sitemap: http://edf.com/sitemap_index.xml

    Ý nghĩa: trang web edf.com, chỉ có bot Baidu được index, tất cả các bot còn lại không được phép index.

    Admin cho mình hỏi thiết lập hai file robots.txt ở 2 trang web như vậy có đúng với phần ý nghĩa của nó không? Thanks, mong sự hồi âm

    Bình luận
    • Trung Hiếu Quản lýviết

      17/10/2018 lúc 07:15

      Bạn muốn chặn index bot nào thì phải ghi cụ thể tên của bot đó ra. Nếu không ghi thì nó vẫn index như thường.

      Bình luận
  8. Kim Linh 1 bình luậnviết

    15/10/2018 lúc 13:54

    A ơi file robots.txt của em có chuẩn chưa ạ?

    User-agent: *
    Allow: /*.js$
    Allow: /*.css$
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/themes
    Disallow: /wp-content/plugins
    Disallow: /images/
    Disallow: /author/

    Bình luận
    • Trung Hiếu Quản lýviết

      15/10/2018 lúc 19:58

      Bạn tự so sánh với mẫu ở trong bài viết là có câu trả lời mà. :P

      Bình luận
  9. Tuấn Đức Designer 2 bình luậnviết

    22/09/2018 lúc 01:48

    em thấy cái này chuẩn hơn nè anh Hiếu :P
    User-agent: Mediapartners-Google
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /search?q=*
    Disallow: *?replytocom
    Disallow: */attachment/*
    Disallow: /images/

    User-agent: Bingbot
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /search?q=*
    Disallow: *?replytocom
    Disallow: */attachment/*
    Disallow: /images/

    User-agent: Googlebot
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /search?q=*
    Disallow: *?replytocom
    Disallow: */attachment/*
    Disallow: /images/

    User-agent: Twitterbot
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /search?q=*
    Disallow: *?replytocom
    Disallow: */attachment/*
    Disallow: /images/

    User-agent: Yandex
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /search?q=*
    Disallow: *?replytocom
    Disallow: */attachment/*
    Disallow: /images/

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /search?q=*
    Disallow: *?replytocom
    Disallow: */attachment/*
    Disallow: /images/

    User-agent: Mediapartners-Google
    Allow: /*.js$
    Allow: /*.css$
    Sitemap: https://wpcanban.com/sitemap_index.xml

    User-agent: Bingbot
    Allow: /*.js$
    Allow: /*.css$
    Sitemap: https://wpcanban.com/sitemap_index.xml

    User-agent: Googlebot
    Allow: /*.js$
    Allow: /*.css$
    Sitemap: https://wpcanban.com/sitemap_index.xml

    User-agent: Twitterbot
    Allow: /*.js$
    Allow: /*.css$
    Sitemap: https://wpcanban.com/sitemap_index.xml

    User-agent: Yandex
    Allow: /*.js$
    Allow: /*.css$
    Sitemap: https://wpcanban.com/sitemap_index.xml

    User-agent: *
    Allow: /*.js$
    Allow: /*.css$
    Sitemap: https://wpcanban.com/sitemap_index.xml
    đoạn này em trộm từ file robots.txt của facebook ạ :3

    Bình luận
    • Trung Hiếu Quản lýviết

      22/09/2018 lúc 07:22

      Để mình phân tích cho bạn nghe:

      1. Chỉ cần User-agent: * là đủ, nó đại diện cho tất cả các bot tìm kiếm. Do đó bạn không cần phải phân riêng ra từng bot như vậy, trừ khi chỉ thị cho chúng là khác nhau.
      2. Disallow: /wp-includes/ là không ổn rồi. Nhiều website vẫn load các file từ thư mục /wp-includes/ để phục vụ cho việc hiển thị giao diện. Do đó chặn truy cập /wp-includes/ sẽ khiến cho bots tìm kiếm có một cái nhìn không hoàn thiện và đầy đủ về website.
      3. Disallow: *?replytocom cái này cũng không nên chặn, do nó sẽ ảnh hưởng đến việc bots tìm kiếm index dữ liệu bình luận. Bạn có biết bình luận cũng là một trong số các yếu tố quan trọng giúp website lên top tìm kiếm?

      Vậy thì cái mà bạn nói là chuẩn hơn thì chuẩn ở đâu? :P

      Bình luận
    • Trung Hiếu Quản lýviết

      22/09/2018 lúc 07:26

      P/s: WordPress mặc định không dùng đường dẫn /search?q=* trong tìm kiếm đâu nhé. Phải là /?s=* mới đúng.

      Bình luận
      • nguyễn thanh tú 1 bình luậnviết

        12/10/2018 lúc 23:24

        mình thấy bất kỳ web site nào nếu thêm dấu ? vào thì đường link sẽ là abc,com/bai-viet thành abc,com/bai-viet? như vậy có ảnh hưởng gì không hiếu. Có nên chặn không

        Bình luận
        • Trung Hiếu Quản lýviết

          13/10/2018 lúc 09:57

          Không cần quan tâm bạn nhé. Bình thường chả ai tự dưng đi thêm dấu hỏi vào cuối đường link cả, nên Google cũng sẽ không index chúng.

          Bình luận
  10. Hiếu 26 bình luậnviết

    21/09/2018 lúc 19:17

    Bác Neil Patel cũng có cái guide về phần này mà thấy không cụ thể như file của wpcanban. Có anh em nào chuột bạch chưa cho mình xin ít phản hồi nhỉ?! :D

    Bình luận
« 1 … 5 6 7 8 9 10 »

Sidebar chính

Người sáng lập

avatar-tac-gia
Blogger - Developer - Freelancer

Tôi tên là Bùi Trung Hiếu, sinh ra ở một làng quê nghèo thuộc tỉnh Nghệ An. Hiện tại, tôi đang sinh sống và làm việc tại Hà Nội. Với niềm đam mê công nghệ thông tin mãnh liệt, đặc biệt là WordPress, tôi đã tự tìm tòi, nghiên cứu về chúng trong suốt nhiều năm qua.

Xem thêm về tôi

Theo dõi qua mạng xã hội

Dịch vụ tối ưu WordPress miễn phí

dich-vu-toi-uu-wordpress-mien-phi

Plugin độc quyền miễn phí

  • WPCB Central Panel
  • WPCB Secure Shield
  • WPCB Hybrid Cache Manager
  • WPCB AI Optimization
  • WPCB Simple Ratings
  • WPCB Simple AntiSpam
  • WPCB Images Optimizer
  • WPCB Social Share Buttons
  • WPCB Comment Notifications
  • WPCB Comment User Badge
  • WPCB Top Commenters
  • WPCB Simple SMTP
  • WPCB Simple Contact Form
  • WPCB Permalinks Manager
  • WPCB Syntax Highlighter
  • WPCB Content Protector
  • WPCB Auto Images Alt-Text
  • WPCB Snowfall
  • WPCB Ultimate Search
  • WPCB 404 Auto Redirect
  • WPCB Disable Blog
  • WPCB Simple Lightbox
  • WPCB Auto Expired Transients Cleaner

Dịch vụ quét mã độc miễn phí

dich-vu-quet-ma-doc-wordpress-mien-phi

Bài viết mới nhất

  • Plugin nén ảnh siêu nhẹ dành cho WordPress 24/04/2026
  • Ra mắt plugin WPCB Central Panel độc quyền 08/04/2026
  • Tối ưu website WordPress cho AI một cách đơn giản 24/03/2026
  • Hướng dẫn nâng cấp PHP 8.5 cho website WordPress 09/03/2026
  • Sửa lỗi trắng trang cho XML Sitemaps của Rank Math SEO 02/03/2026
  • Sửa lỗi 404 cho XML Sitemaps của Rank Math SEO 01/02/2026

Footer

Bình luận mới nhất

  • Trung Hiếu trong Bật mí về các công nghệ mà WP Căn bản đang sử dụng
  • Việt Hùng trong Bật mí về các công nghệ mà WP Căn bản đang sử dụng
  • Trung Hiếu trong Ra mắt plugin WPCB Central Panel độc quyền
  • Tịnh Nguyễn trong Ra mắt plugin WPCB Central Panel độc quyền
  • Trung Hiếu trong Ra mắt plugin WPCB Central Panel độc quyền

Bình luận nhiều nhất

  1. Tịnh Nguyễn (15)
  2. Ngọc Blue (6)
  3. Tuấn Digi (1)
  4. HN (1)
  5. Blog Công Chứng (1)
  6. Việt Hùng (1)

Liên kết hữu ích

  • Giới thiệu bản thân
  • Quy định sử dụng
  • Bản quyền nội dung
  • Chính sách bảo mật
  • Liên hệ hỗ trợ

Thống kê WP Căn bản

9 Chuyên mục - 1.021 Bài viết - 35.708 Bình luận

Bản quyền © 2014 - 2026 · WP Căn bản (tiền thân là ebooksvn.com) · Sử dụng Paradise child theme và dịch vụ WordPress Hosting