• Trang chủ
  • WordPress
    • Thủ thuật WordPress
    • WordPress Plugins
    • WordPress Themes
  • Hosting và Domain
  • Kiếm tiền
  • Đánh giá
  • Khuyến mãi
  • Thông báo
  • Giới thiệu
  • Liên hệ

WP Căn bản

Kiến thức căn bản cho người dùng WordPress

paradise-child-theme-wordpress-theme-tot-nhat
  • Dịch vụ WordPress Hosting
  • Dịch vụ tối ưu WordPress
  • Dịch vụ quét mã độc WordPress
  • Mua Paradise child theme
Trang chủ » WordPress » Thủ thuật WordPress » Mẫu file robots.txt chuẩn dành cho website WordPress
hosting-tot-nhat-danh-cho-wordpress

Mẫu file robots.txt chuẩn dành cho website WordPress

Cập nhật: 19/06/2022 Trung Hiếu 254 Bình luận

Mục lục Hiện
  • 1. File robots.txt là gì?
  • 2. Các quy tắc cơ bản của Robots Exclusion Standard
  • 3. Cách tạo file robots.txt trong WordPress
    • 3.1. Tạo file robots.txt bằng phương pháp thủ công
    • 3.2. Tạo file robots.txt bằng plugin
  • 4. File robots.txt chuẩn cho website WordPress

Mẫu file robots.txt chuẩn dành cho website WordPress, có thể áp dụng cho tất cả các website.

mau-file-robots-txt-chuan-danh-cho-wordpress

Nếu các bạn chưa biết thì robots.txt là một trong những file có vai trò rất quan trọng đối với việc SEO website. Nó không những quy định cách thức các công cụ tìm kiếm có thể thu thập và lập chỉ mục trên website mà còn có thể ảnh hưởng tới khả năng hiển thị của website (tính thân thiện với thiết bị di động) khi Google Bots truy xuất dữ liệu. Do đó, có một file robots.txt chuẩn là bước đầu tiên mà các bạn cần làm khi tối ưu website cho các công cụ tìm kiếm.

Tham khảo thêm:

  • Hướng dẫn tạo XML sitemaps với plugin Yoast SEO
  • Làm thế nào để chặn index subpages trong WordPress?

File robots.txt là gì?

Robots Exclusion Standard được phát triển từ năm 1994, nhằm giúp các webmaster có thể “tư vấn” cho các công cụ tìm kiếm cách thu thập thông tin từ website của họ. Nó hoạt động theo cách tương tự như các robot meta tag. Điểm khác biệt chính giữa chúng là các file robots.txt sẽ ngăn cản việc công cụ tìm kiếm truy cập vào một trang hoặc thư mục, trong khi các robot meta tag chỉ kiểm soát việc lúc nào thì trang hoặc thư mục đó được lập chỉ mục (index).

Đặt một file robots.txt trong thư mục gốc của tên miền cho phép bạn ngăn chặn công cụ tìm kiếm lập chỉ mục các tập tin và thư mục nhạy cảm. Ví dụ, bạn có thể ngăn chặn một công cụ tìm kiếm thu thập dữ liệu từ thư mục hình ảnh của bạn hoặc lập chỉ mục một tập tin PDF nằm trong một thư mục bí mật.

Các công cụ tìm kiếm lớn sẽ thực hiện theo các quy tắc mà bạn thiết lập. Tuy nhiên, không phải lúc nào các quy tắc mà bạn xác định trong tập tin robots.txt cũng được thi hành. Trình thu thập dữ liệu của các phần mềm độc hại và các công cụ tìm kiếm nhỏ có thể không tuân thủ các quy tắc và index bất cứ điều gì họ muốn. Rất may, các công cụ tìm kiếm lớn hoạt động theo các tiêu chuẩn này, bao gồm cả Google, Bing, Yandex, Ask và Baidu.

Các bạn có thể tham khảo thêm tài liệu về file robots.txt do chính Google cung cấp tại đây.

Các quy tắc cơ bản của Robots Exclusion Standard

Không mất quá nhiều thời gian để có được một sự hiểu biết đầy đủ về Robots Exclusion Standard. Chỉ có một vài quy tắc mà bạn cần phải tìm hiểu. Những quy tắc này thường được gọi là “chỉ thị”.

Ba chỉ thị chính của Robots Exclusion Standard là:

  • User-agent: xác định các công cụ tìm kiếm mà quy tắc được áp dụng.
  • Disallow: ngăn cản các công cụ tìm kiếm thu thập thông tin và lập chỉ mục.
  • Allow: cho phép các công cụ tìm kiếm thu thập thông tin và lập chỉ mục.

Dấu hoa thị (*) có thể được sử dụng như một ký tự đại diện cho tất cả các công cụ tìm kiếm. Ví dụ, bạn có thể thêm dòng sau vào file robots.txt để ngăn chặn các công cụ tìm kiếm thu thập thông tin trên toàn bộ website của bạn.

User-agent: *
Disallow: /

Các chỉ thị trên là hữu ích nếu bạn đang phát triển một website mới và không muốn các công cụ tìm kiếm lập chỉ mục khi nó chưa được hoàn thiện.

Một số website sử dụng chỉ thị Disallow mà không có dấu gạch chéo (/) để biểu thị một trang web có thể được thu thập dữ liệu. Điều này cho phép các công cụ tìm kiếm có đầy đủ quyền truy cập vào toàn bộ website của bạn.

User-agent: *
Disallow:

Để ngăn chặn việc thu thập dữ liệu với các thư mục hoặc đường dẫn cụ thể, bạn chỉ cần thêm đường dẫn hoặc tên thư mục vào sau chữ Disallow . Trong ví dụ dưới đây, tôi đã quy định các công cụ tìm kiếm không được phép thu thập thông tin của thư mục /images/ và toàn bộ các tập tin cũng như thư mục con chứa trong nó:

User-agent: *
Disallow: /images/

Điều này có được là do robots.txt sử dụng đường dẫn tương đối, không sử dụng đường dẫn tuyệt đối. Các dấu gạch chéo (/) thay thế cho thư mục gốc của tên miền và do đó áp dụng quy tắc cho toàn bộ website của bạn. Đường dẫn là trường hợp nhạy cảm, vì vậy hãy chắc chắn sử dụng đúng trường hợp khi xác định các tập tin, các trang và thư mục.

Cách tạo file robots.txt trong WordPress

Có 2 cách khác nhau để làm điều này: tạo bằng phương pháp thủ công hoặc sử dụng plugin.

Tạo file robots.txt bằng phương pháp thủ công

Một tập tin robots.txt có thể được tạo ra trong vài giây. Tất cả những gì bạn phải làm là mở một trình soạn thảo văn bản (NotePad hoặc NotePad++) và lưu một tập tin trống với tên “robots.txt”.

tao-file-robots-txt-bang-notepad

Sau khi thêm một số quy tắc vào tập tin, hãy lưu nó lại và upload lên thư mục gốc của tên miền, tức là tại địa chỉ https://yourwebsite.com/robots.txt. Hãy đảm bảo bạn đã upload tập tin robots.txt vào thư mục gốc của tên miền, ngay cả khi WordPress được cài đặt trong một thư mục con.

upload-file-robots-txt-len-host

Tạo file robots.txt bằng plugin

Các plugin hỗ trợ SEO website WordPress (Yoast SEO, Rank Math, AIOSEO…) hầu hết đều được trang bị sẵn tính năng tạo file robots.txt. Ví dụ đối với plugin Yoast SEO, các bạn có thể truy cập SEO => Tools => File editor => click vào nút Create robots.txt file.

click-vao-nut-create-robots-txt-file

Sau khi file robots.txt mặc định được tạo ra, các bạn có thể tùy chỉnh nội dung của nó rồi click vào nút Save changes to robots.txt để lưu lại.

tao-file-robots-txt-bang-plugin-yoast-seo

Công cụ tìm kiếm sẽ kiểm tra tập tin robots.txt ở thư mục gốc của tên miền mỗi khi chúng bắt đầu tiến hành thu thập thông tin từ website của bạn. Lưu ý, các bạn sẽ cần phải tạo các file robots.txt riêng biệt cho mỗi tên miền phụ (subdomain) và các giao thức khác nhau.

File robots.txt chuẩn cho website WordPress

Đây là một trong những mẫu file robots.txt chuẩn nhất, tối ưu nhất, được nhiều blogger WordPress nổi tiếng tin dùng. Bạn cũng có thể sử dụng nó cho website WordPress của mình. Tuy nhiên, hãy nhớ tùy biến nó cho phù hợp với từng hoàn cảnh cụ thể.

User-agent: *
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /?s=*
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*
Sitemap: https://wpcanban.com/sitemap_index.xml

Lưu ý:

  • Thay https://wpcanban.com/sitemap_index.xml bằng đường link đến XML sitemap của bạn.
  • Không nên chặn Google và các công cụ tìm kiếm khác thu thập dữ liệu trong các thư mục /wp-content/themes/ và /wp-content/plugins/. Điều đó sẽ cản trở việc Google có một cái nhìn chính xác nhất về giao diện website của bạn. Ngoài ra, nó cũng có thể gây ra lỗi website không thân thiện với thiết bị di động.

Bạn đang sử dụng mẫu file robots.txt nào cho website WordPress của mình? Theo bạn, mẫu file robots.txt đó có thực sự tối ưu hay không? Hãy chia sẻ nó với chúng tôi thông qua khung bình luận bên dưới.

Nếu bạn thích bài viết này, hãy theo dõi blog của tôi để thường xuyên cập nhật những bài viết hay nhất, mới nhất nhé. Cảm ơn rất nhiều. :)

Đang tải đánh giá...
  • Chia sẻ lên Facebook
  • Chia sẻ lên Twitter
  • Chia sẻ lên LinkedIn

Bài viết liên quan

Hiển thị đánh giá 5 sao trên Google một cách đơn giản
Hiển thị đánh giá 5 sao trên Google một cách đơn giản
Xóa base slug của custom post type và taxonomy
Xóa base slug của custom post type và taxonomy
Tự động tạo alt-text cho hình ảnh trong WordPress
Tự động tạo alt-text cho hình ảnh trong WordPress

Chuyên mục: Thủ thuật WordPress Thẻ: Thủ thuật SEO

wpcanban-com-facebook-group

Nói về Trung Hiếu

Một người con của xứ Nghệ, hiện đang sinh sống tại Hà Nội. Tôi là người sáng lập và đứng sau mọi hoạt động của WP Căn bản. Tìm hiểu thêm về tôi tại đây.

Bài viết trước « Top 10 website giúp bạn tìm kiếm thông tin về WordPress
Bài viết sau 4 Công cụ kiểm tra Google Blacklist miễn phí tốt nhất »

Reader Interactions

Bình luận

    Để lại một bình luận Hủy

    Tất cả các bình luận đều sẽ được kiểm duyệt nghiêm ngặt. Mọi bình luận trái quy định sử dụng sẽ bị gỡ bỏ link hoặc xóa bỏ hoàn toàn. Vui lòng đọc kỹ quy định trước khi bình luận. Xin cảm ơn!

  1. Gia Khánh 6 bình luậnviết

    23/06/2018 lúc 15:05

    Bạn cho mh hỏi về chặn index phân trang web thì mh cấu hình như thế nào trong file robots.txt

    Bình luận
    • Trung Hiếu Quản lýviết

      23/06/2018 lúc 16:27

      Trước đây Yoast SEO có tính năng này. Nhưng kể từ phiên bản 6.3 họ đã loại bỏ nó đi. Nguyên nhân được giải thích là do Google đã tự nhận biết, chỉ index trang chính, không index subpages nữa.

      Bình luận
      • Gia Khánh 6 bình luậnviết

        24/06/2018 lúc 19:53

        sau mình check index vẫn thấy google nhận vậy bạn ? có cách nào chặn hay không bạn ?

        Bình luận
        • Trung Hiếu Quản lýviết

          24/06/2018 lúc 21:14

          Cái này mình chịu. Mình cũng không biết làm cách nào để chặn nên cứ để tự nhiên vậy thôi. Bạn có thể cài các phiên bản Yoast SEO cũ hơn bản 6.3 để có tính năng chặn index subpages. :P

          Bình luận
          • Gia Khánh 6 bình luậnviết

            25/06/2018 lúc 09:14

            Thanks bạn nhiều

  2. Jellyfish 18 bình luậnviết

    19/06/2018 lúc 10:12

    Anh ơi cho em hỏi chút ạ.

    Em vào webmaster tools => Thu thập dữ liệu => Bộ kiểm tra robots.txt thì thấy hiện tại là như thế này ạ:

    # robots.txt generated at http://www.mcanerin.com
    User-agent: *
    Disallow:
    Disallow: /cgi-bin/
    Disallow: */page/*
    Sitemap: http://duhocvietnhat.edu.vn/sitemap.gz

    Trong khi sitemap của em là như này ạ: http://duhocviethan.edu.vn/sitemap_index.xml

    Nếu em sửa lại thành:

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /readme.html
    Disallow: /license.txt
    Allow: /wp-admin/admin-ajax.php
    Allow: /wp-admin/images/*
    Sitemap: http://duhocviethan.edu.vn/sitemap_index.xml

    thì có được không ạ? Em cảm ơn anh nhiều ạ.

    Bình luận
    • Trung Hiếu Quản lýviết

      19/06/2018 lúc 10:15

      Được bạn nhé. Cái file robots.txt cũ của bạn không tối ưu cho WordPress đâu, nên đổi ngay. :)

      Bình luận
      • Jellyfish 18 bình luậnviết

        19/06/2018 lúc 10:32

        Dạ vâng em cảm ơn ạ :D

        Bình luận
  3. vua câu cá 1 bình luậnviết

    01/06/2018 lúc 17:02

    Anh giúp em với. Trước đây file robots.txt của em khác. Giờ em muốn thay file giống như bài viết của anh nhưng không được mặc dù em đã xóa và upload file robots mới lên host rồi. Nhưng khi cập nhật search console với vào đường dẫn /robots.txt vẫn không cập nhật.

    Bình luận
  4. Bách 6 bình luậnviết

    26/05/2018 lúc 11:58

    bạn ơi cho mình hỏi file robot.txt nằm ở đâu ạ. mình tìm trong yoast seo ko thấy. nếu dùng nó trong webmaster tool đc ko ạ

    Bình luận
    • Trung Hiếu Quản lýviết

      26/05/2018 lúc 12:02

      File robots.txt thường nằm trong thư mục bạn cài đặt WordPress (public_html) chẳng hạn. Và mặc định WordPress không có sẵn file robots.txt đâu nhé. Bạn phải tạo thủ công rồi upload lên host hoặc sử dụng Tools của Yoast SEO để tạo. Nó nằm trong SEO => Tools => File Editor. Tất nhiên, nếu bạn tắt tính năng chỉnh sửa file của WordPress thì sẽ không nhìn thấy mục File Editor trong Yoast SEO đâu. Lúc đó bạn sẽ phải tạo thủ công bằng cách tạo file trên máy tính rồi upload lên hoặc thông qua File Manager của cPanel/ DirectAdmin.

      Bình luận
  5. trung tín 2 bình luậnviết

    17/05/2018 lúc 09:26

    User-agent: *
    Allow: /
    Disallow: */order/*
    Disallow: */user/*
    Disallow: */message/*
    Disallow: */seo/*

    cái của mình vậy có sao ko bạn

    Bình luận
    • Trung Hiếu Quản lýviết

      17/05/2018 lúc 09:35

      Site của bạn hình như không phải bằng WordPress nên mình không thể đưa ra lời khuyên chính xác được. Nhưng bạn nên bổ sung link XML sitemap (nếu có) vào file robots.txt.

      Bình luận
      • trung tín 2 bình luậnviết

        17/05/2018 lúc 09:42

        Bác có biết ai ko nhờ giúp với ..vì web mình đang top 7 từ khóa dây rút nhựa..nhưng tự nhiên mới 1 tuần nay từ đó bị đánh bay khỏi google luôn , những từ khác thì mình vẫn top bình thường

        Bình luận
        • Trung Hiếu Quản lýviết

          17/05/2018 lúc 09:51

          Mình chỉ rành về mảng WordPress thôi bạn ạ. Mà rớt top từ khóa cũng chưa chắc liên quan đến file robots.txt mà. Nếu từ trước đến giờ bạn không hề chỉnh sửa gì trong file robots.txt thì mình nghĩ là do nguyên nhân khác. :)

          Bình luận
  6. Hu 8 bình luậnviết

    17/04/2018 lúc 12:01

    Mình dùng sitemap của yoast seo phiên bản mới nhất bị lỗi, ko biết có ai bị ko.
    Và sau đó mình phải cài google xml sitemap. Google XML sitemap sẽ có đường dẫn sitemap là: “sitemap.xml”. và trong file robots.txt là “sitemap_index.xml”.
    vậy mình cũng phải sửa trong file robots.txt thành “sitemap.xml” đúng ko bác?
    và có cách nào để sửa đc cái sitemap trên yoast seo mà ko cần cài plugin google xml sitemap kia ko.
    giúp mình với, thanks

    Bình luận
    • Trung Hiếu Quản lýviết

      17/04/2018 lúc 12:07

      Bạn không nói rõ là nó bị lỗi gì, cũng không đưa link web thì ai biết đường nào mà hỗ trợ? Mình dùng bản mới nhất thấy vẫn bình thường, không lỗi gì cả. Nếu bạn đổi XML sitemap thì nhớ đổi luôn cả link sitemap trong file robots.txt và tiến hành khai báo lại sitemap trên Google Search Console.

      Bình luận
  7. Tấn Thảo 5 bình luậnviết

    13/04/2018 lúc 06:11

    Cho mình hỏi, mình bị google báo về trong WMT google bot bị chặn tìm kiếm ở các js thì mình nên cấu hình như thế nào cho file Robots?

    Bình luận
    • Trung Hiếu Quản lýviết

      13/04/2018 lúc 08:37

      Cụ thể thì bạn bị chặn file nào nhỉ?

      Bình luận
      • Tấn Thảo 5 bình luậnviết

        13/04/2018 lúc 08:42

        /wp-includes/js/ mà mình đã bỏ chặn includes mà vẫn chưa hết lỗi nhĩ?

        Bình luận
        • Trung Hiếu Quản lýviết

          13/04/2018 lúc 08:43

          Google Search Console nó đâu có cập nhật real-time. Bạn phải chờ nó index lại dữ liệu thì mới thấy sự thay đổi.

          Bình luận
  8. Vu Hai 3 bình luậnviết

    05/04/2018 lúc 15:43

    Hay quá mình đã tạo robots cho site https://www.top5hcm.com nhưng sao google vẫn báo là không có nhỉ :(

    Bình luận
    • Trung Hiếu Quản lýviết

      05/04/2018 lúc 16:09

      Bạn tạo xong đã submit file robots.txt lên Google Search Console chưa? Nó nằm trong mục Thu thập dữ liệu => Bộ kiểm tra robots.txt ấy.

      Bình luận
  9. Trung Hậu 1 bình luậnviết

    03/04/2018 lúc 10:15

    Theo kinh nghiệm 26 năm làm Website của admin thì.. Mình cập nhật file robos.txt xong, khi nào google mới cập nhật lại tất cả các url trong website của mình..
    Ví dụ: không cho index chuyên mục: Video clip và các bài viết trong chuyên mục Video clip
    User-agent: *
    Allow: /
    Disallow: /video-clip/*

    Bình luận
    • Trung Hiếu Quản lýviết

      03/04/2018 lúc 10:36

      Đẻ ra đã biết làm website rồi à bạn? Thần thánh quá. =)) Câu hỏi này sẽ không có câu trả lời chính xác nhé. Nó tùy thuộc vào lượng dữ liệu có trên site và mức độ uy tín của site nữa. :)

      Bình luận
  10. Hiếu Lê 120 bình luậnviết

    02/04/2018 lúc 22:10

    Em cũng làm tương tự nhưng trong WMT vẫn chặn file css và js, không biết do host hay do robots.txt nữa. Hay do cấu hình sai chỗ nào :(

    Bình luận
    • Trung Hiếu Quản lýviết

      03/04/2018 lúc 07:24

      Bạn sửa file robots.txt xong đã submit lên Google Search Console để yêu cầu cập nhật chưa?

      Bình luận
      • Hiếu Lê 120 bình luậnviết

        03/04/2018 lúc 11:26

        Em sửa trực tiếp trên host và đã yêu cầu cập nhật. Hình như số file chặn đang giảm dần à.
        Em có thêm:
        Allow: /*.js$
        Allow: /*.css$
        ko biết có ảnh hưởng gì không a nhỉ?

        Bình luận
        • Trung Hiếu Quản lýviết

          03/04/2018 lúc 11:41

          Thêm cái đó là không cần thiết nếu sử dụng mẫu file robots.txt giống như trong bài viết.

          Bình luận
          • Hiếu Lê 120 bình luậnviết

            03/04/2018 lúc 11:43

            Vâng anh, cảm ơn anh tư vấn nhiều!

« 1 … 4 5 6 7 8 … 10 »

Sidebar chính

NHẬN BÀI VIẾT QUA EMAIL

Hãy đăng ký ngay để là người đầu tiên nhận được thông báo qua email mỗi khi chúng tôi có bài viết mới. Tặng miễn phí ebook "Bảo mật WordPress toàn tập" do WP Căn bản biên soạn!

Theo dõi qua mạng xã hội

Dịch vụ WordPress Hosting

dich-vu-wordpress-hosting-chat-luong-cao

Bạn đang tìm gì?

WordPress căn bản

Bảo mật WordPress

Tăng tốc WordPress

Thủ thuật CloudFlare

Sửa lỗi WordPress

Thủ thuật LiteSpeed

Thủ thuật Genesis

Thủ thuật SEO

Thủ thuật WooCommerce

Sử dụng theme Paradise

Dịch vụ tối ưu WordPress miễn phí

dich-vu-toi-uu-wordpress-mien-phi

Dịch vụ quét mã độc miễn phí

dich-vu-quet-ma-doc-wordpress-mien-phi

Footer

Bài viết mới nhất

  • Ra mắt plugin WPCB Secure Shield độc quyền tại WP Căn bản 25/07/2025
  • Hiển thị đánh giá 5 sao trên Google một cách đơn giản 12/07/2025
  • Tích hợp mã QR ngân hàng cho WooCommerce 09/07/2025
  • Xóa base slug của custom post type và taxonomy 04/07/2025

Bình luận mới nhất

  • Trung Hiếu trong Ra mắt plugin WPCB Secure Shield độc quyền tại WP Căn bản
  • Ngọc Blue trong Ra mắt plugin WPCB Secure Shield độc quyền tại WP Căn bản
  • Trung Hiếu trong Ra mắt plugin WPCB Secure Shield độc quyền tại WP Căn bản
  • Ngọc Blue trong Ra mắt plugin WPCB Secure Shield độc quyền tại WP Căn bản

Thông tin hữu ích

  • Giới thiệu bản thân
  • Quy định sử dụng
  • Chính sách bảo mật
  • Bản quyền nội dung

Thống kê WP Căn bản

9 Chuyên mục - 1.010 Bài viết - 35.568 Bình luận

Bản quyền © 2014 - 2025 · WP Căn bản (tiền thân là eBooksvn.com) · Sử dụng Paradise child theme và dịch vụ WordPress Hosting