• Trang chủ
  • WordPress
    • Thủ thuật WordPress
    • WordPress Plugins
    • WordPress Themes
  • Hosting và Domain
  • Kiếm tiền
  • Đánh giá
  • Khuyến mãi
  • Thông báo
  • Giới thiệu
  • Liên hệ

WP Căn bản

Kiến thức căn bản cho người dùng WordPress

paradise-child-theme-wordpress-theme-tot-nhat
  • Dịch vụ WordPress Hosting
  • Dịch vụ tối ưu WordPress
  • Dịch vụ quét mã độc WordPress
  • Mua Paradise child theme
Trang chủ » WordPress » Thủ thuật WordPress » Mẫu file robots.txt chuẩn dành cho website WordPress
hosting-tot-nhat-danh-cho-wordpress

Mẫu file robots.txt chuẩn dành cho website WordPress

Cập nhật: 19/06/2022 Trung Hiếu 254 Bình luận

Mục lục Hiện
  • 1. File robots.txt là gì?
  • 2. Các quy tắc cơ bản của Robots Exclusion Standard
  • 3. Cách tạo file robots.txt trong WordPress
    • 3.1. Tạo file robots.txt bằng phương pháp thủ công
    • 3.2. Tạo file robots.txt bằng plugin
  • 4. File robots.txt chuẩn cho website WordPress

Mẫu file robots.txt chuẩn dành cho website WordPress, có thể áp dụng cho tất cả các website.

mau-file-robots-txt-chuan-danh-cho-wordpress

Nếu các bạn chưa biết thì robots.txt là một trong những file có vai trò rất quan trọng đối với việc SEO website. Nó không những quy định cách thức các công cụ tìm kiếm có thể thu thập và lập chỉ mục trên website mà còn có thể ảnh hưởng tới khả năng hiển thị của website (tính thân thiện với thiết bị di động) khi Google Bots truy xuất dữ liệu. Do đó, có một file robots.txt chuẩn là bước đầu tiên mà các bạn cần làm khi tối ưu website cho các công cụ tìm kiếm.

Tham khảo thêm:

  • Hướng dẫn tạo XML sitemaps với plugin Yoast SEO
  • Làm thế nào để chặn index subpages trong WordPress?

File robots.txt là gì?

Robots Exclusion Standard được phát triển từ năm 1994, nhằm giúp các webmaster có thể “tư vấn” cho các công cụ tìm kiếm cách thu thập thông tin từ website của họ. Nó hoạt động theo cách tương tự như các robot meta tag. Điểm khác biệt chính giữa chúng là các file robots.txt sẽ ngăn cản việc công cụ tìm kiếm truy cập vào một trang hoặc thư mục, trong khi các robot meta tag chỉ kiểm soát việc lúc nào thì trang hoặc thư mục đó được lập chỉ mục (index).

Đặt một file robots.txt trong thư mục gốc của tên miền cho phép bạn ngăn chặn công cụ tìm kiếm lập chỉ mục các tập tin và thư mục nhạy cảm. Ví dụ, bạn có thể ngăn chặn một công cụ tìm kiếm thu thập dữ liệu từ thư mục hình ảnh của bạn hoặc lập chỉ mục một tập tin PDF nằm trong một thư mục bí mật.

Các công cụ tìm kiếm lớn sẽ thực hiện theo các quy tắc mà bạn thiết lập. Tuy nhiên, không phải lúc nào các quy tắc mà bạn xác định trong tập tin robots.txt cũng được thi hành. Trình thu thập dữ liệu của các phần mềm độc hại và các công cụ tìm kiếm nhỏ có thể không tuân thủ các quy tắc và index bất cứ điều gì họ muốn. Rất may, các công cụ tìm kiếm lớn hoạt động theo các tiêu chuẩn này, bao gồm cả Google, Bing, Yandex, Ask và Baidu.

Các bạn có thể tham khảo thêm tài liệu về file robots.txt do chính Google cung cấp tại đây.

Các quy tắc cơ bản của Robots Exclusion Standard

Không mất quá nhiều thời gian để có được một sự hiểu biết đầy đủ về Robots Exclusion Standard. Chỉ có một vài quy tắc mà bạn cần phải tìm hiểu. Những quy tắc này thường được gọi là “chỉ thị”.

Ba chỉ thị chính của Robots Exclusion Standard là:

  • User-agent: xác định các công cụ tìm kiếm mà quy tắc được áp dụng.
  • Disallow: ngăn cản các công cụ tìm kiếm thu thập thông tin và lập chỉ mục.
  • Allow: cho phép các công cụ tìm kiếm thu thập thông tin và lập chỉ mục.

Dấu hoa thị (*) có thể được sử dụng như một ký tự đại diện cho tất cả các công cụ tìm kiếm. Ví dụ, bạn có thể thêm dòng sau vào file robots.txt để ngăn chặn các công cụ tìm kiếm thu thập thông tin trên toàn bộ website của bạn.

User-agent: *
Disallow: /

Các chỉ thị trên là hữu ích nếu bạn đang phát triển một website mới và không muốn các công cụ tìm kiếm lập chỉ mục khi nó chưa được hoàn thiện.

Một số website sử dụng chỉ thị Disallow mà không có dấu gạch chéo (/) để biểu thị một trang web có thể được thu thập dữ liệu. Điều này cho phép các công cụ tìm kiếm có đầy đủ quyền truy cập vào toàn bộ website của bạn.

User-agent: *
Disallow:

Để ngăn chặn việc thu thập dữ liệu với các thư mục hoặc đường dẫn cụ thể, bạn chỉ cần thêm đường dẫn hoặc tên thư mục vào sau chữ Disallow . Trong ví dụ dưới đây, tôi đã quy định các công cụ tìm kiếm không được phép thu thập thông tin của thư mục /images/ và toàn bộ các tập tin cũng như thư mục con chứa trong nó:

User-agent: *
Disallow: /images/

Điều này có được là do robots.txt sử dụng đường dẫn tương đối, không sử dụng đường dẫn tuyệt đối. Các dấu gạch chéo (/) thay thế cho thư mục gốc của tên miền và do đó áp dụng quy tắc cho toàn bộ website của bạn. Đường dẫn là trường hợp nhạy cảm, vì vậy hãy chắc chắn sử dụng đúng trường hợp khi xác định các tập tin, các trang và thư mục.

Cách tạo file robots.txt trong WordPress

Có 2 cách khác nhau để làm điều này: tạo bằng phương pháp thủ công hoặc sử dụng plugin.

Tạo file robots.txt bằng phương pháp thủ công

Một tập tin robots.txt có thể được tạo ra trong vài giây. Tất cả những gì bạn phải làm là mở một trình soạn thảo văn bản (NotePad hoặc NotePad++) và lưu một tập tin trống với tên “robots.txt”.

tao-file-robots-txt-bang-notepad

Sau khi thêm một số quy tắc vào tập tin, hãy lưu nó lại và upload lên thư mục gốc của tên miền, tức là tại địa chỉ https://yourwebsite.com/robots.txt. Hãy đảm bảo bạn đã upload tập tin robots.txt vào thư mục gốc của tên miền, ngay cả khi WordPress được cài đặt trong một thư mục con.

upload-file-robots-txt-len-host

Tạo file robots.txt bằng plugin

Các plugin hỗ trợ SEO website WordPress (Yoast SEO, Rank Math, AIOSEO…) hầu hết đều được trang bị sẵn tính năng tạo file robots.txt. Ví dụ đối với plugin Yoast SEO, các bạn có thể truy cập SEO => Tools => File editor => click vào nút Create robots.txt file.

click-vao-nut-create-robots-txt-file

Sau khi file robots.txt mặc định được tạo ra, các bạn có thể tùy chỉnh nội dung của nó rồi click vào nút Save changes to robots.txt để lưu lại.

tao-file-robots-txt-bang-plugin-yoast-seo

Công cụ tìm kiếm sẽ kiểm tra tập tin robots.txt ở thư mục gốc của tên miền mỗi khi chúng bắt đầu tiến hành thu thập thông tin từ website của bạn. Lưu ý, các bạn sẽ cần phải tạo các file robots.txt riêng biệt cho mỗi tên miền phụ (subdomain) và các giao thức khác nhau.

File robots.txt chuẩn cho website WordPress

Đây là một trong những mẫu file robots.txt chuẩn nhất, tối ưu nhất, được nhiều blogger WordPress nổi tiếng tin dùng. Bạn cũng có thể sử dụng nó cho website WordPress của mình. Tuy nhiên, hãy nhớ tùy biến nó cho phù hợp với từng hoàn cảnh cụ thể.

User-agent: *
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /?s=*
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*
Sitemap: https://wpcanban.com/sitemap_index.xml

Lưu ý:

  • Thay https://wpcanban.com/sitemap_index.xml bằng đường link đến XML sitemap của bạn.
  • Không nên chặn Google và các công cụ tìm kiếm khác thu thập dữ liệu trong các thư mục /wp-content/themes/ và /wp-content/plugins/. Điều đó sẽ cản trở việc Google có một cái nhìn chính xác nhất về giao diện website của bạn. Ngoài ra, nó cũng có thể gây ra lỗi website không thân thiện với thiết bị di động.

Bạn đang sử dụng mẫu file robots.txt nào cho website WordPress của mình? Theo bạn, mẫu file robots.txt đó có thực sự tối ưu hay không? Hãy chia sẻ nó với chúng tôi thông qua khung bình luận bên dưới.

Nếu bạn thích bài viết này, hãy theo dõi blog của tôi để thường xuyên cập nhật những bài viết hay nhất, mới nhất nhé. Cảm ơn rất nhiều. :)

  • Chia sẻ lên Facebook
  • Chia sẻ lên Twitter
  • Chia sẻ lên LinkedIn

Bài viết liên quan

Tính năng Crawl Optimization của plugin Yoast SEO
Tính năng Crawl Optimization của plugin Yoast SEO
Chèn breadcrumbs của Rank Math SEO vào theme Paradise
Chèn breadcrumbs của Rank Math SEO vào theme Paradise
Sử dụng Genesis Framework Schema cùng Yoast SEO
Sử dụng Genesis Framework Schema cùng Yoast SEO

Chuyên mục: Thủ thuật WordPress Thẻ: Thủ thuật SEO

dich-vu-wordpress-hosting-chong-ddos-mien-phi

Nói về Trung Hiếu

Một người con của xứ Nghệ, hiện đang sinh sống tại Hà Nội. Tôi là người sáng lập và đứng sau mọi hoạt động của WP Căn bản. Tìm hiểu thêm về tôi tại đây.

Bài viết trước « Top 10 website giúp bạn tìm kiếm thông tin về WordPress
Bài viết sau 4 Công cụ kiểm tra Google Blacklist miễn phí tốt nhất »

Reader Interactions

Bình luận

    Để lại một bình luận Hủy

    Tất cả các bình luận đều sẽ được kiểm duyệt nghiêm ngặt. Mọi bình luận trái quy định sử dụng sẽ bị gỡ bỏ link hoặc xóa bỏ hoàn toàn. Vui lòng đọc kỹ quy định trước khi bình luận. Xin cảm ơn!

  1. Biển Nhạc 2 bình luậnviết

    25/09/2022 lúc 22:35

    cảm ơn admin Bài viết rất hay.
    Mình xin phép hỏi thêm là web mình dùng flatsome nó index thêm
    ten-san-pham/feed/
    và tất cả các sp nó đều lập chỉ mục thêm link có /feed/
    vậy mình nên cho lập chỉ mục hay chặn link feed này rất cảm ơn admin

    Bình luận
    • Trung Hiếu Quản lýviết

      26/09/2022 lúc 07:01

      Chặn index đi bạn nhé. :)

      Bình luận
      • Biển Nhạc 2 bình luậnviết

        27/09/2022 lúc 10:44

        Cảm ơn admin nhé.

        Bình luận
  2. Ngự Kiếm 9 bình luậnviết

    29/08/2022 lúc 18:17

    Chào Hiếu …!
    Hiếu giúp mình zới … google nó báo hoài
    ví dụ: ?doing_wp_cron=1655008447.3536989688873291015625
    và số đuôi như ?amp ( các thư mục podcast của mình) dù mình không sài amp vẫn báo
    Hay ?amp=1…và ?post_type=post&p
    Mình phải làm sao khắc phục hử bạn??
    Mình có cài như bạn
    Disallow: /search/?q=*
    Disallow: /?=*

    Mình sài tìm kiếm google trong wp của mình trong bài Tích hợp công cụ tìm kiếm Google cho theme Paradise ( hihi mình sài theme khác nhưng vẫn áp dụng được bạn à )

    Mong Bạn sơm phản hồi giúp mình zới
    Cảm ơn …^^

    Bình luận
    • Trung Hiếu Quản lýviết

      29/08/2022 lúc 19:26

      Bạn tham khảo bài viết “Xử lý spam index trong Google Search Console” nhé.

      Bình luận
  3. Thịnh Phạm 2 bình luậnviết

    06/12/2021 lúc 12:18

    mình có tự seo web xây dựng giathicong.com làm cá nhân
    gần 1 tháng nay lượng view tuột dù mình đăng thường xuyên, từ khóa giảm đều. mình xem sitemap và tệp robots vẫn ok. Không biết bị lỗi gì vậy AD
    Thanks bạn

    Bình luận
    • Trung Hiếu Quản lýviết

      06/12/2021 lúc 12:21

      Google họ vừa update thuật toán bạn ạ. Mình nghe mấy người làm SEO nói thứ hạng phải biến động trong vài tuần nữa.

      Bình luận
      • Thịnh Phạm 2 bình luậnviết

        06/12/2021 lúc 14:49

        Cảm ơn bạn đã chia sẻ. Chúc công việc của banj suôn sẻ và thành công

        Bình luận
        • Trung Hiếu Quản lýviết

          06/12/2021 lúc 16:23

          Cảm ơn bạn.

          Bình luận
  4. Tịnh Nguyễn Blog 168 bình luậnviết

    10/09/2021 lúc 03:07

    Mình có tham khảo file robots.txt của bạn Hiếu để áp dụng cho blog mình. Nhưng của mình chơi thêm kiểu “chặn nhầm còn hơn bỏ sót” ^^ | Có mấy tụi chơi tool nó phá web bằng công cụ tìm kiếm trên web của mình nên chặn cả /search/?q=* và /?s=

    Bình luận
    • Trung Hiếu Quản lýviết

      10/09/2021 lúc 07:51

      Nếu dùng công cụ tìm kiếm mặc định của WordPress thì chỉ cần chặn /?s=* là được. Site của em dùng Google Custom Search nên em mới chặn /search/?q=* :P

      Bình luận
  5. Trần thạch cao 64 bình luậnviết

    03/09/2021 lúc 02:48

    Mình thì chặn thêm
    user-agent: AhrefsBot
    disallow: /
    Cái vụ chặn wp-admin có thể dẫn đến vỡ giao điện giờ mới nghe nói

    Bình luận
    • Trung Hiếu Quản lýviết

      03/09/2021 lúc 07:48

      Bạn thử chặn mà xem. :P Google nó báo lỗi website không thân thiện với thiết bị di động ngay. Do khi Google Bots thu thập dữ liệu, nó không thể tải các file CSS và JS => nó thấy giao diện bị vỡ => báo lỗi.

      Bình luận
  6. Dũng 8 bình luậnviết

    02/09/2021 lúc 22:10

    có được dùng wprocket kèm với cloudflare không ad ơi?

    Bình luận
    • Trung Hiếu Quản lýviết

      03/09/2021 lúc 07:50

      Dùng chung bình thường bạn nhé. WP Rocket sẽ cache HTML (phần động) còn CloudFlare CDN thì cache dữ liệu tĩnh (CSS, JS, hình ảnh…).

      Bình luận
      • Dũng 8 bình luậnviết

        03/09/2021 lúc 10:17

        trước thì thi thoảng lỗi sevice, hôm qua thêm sub thì lỗi 520. chán nên dẹp cái cloud đi rồi ad :D

        Bình luận
        • Trung Hiếu Quản lýviết

          03/09/2021 lúc 10:21

          Đấy là host của bạn không hỗ trợ tốt cho CloudFlare (không có Railgun) hoặc bạn chưa biết cách cấu hình CloudFlare cho tối ưu thôi. Chứ site mình cũng đang dùng CloudFlare CDN đây, chẳng thấy lỗi bao giờ. :)

          Bình luận
  7. Học Luật 67 bình luậnviết

    02/09/2021 lúc 21:57

    Bên em cũng để mẫu file-robots-txt này giống như bác hướng dẫn luôn. Thực ra cũng chẳng hiểu nó có nghĩa là gì nhưng cứ copy vào đó thôi ah!

    Bình luận
    • Trung Hiếu Quản lýviết

      03/09/2021 lúc 07:56

      Mình chia sẻ thực tế từ file robots.txt của wpcanban.com luôn mà. Chỉ khác ở dòng Disallow: /search/?q=* do mình sử dụng Google Custom Search thôi. :P

      Bình luận
  8. TCA Doanh Nhân 1 bình luậnviết

    04/08/2021 lúc 23:32

    Cho mình hỏi chút. Website mình bị hack và bị index Tiếng Nhật khá nhiều
    site:https://tca.edu.vn
    ==> Search Console thì mình add domain dạng https nhưng sitemap bị hack thì https:/tca.edu.vn/sitemap.xml
    Vậy thì xử lý ntn hả Hiếu ơi? Tks

    Bình luận
    • Trung Hiếu Quản lýviết

      05/08/2021 lúc 07:29

      Cái này phức tạp lắm bạn. Nếu không có kiến thức về WordPress và hosting thì không tự xử lý được đâu. Sẽ phải kết hợp giữa việc quét mã nguồn bằng plugin bảo mật, sử dụng các công cụ quét mã độc online + kiểm tra host để phát hiện file lạ. Bạn nên yêu cầu bên cung cấp hosting hỗ trợ xử lý hoặc tham khảo dịch vụ quét mã độc WordPress miễn phí của bên mình.

      Bình luận
  9. Hung Tran 1 bình luậnviết

    05/06/2020 lúc 17:19

    Anh ơi,
    Em chưa hiểu /wp-admin/admin-ajax.php là gì? Và tại sao lại allow bot vào đường dẫn đó ạ?
    Em có tìm hiểu khái niệm trên mạng mà chưa hiểu, anh giải thích cơ bản giúp em nhé.
    Cảm ơn anh!

    Bình luận
    • Trung Hiếu Quản lýviết

      05/06/2020 lúc 19:11

      Một số theme và plugin cầ có Ajax mới hoạt động được bạn ạ. Nếu không allow nó thì Google sẽ báo lỗi không thể tải được đầy đủ tài nguyên trong quá trình thu thập dữ liệu.

      Bình luận
      • Hung Tran 1 bình luậnviết

        06/06/2020 lúc 13:50

        Dạ em cảm ơn anh ạ.
        Chúc anh sức khỏe nhé!

        Bình luận
  10. Lương Châu Tuấn 1 bình luậnviết

    19/04/2020 lúc 00:48

    Chào bạn,
    Mình có làm website về trang điện máy, không biết bên thiết kế đã cài robots chuẩn chưa. Mình nhờ bạn kiểm tra giúp em được không. Web bên mình là dienmaynhattin.vn. Mình cám ơn trước nhé.

    Bình luận
    • Trung Hiếu Quản lýviết

      19/04/2020 lúc 07:36

      Website của bạn không phải làm bằng mã nguồn WordPress nên mình cũng không rõ lắm. Nhưng bạn nên tạo XML Sitemap và chèn link sitemap vào trong file robots.txt.

      Bình luận
« 1 … 7 8 9 10 »

Sidebar chính

NHẬN BÀI VIẾT QUA EMAIL

Hãy đăng ký ngay để là người đầu tiên nhận được thông báo qua email mỗi khi chúng tôi có bài viết mới!

Tham gia cùng 10.000+ người khác.

Theo dõi qua mạng xã hội

Facebook Group

wpcanban-facebook-group

Bạn đang tìm gì?

WordPress căn bản

Bảo mật WordPress

Tăng tốc WordPress

Sửa lỗi WordPress

Thủ thuật Genesis

Thủ thuật SEO

Thủ thuật CloudFlare

Thủ thuật LiteSpeed

Thủ thuật WooCommerce

Sử dụng theme Paradise

Dịch vụ tối ưu WordPress miễn phí

dich-vu-toi-uu-wordpress-mien-phi

Dịch vụ quét mã độc miễn phí

dich-vu-quet-ma-doc-wordpress-mien-phi

Footer

Bài viết mới nhất

  • Năm 2025 rồi, có nên viết blog nữa không? 07/05/2025
  • Ra mắt plugin APCu Object Cache độc quyền tại WP Căn bản 16/04/2025
  • Tính năng Crawl Optimization của plugin Yoast SEO 31/03/2025
  • Vô hiệu hóa WooCommerce Brands để tăng tốc độ 09/03/2025

Bình luận mới nhất

  • Trung Hiếu trong Năm 2025 rồi, có nên viết blog nữa không?
  • Tuấn Kỷ Nguyên Blog trong Năm 2025 rồi, có nên viết blog nữa không?
  • Trung Hiếu trong Năm 2025 rồi, có nên viết blog nữa không?
  • Tịnh Nguyễn Blog trong Năm 2025 rồi, có nên viết blog nữa không?

Thông tin hữu ích

  • Giới thiệu bản thân
  • Quy định sử dụng
  • Chính sách bảo mật
  • Bản quyền nội dung

Thống kê WP Căn bản

9 Chuyên mục - 999 Bài viết - 35.502 Bình luận

Bản quyền © 2014 - 2025 · WP Căn bản (tiền thân là eBooksvn.com) · Sử dụng Paradise child theme và dịch vụ WordPress Hosting