Mẫu file robots.txt chuẩn dành cho website WordPress, có thể áp dụng cho tất cả các website.
Nếu các bạn chưa biết thì robots.txt là một trong những file có vai trò rất quan trọng đối với việc SEO website. Nó không những quy định cách thức các công cụ tìm kiếm có thể thu thập và lập chỉ mục trên website mà còn có thể ảnh hưởng tới khả năng hiển thị của website (tính thân thiện với thiết bị di động) khi Google Bots truy xuất dữ liệu. Do đó, có một file robots.txt chuẩn là bước đầu tiên mà các bạn cần làm khi tối ưu website cho các công cụ tìm kiếm.
Tham khảo thêm:
File robots.txt là gì?
Robots Exclusion Standard được phát triển từ năm 1994, nhằm giúp các webmaster có thể “tư vấn” cho các công cụ tìm kiếm cách thu thập thông tin từ website của họ. Nó hoạt động theo cách tương tự như các robot meta tag. Điểm khác biệt chính giữa chúng là các file robots.txt sẽ ngăn cản việc công cụ tìm kiếm truy cập vào một trang hoặc thư mục, trong khi các robot meta tag chỉ kiểm soát việc lúc nào thì trang hoặc thư mục đó được lập chỉ mục (index).
Đặt một file robots.txt trong thư mục gốc của tên miền cho phép bạn ngăn chặn công cụ tìm kiếm lập chỉ mục các tập tin và thư mục nhạy cảm. Ví dụ, bạn có thể ngăn chặn một công cụ tìm kiếm thu thập dữ liệu từ thư mục hình ảnh của bạn hoặc lập chỉ mục một tập tin PDF nằm trong một thư mục bí mật.
Các công cụ tìm kiếm lớn sẽ thực hiện theo các quy tắc mà bạn thiết lập. Tuy nhiên, không phải lúc nào các quy tắc mà bạn xác định trong tập tin robots.txt cũng được thi hành. Trình thu thập dữ liệu của các phần mềm độc hại và các công cụ tìm kiếm nhỏ có thể không tuân thủ các quy tắc và index bất cứ điều gì họ muốn. Rất may, các công cụ tìm kiếm lớn hoạt động theo các tiêu chuẩn này, bao gồm cả Google, Bing, Yandex, Ask và Baidu.
Các bạn có thể tham khảo thêm tài liệu về file robots.txt do chính Google cung cấp tại đây.
Các quy tắc cơ bản của Robots Exclusion Standard
Không mất quá nhiều thời gian để có được một sự hiểu biết đầy đủ về Robots Exclusion Standard. Chỉ có một vài quy tắc mà bạn cần phải tìm hiểu. Những quy tắc này thường được gọi là “chỉ thị”.
Ba chỉ thị chính của Robots Exclusion Standard là:
- User-agent: xác định các công cụ tìm kiếm mà quy tắc được áp dụng.
- Disallow: ngăn cản các công cụ tìm kiếm thu thập thông tin và lập chỉ mục.
- Allow: cho phép các công cụ tìm kiếm thu thập thông tin và lập chỉ mục.
Dấu hoa thị (*) có thể được sử dụng như một ký tự đại diện cho tất cả các công cụ tìm kiếm. Ví dụ, bạn có thể thêm dòng sau vào file robots.txt để ngăn chặn các công cụ tìm kiếm thu thập thông tin trên toàn bộ website của bạn.
User-agent: *
Disallow: /
Các chỉ thị trên là hữu ích nếu bạn đang phát triển một website mới và không muốn các công cụ tìm kiếm lập chỉ mục khi nó chưa được hoàn thiện.
Một số website sử dụng chỉ thị Disallow mà không có dấu gạch chéo (/) để biểu thị một trang web có thể được thu thập dữ liệu. Điều này cho phép các công cụ tìm kiếm có đầy đủ quyền truy cập vào toàn bộ website của bạn.
User-agent: *
Disallow:
Để ngăn chặn việc thu thập dữ liệu với các thư mục hoặc đường dẫn cụ thể, bạn chỉ cần thêm đường dẫn hoặc tên thư mục vào sau chữ Disallow . Trong ví dụ dưới đây, tôi đã quy định các công cụ tìm kiếm không được phép thu thập thông tin của thư mục /images/ và toàn bộ các tập tin cũng như thư mục con chứa trong nó:
User-agent: *
Disallow: /images/
Điều này có được là do robots.txt sử dụng đường dẫn tương đối, không sử dụng đường dẫn tuyệt đối. Các dấu gạch chéo (/) thay thế cho thư mục gốc của tên miền và do đó áp dụng quy tắc cho toàn bộ website của bạn. Đường dẫn là trường hợp nhạy cảm, vì vậy hãy chắc chắn sử dụng đúng trường hợp khi xác định các tập tin, các trang và thư mục.
Cách tạo file robots.txt trong WordPress
Có 2 cách khác nhau để làm điều này: tạo bằng phương pháp thủ công hoặc sử dụng plugin.
Tạo file robots.txt bằng phương pháp thủ công
Một tập tin robots.txt có thể được tạo ra trong vài giây. Tất cả những gì bạn phải làm là mở một trình soạn thảo văn bản (NotePad hoặc NotePad++) và lưu một tập tin trống với tên “robots.txt”.
Sau khi thêm một số quy tắc vào tập tin, hãy lưu nó lại và upload lên thư mục gốc của tên miền, tức là tại địa chỉ https://yourwebsite.com/robots.txt
. Hãy đảm bảo bạn đã upload tập tin robots.txt vào thư mục gốc của tên miền, ngay cả khi WordPress được cài đặt trong một thư mục con.
Tạo file robots.txt bằng plugin
Các plugin hỗ trợ SEO website WordPress (Yoast SEO, Rank Math, AIOSEO…) hầu hết đều được trang bị sẵn tính năng tạo file robots.txt. Ví dụ đối với plugin Yoast SEO, các bạn có thể truy cập SEO => Tools => File editor => click vào nút Create robots.txt file.
Sau khi file robots.txt mặc định được tạo ra, các bạn có thể tùy chỉnh nội dung của nó rồi click vào nút Save changes to robots.txt để lưu lại.
Công cụ tìm kiếm sẽ kiểm tra tập tin robots.txt ở thư mục gốc của tên miền mỗi khi chúng bắt đầu tiến hành thu thập thông tin từ website của bạn. Lưu ý, các bạn sẽ cần phải tạo các file robots.txt riêng biệt cho mỗi tên miền phụ (subdomain) và các giao thức khác nhau.
File robots.txt chuẩn cho website WordPress
Đây là một trong những mẫu file robots.txt chuẩn nhất, tối ưu nhất, được nhiều blogger WordPress nổi tiếng tin dùng. Bạn cũng có thể sử dụng nó cho website WordPress của mình. Tuy nhiên, hãy nhớ tùy biến nó cho phù hợp với từng hoàn cảnh cụ thể.
User-agent: *
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /?s=*
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*
Sitemap: https://wpcanban.com/sitemap_index.xml
Lưu ý:
- Thay
https://wpcanban.com/sitemap_index.xml
bằng đường link đến XML sitemap của bạn. - Không nên chặn Google và các công cụ tìm kiếm khác thu thập dữ liệu trong các thư mục
/wp-content/themes/
và/wp-content/plugins/
. Điều đó sẽ cản trở việc Google có một cái nhìn chính xác nhất về giao diện website của bạn. Ngoài ra, nó cũng có thể gây ra lỗi website không thân thiện với thiết bị di động.
Bạn đang sử dụng mẫu file robots.txt nào cho website WordPress của mình? Theo bạn, mẫu file robots.txt đó có thực sự tối ưu hay không? Hãy chia sẻ nó với chúng tôi thông qua khung bình luận bên dưới.
Nếu bạn thích bài viết này, hãy theo dõi blog của tôi để thường xuyên cập nhật những bài viết hay nhất, mới nhất nhé. Cảm ơn rất nhiều. :)
à mình nhớ rồi. trước khi mình sử dụng của bác thì mình có sử dụng file của bên blog kia chỉ nó có chặn phần image nên chắc giờ nó bị luôn. để thời gian sau xem thế nào thanks bác nhé
mình kiếm tra link vẫn tồn tại đấy ạ. mình cũng không biết sao để thời gian coi xem nó có hết không. mà xóa cảnh báo chỗ nào vậy bác mình tìm mãi cũng không thấy ạ. :P
Cảnh báo trong sitemaps thì không xóa được bạn nhé. Phải đợi Google tự xóa. :P
mà hình như cái cảnh báo này mới bị đây à bác, lúc trước mình dùng cái file robot của wordpress tự tạo ra à
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
chỉ có các thành phần này thôi mình vẫn chặn các file 404 bình thường nhưng nó không có báo lỗi.
kể từ khi mình chuyển sang sử dụng file của bác thì bị vậy à. bác có cách nào không ?
File của mình không hề chặn index thư mục /wp-content/ nên nếu bạn nói nó làm lỗi ảnh là không đúng. Bạn thử kiểm tra lại xem những đường link đó có thực sự tồn tại không? Và lưu ý giữ nguyên mẫu file như mình hướng dẫn chứ không tự ý chỉnh sửa. Cách nhanh nhất để kiểm tra là copy link bị lỗi và sử dụng công cụ kiểm tra file robots trong Google Search Console để test. Nếu nó không bị chặn thì bạn phải đợi một thời gian khá lâu trước khi Google cập nhật và xóa cảnh báo.
mấy file đó bị lỗi 404 à bạn nên mình chặn không cho nó truy cập vào à. Có sao không bác giờ mình mà xóa nó thị bị lỗi 404
Sao bạn không thiết lập redirect các trang 404 về trang chủ. Thế là xong. :P
Ngày xưa mình nhớ có cài một plugin gì đó tự 301 toàn bộ link 404 về một trang như home, bạn có biết đó là plg gì tốt nhất ko, mà theo bạn nên 301 hết về trang chủ hay để 404 tùy chỉnh sẽ tốt hơn nhỉ
Bạn thử plugin All 404 Redirect to Homepage đi. :D
Cảm ơn Hiếu đã hỗ trợ. Mình hỏi thêm bạn chút, sau khi tạo file robot txt xong thì up vào thư mục nào của root VPS nginx nhỉ, mình chưa từng làm thao tác này bao giờ cả? Up vào thư mục wp-content hay ngang với nó?
Bạn up ngang với thư mục wp-content nhé. :P
đây là mẫu robot của mình
User-agent: *
Disallow: /wp-admin/
Disallow: /search?q=*
Disallow: *?replytocom
Disallow: */attachment/*
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*
Sitemap: https://hoatuoivannam.com/sitemap_index.xml
mình đã làm theo y như bạn chỉ mà
Bạn xem lại đi: https://hoatuoivannam.com/robots.txt :P
Mình đã dùng file robot của bạn để áp dụng cho website bán hàng của mình, Nhưng ở dòng sở đồ trang web nó lại cảnh báo là
Sơ đồ trang web: hoatuoivannam.com/post-sitemap.xml
https://hoatuoivannam.com/wp-content/uploads/2016/09/hoa-khai-truong-hkt-01.jpg
lỗi này có ảnh hưởng gì không có cách nào khắc phụ không bạn, nó cảnh báo tới 258 lần nên mình thấy cũng hơi lo.
Url bị chặn bởi robots.txt.
Sơ đồ trang web chứa url bị chặn bởi robots.txt.
258
Lỗi này của bạn có vẻ là do cái đống Disallow dài dằng dặc ở phần bên dưới của file robots.txt của bạn gây ra. Bạn cứ tạo file robots.txt giống hệt trong bài mình hướng dẫn là được. :P
anh ơi anh chỉ giúp em cái thư mục gốc tìm nó ở đâu với
Thư mục gốc chính là thư mục chứa các thư mục như wp-content, wp-admin, wp-includes đó bạn. :P
Hiếu ơi! check giúp mình robot của sitemap như thế này ổn ko hiếu:
website: https://pudy.vn
đây là file robots
User-agent: *
Disallow: /wp-admin/
Disallow: /search?q=*
Disallow: *?replytocom
Disallow: */attachment/*
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*
Sitemap: https://pudy.vn/sitemap.xml
Ok bạn nhé. :)
Mình hiện đang để config như sau
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /search?q=*
Disallow: *?replytocom
Disallow: */attachment/*
Sitemap: http://karofivietnam.vn/sitemap.xml
Bỗng dưng dạo này xuất hiện lỗi trong WMT dạng như này
“wp-login.php?redirect_to=https%3A%2F%2Fkarofivietnam.vn%2Fmua-may-loc-nuoc-karofi-chinh-hang-o-dau”
không hiểu có phải do robots.txt điều hướng hay ko nữa. Chạy nửa năm nay rồi tự dưng tuần nay bị -_-
Không phải do file robots.txt nhé. Bạn “Disallow: /wp-content/” là Google Bots khỏi index ảnh luôn đó. :P
Mình sẽ sửa lại.
Nhưng Ad có biết lý do tại sao thằng WMT nó báo lỗi kia ko -_-
Chạy cả năm trời ko sao tự dưng nay bị, sitemap indexed tụt ầm ầm -_-
Cái link này hoàn toàn không bị chặn bởi nội dung có trong file robots.txt của bạn nên Google Bots vẫn theo dõi nó. Đó là nguyên nhân nó xuất hiện trong WMT. Lâu lâu Google Bots nó index lại toàn bộ trang 1 lần nên thấy tụt cũng là chuyện bình thường mà. Nó sẽ cập nhật lại thôi. :P
Bạn ơi cho mình hỏi chút với, tại sao web mình không được index nội dung vậy bạn, mình không spam hay nội dung trùng lập gì cảm ngay cả mình submit trong webmaster tool mà nó cũng không nhận là sao bạn ơi, mình không rõ về web lắm
Bạn kiểm tra file robots.txt và .htaccess xem có đang chặn bots tìm kiếm không? :)