Tuesday, 30 August 2016

robots.txt là gì?

Một sai lầm chết người có thể mắc phải và gây ra hậu quả khôn lường là set nhầm file robots.txt khiến cho Google không index site của bạn 😂 (khi mà bạn rất muốn nó index và leo top).

robots.txt là gì?

một file text chứa vài câu lệnh đơn giản để hướng dẫn các search engine (SE) như Google, Bing ...
cách index trang của bạn (tức hướng các SE có nên trả về các kết quả trong đường dẫn /A/B/C hay không).

robots.txt la gi

file robots.txt nằm ở đường dẫn /robots.txt của site.

robots.txt có 3 câu lệnh phổ biến

User-agent: SOMETHING - set đối tượng (SE) áp dụng luật
Allow: PATH - cho phép index một đường dẫn PATH
Disallow: PATH - không cho phép index một đường dẫn PATH

Thử xem vài trang

pyjobs.vn

Tại https://pyjobs.vn/robots.txt
User-agent: *
Disallow: 
Đoạn này cho phép mọi search engine (User-agent: *) được truy cập/index toàn bộ nội dung của trang. (Disallow: để trống).

Để không cho phép index toàn bộ website, chỉ cần set dòng thứ 2 thành:
Disallow: /

Google.com

https://www.google.com/robots.txt

Google là điển hình việc cấu hình file robots.txt phức tạp hơn, nó cho phép index
một số thư mục, và không cho phép truy cập một số thư mục (con) khác.
User-agent: *
Disallow: /search
Allow: /search/about
Disallow: /sdch
Disallow: /groups
Disallow: /index.html?
Disallow: /?
Allow: /?hl=
Disallow: /?hl=*&
...
Đoạn trên hướng dẫn các SE không được truy cập vào /search nhưng lại được truy cập vào các đường dẫn dưới /search/about

FAMILUG.org

http://www.familug.org/robots.txt
User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Allow: /

Sitemap: http://www.familug.org/sitemap.xml
Website nào cũng nên có file robots.txt. Nếu file này không tồn tại hoặc để trắng, các SE sẽ mặc định index toàn bộ site.

robots.txt chỉ nên dùng để HƯỚNG DẪN các SE, nó không phải biện pháp NGĂN CẢN và không nên dựa vào nó như một biện pháp bảo mật (bởi các SE xấu hay người dùng có thể không tuân theo hướng dẫn này - ngoài ra khi các trang khác đã được index có sử dụng đường link tới phần bị disallow thì SE vẫn index đường link đó).

Làm thế nào để biết site đã được index?

Dùng từ khoá đặc biệt khi search google:
site:pyjobs.vn
(thay pyjobs.vn bằng trang của bạn) - hoặc truy cập pyjobs.vn/robots.txt để thấy tận mắt.

Chú ý: có chữ s sau robot.
Tham khảo:
- Google webmaster

HVN at FAMILUG dot ORG
Hết.