robots.txt là gì?
một file text chứa vài câu lệnh đơn giản để hướng dẫn các search engine (SE) như Google, Bing ...cách index trang của bạn (tức hướng các SE có nên trả về các kết quả trong đường dẫn /A/B/C hay không).
file robots.txt nằm ở đường dẫn /robots.txt của site.
robots.txt có 3 câu lệnh phổ biến
User-agent: SOMETHING - set đối tượng (SE) áp dụng luậtAllow: PATH - cho phép index một đường dẫn PATH
Disallow: PATH - không cho phép index một đường dẫn PATH
Thử xem vài trang
pyjobs.vn
Tại https://pyjobs.vn/robots.txtĐoạn này cho phép mọi search engine (User-agent: *) được truy cập/index toàn bộ nội dung của trang. (Disallow: để trống).User-agent: * Disallow: