Hôm nay tranh thủ giờ nghĩ trưa trả lời cho một số bạn hỏi về vấn đề truy cập của Google Bots, sự khác nhau giữa Disallow, Noindex, Nofollow, các trường hợp dùng.
Thì mình giải thích ngắn ngọn như sau:
1./ Robots Disallow:
Khi chúng ta đặt trong file robots.txt ngang hàng với file index trên server nội dung: Disallow: /folder/ thì điều này có nghĩa là Google bots sẽ không truy cập vào folder này khi vào website của chúng ta.
Có nhiều bạn hỏi, là tại sao em chặn như sau:
Disallow: /category/
Disallow: /danh-muc/
Disallow: /admin/
Mà Google vẫn lập chỉ mục url con:
Disallow: /category/bai-1.html
Disallow: /danh-muc/bai-2.html
Disallow: /admin/index.php
Lý do: Vì các bạn chặn cấp url chứ không phải cấp folder. Thường khi người ta có thư mục quản trị như Admin, Wp-admin, CSS, JS không muốn cho Google bots vào, ví nhiều lý do:
- Bảo mật thông tin
- Tăng khả năng thu thập dữ liệu
- Rút ngắn thời gian thừa khi quét những folder không cần thiết.
Trong những trường hợp này thì Google sẽ không quét được và lập chỉ mục bất kì một file nào trong folder sử dụng disallow và nó sẽ không lập chi mục hay thu thập dữ liệu trong folder này.
2. Meta Robots Noindex, Nofollow:
Khi các bạn set meta robots là noindex, nofollow cho một page nào đó, Google bots vào nó sẽ hiểu là không lập chỉ mục page này, và không đi vào các liên kết trong page này (internal và external link).
Thường khi phân trang người ta hay dùng để tránh lỗi dublicate content, kết hợp với canonical để cho kết quả tốt hơn. Trong trường hợp này, Google vẫn thu thập dữ liệu page mà nó vào nhưng không lập chỉ mục.
3. Meta Robots Noindex, Follow
Dùng meta là noindex và follow khi bạn muốn Google bots vào website, thu thập thông tin, không lập chỉ mục và đi vào các liên kết trong website này (internal và external link). Bên cạnh đó, đây là cách được dùng nhiều nhất, nó tránh được lỗi dublicate content và tăng cường số lượng internal link cho website, kết hợp với canonical để cho hiệu quả cao nhất.