PDA

View Full Version : Robots.txt cho website sử dụng nhiều domain



SEOchicken
07-12-2011, 12:15 AM
Như các bạn đã biết, các Doanh nghiệp thường hay mua nhiều tên miền cho website của họ. Ở đây tôi không thảo luận về lý do tại sao họ lại làm như vậy, nhưng thực tế rõ ràng là có rất nhiều tên miền trỏ về cùng 1 hosting (1 website có nhiều tên miền khác nhau). Thế thì xét theo nguyên tắc của SEO, chúng ta sẽ có nhiều website và những website này trùng lặp nội dung.




http://phaiseo.com/seo/images/stories/robots-txt.png

Tôi được 1 số bạn đặt vấn đề cụ thể như sau:

Họ có 3 domain: abc.com | def.com | xyz.com
3 domain này cùng 1 hosting
Họ chọn abc.com là tên miền chính, họ không muốn spider index các URL xuất phát từ 2 tên miền còn lại

Oh, quá dễ, dùng robots.txt chặn (disallow) là xong. Nhưng khổ nỗi, robots.txt không phân biệt được tên miền, nên chúng ta không thể

Disallow: /def.com
Disallow: /zyz.com

Làm sao ? Và đây là giải pháp. Chúng ta chuẩn bị 3 file robots.txt tương ứng cho từng tên miền và kiểm tra nếu request của user xuất phát từ tên miền nào thì “gọi” file robots.txt cho tên miền đó.
robots_abc.txt <– file robots.txt cho tên miền abc.com


User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/

robots_def.txt <– file robots.txt cho tên miền def.com


User-agent: *
Disallow: /

robots_xyz.txt <– file robots.txt cho tên miền xyz.com


User-agent: *
Disallow: /

Nhiệm vụ còn lại của chúng ta là viết lại đường dẫn file robots.txt tương ứng cho từng tên miền tại file .htaccess
RewriteCond %{HTTP_HOST} ^abc.com$ [NC]
RewriteRule ^robots.txt$ robots_abc.txt [L]
RewriteCond %{HTTP_HOST} ^def.com$ [NC]
RewriteRule ^robots.txt$ robots_def.txt [L]
RewriteCond %{HTTP_HOST} ^xyz.com$ [NC]
RewriteRule ^robots.txt$ robots_xyz.txt [L]

http://phaiseo.com/seo/images/stories/htaccess.jpg

Đến đây thì các bạn an tâm, spider chỉ có thể index như chỉ dẫn trong file robots_abc.txt, còn với những URL xuất phát từ tên miền def.com và xyz.com sẽ không bao giờ được index nên việc trùng lặp nội dung không thể xảy ra.


Nguồn phaiSEO.com

ngominhnhan
26-08-2012, 02:01 PM
Thanks!
Mình tìm một số bài viết vế Subdomain
Nhưng hầu như ít ai nói đến.
Vì mình có trang web sử dụng 2 subdomain
Thông tin rất có ít.
Phát huy thêm ha.

Gia Việt (http://giavietreal.com) | Bất động sản (http://batdongsan.giavietreal.com) | Real estate (http://realestate.giavietreal.com)

vothan30289
12-09-2012, 11:28 PM
Làm sao để kiểm tra trong web mình đã có file robot.txt chưa bạn

muoivove
22-01-2013, 01:40 PM
Một kinh nghiệm hay :lam-dieu-thuoc:.Nhưng tốt nhất mỗi tên miền nên tạo 1 web riêng bằng blospot cũng được sẽ hay hơn

cardmanhinh.com
09-02-2013, 07:35 PM
chỉ cần xét domain ngay thẻ meta robots cho nó index hay noindex là xong rùi, cần gì làm phức tạp thế nhỉ. Nếu url = abc.com thì robots = index, ngược lại là noindex

kiennguyentu
05-03-2013, 09:36 AM
tks you, Một bài viết hay, rất đáng học hỏi!

mr.estate
05-03-2013, 11:13 AM
Làm sao để kiểm tra trong web mình đã có file robot.txt chưa bạn



Pác vào source public_html là thấy thôi :))

thanhthuyhanu
22-03-2013, 02:20 PM
thanks bạn nhé, mình cứ thắc mắc không hiểu những site dùng nhiều domain thì làm thế nào với file robots. nay thì đã có câu trả lời

songanh
22-03-2013, 02:28 PM
bạn dùng file robots.txt vậy chưa dc đâu mà phải dùng .htaccess để chuyển thì hay hơn

giasuductri
22-03-2013, 08:21 PM
quá hay, cảm ơn bạn đã chia sẻ

giaiphap_hien
11-04-2013, 03:11 PM
thanhk you very muck. thanhk you very muck. thanhk you very muck. thanhk you very muck.

mm22mm
24-06-2013, 05:09 PM
Mỗi tên miền một web site là hợp lý nhất, có thể dùng redirect hướng về web chính cũng rất tốt

Hạo Nhiên
24-06-2013, 07:29 PM
Có phải là tập robots.txt đặt duy nhất ở root hay đặt trong các thư mục cũng được ? . trường hợp của mình giờ thì thế nào hả mọi người :)

mình có 1 thư mục để trong root ngang hàng index.php , thư mục này chạy sub domain , giờ mình ko muốn google index subdomain đó, cũng như ko muốn google index thư mục đó , mình chỉ cần đặt 1 tập robots.txt trong thư mục đó là xong phải ko ?

diendantdv
11-07-2013, 03:56 PM
robots.txt giờ thì mình đã hiểu

bachvab
11-07-2013, 04:21 PM
Tên miền chính là tên miền mà khi chúng ta đánh bất kì tên miền nào trong 3 tên miền đó. Thì nó đều chỏ vào tên miền chính đúng không anh