Robots.txt Dosyası

Robots.txt Dosyası; Google gibi arama motorları websitelerini indekslemek için bir web sitesine ulaştıklarında ilk olarak kök dizinde bulunan robots.txt dosyasından indexlemeye başlarlar.
Bu dosya robotlara hangi sayfaların indekslenip hangilerinin indekslenmeyeceğini anlatmak için yerleştirilir. Robotlar sadece kök dizindeki robots.txt dosyasına bakacakları için alt dizinlere bu dosyayı yerleştirmek anlamsızdır. Eğer alt dizinlerden birisine ait url (veya url’lerin) indekslenmesini istemiyorsanız bunlar da kök dizindeki robots.txt dosyasında bildirmeniz gerekiyor. Ya da alternatif olarak indekslenmesini istemediğiniz sayfalarda Meta Tag kullanabilirsiniz. Çoğu ücretsiz blog servisi kök dizine erişime izin vermediğinden Meta Tag’lardan yararlanmak gerekecetir.

Örneğin bir robots.txt adresi şu şekilde olmalıdır;

robots.txt

Örneklerdeki robots.txt dosyaları ise, bulundukları hatalı pozisyon nedeni ile, robotlar tarafından dikkate alınmayacaklardır;

robots.txt dosyası sadece belirli bir şekilde düzenlenmiş metin içeriğine sahip olmalıdır ve asla HTML kodları içermemelidir. Aşağıdaki örnekleri inceleyelim;

Tüm robotların web sitenizin tamamını indekslemesi için;

User-agent: *
Allow: /
"User-agent: *" tüm robotların sitenizi indexlemesini onay verir. "Allow: /" ise robota sitedeki tüm sayfaları indexlemesini söyler.

/robots.txt dosyasını kullanırken iki noktaya dikkat edin:
  • Robotlar /robots.txt dosyasını pas geçebilir. Özellikle kötü niyetli robotlar web sitesi ile ilgili güvenlik açıklarını, e-posta adreslerini arar.
  • /robots.txt dosyası herkesin görüntüleyebileceği bir dosyadır. Herkes dosyada belirtilenleri kolaylıkla okuyabilir, bu yüzden /robots.txt dosyasında bilgi gizlemenize gerek yok.

Kötü niyetli robotları engelleyebilir miyim ?

Teoride evet, pratikte ise kötü niyetli robotları engelleyemezsiniz. /robots.txt dosyasında "User-Agent" alanında engellemek istediğiniz robotu belirtirsiniz, ancak kötü niyetli robotlar /robots.txt dikkate almazlar, bu da işe yaramaz.

Kötü niyetli robot tek bir IP'den işlem yapıyorsa web server ya da firewall'dan IP'yi yasaklayabilirsiniz. Kötü robotlar farklı IP'lerden sitenize geliyorsa gelişmiş bir firewall ile bu IP'leri yasaklayabilirsiniz ancak bu defa da bazı iyi niyetli robotları engellemiş olabilirsiniz.

/robots.txt dosyasını nasıl oluşturabilirim

/robots.txt dosyasını websitenizin en üst dizininde bu dosyayı oluşturabilirsiniz.

Tüm robotların sitenizi indekslemesi için;

User-agent: *
Allow: /

Tüm robotların sitenizi indexlemesini engellemek için;

User-agent: *
Disallow: /

Sitenizin belli bir kısmının ya da dizinin indekslemesini engellemek için;

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

Sitenizi Google gibi tek bir robotun indekslemesini istiyorsanız;

User-agent: Google
Disallow:

User-agent: *
Disallow: /

Sitenizi sadece Google, Yahoo, MSN gibi robotların indekslemesini istiyorsanız;

User-agent: baiduspider
User-agent: Googlebot
User-agent: msnbot
User-agent: Yandex
User-agent: AskJeeves
Disallow: /

Biri hariç tüm dosyaların indexlenmesini dışlamak için

User-agent: *
Disallow: /~joe/stuff/
Alternatif olarak açıkça izin verilmeyen tüm sayfalarını engellemek için:
User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html