Web Crawler arama motorları tarafından internetteki bilgileri tarayıp kendi belirledikleri kurallara göre dizinlerine kaydetmek amacı ile kullanılan yazılımlardır.
Web Crawleryazılımları sadece siteleri arama motorları sonuçlarında listelemek haricinde, resim, video, makale, dosya, müzik vb gibi bir çok farklı format ve yapıdaki bilgiyi tarayıp farklı dizinler altında toplamaktadır. Yani bililenin aksine
Google ve Bing haricinde aktif ve etkili bir çok farklı bot internetteki bilgileri düzenlemekle uğraşmaktadır.
Yine aynı şekilde genel olarak aynı amaca hizmet etmesinin yanında içerdiği algoritmik farklılıkları ile arama motorlarının kullandığı farklı robot yazılımlar vardır.
Web robot, web spider veya
bot olarak ta adlandırılan arama motorları robotları olan bu bilgisayar yazılımları websitelerini dolaşarak gerekli bilgileri toplarlar. Bu içeriği toplarken sitenin
alan adından, içeriğine, link yapısı ve
site haritasına kadar bir çok farklı noktayı göz önünde bulundururlar, elbette sitenin indekslenmesi gereken alanları için
Robots.txt dosyasındaki yönlendirmeleri dikkate alırlar.
Başlıca Bilinen Arama Motoru Robotları
- Googlebot, Googlebot-Image, Googlebot-Mobile, Googlebot-Video, Adsbot-Google, Mediapartners-Google, Könguló (Google)
- BingBot/MSNBot, MSRBot (Bing)
- YandexBot (Yandex)
- Baiduspider, Baiduspider-image, Baiduspider-ads (Baidu)
- FAST Crawler (Fast Search & Transfer – Alltheweb)
- Scooter, Mercator (Altavista)
- Slurp, Yahoo-Blogs (Yahoo)
- Gigabot (Gigablast)
- Scrubby (Scrub The Web)
- Robozilla (DMOZ)
- Twiceler (Cuil)
Tüm crawlers adlarını, detayları ve güncel bilgilerini
List of User Agent listesinden bulabilirsiniz.