Зная значения User-agent для поисковых ботов, можно запретить, либо наоборот, открыть доступ тому или иному боту, например следующими строками:
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Disallow:
Верхние строки запретят всем ботам индексировать контент, кроме бота AdSense (если на сайте показываются объявления AdSense).
Ниже приведен список наиболее часто встречаемых ботов, принадлежащих известным поисковым системам.
Поисковик | URL | User-agent |
---|---|---|
http://www.google.com | Googlebot | |
Yahoo! | http://www.yahoo.com | Slurp Yahoo! Slurp |
AOL | http://www.aol.com | Slurp |
MSN | http://www.msn.com | MSNBot |
Live | http://www.live.com | MSNBot |
Ask | http://www.ask.com | Teoma |
AltaVista | http://www.altavista.com | Scooter |
Alexa | http://www.alexa.com | ia_archiver |
Lycos | http://www.lycos.com | Lycos |
Яндекс | http://www.ya.ru | Yandex |
Рамблер | http://www.rambler.ru | StackRambler |
Мэйл.ру | http://mail.ru | Mail.Ru |
Aport | http://www.aport.ru | Aport |
Вебальта | http://www.webalta.ru | WebAlta WebAlta Crawler/2.0 |
Примечание:
У некоторых крупных поисковых систем помимо основных поисковых ботов существуют также роботы для индексации блогов, новостей, изображений и т.д. Вот некоторые из них:
Googlebot-Mobile выполняет обход страниц для включения их в индекс для мобильных устройств.
Googlebot-Image сканирует страницы для включения в индекс картинок.
Mediapartners-Google сканирует страницы для определения содержания AdSense объявлений.
Adsbot-Google сканирует страницы для определения качества целевых страниц AdWords.
MSNBot-NewsBlogs – сканирует для поиска новостей в сети Интернет.
MSNBot-Products – сканирует для поиска продуктов, которые можно приобрести в Интернете.
MSNBot-Media – сканирует страницы для поиска мультимедийных файлов.
Ссылки по теме поисковых ботов:
List of Robot Agent Strings
Robots Database