Политика доступа роботов к сайту определяется файлом robots.txt
в корневой директории сайта (локальный URI - "/robots.txt"). Файл состоит
из секций, разделяемых пустыми строками (т.е. пустые строки имеют значение!).
Секции состоят из строк:
<имя-поля>:[<пробел>]<значение>[<пробел>]
Имя поля нечувствительно к регистру символов. Символ "#" обозначает начало комментария, продолжающегося до конца строки. Секция начинается с одной или нескольких строк, содержащих поле User-agent ( некоторые роботы считают, что строка м.б. только одна, но в ней можно использовать несколько имен через пробел). За ней (ними) следуют одна или несколько строк, содержащие поле Disallow. Другие поля игнорируются. В конце последней секции лучше поставить пустую строку.
<имя-поля>:[<пробел>]<значение>[<пробел>]
Имя поля нечувствительно к регистру символов. Символ "#" обозначает начало комментария, продолжающегося до конца строки. Секция начинается с одной или нескольких строк, содержащих поле User-agent ( некоторые роботы считают, что строка м.б. только одна, но в ней можно использовать несколько имен через пробел). За ней (ними) следуют одна или несколько строк, содержащие поле Disallow. Другие поля игнорируются. В конце последней секции лучше поставить пустую строку.
Поле User-agent определяет имя робота, к которому
должны применяться описанные в данной секции поля Disallow. Имя робота задается
в HTTP запросе в поле User-Agent. Регистр символов не имеет значения.
Некоторые роботы умеют искать наиболее подходящую секцию по частичному
имени. Использование
символа "*" в качестве значения поля определяет правила доступа для
роботов, не перечисленных в файле явно. Такая секция м.б. только одна.
Регулярные выражения или шаблоны использовать нельзя.
Поле Disallow определяет начало строки URI. Доступ
робота к URI, начинающимся с этой строки, закрыт. Кодированные (%xx) октеты
декодируются перед сравнением.
Регулярные выражения или шаблоны использовать нельзя. Пустое поле означает,
что робот может извлекать любой документ. Некоторые
роботы считают,
что в одной строке можно указывать несколько начал URI через пробел.
Пустой файл означает, что разрешено все. Не все
роботы читают этот файл. Файл может быть кеширован роботом. По умолчанию,
время хранения в кеше - 7 дней, но может быть изменено стандартными
механизмами HTTP. Указывая в robots.txt куда не надо ходить, Вы подсказываете
хакерам "скрытые" места Вашего сайта! В будущем
предполагается появление поля "Allow".
Некоторые роботы не заглядывают в этот файл
(например, закладки яндекса или Ask Jeeves),
заглядывают редко или заглядывают, но не понимают того, что там написано.
Приемы использования
|
Как отвадить поисковых роботов от копий сайта в других
кодировках.
Имеется сайт в 6 кодировках русского языка (www.deol.ru,
cp1251.deol.ru, koi8.deol.ru, alt.deol.ru, mac.deol.ru, lat.deol.ru) и хочется,
чтобы поисковые роботы индексировали сайт только один раз. Файл robots.txt
для основного сервера:
User-Agent: *
Disallow:
Настраиваем
дополнительные виртуальные сервера в httpd.conf следующим образом:
ServerName lat.deol.ru
Alias /robots.txt /usr/local/apache/htdocs/robots.lat.txt
файл robots.lat.txt имеет вид:
User-Agent: *
Disallow: /
META тэг ROBOTS
|
Если у Вас нет возможности записать файл robots.txt в коревую
директорию сайта, то поисковыми роботами можно управлять с помощью тэга
META. К сожалению, он не позволяет различать роботов по их User-Agent.
<META NAME="ROBOTS" CONTENT="указание роботу">
где указание роботу (по умолчанию - ALL) - список через запятую ключевых слов:
- INDEX - данный документ можно индексировать
- FOLLOW - робот может идти по ссылкам из данного документа
- NOINDEX
- NOFOLLOW
- ALL - INDEX и FOLLOW
- NONE - NOINDEX и NOFOLLOW
Какие поисковые роботы используют этот тэг я не знаю.
Предлагаемые META тэги
|
- <META NAME="DOCUMENT-STATE" CONTENT="DYNAMIC">
- <META NAME="DOCUMENT-STATE" CONTENT="STATIC">
- <META NAME="URL" CONTENT="absolute url"> (вместо текущего документа индексировать указанный URI)
Ссылки
|
- META тэг для роботов
- стандарт на robots.txt
- (были на http://www.kollar.com/robots.html) предложения по развитию стандарта (1998 год)
- (были на http://www.robotstxt.org/wc/norobots-rfc.txt) предложения по развитию стандарта
- META robots