Продолжаем цикл статей про роботов всемирной паутины. В данном цикле мы затронем краткое описание и информацию по наиболее активным роботам.
Сегодня мы расскажем о роботах Яндекса.
Виды роботов Яндекса
Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот;
Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок;
Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов;
Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons);
Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»;
Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова»;
YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса;
YandexBlog/0.99.101 (compatible; DOS3.30,B) – робот, индексирующий xml-файлы для поиска по блогам;
YandexSomething/1.0 – робот, индексирующий новостные потоки партнеров Яндекс-Новостей;
Bond, James Bond (version 0.07) — робот, заходящий на сайты из подсети Яндекса. Официально никогда не упоминался. Ходит выборочно по страницам, Referer не передает, картинки не загружает. Судя по повадкам, робот занимается проверкой сайтов на нарушения – клоакинг и прочее.
IP-адреса роботов Яндекса
IP-адресов, с которых «ходит» робот Яндекса, много, и они могут меняться. Список адресов не разглашается.
Агенты Яндекса
Кроме роботов у Яндекса есть несколько агентов-«простукивалок», которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.
Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге;
Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом;
Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией;
Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.
Директива Host
Во избежании проблем с зеркалом сайта, рекомендуется использовать директиву «Host». Директива «Host» указывает роботу Яндекса на главное зеркало данного сайта.
User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru
Или так:
User-agent: Yandex
Disallow: /cgi-bin
Host: site.ru
HTML-тег <noindex>
Робот Яндекса поддерживает тег noindex, который запрещает роботу Яндекса индексировать заданные участки текста. В начале служебного фрагмента ставится <noindex>, а в конце — </noindex>, Яндекс не будет индексировать данный участок текста. Обязательно соблюдайте вложенность html-тегов.
Неверная конструкция:
<p><noindex>text</p></noindex>
Правильно:
<noindex><p>text</p></noindex>
Или так:
<p><noindex>text</noindex></p>
Примечания
Не является методическим материалом