Глоссарий
[мэни-мэни вордс]
АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ

Robots.txt


Robot.txt – размещенный на сайте текстовый файл, в котором вебмастер прописывает рекомендации для роботов по взаимодействию с сайтом.

Зачем нужен файл robots.txt

Правильный robots.txt для сайта помогает поисковым роботам корректно индексировать сайт:

  • Будет закрыта от индексации (а значит, и потенциального попадания в поисковую выдачу) информация на сайте, которая не предназначена для посторонних: личные данные пользователей, системная информация, результаты поиска по сайту и т.д.,
  • Важные страницы будут сканироваться в первую очередь,
  • Дубли страниц не будут мелькать в поисковой выдаче,
  • Если у сайта есть зеркала, файл покажет, какое из них считать главным,
  • Ускорится время индексации всего сайта.


Некорректно составленный файл robots.txt или его отсутствие может привести к тому, что поисковые роботы проиндексируют то, что совсем не нужно было. Например, в 2011 году в поисковую выдачу попали личные данные клиентов интернет-магазинов (ФИО, адрес и контактные данные клиента магазина, IP-адрес, наименование его покупки, дата и время заказа), а также SMS-сообщения абонентов Мегафона, которые они отправляли с сайта компании.

Как создать файл robots.txt

Составление корректного robots.txt начинается с создания простого текстового файла с именем robots.txt. Затем его нужно заполнить в соответствии с рекомендациями поисковых систем.

В файле robots.txt не допускается использовать кириллических символов. Для доменов можно использовать Punycode.

Директивы файла robots.txt

Основа файла robots.txt – это директивы, которые показывают поисковым роботам, как нужно индексировать сайт.

В самом простом файле robots.txt используются следующие директивы:

  • User-agent
  • Disallow
  • Allow


Директива User-agent используется для обозначения роботов, которые должны следовать инструкции. Например, если в файле указано User-agent: YandexBot, последующие указания будут касаться только основного индексирующего робота Яндекса. Если в данном пункте мы поставим *, правило будет распространяться на всех роботов.

Директива Disallow запрещает роботу, обозначенному в директиве user-agent, сканировать весь сайт, его части или отдельные URL. Например, так будет выглядеть запрет на индексацию всего сайта: Disallow: /

Директива Allow разрешает роботу, обозначенному в директиве user-agent, сканировать сайт или отдельные URL. Используется достаточно редко, т.к. робот по умолчанию получает разрешение на индексацию тех частей сайта, которые не закрыты директивой disallow.


При составлении правил в директивах Allow и Disallow можно использовать спецсимволы «*» и «$».

  • Звездочка (*) обозначает любую последовательность символов и ставится по умолчанию в конце каждой строки. Например, если нужно закрыть подкаталоги, начинающиеся с определенных символов: Disallow: /example*/
  • Спецсимвол «$» используется, если нужно закончить строку определенным символом. Например, если нужно закрыть URL, заканчивающиеся на : Disallow: /*.doc$
  • Спецсимвол # используется для комментариев вебмастера.


Также вебмастерам доступны дополнительные директивы robots.txt:

  • Директива Host в robots.txt используется, чтобы показать роботу главное зеркало сайта.
  • Директива Crawl-delay сообщает роботу, с каким промежутком времени он должен загружать страницы.
  • Директива Clean-param будет полезна сайтам, страницы которых содержат динамические параметры, которые не влияют на их содержимое (например, идентификаторы сессий). Директива позволяет роботам не перезагружать дублирующуюся информацию.

Проверка корректности файла robots.txt

После того как файл robots.txt заполнен, можно проверить, насколько правильно он составлен с помощью специальных инструментов. У поисковых систем есть бесплатные сервисы для проверки robots.txt:

  • Анализ robots.txt в Яндекс.Вебмастере,
  • Инструмент проверки файла Robots.txt в Google Search Console.

rob.png

Добавление файла robots.txt на сайт

Если файл robots.txt составлен корректно, его можно добавить на сайт – загрузить в каталог верхнего уровня сайта или в корневой каталог. Посмотреть файл можно по адресу http://www.site.ru/robots.txt.

Синонимы: нет

Все термины на букву «R»

Все термины в глоссарии

Читайте нас в Telegram - digital_bar
Читайте нас в Telegram - digital_bar