Файл robots.txt — это своего рода «инструкция по эксплуатации» вашего сайта для поисковых систем. Несмотря на свою внешнюю простоту (обычный текстовый документ), он является одним из самых мощных инструментов в арсенале SEO-специалиста. Одна ошибка в этом файле может привести к полному исчезновению сайта из поиска, а грамотная настройка — значительно ускорить индексацию важных страниц.
В этой статье мы разберем все нюансы: от базового синтаксиса до продвинутых хитростей и типичных ошибок.
Что такое robots.txt и зачем он нужен?
Robots.txt — это текстовый файл в кодировке UTF-8, который размещается в корневом каталоге сайта. Он использует протокол исключения роботов (Robots Exclusion Protocol), чтобы сообщить поисковым паукам (Googlebot, YandexBot и др.), какие страницы или файлы им не следует запрашивать с вашего сервера.
Основные задачи файла:
-
Управление краулинговым бюджетом: Поисковики выделяют определенный лимит времени на обход вашего сайта. Robots.txt помогает направить робота на полезные страницы, не тратя ресурсы на технический мусор.
-
Скрытие дублей и технических страниц: Закрытие от обхода страниц поиска, корзин, личных кабинетов и админ-панелей.
-
Указание пути к карте сайта (Sitemap): Помогает роботам быстрее находить актуальный контент.
-
Предотвращение перегрузки сервера: Актуально для очень больших ресурсов, где слишком частые запросы роботов могут замедлить работу сайта.
Важно помнить: Robots.txt — это рекомендация. Большинство добросовестных поисковиков следуют правилам, но вредоносные боты их игнорируют.
Где должен находиться файл?
Файл всегда должен располагаться строго по адресу: https://ваш-сайт.ru/robots.txt.
-
Только корень: Попытка разместить его в папке (например,
/assets/robots.txt) не даст никакого эффекта. -
Регистр букв: Название должно быть в нижнем регистре.
ROBOTS.TXTилиRobots.Txtроботы могут не распознать. -
Один домен — один файл: Если у вас есть поддомены (например,
blog.site.com), у каждого из них должен быть свой собственный robots.txt.
Синтаксис и основные директивы
Файл состоит из блоков правил. Каждый блок начинается с указания робота, к которому относятся правила.
Основные команды:
-
User-agent: Указывает, для какого робота написаны следующие строки.-
User-agent: *— правила для всех ботов. -
User-agent: Googlebot— только для Google. -
User-agent: Yandex— только для Яндекса.
-
-
Disallow: Запрещает доступ к определенным разделам или файлам.-
Disallow: /admin/— закрывает всю папку admin. -
Disallow: /— закрывает весь сайт (используется при разработке).
-
-
Allow: Разрешает доступ к подпапке внутри закрытого раздела.-
Например, если закрыта папка
/media/, но нужно открыть/media/photos/.
-
-
Sitemap: Указывает полный URL-адрес карты сайта.-
Sitemap: https://site.com/sitemap.xml
-
Спецсимволы (Wildcards)
Для гибкой настройки используются два ключевых символа:
-
Звездочка (
*): Обозначает любую последовательность символов.-
Disallow: /user/*— закроет все страницы, начинающиеся на/user/.
-
-
Знак доллара (
$): Обозначает конец строки.-
Disallow: /*.pdf$— закроет только файлы, заканчивающиеся на.pdf, но не тронет страницу/file.pdf?id=123.
-
Robots.txt vs. Noindex: В чем разница?
Это самый важный момент для SEO.
-
Robots.txt запрещает сканирование (обход). Робот просто не заходит на страницу. Однако, если на эту страницу ведут ссылки с других сайтов, Google может проиндексировать её «пустой» (без текста, только URL в выдаче).
-
Тег
<meta name="robots" content="noindex">запрещает индексацию. Робот заходит на страницу, видит тег и удаляет её из поиска.
Золотое правило: Если вы хотите, чтобы страница гарантированно исчезла из поиска, не закрывайте её в robots.txt. Сначала дайте роботу зайти на неё и увидеть тег
noindex.
Распространенные ошибки
-
Закрытие CSS и JS файлов: Раньше это было нормой, но сейчас Googlebot должен видеть сайт «глазами пользователя», чтобы оценивать адаптивность и контент. Не блокируйте доступ к стилям и скриптам.
-
Лишние пустые строки внутри блока: Каждая пустая строка может восприниматься как окончание блока правил.
-
Неправильный порядок: Роботы читают файл сверху вниз. Сначала пишите более специфичные правила (
Allow), затем общие (Disallow). -
Блокировка важных страниц: Случайное закрытие
/catalog/может обрушить продажи в один день.
Как проверить правильность файла?
Перед тем как выкатывать изменения на рабочий сайт, обязательно протестируйте их:
-
Google Search Console: Инструмент «Проверка файла robots.txt» (находится в старой версии консоли, но всё еще доступен).
-
Яндекс.Вебмастер: Раздел «Инструменты» -> «Анализ robots.txt». Позволяет проверить, разрешен ли конкретный URL к индексации.
Файл robots.txt — это не та вещь, которую можно настроить один раз и забыть. При каждом обновлении структуры сайта, внедрении новых фильтров в интернет-магазине или смене CMS, этот файл требует изменения.
Держите его лаконичным, не пытайтесь спрятать там «секретный контент» (любой человек может его прочитать, просто введя адрес в браузере) и всегда проверяйте инструкции через панели для вебмастеров.