Настройки корректного индексирования всего сайта можно разделить на три большие основные группы.
- Во-первых, робот должен индексировать нужные страницы сайта с нужным контентом.
- Во-вторых, эти страницы должны индексироваться быстро.
- В-третьих, робот не должен посещать ненужные страницы сайта.
Кажется, что все довольно просто. Но на самом деле большинство веб-мастеров сталкиваются с одними и теми же проблемами при настройке индексирования. Нужно посмотреть на них внимательно.
Содержание
Индексирование нужного контента
Это индексирование нужных страниц, с нужным содержанием и включение их в результаты поиска. Все роботы, которые посещают ваш сайт, как правило, исполнительные и соблюдают те инструкции, которые вы предоставляете для них. Поэтому часто ошибки возникают вследствие того, что роботу предоставлены некорректные инструкции для индексирования.
Файл robots.txt
Самая главная инструкция для индексирующего робота – это файл robots.txt. Это такой служебный файлик, который находится в корне вашего сайта, содержащего инструкции, где указано, что можно индексировать, а что нет, а также как часто можно индексировать страницы вашего сайта.
О файле robots.txt мы уже говорили много-много раз. Но не зря больше 20 обращений в день служба Яндекс.Вебмастера получает именно по вопросам, связанным с файлом robots.txt, о том, как составить, что запрещать, почему страницы пропали из поиска и подобном.
Далее разберем наиболее частые кейсы.
Ошибки в файле robots.txt
Запрет нужных страниц для посещения
Это наиболее распространенная ошибка в robots.txt. Представьте себе ситуацию с А/В-тестированием, когда и посетители, и робот с главной страницы сайта перенаправляются на какую-то внутреннюю страницу с параметром, где в зависимости от значения параметра страницы выводятся в том или ином формате. Но часто такую страницу с параметром запрещает в файле robots.txt, в результате чего и главная страница, и страница, куда осуществляется перенаправление, исключаются из поисковой выдачи. Кажется, что это не самый лучший вариант. В таком случае обязательно необходимо проверить, что нужная страница разрешена ко входу.
Закрытие промежуточных страниц для индексирующего робота
Это вторая по популярности проблема. В данном примере страница page.html находится внутри категории, при этом сама категория запрещена к обходу в robots.txt:
В такой ситуации, если на страницу page не ведут какие-либо доступные роботу ссылки, он просто не узнает о ее наличии, о ее существовании, не сможет проиндексировать, и страница никогда не попадет в поисковую выдачу.
Отсутствие или некорректное указание на главное зеркало
Это третья по популярности проблема. Вы, как владелец сайта либо как маркетолог, принимаете решение, по какому именно адресу ваш сайт должен находиться в поисковой выдаче и показываться по запросам пользователей. Для того чтобы указать на адрес главного зеркала, существует специальная директива в файле robots.txt, которая называется Host. Вы можете указать и задать роботу адрес вашего сайта, который будет находиться в поиске.
При размещении директивы Host следует обратить внимание на такие моменты:
- директива должна быть расположена в robots.txt всего один раз;
- сама по себе директива должна быть корректна, то есть включать префикс www или без www, если он не используется, обязательно указание протокола http или https;
- если вы используете доменное имя на кириллице, оно обязательно должно быть закодировано в Punycode.
Анализатор robots.txt
Не допустить ошибок в файле robots.txt поможет отличный простой инструмент – анализатор robots.txt:
Можно загрузить как уже имеющийся файл, так и просто какой-то текстовый документ для проверки его корректности. Если вы уже загрузили, то можно указать адреса страниц, которые вы хотите проверить. Нажали кнопочку «проверить», посмотрели на результат – страницы доступны для обхода роботом или недоступны, и какие ошибки возникают в файле:
После того как робот скачал файл robots.txt, он обновляет политики обхода, то есть понимает, что можно индексировать, а что нет. Если страницу индексировать можно, он обращается к ней и скачивает ее html-документ. Сам по себе html-документ для робота выглядит следующим образом:
Это определенный набор тегов, скриптов, CSS, текстового содержимого, из которого робот достает самые важные части. Во-первых, робот вытаскивает из html-кода ваших страниц метатеги, достает текстовое содержимое для того, чтобы понять, о чем именно идет речь на странице, и получает ссылочки на внутренние страницы вашего сайта для того, чтобы в дальнейшем их проиндексировать.
При проверке корректности составления html-кода также следует проверить эти три больших пункта. Сама по себе проверка довольно-таки простая: открыть в любом браузере исходный код нужной вам страницы, сделать поиск… Вбить в данном случае тег title и посмотреть, где он начинается, где заканчивается и какое у него содержимое:
Небольшой чек-лист, что и как проверять в исходном коде страниц веб-сайта:
- Во-первых, нужно проверить содержимое тегов title и description, потому что, как правило, из них может формироваться описание вашей страницы в результатах поиска.
- Во-вторых, обязательно проверить количество открывающих и закрывающих тегов noindex. Они должны совпадать. Наиболее частоая причина ненахождения страницы по каким-либо запросам заключается в том, что на странице, в исходном коде, расположен тег noindex, который не закрыт. В результате робот просто не видит большую часть содержимого страницы и не может понять, о чем идет речь на странице.
- В-третьих, необходимо проверить корректность установленных ссылок на внутренней странице вашего сайта. Если вы используете https-протокол, то этот протокол должен быть указан.
- Это же относится и к атрибуту real= “canonical”, если он используется на данном веб-сайте.
- Важный контент на странице не должен загружаться с помощью скриптов либо с помощью AJAX. В этом случае робот просто-напросто не получит текстовое содержимое, не поймет, что вообще за страница и зачем ее включать в поисковую выдачу.
После того как проведена такая проверка, если со страницей все в порядке, она попадает в поисковую выдачу.
Дубли страниц
Дубли – это страницы одного сайта, которые доступны по разным адресам, но при этом содержат абсолютно идентичный контент. Основная опасность дублей заключается в том, что при их наличии может замениться релевантная страница в поисковой выдаче, страница может попасть по ненужному для поставленных целей адресу, конкурировать с основной страницей, которая продвигается по каким-либо запросам. Плюс ко всему, большое количество дублирующих страниц затрудняет обход сайта индексирующим роботом.
Скорее всего, почти все веб-мастера уверены, что на их странице нет никаких дублирующих страниц. Немного может расстроить, что, на самом деле, дубли есть практически на всех сайтах в Рунете. Каким образом их можно найти?
Ищем дубли – «Страницы в поиске»
В Яндекс.Вебмастере есть отличный инструмент, который называется «Страницы в поиске». Если нажмать на кнопочку «Исключенная страница», то получается трафик тех страниц, которые не попадают в поисковую выдачу:
И внизу, выбрав сортировку «Удаленные страницы со статусом дублей», как раз можно понять, какие именно страницы на сайте робот считает дублирующими. Вот найденные на сайте дубли:
Что теперь с ними делать? В зависимости от того, какой именно это тип дублей, существует несколько методов борьбы с ними.
Работа с дублями
Во-первых, если это служебная страница сайта, например, страницы действий, страницы с метками, сортировки и другие подобные страницы, которые не должны участвовать в поисковой выдаче, то их стоит запретить в файле robots.txt.
Во-вторых, если есть дубли, обоснованные тем, что на вашем сайте такая структура, то есть, например, один и тот же товар может находиться в нескольких категориях, либо есть страницы с пагинацией, то для подобных страниц рекомендуется использовать атрибут rel=”canonical” тега link с указанием канонической страницы, то есть именно той страницы, которая должна участвовать в поиске.
И в-третьих, это явные дубли, такие, как страницы со слешем на конце или без слеша, то для них можно использовать 301-й серверный редирект для того, чтобы указать роботу, какая именно страница должна находиться в поисковой выдаче.
Обеспечение индексирования нужного контента
Для того чтобы нужный контент и нужные страницы появились в поиске, необходимо:
- обязательно проверять файл robots.txt на наличие ошибок и на наличие нужных правил;
- проверять исходный код страницы на корректность составления;
- следить за появлением дублей и работать над их устранением.
Ускорение индексирования сайта
Здесь самый важный ваш помощник – это файл Sitemap, определенный служебный файл, в котором содержатся адреса страниц, которые роботу необходимо индексировать.
В большинстве случаев, в современном мире файлы Sitemap генерируются автоматически либо специальными плагинами, либо уже встроенным функционалом в вашу CMS. Также, при желании, файл Sitemap можно создать вручную – обычный текстовый файлик с адресами страниц. Его легко редактировать, размещать и сообщать о нем роботу.
Небольшой чек-лист о том, как можно составить файл Sitemap, чтобы он работал с пользой и помогал роботу индексировать сайт.
- Во-первых, в файл Sitemap обязательно нужно добавлять только то, что роботу действительно необходимо индексировать. Например, если добавляется на сайт новый раздел, то обязательно сразу же надо сообщить о появлении этой страницы роботу с помощью файла Sitemap, просто скопировав адреса.
- Не допускать наличия ошибочных адресов в файле Sitemap. Дело в том, что эти данные сразу же попадают в базу индексирующего робота и потом просто могут привести к определенным проблемам.
- В-третьих, проверять время возврата данного файла Sitemap для индексирующего робота. В большинстве случаев плагины CMS настроены по умолчанию таким образом, что файл Sitemap генерируется каждый раз при обращении к нему. Если на сайте находится несколько сотен тысяч страниц, на генерацию нового файла Sitemap может потребоваться несколько минут. И робот в таком случае, отправив запрос до рассматриваемого файла Sitemap, просто не дождется, пока сервис соберет информацию обо всех страницах и вернет новенький файл в Sitemap. Нужно изменить этот параметр. Обновить файл Sitemap только тогда, когда на сайте появились действительно новые страницы. Это нужно делать регулярно, потому что тогда робот увидит, что файл Sitemap обновляется постоянно, что в нем находятся корректные страницы и будет скачивать его чаще.
- И последнее. До того, как сообщать о наличии нового файла Sitemap роботу, нужно проверять его на корректность указаний. Сделать это можно также с помощью простого инструмента в Яндекс. Вебмастере:
Можно загрузить уже готовый файлик с Sitemap либо, если по URL уже разместили на сайте файл, можно по текстовому содержимому, например:
Самый простой файл Sitemap, проверить его размер, содержание – ошибок нет, одну ссылочку найти из файла Sitemap. Отлично.
После того как роботу отдали список тех страниц, которые нужно посещать, очень важно, чтобы робот мог без ограничения, по частоте обращения к сайту скачивать эти страницы. За частоту запросов со стороны робота отвечает директива craw-delay. Это служебная директива, с помощью которой можно как раз задать интервал между запросами роботом страниц сайта.
Для директивы craw—delay помните правило трех НЕ:
- директива НЕ требуется большинству сайтов;
- НЕ используйте директиву без необходимости;
- НЕ устанавливайте большие значения директив, если все-таки хотите ей воспользоваться.
Например, значение директивы craw-delay 0,5 говорит о том, что роботу можно направлять два запроса в секунду к страницам сайта. Большинство современных сайтов такую нагрузку со стороны роботов обязательно выдержат.
Хочется рассказать небольшой пример из жизни. На одной из конференций вместе с владельцем сайта рассматривался вопрос, почему же его ресурс редко посещается индексирующим роботом. В файле robot.txt была установлена директива craw-delay 20. Когда же был задан вопром, почему такая большая директива, ответ был следующим: «Мы подсмотрели ее у конкурентов и подумали, что так нам тоже будет лучше». Нет, не надо устанавливать вертилу Арт delay, если она не нужна.
Инструмент «Переобход страниц»
Это отличный инструмент, который позволяет сообщить роботу о появлении новых страниц на сайте либо о необходимости проиндексировать повторно уже включенную выдачу страницы:
Можно воспользоваться им и добавлять в него наиболее важные страницы. Например, если проходит в интернет-магазине какая-то акция и под нее создана страничка, то добавить ее в инструмент и сообщить о ее появлении роботу. Это позволяет быстрее попасть в поисковую выдачу.
Обеспечение быстрого индексирования
Чтобы сайт посещался быстро, необходимо помнить о трех правилах.
- Должен быть корректный и регулярно обновляемый файл Sitemap.
- Не использовать директиву Crawl-delay без необходимости.
Зайти в robots.txt и проверить, есть ли такая директива. Если она установлена, задуматься о том, нужна ли она действительно?
- Использовать «Переобход страниц» для посещения роботом наиболее новых важных страниц вашего сайта.
Когда робот начинает посещать ресурс часто, это не всегда, скажем так, положительно влияет на индексирование хороших страниц сайта. Допустим, робот совершает 5 запросов в секунду к этому ресурсу. Кажется, что это отличный результат. Но какой смысл в этих посещениях в секунду, если все они относятся к служебным страницам сайта и робот совсем не уделяет внимания действительно важным страницам. Об этом следующий раздел.
Не индексировать ненужное
В этом разделе метод прост как раз-два-три.
Три пункта:
- используем раздел в Яндекс.Вебмастере «Статистика обхода»;
- получаем адреса страниц, которые робот индексировать не должен;
- составляем корректный файл robots.txt.
Инструмент «Статистика обхода» выглядит следующим образом:
Здесь также есть графики, нужно спуститься вниз страницы до кнопки «Все страницы», и можно увидеть все, что посещал робот за последние дни:
Если среди этих страниц есть какие-то служебные страницы, то их нужно запрещать в файле robots.txt.
Что именно нужно запрещать в robots.txt:
- страницы фильтрации, подбора товаров, сортировки;
- обязательно страницы различных действий (например, добавить в «Сравнение», добавить в «Избранное», добавить в «Корзину»), саму страницу с «Корзиной»;
- запрещаем к обходу все служебные разделы, например, такие, как поиск по сайту, админку ресурса, разделы с данными пользователей, например, информацией о доставке, номера телефонов и т.д.;
- страницы с идентификаторами сессий, например, с UTM-метками, также стоит запретить в файле robots.txt с помощью директивы clean param.
Столкнувшись с вопросом «Нужно ли запрещать и нужно ли открывать страницу к обходу?», следует ответить на простой, но другой вопрос: «Нужна ли эта страница пользователям поисковой системы?». Если эта страница не должна находиться в поиске по запросам, то кажется, что ее можно запретить.
Корректируем обход с помощью robots.txt
Небольшой практический кейс, способный замотивировать. На одном из ресурсов было замечено, что robots.txt совершает практически тысячу обращений в день к страницам с редиректом:
Страницы с перенаправлением – это были страницы с добавлением в «Корзину». Внося изменения в файл robots.txt, видно на графике, что обращения к таким страницам практически сошли на нет. И при этом сразу положительная динамика – это обход нужных страниц, то есть страниц с http-кодом 200:
Видно даже, что робот действительно стал чаще посещать важные и нужные страницы сайта.
Возврат корректных http-кодов
Помимо файла robots.txt, в этом разделе можно еще рассказать о корректных http-кодах ответа. Это тоже, кажется, вещь, о которой говорили уже неоднократно. Сам по себе http-код ответа – это определенный статус страницы для индексирующего робота. Например, если страница отвечает кодом ответа «200», то это означает, что страницу можно индексировать и включать в поиск. Если страница отвечает «404», значит, она удалена, 503 – временно недоступна.
Корректные http-коды
В чем преимущество использования корректных http-кодов?
Во-первых, никогда не будет различных битых ссылок на ресурс, то есть тех ссылок, которые ведут на страницы, выдающие код ответа «200». Если страницы не существует, значит код ответа «404», это робот поймет.
Во-вторых, это поможет роботу с планированием действительно нужных страниц с кодом ответа «200».
И в-третьих, это поможет избежать попадания различного мусора в поисковую выдачу. Об этом следующий слайд, также из практики.
HTTP-200 вместо HTTP-503
Во время недоступности ресурса, проведения технических работ, робот получает заглушку с http-кодом ответа «200». Вот как раз описание этой заглушки видно в результатах поиска. Поскольку страница реагирует код ответа «200», они попадают в выдачу, в результате чего с таким контентом не могут находиться и показываться по каким-либо запросам. В данном случае правильные настройки http-кода «503» при кратковременной недоступности страниц или ресурса, этот код ответа позволит избежать исключения страниц из результатов поиска.
«Важные страницы» – следим за изменениями
В ситуации, когда важные и нужные страницы ресурса становятся недоступны для робота, например, отвечают кодом «503» или «404» либо вместо них возвращается робот в заглушку, то такие ситуации можно отследить с помощью инструмента «Важные страницы»:
Надо добавить те страницы, которые приносят наибольший трафик на ресурс. Настроить уведомления на почту либо в сервис и начать получать информацию о том, что происходит с той или иной страницей: какой у нее код ответа, какой у нее заголовок, когда она посещалась и какой у нее статус в поисковой выдаче.
Возврат HTTP-404 на запрос недоступных страниц
Проверить корректность возврата того или иного кода ответа можно с помощью соответствующего инструмента в Яндекс.Вебмастере. В данном случае проверяем код ответа несуществующих страниц:
Следовало взять, придумать страницу, загнать ее в инструмент, нажать кнопку «Проверить» и получить http-код ответа «404». Здесь все в порядке. Так как страница была недоступна, она корректно ответила 404-м кодом ответа и в поиск уже не попадет.
Ограничить обход ненужного
Для того чтобы ограничить посещение роботом ненужных страниц сайта, активно используйте инструмент «Статистика обхода», вносите изменения в файл robots.txt и следите за тем, чтобы страницы возвращали корректный http-код ответа.
Задачи настройки индексирования
В качестве заключения. Роботу отдали корректные страницы сайта с корректным контентом. В результате была достигнута быстрая индексация и запрет роботу индексировать ненужное. Вот эти все задачи, три больших группы задач, все связаны между собой. Если не ограничивать роботу индексирование служебных страниц, то, скорее всего, у него останется меньше времени на индексирование нужных страниц сайта. Если робот будет получать контент нужных страниц не в полном объеме, он не будет включать страницы в поисковую выдачу быстро. Над индексированием ресурса нужно работать в комплексе, над всеми этими тремя задачами. И в этом случае можно добиться определенных успехов для того, чтобы нужные страницы быстро попадали в поисковую выдачу.