В данной статье рассматриваются вопросы индексации нового сайта и разбирается несколько вопросов касательно переезда сайтов на HTTPS.
Содержание
Настройка индексирования нового сайта
При работе над новым сайтом у вас возникает огромное количество вопросов:
- Как организовать каталог?
- Куда разместить информационные статьи?
- Что делать с фильтрами?
Но один вопрос возникает практически у каждого вебмастера:Что делать со страницей пагинации, фильтрами и сортировкой?
Пагинация
Для страниц пагинации рекомендуется использовать атрибут rel=»canonical» тега link с указанием на главную страницу каталога, где будут собраны все Ваши товары из определенного раздела или это будет первая страница пагинации в зависимости от того, как организован ваш каталог.
Тег rel=»canonical» вы можете использовать для исключения страниц пагинации из результатов поиска. Теги rel=»next» и rel=»prev» робот Яндекса игнорирует
Рис. 1. Практический пример: несколько страниц пагинации. Для их исключения достаточно «canonical». В этом случае в поиске будет участвовать первая страница вашего каталога или первая страница пагинации.
Сортировки, фильтры, UTM-метки
Что делать со страницами фильтров и сортировки? Для них нужно использовать файл robots.txt, чтобы индексирующий робот не посещал подобные страницы, не загружал и не добавлял информацию о них в свою базу, а также страницы не появлялись в поисковой выдаче.
Рассмотрим страницы сортировки, выбор по размеру и фильтры. Такие страницы лучше запретить от индексации с помощью следующих правил в файле robots.txt:
- User-agent: *
- Disallow: *size=*
- Disallow: *sort=*
- Disallow: */filter/*
Что делать с UTM-метками? Содержащими параметр, по которому можно отследить, откуда к Вам пришел посетитель, из какой рекламной компании. Для таких меток есть прекрасная директива clean-param.
Файл robots.txt будет выглядеть следующим образом:
- User-agent: Yandex
- Сlean-param: utm_sourse&utm_medium&utm_campaign
Перечисленные метки не будут учитываться роботом. Робот не будет загружать и включать подобные страницы в поисковую выдачу.
Важно: поисковые факторы ранжирования с неканонической страницы учитываются для канонической страницы.
Дубли: Как устранить, что с ними делать?
В зависимости от того, с какими дублями вы столкнулись, можно использовать несколько способов и методов борьбы с ними.
- Используйте 301 редирект в случае, если дубли – это страница со слешем или без слеша в конце адреса страницы.
- Если это служебные страницы, то используем запрет в файле robots.txt.
- Можно использовать rel=»canonical» для дублей одного и того же товара в нескольких категориях и для указания только одного товара, который нужно включать в поисковую выдачу.
Важное правило: Если страницы не были доступны для посетителей Вашего сайта, они не могли взять эту ссылку и разместить на тематическом форуме, не пересылали ее друг другу, то такие страницы лучше запрещать в файле robots.txt. Если страницы были доступны для пользователей, то можно использовать rel=»canonical» или 301 перенаправление на канонические адреса.
Файл robots.txt для нового сайта
Рассмотрим небольшой чек-лист robots.txt для нового сайта.
- Запрещайте к индексации страницы сортировки фильтров, подбора товаров, различные UTM-метки, идентификаторы сессий.
- Обязательно запрещайте страницы действий: добавление в сравнение, добавление в корзину, поиск по сайту.
- Нужно запрещать данные пользователей: личный кабинет, различные данные по доставке, адреса, телефоны.
- Указываем директиву Host с адресом главного зеркала, по которому ваш сайт будет участвовать в поиске.
- Указываем директиву Sitemap с адресом соответствующего файла.
Проверить составленный файл robots.txt можно в сервисе Яндекс.Вебмастер с помощью соответствующего инструмента. Посмотрите, какие правила робот использует при обходе Вашего сайта.
Дополнительно: Если проанализировать загруженные роботом страницы, то можно увидеть, что на них содержатся адреса страниц с действиями: голосовалки, экшены, лайки и дизлайки. Такие страницы лучше запрещать в файле robots.txt, поскольку обращения от роботов могут быть восприняты как обращения от обычных посетителей.
Работа с проиндексированным сайтом
Все пользователи поисковой системы хотят, чтобы в результатах поиска участвовала наиболее актуальная и свежая информация. Поэтому перед каждым из Вас встает вопрос: Как устроить индексирование вашего сайта?
Существует три пункта, следуя которым можно повлиять на скорость индексирования вашего ресурса.
1. Запрет индексирования ненужных страниц
Первый – это самый главный пункт: не разрешайте роботу индексировать то, что не нужно.
Рис. 2. Разбор на практике. Существует сайт, где большая разница между числом загруженных страниц и страниц в поиске.
Почему так много загруженных страниц? Список всех загруженных страниц можно скачать из Яндекс.Вебмастера.
Как еще можно получить загруженные страницы? Каким образом их можно увидеть? В данном случае страниц в поиске всего 270. Где остальные 300 тысяч?
Берем архив из Яндекс.Вебмастера и видим, что по данному сайту существует огромное количество адресов следующего вида:
- http://dsplit.ru/?part=110 — HTTP-200
- http://dsplit.ru/?part=114 — Разрешены в robots.txt
- http://dsplit.ru/?part=119 — Содержит контент главной страницы
Это случайный параметр, который ничего не меняет на странице: ничего не происходит, контент не меняется. Такие страницы разрешены в robots.txt, отвечают кодам 200. Робот загружает и добавляет их в свою базу.
Если проанализировать архив, можно увидеть огромное количество загруженных страниц, из них процентов 80–90 % – это страницы действий (в данном случае – это страницы покупки). Они перенаправляют на страницы корзины и доступны для робота. Робот находит ссылки на них, «кликает» и добавляет их в свою базу.
Все подобные страницы лучше запрещать в файле robots.txt. Со временем данные о них будут удалены из базы робота и они пропадут из сервиса Яндекс.Вебмастер. Количество загруженных страниц уменьшится.
Индексирование и участие загруженных страниц в поиске
Почему так мало страниц в поиске? Если проанализировать исходный код страниц сайта с товарами, то можно увидеть стандартные метатеги для всего каталога и текстовое описание внизу страницы.
Рис. 3. Стандартные метатеги для всего каталога и текстовое описание внизу страницы
Если Вы хотите, чтобы такие страницы с товарами индексировались и участвовали в поиске, над страницами нужно поработать:
- Уникализировать метатеги, которые установлены на странице.
- Добавить больше текстового описания, рекомендации, отзывы от покупателей и так далее.
- Нужно хотя бы добавить фотографию, чтобы узнать об отсутствии ошибки с выбором ножки.
Нужно работать над такими страницами, и они смогут появиться в поисковой выдаче.
2. Анализ логов сервера
Страницы, к которым обращается индексирующий робот
Повлиять на индексирование Вашего сайта можно с помощью анализа логов сервера.
Что можно понять с помощью логов сервера?
Во-первых, можете увидеть, к каким именно страницам обращается индексирующий робот.
Рис. 4. Пример логов сервера. Четыре запроса от робота
Если посмотреть повнимательнее, можно увидеть, какие параметры в них содержатся: параметры подбора, фильтров, кастинг-подбор и так далее.
Сразу видно, по каким служебным адресам идут запросы.
Из четырех запросов четыре были сделаны роботом к служебным страницам.
Вывод: Запрещайте индексацию служебных страниц в файле robots.txt.
Частота обращений от индексирующего робота
Второе, что можем увидеть в логах сервера, – это частоту обращений от индексирующего робота.
Как правило, к большому сайту робот совершает 1–2 обращения в секунду в зависимости от того, сколько страниц он знает на этом сайте. Если Вы видите, что в логах робот обращается реже, проверьте, установлена ли у Вас директива Crawl-delay. Очень часто она мешает индексировать большие ресурсы.
Также бывают ограничения со стороны хостинг-провайдера. Например, Вы добавили новый раздел на Ваш сайт, робот узнал о его наличии из файла Sitemap, начал обращаться, совершать 3–4 запроса в секунду. Хостер видит запросы робота и начинает отвечать медленнее, так как считает, что сайт подвергся DDOS-атаке.
Как реагирует робот? Робот видит, что сайт работает плохо: отвечал быстро, теперь – медленно. Робот уменьшает количество запросов, так как «думает», что он влияет на работу сайта. При уменьшении количества запросов, частота и скорость обновления информации в поиске падают.
Проверьте, нет ли у Вашего хостера аналогичных ограничений.
HTTP-коды ответов
Третье, что можно увидеть в логах сервера, – это HTTP-коды ответов. Каким образом это работает?
Известно, что доступная страница отвечает кодам 200. Но если, при большом количестве запросов, Ваш сайт начинает отвечать кодам 500, 503, 502 – то робот также снижает количество обращений к Вашему сайту, так как «думает» о проведении работ, о занятости сайта и о том, что лучше к нему реже обращаться. Обязательно смотрите на коды ответа.
Также можно посмотреть скорость ответа сервера – возврат первого и последнего байта. При этом Ваш сервер должен отвечать быстро не только на запрос одной страницы в несколько секунд, но и на запрос нескольких страниц в секунду. Готовьтесь к тому, что при добавлении нового раздела робот может увеличить частоту обращений. Если сервер отвечает медленно, индексирующий робот будет реже к нему обращаться.
3. Файл Sitemap
Вопрос: Добавляем новый раздел на сайт. Что же указывать в файле Sitemap: все адреса страниц или только новые страницы сайта?
Ответ: Здесь можно выбрать любой из вариантов: индексирующий робот, при получении Вашего файла Sitemap со списком всех страниц, проверяет известные ранее страницы и те страницы, которые только что появились на сайте.
При получении новых страниц робот начнет индексировать любые файлы: большой файл по всему сайту или отдельный файл с новым разделом. Новый раздел на сайте может появляться не только при постепенном добавлении информации на сайт, но и при редизайне, смене структуры.
Чек-лист при смене дизайна сайта и структуры
- Обязательно используйте 301 редирект, если меняются адреса страниц на Вашем сайте.
- Новые страницы указывайте в файле Sitemap.
- Если Вы ранее готовили новую версию сайта на техническом поддомене, а теперь заливаете ее на Ваш работающий сайт, то проверьте файл robots.txt. Очень часто возникает ситуация, когда вместе с техническим доменом и новым дизайном попадает запрещающий файл robots.txt. Сайт пропадает из поиска, и Вы теряете посетителей.
- Следите за тем, чтобы все метатеги на нужных страницах были прописаны.
- Текст должен быть доступен для робота.
- Важная информация не должна загружаться с помощью JavaScript. Робот не использует скрипты при обходе сайта и не увидит тот полезный контент, который Вы хотите ему отдать.
- Проверьте <noindex>.
- Проверьте, что rel=»canonical» ведет на нужные канонические страницы.
- Следите за появлением битых ссылок, которые потом могут попасть в базу индексирующего робота.
Переезд сайта на HTTPS
Как переехать на https, чтобы проблемы не возникали?
До начала переезда следует проверить:
- Во-первых, корректен ли сертификат, который Вы получили. Не будут ли посетители сайта видеть предупреждения в браузере о невалидности сертификата и его принадлежности другому сайту, или существует проблема в цепочке сертификатов. Проверить можно с помощью популярного сервиса www.ssllabs.com.
- Во-вторых, если Вы используете партнерский контент, например, загружаете видео с других сайтов, убедитесь, что они умеют работать по протоколу https. Очень часто партнеры не могут отдать тот или иной контент по защищенному протоколу.
- В-третьих, проверьте, что внутренние ссылки на https-версии ведут на https-страницы и они же указаны в файле Sitemap.
Поэтапный план переезда:
- Добавляем сайт https в Яндекс.Вебмастер.
- Устанавливаем директиву Host с указанием защищенного протокола в robots.txt.
- Используем инструмент «Переезд сайта».
- Ждем окончания переезда. В большинстве случаев это занимает 3–4 недели.
После того, как данные в Вебмастере обновятся, Вы можете установить перенаправление с http-версии на HTTPS.
Источник (видео): Мастер-класс — настраиваем индексирование: от теории к практике — Александр Смирнов.
Запрет индексирования страниц генерируемых фильтрами для интернет магазинов — спорная рекомендация. Зачастую поисковые запросы лучше вести на такие страницы, например когда ищут по бренду или по цвету одежды.