Правильные решения в продвижении сайтов в интернете!
г. Москва, м. Сокольники, ул. Маленковская, д. 32, стр. 3
Режим работы: с 10:00 до 19:00, пн.- пт. (сб./вс. - выходной)
+7 (499) 391-17-76
8 (800) 707-05-97
e-mail: biz@o-es.ru

Как улучшить индексирование сайта (дубли, HTTP ответ, удаление из поиска)

Дубли страниц

Большинство вебмастеров уже несколько лет борются с дублями страниц сайтов. Что такое «дубль» в понятии индексирующего робота? Мы вкладываем в него один смысл, а робот – другой. Дубли, по сути, это одно или несколько страниц сайта с абсолютно идентичным контентом, но доступным по разным адресам. Чтобы было проще воспринимать это, рассмотрим несколько примеров.

Дубли страниц

Например, если у вас один и тот же товар находится в нескольких категориях. Мультиварка может находиться в подарках на 8 Марта и, например, просто бытовая техника для кухни. При этом страница доступна по двум адресам.

Второй распространенный вариант, который тоже для многих сайтов актуален, это страницы со слешом на конце и без слеша. Для робота это тоже дубли, и он эти страницы воспринимает как абсолютно отдельные и индексирует их, и может включать в поиски независимо друг от друга.

И последний вариант – это страницы с какими-либо произвольными параметрами. Попробуйте у себя на сайте добавить какой-либо несуществующий произвольный параметр и посмотрите, а страница открывается, она доступна и возвращает двести.

Очень часто происходит так, что такие страницы доступны. Если на ваш сайт где-то поставили на форуме некорректную ссылку, робот обнаружит эту ссылку и эта страница может попасть в поисковую выдачу по запросам.

Какие проблемы вызывают в дубле? Самая большая проблема – это то, что робот начинает посещать множество ненужных других страниц. Посещать их, тратить на них свое время, свои ресурсы вместо того, чтобы индексировать нужные вам страницы, обходить их, обновлять в поисковой выдаче. Количество запросов к вашему серверу растет, при этом результаты поиска обновляются гораздо реже, чем хотелось бы. Дубли – это одна из причин.

Вторая причина, точнее, второе последствие появления дублей – это то, что робот может на свое усмотрение включить страницу из этих дублей в результаты поиска. И иногда происходит так, что это не та страница, которую вам хотелось бы, это не ваша целевая страница, что, естественно, может повлиять каким-либо образом на позиции вашего сайта.

Как исправить

Каким образом можно это дублирование предотвратить или исправить? Во-первых, я советую использовать атрибут canonical в таких ситуациях, когда это возможно.

Дубли страниц, rel canonical

С помощью него можно задать роботу каноническую страницу, страницу по главному адресу, которая должна находиться в поисковой выдаче. Это очень актуально как раз, например, для одного товара в нескольких категориях. Указали canonical, пользователю доступны такие страницы. Он может перейти в одну категорию и во вторую категорию, но робот включает в поисковую выдачу только наш канонический адрес.

Во-вторых, можно использовать редирект как раз в ситуации со слешом и без слеша. Все очень просто, подписали несколько строчек в htaccess и все, забыли о том, что у вас такие адреса, дубли могут находиться и вообще как-то влиять на ваш сайт.

И последнее, что можно использовать – это, естественно, запрещающее правило в robots.txt. Если у вас вообще на сайте нет страниц с параметрами, установили простое запрещающее правило – все, забыли об этой проблеме раз и навсегда.

Маленькая такая проблема с дублями может действительно иметь очень большие последствия.

Использование HTTP-кодов

И одна из причин появления дублей – это неверное использование HTTP-кодов ответа. В частности, использование HTTP-кода 200 на удаленных страницах сайта. Отсутствие, по сути, страниц с 404 кодом на вашем сайте.

Использование HTTP-кодов

Я рекомендую обязательно настраивать этот 404 код, потому что он показывает роботу, что страница удалена с вашего сайта и ее нужно посещать реже. Таким образом, робот посещает 1, 2, 3 раза, обращаясь к странице, он видит, что код страницы не меняется и начинает к ней обращаться гораздо реже, меньше тратить на нее свои ресурсы.

Так же в рамках HTTP-кодов и таких распространенных проблем, мне хотелось бы заметить – это установка заглушки с 503 кодом ответа при недоступности вашего сайта.

Иногда при кратковременной недоступности и наличии этой заглушки это позволяет предупредить исключение страниц вашего сайта из результатов поиска. Робот приходит, получает 503 код, видит, что на сайте проводятся какие-либо работы, нужно прийти, проиндексировать его попозже.

Если ваш сайт недоступен в районе часа или нескольких часов, часто это может помочь. Но, естественно, гарантировать, что страницы останутся в поиске не можем, потому что робот не получает к ним доступа.

И последнее HTTP-кодов – это использование 301 редиректа при переезде страниц внутри вашего сайта.

Именно этот код показывает роботу о том, что нужно старую страницу по старому адресу посещать реже и нужно обращаться чаще именно к новым страницам, куда сейчас у вас страницы переехали, например, при редизайне.

Проверка и актуализация robots.txt

Про ускорение и индексирование сайта, я опять хочу вернуться к нашему маленькому файлу robots.txt и показать вам небольшой прием, которым я рекомендую иногда пользоваться.

Проверка актуальности robots.txt

Во-первых, звоним вашему хостеру, получаем данные CMS, получаем логи вашего сайта. Открываем эти логи, смотрим запрос от индексирующих роботов и смотрим, что же там действительно, какие запросы происходят, к чему робот обращается.

Очень часто, когда возникает проблема с актуализацией данных в поисковой выдаче, мы видим, что робот начинает обращаться к дублирующим страницам, страницам с параметрами, с индификаторами сессии и прочим. Это очень легко можно заметить, просто проверив основные 20-30 штук запросов от робота.

Если видит, что все в порядке, робот обращается к нужным страницам, значит, все хорошо. Но обратиться, повторить эту операцию я советую спустя какое-то время, потому что спустя несколько месяцев робот обнаружит некорректную ссылку и опять начнет добавлять в базы непонятные адреса.

И последнее в актуализации robots.txt – это директива rawl-delay, у которой имеется одно преимущество – мы можем регулировать нагрузку со стороны роботов. Но в последнее время мы обратили внимание, что много популярных сайтов забывают убрать эту директиву из robots.txt, если она им не нужна.

Пример самый простой, популярный, который возникает, 3 года назад ваш сайт находился на маленьком небольшом хостинге, на маленьком сервере. Вы открыли какой-то новый раздел, робот пришел, начал индексировать его, качать страницы.

Вы установили директиву rawl-delay, отрегулировали нагрузку со стороны робота. Все в порядке, все пришло в норму. Спустя 3 года вы переносите ваш сайт на новый мощный сервер, директиву rawl-delay забыли убрать.

На самом деле это происходит очень часто и если вы сейчас слышали то, что делали ранее, вспомните, может, действительно стоит сходить, проверить директиву rawl-delay, потому что это мешает роботу просто обновить информацию о страницах.

Робот хочет увеличить нагрузку к вашему сайту, но не может это сделать, потому что вы сами ему это не позволяете. Проверьте, если вы когда-нибудь производили такой перенос.

Хостинг

Мы с вами сейчас очень часто говорим о хостинге, о серверах, о загруженности, пару слов об этом. Вообще мне кажется, что очень проблематично при выборе хостера сделать изначально правильный выбор, выбрать хостера с хорошим аптаймом, чтобы можно было дальше расширяться вне зависимости от посетителей и индексирующих роботов.

Вы можете читать отзывы о хостерах на других сайтах, на других форумах, можете посмотреть, например, где хостятся крупные компании, выбрать их, но не всегда это подходит по бюджету. Этот выбор постоянно сложный, но со своей стороны я вам советую просматривать за доступностью вашего сайта для индексирующего робота.

Это можно сделать в Яндекс.Вебмастере в разделе история HTTP-кодов ответа.

Хостинг

Здесь представлена ситуация, когда мы выбрали плохой хостинг. Красные области – это ошибки при подключении. Видно, что за сутки их происходит несколько десятков. И, похоже, что что-то не так, робот не может получить доступ к вашему сайту, не может проиндексировать его страницы.

Это плохо, нужно идти к вашему хостеру, писать ему об этом, смотреть мониторинги, почему это происходит. Возможно, это обычный DDoS и, естественно, робот тоже ограничит количество подключений. Но если такое происходит постоянно, с этим нужно что-то делать, возможно, менять хостинг или просто переносить сайт на какой-то менее загруженный сервер. Обычно это помогает и обход сайта роботом восстанавливается.

Полезные ссылки

Несколько полезных ссылок, которые всегда можно изучить – это помощь вебмастеру, которая всегда актуальная и интересная, а также наш блог, вебмастерам – блог Платона Щукина и, естественно, сервис Яндекс.Вебмастер, где можно посмотреть эти инструменты, которые я вам сегодня называл.

Источник: Как улучшить индексирование (дубли, HTTP ответ, удаление из поиска) – Александр Смирнов

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Нажимая на кнопку «Отправить комментарий», вы соглашаетесь с Условиями использования