Результативное продвижение сайта в интернете!

г. Москва, м. Сокольники, ул. Маленковская, д. 32, стр. 3

с 10:00 до 19:00, пн.- пт. (сб./вс. - выходной)

Как поиск находит страницу сайта? Описание процесса индексации страниц сайта

Интересные факты

В поисковой базе индексирующего робота на текущий момент содержатся триллионы адресов различных сайтов, ежедневно из этого триллиона робот скачивает миллиарды документов. И во всем этом большом и постоянном процессе очень важно то, как индексирующий робот проиндексирует именно ваш сайт, и как он включит его в результаты поиска.

Что такое индексирование?

Что такое процесс индексирования сайтов? Это процесс получения информации о какой-либо странице, процесс получения контента, и включение этих данных в результаты поиска.

Процесс индексирования

Процесс индексирования сайта

Первый этап – это создание вашего сайта. Вы создали сайт, разместили его на сервере, заполнили каким-либо контентом, сделали ваш сайт доступным для посетителей и для индексирующего робота. Для того, чтобы ваш сайт начал индексироваться, робот прежде всего должен узнать о его существовании.

После того, как появилась информация о том, что в Интернете разместили новый сайт, робот планирует посещение вашего сайта, отправляет определенные запросы к вашему серверу, получает контент от сервера и полученный контент в будущем добавляет в поисковую базу и в результаты поиска. Давайте рассмотрим более подробно.

Откуда робот узнает о страницах:

  • с ссылок на других страницах в Интернете;
  • с сайта Я.Вебмастер (webmaster.yandex.ru);
  • с внутренних ссылок;
  • с карты сайта (sitemap);
  • с других источников, например, Я.Метрики.

Во-первых, откуда индексирующий робот узнает о страницах, о сайте в целом. Если ваш сайт существует уже некоторое время, уже давно, скорее всего на него присутствуют какие-либо ссылки в Интернете. Например, пользователи часто на форумах обмениваются мнением о покупках в интернет-магазине, еще что-то, пересылают ссылки между собой. Если робот обнаружит такие ссылки, он начнет индексировать ваш сайт.

Но если ваш сайт был создан совсем недавно, скорее всего ссылки на него отсутствуют и поэтому робот не знает о его существовании. Для таких случаев есть сервис Яндекс.Вебмастер, в частности инструмент «сообщить о новом сайте», в который можно добавить адрес вашего нового сайта, и робот начнет его индексировать.

Если мы говорим о внутренних страницах какого-либо ресурса, то естественным считается процесс обнаружения доступных ссылок на те или иные страницы. В частности, робот посещает главную страницу вашего сайта, обнаруживает какие-то доступные ссылки на внутренние страницы и добавляет так же информацию о них в свою базу и начинает также их индексировать.

Существует специальный файл, файл sitemap, который позволяет передавать роботу информацию о страницах вашего сайта.

Так же робот может получать информацию о страницах из других источников. Например, если в Яндекс.Метрике разрешили роботу Метрики передавать индексирующему роботу какие-либо данные, робот может получать информацию, например, о новых страницах, и так же добавлять их в свою базу, индексировать, включать в поиск.

От чего зависит скорость индексирования

От чего зависит то, насколько быстро индексирующий робот включит вашу страницу поисковую выдачу? На самом деле, весь процесс индексирования полностью автоматически проходит, и робот посещает все страницы вашего сайта, каждую отдельную страничку в соответствии со своими внутренними политиками планирования.

Эти политики планирования строятся на основании машинного обучения и зависят от различных факторов. Со временем эти политики в отношении определенного сайта или определенной страницы могут меняться, также основываясь на показаниях q-факторов.

Несколько факторов, которые мне бы хотелось для вас выделить.

Во-первых, это загруженность сервера, на котором находится ваш конкретный сайт. Если на вашем сайте находится большое количество других ресурсов, если сервер не справляется со всеми запросами индексирующего робота, робот начинает посещать ваш сайт реже, поэтому времени потребуется больше для включения страницы в результаты поиска.

Второй фактор, который хочется отметить – это частота обновления вашего сайта в целом и конкретных каких-либо страниц, разделов. Что подразумевается здесь? Если индексирующий робот видит, что на вашем сайте часто добавляется какой-либо новый контент, то есть информация обновляется регулярно, робот начинает посещать эти страницы чаще, потому что считает, что сейчас, спустя какое-то время, он придет опять на сайт и опять контент будет обновлен.

И обратное действие, если какая-либо страница на вашем сайте не менялась уже несколько лет, скорее всего она будет посещаться роботом реже, потому что он приходит один, два, три, несколько раз, видит, что контент совсем не изменился, изменяет политики планирования и к этой страничке вернется уже не через месяц, через неделю, а вернется через полгода, может быть больше, в зависимости от того сколько времени прошло.

Еще один фактор, который мне хотелось бы здесь выделить – это интерес посетителей вашего сайта к материалу, который вы размещаете на нем. Если новости или какие-либо страницы, информационные статьи, которые вы размещаете, интересны посетителям, то они задерживаются на вашем сайте, просматривают материал, продолжают переходить дальше по каким-либо внутренним страницам, робот тоже обращает на это внимание и так же может пересмотреть политики планирования, которые использует при посещении вашего ресурса.

Запрос и получение контента

Запрос и получение контента

Мы узнали о вашей странице, положили информацию о ней, о ее существовании в свою базу, запланировали ее, теперь нужно получить ее с сервера. Во-первых, перед началом каждого индексирования робот запрашивает файл robots.txt. Обычно это происходит, примерно, один-два раза в сутки.

По какой причине? Как правило, этот файл нечасто меняется, обновлять его чаще не нужно. Зачем нужно скачивать его каждые десять минут перед загрузкой каких-то страниц? После чего происходит запрос уже конкретной страницы. Это видно по определенным заголовкам, которые отсылает индексирующий робот, среди них хочется выделить несколько.

Запрос и получение контента

Это Accept-Language, который указывает на то, какие языки поддерживает индексирующий робот.

Accept-Encoding, который указывает на поддерживаемые форматы сжатия.

User-Agent – это заголовок, который показывает какой именно индексирующий робот к вам пришел. Это может быть обычный индексирующий робот, как в данном случае, это может быть робот-зеркальщик, робот картинок.

Практически у каждого сервиса есть свой робот, их очень много. Именно этот заголовок User-Agent и покажет вам какой робот пришел и запросил эту страницу.

После того, как мы отправили запрос на ваш сервер, сервер возвращает какой-либо ответ. Начинается этот ответ с таких же HTTP заголовков. В зависимости от настроек сервера их может быть больше или меньше. Хочется выделить несколько обязательных.

Запрос и получение контента

Во-первых, это HTTP код ответа, который показывает роботу на то, в каком статусе находится запрашиваемая страница. Content-Type покажет роботу на то, какой документ, какой тип будет сейчас передаваться документа, и Content-Encoding, собственно, сжатие страниц, которые используются.

Распространенные HTTP-коды

Помимо HTTP-200 существуют еще и другие HTTP-коды.

Давайте рассмотрим их более подробно.

  • HTTP-200 покажет роботу, что страница доступна, можно индексировать, включать в результаты поиска.
  • HTTP-301 прямо укажет роботу на то, что страница переехала по какому-либо адресу и необходимо включать именно страницу по новому адресу в результаты поиска.
  • Существует близкий по смыслу, но немножко отличается в обработке робота – это HTTP-302, временный редирект. Такое же временное перенаправление 303, они обрабатываются немножко роботом иначе. Если в 301 редиректе робот включает у нас конечную цель, то в данном случае робот будет включать наиболее короткий адрес из всей этой пары редиректов. Если окажется, что, например, старый адрес короче, чем новый адрес, на который происходит перенаправление, робот включит именно страницу по старому адресу.
  • HTTP-304, 304 код ответа покажет роботу, что страница не менялась с момента последнего обращения к ней, и контент передаваться не будет, то есть робот получит только HTTP-ответ.
  • HTTP-404 говорит о том, что страница была удалена с сайта, больше ее посещать не нужно.
  • HTTP-503 сообщает о недоступности сервера в определенный момент времени. Например, если вы проводите какие-то профилактические работы, обновляете CMS, то есть ваш сайт в настоящий момент не доступен.

Добавление контента в базу

Помимо HTTP-ответа, возвращаемого вашим сервером, естественно, сервер должен вернуть еще и содержимое самой страницы. Так страница выглядит для обычного посетителя.

Запрос и получение контента

Красивенько, картиночки, какой-то текст, но в глазах робота все выглядит иначе.

Добавление контента в базу

Это начало контента, примерно маленькая часть, мы даже до текстового содержимого здесь не дошли. Видно, что куча скриптов находится, различных мета-тегов, информации. Из всего этого робот делает определенную выжимку и забирает только то, что необходимо ему, и что будет использоваться при ранжировании вашего сайта и отображении его в результатах поиска.

Робот получает HTTP-код, чтобы узнать, в каком статусе находится страница, получает текстовое содержимое, выделяет из этого содержимого различные мета-теги и получает так же дополнительные исходящие ссылки на какие-то внутренние и внешние страницы, которые так же нужно будет индексировать, если робот о них только узнал.

Индексирующий робот

После того, как получили контент от вашего сервера, его нужно включить в результаты поиска. В зависимости от того, какой индексирующий робот посещает ваш сайт, ваш сайт или ваша страница могут появиться в разное время. Здесь зависит от типа робота.

Условно можно разделить этих роботов на два типа:

  • Быстрый индексирующий робот, который посещает страницы, как правило, новостных ресурсов, ресурсов, у которых информация быстро теряет свою актуальность, то есть те страницы, которые нужно проиндексировать именно сейчас и включить их в результаты поиска. Быстрый робот обходит не все ресурсы, не все страницы и не все страницы попадают в поисковую выдачу, но, если страница была проиндексирована быстрым роботом, как правило, она попадает в поиск в течение от нескольких минут до нескольких часов.
  • Основной индексирующий робот посещает все страницы, которые ему известны, запрашивает весь контент и включает эти странички в результаты поисковой выдачи. Единственное, что это происходит медленнее и это происходит с обновлениями поисковой базы, как правило, на это требуется около двух недель.

Два робота, в зависимости от того, кто посетил, ваша страничка появилась в результатах поиска.

Как узнать, что страница в поиске

Как узнать, что та или иная страница появилась в поисковой выдаче? Лично я рекомендую использовать сервис Яндекс.Вебмастер, в частности инструмент «Проверить URL». Потому что помимо данных о том, что страница находится в выдаче, можно получить информацию и о том, когда робот последний раз посещал эту страницу, какой документ находится в результатах поиска, если страница отсутствует в выдаче, а также узнать по каким причинам она отсутствует в выдаче, будут ли какие-то рекомендации как ускорить процесс обхода и обновления данных.

Так же можно использовать несколько операторов для поисковой выдачи.

Первый оператор – это оператор url:, с помощью которого можно узнать, находится та или иная страница в результатах поиска. То есть сделали запрос вида url:*адрес страницы*, вставили в поисковую строку, нажали кнопочку «поиск» и получили результат. Если есть страница, значит страница находится в поиске. Все просто.

Так же есть оператор site:, с помощью которого можно узнать сколько страниц вообще вашего ресурса проиндексировано, какие страницы находятся в поиске. Здесь все то же самое. Вставили адрес сайта и оператор site:, ввели в строку запроса, нажали кнопку «поиск» и посмотрели результаты поисковой выдачи.

 

Источник — Александр Смирнов.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Нажимая на кнопку «Отправить комментарий», вы соглашаетесь с Условиями использования