Содержание
Как управлять роботом
Сейчас мы с вами поговорим, как можно повлиять на робота, чтобы он индексировал то, что нам было нужно, или наоборот не индексировал.
Robots.txt – строгая инструкция для робота.
Мне кажется, самая популярная тема, о которой уже говорилось много раз, но она всегда считает актуальной, это файл robots.txt. Сам по себе robots.txt – это определенный набор инструкций, строгих инструкций для индексирующего робота, которые показывают, что можно индексировать, а что нет.
Этот файл находится в корне вашего сайта, имеет имя robots.txt и обязательно начинается со строки User-Agent – эта директива показывает то, какие правила, перечисленные ниже, будут предназначены для того или другого робота.
Самая распространенная директива – Disallow/Allow, которая запрещает или разрешает индексирование тех или иных страниц. Здесь можно запрещать и дублирующие страницы, и служебные, и скрипты, и все, что угодно. Особенно важна эта директива, если у вас на сайте хранятся какие-то пользовательские данные.
Например, договор, адрес доставки, мобильный телефон и прочее. Эту информацию, естественно, нужно закрыть от индексирующего робота, чтобы она не включилась в результаты поиска.
Следующая директива – это директива Clean-param, которая позволит вам удалить ненужные параметры из URL-адресов страниц, если вы используете их, например, для отслеживания того, откуда именно пришел на ваш сайт индексирующий робот.
Директива Crawl-delay задает интервал между окончанием запроса одной страницы роботом и началом запроса другой страницы. Очень эффективная директива, если вы, например, открыли новый раздел на вашем сайте, робот пришел, начал скачивать кучу страниц, создавать дополнительную нагрузку, а потом сайт перестает отвечать и становится недоступен для посетителей, и в итоге вы теряете своих клиентов.
Следующая директива – это директива Sitemap, которая указывает на наличие и адрес соответствующего файла на вашем сайте.
Директива Host покажет на адрес главного зеркала.
Файл robots.txt
Давайте посмотрим пример типичного файла robots.txt. Начинается файл с директивы «User-agent: *», показывая то, что используется для всех индексирующих роботов, если не указано иначе.
Во втором блоке, как раз, указано иначе «User-agent: Yandex», предназначен для наших индексирующих роботов. Директива «Disallow: /admin» показывает на то, что нужно запретить обход всех страниц, которые начинаются с админа. «Disallow: */cart=*» запрещает любые действия, любые get-параметры, содержащие этот адрес.
Так же дополнительные директивы: «Clean-param», как раз, например, очищает идентификатор сессии, «Crawl-delay», в данном случае робот будет запрашивать две страницы за одну секунду.
Директивы «Host» и «Sitemap». Директива «Sitemap» является межсекционной, она может находиться в любой части вашего файла robots.txt.
Какие самые распространенные ошибки допускаются веб-мастерами при работе с файлом robots.txt? Сюда относятся неправильные указания или, когда запретили какие-то страницы к обходу.
Ошибки при работе с robots.txt
Действительно, самые популярные проблемы – это ошибки в содержимом файла. Даже самые опытные вебмастера допускают такие ошибки, допускают вылеты сайта из результатов поиска, поскольку сайт полностью становится недоступен для индексирующего робота.
Вторая по популярности проблема при работе с robots.txt – это код ответа отличный от кода 200. Самый распространенный случай в данной ситуации. Например, у вас есть служебный домен, служебный домен вылез в результаты поиска, что вы делаете? Вы закрываете «Disallow: /all» на служебном домене, при этом настраиваете индексирующему роботу HTTP-код ответа 403.
Робот приходит, запрашивает ваш файл robots.txt и видит код ответа отличный от кода 200, он игнорирует эту инструкцию и считает, что тут находится полностью разрешающий файл, что все адреса, которые ему известны, можно индексировать и включать в результаты поиска. И на переобход вашего запрещенного сайта, на удаление его из выдачи потребуется очень много времени, гораздо больше, чем если бы robots.txt возвращал код ответа 200.
Следующая распространенная ошибка – это наличие кириллических символов в файле robots.txt. Да, такие символы использовать нельзя, потому что робот тоже их проигнорирует.
Самый распространенный случай ошибки – это, например, если условные лютикицветочки.рф в директиве «Host» вы указали не в закодированном виде, хотя нужно указывать в закодированном в Punycode. То есть вот правильный и неправильный вариант.
И последнее, наверное, не по популярности из этого топа – это размер файла превышающий 32Кб. Робот, получая такой файл, считает, что здесь находится не файл текстового типа, а обычная страничка и то, что эту страничку не нужно учитывать при обходе сайта, поэтому будет ее игнорировать.
Вот самые популярные проблемы. Само по себе наличие файла robots.txt не обязательно. Если у вас действительно landing page какой-нибудь, да, то есть у вас одна только страница физически находится на сайте, то вы можете не создавать файл robots.txt, либо оставить его совершенно пустым.
Все эти ошибки в любом случае можно предотвратить если пользоваться простейшим инструментом в Яндекс.Вебмастере – «Анализатор robots.txt». Вставляете адрес вашего сайта, нажимаете кнопочку «загрузить robots.txt» и видите то, что сейчас уже там находится, затем добавляете список url-адресов страниц и нажимаете кнопочку проверить.
Можно редактировать, посмотреть, как робот воспримет то или иное, в любом случае, если вносите какие-то серьезные изменения в файл robots.txt, даже если вы знаете и делали это много раз, перестрахуйтесь, используйте этот инструмент, в любом случае он будет полезен и поможет предотвратить все, о чем мы до этого говорили.
И полезным в работе вам в любом случае будет – это стандарт файла robots.txt и раздел помощи вебмастеру. Там обо всех директивах, то, что я рассказывал, все это указано, написаны примеры, можно посмотреть.
Sitemap – карта вашего сайта
Мы с вами запретили посещать те или иные страницы на сайте, теперь нужно показать роботу какие все-таки страницы нужно индексировать и включать в поисковую выдачу. Для этого существует специальный файл – файл Sitemap.
Как правило, это либо текстовый документ, либо XML-файл, который, собственно, содержит адреса страниц и, возможно, какую-то дополнительную информацию. Пример файла Sitemap вы можете сейчас наблюдать на данном слайде.
Файл должен обязательно начинаться со служебной строки, указывающей на кодировку – «UTF-8», обязательно стандарт, в соответствии с которым он составлен, и обязательные теги: тег «url» и тег «loc», соответственно, он показывает адрес страницы.
Это самый простой файл Sitemap, здесь всего одна страница – это морда, плюс есть необязательные теги, которые также можно передавать роботу, и, которые, робот может учитывать. В данном случае, это lastmod, changefreq и priority.
«lastmod» показывает последнюю дату изменения страницы, «changfreq» — периодичность ее изменения и «priority» — приоритет при обходе вашего сайта в целом. Эти теги можно передавать индексирующему роботу, они могут им учитываться при обходе вашего сайта, но они являются необязательными.
В файле Sitemap нет строгой инструкции, но в любом случае хорошо, когда он есть.
Ошибки при работе с Sitemap
И плохо, когда мы в Sitemap допускаем, опять-таки, какие-либо ошибки. Самая распространенная ошибка, с которой сталкиваются веб-мастера – это когда индексирующему роботу указывают файл Sitemap, который находится на другом сайте.
Например, если вы используете бесплатный генератор файлов Sitemap, который автоматически размещает этот файл Sitemap у себя на сайте. Робот не будет обрабатывать такой файл просто потому, что в соответствии со стандартом, файл должен находиться на том хосте, на том сайте, ссылки которого указаны внутри самого сайта. То есть, если у вас есть сайт «лютикицветочки.рф», то в нем должны находиться только эти ссылки, и этот файл должен находиться только на самом этом сайте.
Вторая по популярности проблема – это установленные перенаправления файла Sitemap. Например, у вас файл находится по стандартному адресу Sitemap.xml, и там находится редирект, который ведет уже на какую-то внутреннюю страницу, какой-то внутренний адрес. Робот тоже не обрабатывает такие файлы Sitemap. Обязательно файл Sitemap должен возвращать код ответа 200.
И, последнее – это какие-то ошибки внутри, критические ошибки внутри самого файла, которые тоже влияют на его обработку. Например, если отсутствует служебная строка с указанием кодировки, робот просто проигнорирует такой файл и не будет использовать его при обходе.
Sitemap:
В работе с файлом Sitemap вам пригодится валидатор в Яндекс.Вебмастере, где можно проверить все эти ошибки, проверить ваш готовый файл, размещенный на сервере либо на компьютере. Также поможет стандарт файлов Sitemap, переведенный на русский язык и, соответственно, раздел помощи вебмастеру.
Зеркала сайта
Как правило, любой сайт в Интернете доступен по двум адресам: www и без www. Для индексирующего робота в первоначальном виде это два независимых ресурса, они индексируются независимо и участвуют в поиске независимо друг от друга.
Что это значит? Что у вас у одного сайта может быть проиндексировано определенное количество страниц, а не находиться по таким-то запросам, а у второго сайта может быть совсем другая ситуация. Для того, чтобы избежать такого дублирования, перемешивания и непонимания, мы используем такое понятие, как «зеркала сайтов».
В общем понимании зеркала сайтов – это несколько сайтов, которые обладают одинаковым контентом. В данном случае, это с www, без www, это сайт, например, по протоколу https и адрес сайта на кириллице. Это самые распространенные случаи.
Зачем вообще все это нужно? Основная причина, для которой сейчас используются зеркала сайтов, это перенос сайта со старого адреса на новый. Например, вы решили изменить доменное имя по каким-либо причинам, потому что выбрали его десять лет назад и сейчас оно кажется вам каким-то несовременным, потому что сложно писать пользователям, которые вбивают его в адресную строку и постоянно делают какие-то ошибки, появляется какое-то недопонимание.
И во-вторых, это как раз для того, чтобы предотвратить ошибочные переходы по другим адресам. В первом случае, если мы совершаем переезд с использованием зеркал, мы сохраняем все характеристики нашего старого сайта для нового сайта. Соответственно мы минимизируем какие-либо возможные проблемы.
Каким образом сайты можно сделать зеркалами?
- Указать роботу на адрес вашего главного зеркала, которое должно находиться в результатах поиска, можно с помощью директивы «Host» в вашем файле robots.txt. Указали адрес и это будет прямое направление роботу о том, что нужно подключать адрес по определенному адресу в поиске.
- Сообщить роботу об изменениях, например, если у вас уже есть сайты с www, без www, можно с помощью соответствующего инструмента в Яндекс.Вебмастере. Но сам по себе инструмент не позволяет изменить адрес главного зеркала, это делает именно директива «Host».
- И последний пункт, который я хотел бы порекомендовать использовать, но только очень аккуратно и в крайнем случае – это серверное перенаправление, допустим, не главного зеркала на новый адрес сайта. Почему? Потому что самая распространенная ошибка при использовании зеркал – это наличие этого перенаправления, как основного указания для переклейки имеющейся группы зеркал.
Допустим у нас есть два сайта. Сайт А – сейчас главное зеркало. Он у нас индексируется, находится в результатах поиска, участвует по запросам. А сайт Б – сейчас он не главное зеркало, в выдаче мы его не видим. Теперь мы принимаем решение, что нам нужно включать в результаты поиска именно сайт Б и устанавливаем перенаправление с сайта А на сайт Б.
Что происходит дальше? Главное наше зеркало, сайт А, перестает участвовать в результатах поиска просто потому, что на нем сейчас установлено перенаправление, и его страницы сейчас недоступны для робота, поэтому они начинают исключаться из поисковой выдачи. Сайт Б при этом, поскольку является неглавным зеркалом, в поиске не участвует, не индексируется и не показывается по каким-либо запросам.
Хочу привести небольшой пример из сервиса Яндекс.Метрика с установленным перенаправлением.
Я думаю, что тут все понятно – это количество переходов. Мы видим, что после установки, буквально в течение двух недель, страницы сайта начали исключаться из поисковой выдачи. Продолжалось это продолжительное время, до того момента, как изменился адрес главного зеркала.
Ошибки при работе с зеркалами
Выделяют типичные ошибки при работе с зеркалами, помимо установки редиректа для смены адреса главного зеркала:
- Это разное содержимое на ваших сайтах при попытке склеить их, объединить в группы зеркал. Например, вы хотите объединить и сделать одновременно: изменить дизайн на вашем сайте и изменить адрес главного зеркала. Чтобы сайты были зеркалами, на них одновременно для робота должен находиться один и тот же контент. В данном случае я советую вам делать поэтапно. Либо сначала делать редизайн, потом менять главное зеркало, либо наоборот, размещать по новому адресу старый контент, ждать склейки, потом делать редизайн сайта, чтобы не было каких-либо проблем. Если контент будет разный, вы не склеите, потеряете время и посетителей.
- Вторая распространенная проблема – это частный случай, наверное, разного содержимого, это переезд вашего какого-либо сайта в раздел другого ресурса. Например, у вас есть два сайта: один сайт занимается, например, роботами-пылесосами, а второй бытовой техникой. Вы решаете, что роботы-пылесосы это тоже относится к бытовой технике, поэтому можно объединить их в один большой ресурс. Каким образом? Устанавливаете директиву «Host» и ждете. Ничего не происходит, просто потому, что у вас на одном адресе находится один сайт, а на другом другой. Директива «Host» здесь не поможет, и объединить такие сайты в группу зеркал не получится. В подобных ситуациях можно открывать раздел на вашем большом ресурсе, после того, как эти страницы начнут индексироваться, можно установить 301 редирект с вашего маленького сайта на этот раздел. К сожалению, склеить в такой ситуации сайты не получится.
- Еще одна из самых распространенных проблем – это запрет или недоступность вашего старого зеркала. Бывает так, что веб-мастера забывают продлевать доменные имена, спустя какое-то время они покупают новое доменное имя, хотят объединить данные сайты в группу зеркал. Поскольку доступ к вашему старому сайту уже утерян, то склеить данные сайты не получится. Их нельзя склеить как-то вручную, как-то применить какие-то настройки. Чтобы сайты могли быть склеены, они должны быть доступны для индексирования и находиться в вашем управлении.
- И последняя по популярности – это противоречивые указания для индексирующего робота о том, по какому адресу сайт должен индексироваться и находиться в поисковой выдаче. Например, директивой «Host» указали один адрес, редирект поставили по другому адресу, робот автоматически выберет на свое усмотрение, соответственно, с определенным алгоритмом выберет адрес главного зеркала. Иногда бывает, что это не тот адрес, который вы хотели. Тут нужно внимательнее, если вы решаете переезд на новый домен, все указания должны вести именно на этот домен.
В работе вам так же поможет раздел помощи, и всегда вы можете, если не уверены в каких-либо настройках, написать в службу поддержки для того, чтобы проверили, что действительно указания верны и зеркала склеятся.
Полезное:
Источник (видео): Как управлять роботом (зеркала, sitemap, robots txt) – Александр Смирнов