Результативное продвижение бизнеса в интернете!

г. Москва, м. Сокольники, ул. Маленковская, д. 32, стр. 3

с 10:00 до 19:00, пн.- пт. (сб./вс. - выходной)

+7 (499) 391-17-76
8 (800) 707-05-97
biz@o-es.ru

Использование файла robots.txt для SEO

1. Что такое файл robots.txt

Файл robots.txt также известен как протокол или стандарт блокировки роботов – это текстовый файл, который говорит веб-роботам (обычно это поисковые системы), какие страницы можно сканировать. Он также говорит веб-роботам, какие страницы сканировать нельзя.

Например, поисковая система собирается посетить ваш сайт. Прежде чем она зайдет на целевую страницу, она должна ознакомиться с инструкциями в файле robots.txt.

Есть разные типы файлов robots.txt – давайте подробнее рассмотрим некоторых из них. Например, поисковая система находит вот такой файл robots.txt:

Рисунок 1

Рис. 1. Пример файла robots.txt

Это своего рода базовый скелет файла robots.txt.

  • Звездочка после фразы user-agent означает, что файл robots.txt относится ко всем веб-роботам, посещающим сайт;
  • слеш после слова Disallow (запретить) не разрешает роботу посещать определенные страницы сайта.

Тут же возникает вопрос: почему кто-то хочет запретить веб-роботам посещать сайт?

У вас на сайте, наверняка, много страниц. Даже если вам так не кажется. Вас даже может удивить их количество.

Если поисковая система сканирует сайт, она будет сканировать каждую страницу сайта.

А если страниц много, то у бота уйдет много времени на сканирование, а это может иметь плохие последствия для ранжирования.

Так происходит, потому что у YandexBot и Googlebot (боты поисковых систем Яндекс и Google) есть так называемый «бюджет сканирования».

У него есть две важных составляющих:

  • первая составляющая – это лимит уровня сканирования (краулинговый бюджет – это «количество URL-адресов, которые может и хочет сканировать робот поисковой системы);
  • вторая составляющая – это спрос на сканирование.

Ваша цель – помочь YandexBot и Googlebot использовать свой бюджет на вашем сайте максимально эффективно. Другими словами, система должна сканировать ваши лучшие страницы.

Если создать правильный файл robots.txt, вы тем самым укажете ботам поисковой системы, какие страницы сканировать не надо.

Вот что по этому поводу говорит Google:

«Не стоит слишком перенагружать ваш сервер и впустую тратить бюджет сканирования на малозначительные страницы вашего сайта».

Правильно используя файл robots.txt, вы тем самым просите роботов поисковых систем разумно расходовать свой бюджет. Именно это и делает файл robots.txt полезным для SEO-оптимизации.

2. Как найти файл robots.txt

Все, что вам нужно сделать, это ввести основной URL-адрес сайта в панель поиска своего браузера (например, o-es.ru, seedu.ru и т. д.). В конце добавьте /robots.txt.

После этого может  произойти следующее (есть три варианта):

  • Вы найдете файл robots.txt.
Пример файла robots.txt

Рис. 2. Как найти файл robots.txt

  • Вы найдете пустой файл.

Например, на страничке Disney нет файла robots.txt:

Рисунок 3

Рис. На страничке Disney нет файла robots.txt

  • Вы попадете на страницу 404.

На сайте Method вместо файла robots.txt  появляется страница 404:

Рисунок 4

Рис. 3. Страница 404 вместо файла robots.txt

Теперь взгляните на свой собственный файл robots.txt.

  • Если Вы увидите пустой файл или страничку 404, это нужно исправить.
  • Если Вы нашли действительный файл, то для него, вероятно, установлены настройки по умолчанию еще со времен создания вашего сайта.

3. Как изменить файл robots.txt

  • Если у вас нет файла robots.txt, вам нужно его создать. Откройте какой-нибудь текстовый редактор, например Notepad (Windows) или TextEdit (Mac). Главное использовать простой текстовый редактор. Программа Microsoft Word может вставлять в текст дополнительный код, поэтому в данном случае не стоит ее использовать.
  • Если у вас есть файл robots.txt, нужно будет его найти в корневом каталоге вашего сайта.
  • Если вы не привыкли работать с исходным кодом, вам может быть сложно отыскать редактируемую версию файла robots.txt.

Как правило, можно найти свой корневой каталог, перейдя на сайт хостинга аккаунта. Нужно войти в систему и перейти в раздел управления файлами или FTP вашего сайта.

Вы увидите что-то такое:

Рисунок 6

Рис. 4. Раздел управления сайтами

Найдите файл robots.txt и откройте его для редактирования.

4. Как создать файл robots.txt

Новый файл robots.txt можно создать с помощью обычного текстового редактора. (Помните, что главное использовать простой текстовый редактор.)

Если у вас уже есть файл robots.txt, убедитесь в том, что вы удалили текст (но не сам файл).

Во-первых, вам нужно ознакомиться с синтаксисом, используемым в файле robots.txt.

Начните с установки user-agent (пользовательского посредника). Мы установим его таким образом, чтобы он применялся  по отношению ко всем веб-роботам.

Это можно сделать, используя звездочку после фразы user-agent. Это будет выглядеть вот так:

Рисунок 7

 

Затем нужно ввести слово Disallow: (запретить), но больше ничего не печатайте.

Рисунок 8

 

Поскольку после слова «Запретить» больше ничего нет, веб-роботы будут сканировать весь ваш сайт. В данный момент все на вашем сайте является мишенью.

Ваш файл robots.txt будет выглядеть вот так:

Рисунок 9

Выглядит просто, но эти две строчки уже выполняют очень важную работу.

Можно также оставить ссылку на XML sitemap, но это не обязательно. Если вы считаете, что это стоит сделать, – вот, что нужно напечатать:

Рисунок 10

Рис. 5. Как оставить ссылку на XML sitemap

Теперь давайте перейдем на новый уровень и превратим этот файл в по-настоящему эффективный инструмент в сфере SEO.

5. Как оптимизировать файл robots.txt

Оптимизация файла robots.txt зависит от контента на вашем сайте. Я расскажу вам о некоторых наиболее распространенных способах его использования.

Чтобы отрегулировать бюджет сканирования, нужно дать поисковой системе сигнал, что не следует сканировать те части вашего сайта, которые закрыты от общего доступа, – это можно сделать с помощью файла robots.txt.

Например, если вы посмотрите на файл robots.txt на этом сайте (neilpatel.com), то увидите, что страница регистрации не сканируется (wp-admin).

Пример файла robots.txt

Рис. 6. Пример заблокированных страниц на сайте o-es.ru

Поскольку эта страница используется только для входа в систему управления сайтом – ее сканирование будет пустой тратой времени для ботов поисковых систем.

(Если у вас есть WordPress, можно использовать точно такую же строку.)

Вы можете использовать аналогичный указатель (или команду), чтобы не дать ботам сканировать определенные страницы. После слова disallow введите часть URL-адреса, которая находится после доменной зоны (.com, .ru и др.). Поместите ее между двумя слешами.

Если вы хотите запретить боту сканировать вашу страницу http://yoursite.com/page/, можно ввести следующее:

Рисунок 12

Рис. 7. Как запретить боту сканировать вашу страницу

6. Какие типы страниц стоит исключить из списка индексации:

1. Целенаправленное повторение контента. Обычно повторяющийся контент – это плохо, но есть несколько случаев, когда это приемлемо или даже необходимо.

Например, если у вас есть версия страницы для печати. Тогда по техническим причинам у вас будет повторяющийся контент. В этом случае можно попросить ботов сканировать только одну из этих страниц (обычно это версия для печати).

Это также удобно, если вы тестируете страницы с одинаковым контентом, но с разным дизайном.

2. Страницы благодарности. Страница благодарности – это одна из самых любимых страниц маркетолога, потому что она привлекает лиды.…

Правда?

Как оказалось, некоторые страницы благодарности доступны через Google. Это означает, что люди могут получить доступ к этим страницам, не проходя через процесс привлечения лидов, а это плохая новость.

Заблокируйте страницу благодарности, и ее смогут видеть только потенциальные клиенты.

Например, ваша страница благодарности находится на сайте https://yoursite.com/thank-you/. В файле robots.txt блокировка этой страницы будет выглядеть так:

Рисунок 13

Рис. Блокировка файла robots.txtна сайте https://yoursite.com/thank-you/

Нет универсальных правил касательно того, какие страницы блокировать, поэтому ваш файл robots.txt будет уникальным. Используйте здравый смысл.

7. Тестирование в Google Вебмастер

Наконец, пришло время протестировать файл robots.txt, чтобы убедиться, что все было сделано правильно и работает.

Существует бесплатный тестер robots.txt от Google в составе инструментов Webmaster.

Для начала войдите в свою учетную запись на Webmaster.

Рисунок 17

Рис. 8. Как использовать бесплатный тестер robots.txtот Google

Выберите необходимые свойства (например, веб-сайт) и нажмите кнопку «Сканировать» на левой боковой панели.

Рисунок 18

Рис. 9. Кнопка «Сканировать» на левой боковой панели

Вы увидите вкладку robots.txt Tester. Щелкните на нее.

Рисунок 19

Рис. 10. Вкладка robots.txtTester

Если в поле уже есть код, удалите его, заменив его новым файлом robots.txt.

Нажмите «Тестировать» в правой нижней части экрана.

Рисунок 20

Рис. 11. Функция «Тестировать»

Если текст «Тестировать» меняется на «Разрешено», это означает, что ваш robots.txt действителен.

В интернете можно найти более подробную информацию об этом инструменте.

Наконец, загрузите файл robots.txt в корневой каталог (или сохраните его, если он уже там). Теперь у вас есть мощный файл для улучшения видимости вашего сайта в результатах поиска.

8. Проверка файла robots.txt в Яндекс Вебмастер

yandexwebmasterrobotstxt

9. Вывод

Если роботы поисковых систем разумно расходуют бюджет сканирования контента, они смогут лучше организовывать и отображать ваш контент в результатах поиска, а это означает, что вы будете более заметны.

Кроме того, настраивать файл robots.txt легко. По сути, это разовая настройка. Небольшие изменения можно вносить по мере необходимости.

Корректировка файла robots.txt входит в услугу – технический аудит сайта.

Источник: neilpatel.com

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Нажимая на кнопку «Отправить комментарий», вы соглашаетесь с Условиями использования