Как настроить robots.txt для своего сайта

robots.txt

Как правильно настроить robots.txt на сайте

Сегодня хочется, так сказать, расставить все точки над “и” по поводу того как же все таки настроить robots.txt у себя на сайте.

Для начала, перед тем, как углубляться в написание директив, синтаксиса и прочих примудростях, давайте разберемся для чего вообще нужен robots.txt

Для чего нужен robots.txt

robots.txt нужен для того, что бы сказать поисковым системам, какие страницы, файлы или разделы вашего сайта не нужно индексировать поисковому роботу, а какие желательно.
Так же в robots.txt можно указать ссылку на файл карты сайта, если таковой конечно имеется. Но, советую загорячится с тем, что бы карта сайта у вас была, раз уж вы решили заморочится с настройкой robots.txt

Как узнать какие страницы индексировать, а какие нет

Резонный вопрос, так как вы теперь знаете для чего нужен robots.txt, вы теперь должны получить ответ на вопрос, какие же все таки страницы(файлы, разделы), запретить к индексации, а какие разрешить. Ответ на этот вопрос простой. В наше время поисковики все больше и четче дают понять веб мастерам, что они должны стараться делать только полезный и нужный контент. Отталкиваясь от этой информации, делаем вывод – запретить к индексации нужно все, что не касается полезного контента.
Например: Страница входа(логина), страница регистрации, страница поиска по сайту, страницы результатов поиска, и тд и тп.

В итоге доступные для индексации останутся только, непосредственно, статьи, главная страница и разделы категорий с постраничной навигацией. Хотя насчет раздела категорий – спорный вопрос, потому что они тоже не несут в себе полезного контента, но они помогают поисковому роботу увидеть ссылки на новые появившиеся статьи.

По хорошему и страницы категорий вместе с постраничной навигацией нужно тоже запретить к индексации, и взять на себя вопрос индексации новых статей, добавляя ссылки на новые статьи и страницы в соц. сетях и других открытых источниках, где часто бывают поисковые роботы – тостер, вопросы и ответы от мэилру, и другие сайты, с подобной тематикой как у вас.

Пример robots.txt для wordpress

Давайте разберем пример моего robots.txt и посмотрим, что там и для чего оно нужно. Думаю на основе написанного выше и разбора примера ниже, вы без труда сделаете robots.txt для своего сайта

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/aiowps_backups/
Disallow: /wp-content/updraft/
Disallow: /wp-admin/
Disallow: /wp-json/
Disallow: /wp-includes/
Disallow: /comments
Disallow: /to/
Disallow: /page/
Disallow: *?essb*
Allow: /*.jpg
Allow: /*.gif
Allow: /*.png
Allow: /*.js*
Allow: /*.css*
Allow: /wp-includes/js/
Allow: /wp-includes/css/
Sitemap: http://bookamba.ru/sitemap.xml

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/aiowps_backups/
Disallow: /wp-content/updraft/
Disallow: /wp-admin/
Disallow: /wp-json/
Disallow: /wp-includes/
Disallow: /comments
Disallow: /to/
Disallow: /page/
Disallow: *?essb*
Allow: /*.jpg
Allow: /*.gif
Allow: /*.png
Allow: /*.js*
Allow: /*.css*
Allow: /wp-includes/js/
Allow: /wp-includes/css/
Host: bookamba.ru

Обращаю ваше внимание на то, что первая строка в robots.txt должна начинаться с директивы “User-agent” и не должна быть пустой.

Разберем, что означают директивы используемые в примере
User-agent: * – означает: “для всех поисковиков”
Disallow – запретить к индексации
Allow – разрешить индексировать
Sitemap – путь, абсолютный путь (начинающийся с http или https) к вашему sitemap.xml
Host – название сайта (без http или https)

Следующие строки запрещают индексацию файлов регистрации, логина и других, как я и писал выше:

Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

Запрет к индексации отельных страниц с комментариями:

Disallow: */comments

И далее в таком духе, то есть вы описываете страницу или раздел, которые не несут полезной информации и вставляете ее после двоеточия для директивы Disallow, где “*” (без кавычек) означает “любой символ“, то есть грубо говоря запись вида:
Disallow: */comments
означает – запретить к индексации страницы
la_la_la_1/comments
la_la_la_2/comments
la_la_la_3/comments
la_la_la_4/comments
и так далее.

Следующие строки, наоборот разрешают для индексации все файлы имеющие расширение картинок, скриптов, стилей и т. д.

Allow: /*.jpg
Allow: /*.gif
Allow: /*.png
Allow: /*.js*
Allow: /*.css*
Allow: /wp-includes/js/
Allow: /wp-includes/css/

Думаю, что включив интеллект и посмотрев в “яндекс вебмастер“, можно сделать вывод какие именно страницы или разделы вам нужны в индексе поисковика, а какие нет и записать их в robots.txt

Я указал allow, но страницы не проиндексировались, что делать

Следует понимать, то robots.txt это лишь набор правил, которых поисковый робот может придерживаться, а может и не придерживаются. В официальных документациях самого яндекса и гугла говорится, что это лишь вспомогательный файл, и он никак не влияет на скорость индексации или другие СЕО показатели, поисковики все равно сами решают, как им поступать.

Как показывает практика, поисковые роботы в приоритете обращают внимание именно на Disallow директивы. И индексируют все остальное, что не указано в Disallow. А мы, как разработчики лишь подсказываем им, что еще желательно проиндексировать.

То есть скорее всего разницы для робота не будет укажем мы следующую строку в robots.txt или же нет
Allow: /*.js*
Если она не указана, как Disallow(запрещенная к индексации), то скорее всего *.js файлы, все равно проиндексируются.

Зачем указывать User-agent: Yandex

Честно говоря, я и сам не знаю, 90% вероятности, что и без него все будет работать как работало. Но посмотрев robots.txt других раскрученных блогов, я увидел, что везде админы этих сайтов указывают отдельный юзерагент для поискового робота яндекса, по этому и я не стал исключением.

Скажу вам лишь одно, не будет ничего страшного, от того, что вы скопируете все директивы под User-agent: * отдельно для User-agent: Yandex – это будет только плюсом.
Так же обратите внимание что Sitemap и Host указываются единоразово.

Вот и все, вот все простые и основные принципы того, как создать и заполнить правильно robots.txt для вашего сайта.

PS Конечно не забывайте пользоваться мета тегами для запрета индексации
<meta name=”robots” content=”noindex”>
И мета тегами для указания канонического URL 
Ведь, как говорят нам документации самих поисковиков – все что мы указываем в robots – это лишь рекомендации. Основные же настройки индексации, так сказать железные – это именно мета теги и другие специальные теги, указываемые непосредственно в html коде той или иной страницы. Но это уже совсем другая история. Ну и конечно, официальные доки от самого яднекса – маст рид ит

    Anya Volina says:
    06.07.2017

    Большое спасибо за статью.
    Роботс-тег и редиректы – самая большая головная боль для меня.
    Подскажите, а можно ли с помощью десктопов вроде нетпик Spider, comparser отслеживать верность внедрения robots.txt?

    amaduha says:
    06.07.2017

    Добрый день, отличный вопрос.
    Да, про редиректы постараюсь в ближайшее время тоже статью написать.
    По поводу robots.txt
    Скажу сразу с этими инструментами я не работал, лишь имел дело вскользь, так сказать “краем уха слышал”
    Но, что могу посоветовать. Обязательно добавьте свой сайт в Google Webmaster
    а так же в Yandex Webmaster, они имеют отличные инструменты анализа как robots.txt так и сайта в целом.
    Что касается роботс – то зачастую такие сервисы и программы могут вам сказать о корректности его написания(то есть указать на синтаксические ошибки), но не могут вам ответить на вопрос или посоветовать, верно ли вы настроили его(robots.txt).
    По этому просто советую тщательно проанализировать глазами те пути, которые вы прописываете в директиве disalow(запрет индексации)
    и сравнить эти пути с реальными страницами на вашем сайте, самое главное, что бы под disalow не попали страницы с важным контентом, статьями и тд. Все остальное, что не влечет в себе полезной информации, можете добавлять в disalow
    Конечно это не относится к интернет магазинам, там настройка немного другая, потому что люди могут искать товары и по названию категорий, именно по этому страницы поиска и отдельных категорий должны быть в индексе для многостраничных интернет магазинов.

    Текста много (: Надеюсь дал ответ, в любом случае полагайтесь всегда только на себя и свои ощущения. А в подобных программах, можете просто проверять корректность синтаксиса и наличия ошибок.

Leave a Comment

Your email address will not be published.