robots.txt для wordpress
SEO продвижение

wordpress и robots.txt

robots.txt для wordpress

Правильный robots.txt для wordpress указывает поисковым роботам на правила индексации вашего блога, т.е. что индексировать, а на что закрывать “глаза”.Ведь именно этот файл проверяют в первую очередь поисковые машины, заходя на ваш сайт.

О том что такое robots.txt в сети можно найти очень много информации, в т.ч. как этот файл правильно прописать, но все эти статьи либо некорректные либо скопированные друг у друга.

На досуге наткнулся я на пост “Дублированный контент и параметр replytocom“, перепроверил файл robots.txt, оказалось, что он требует корректировки.

В свою очередь, спешу поделиться с Вами, дорогие читатели, с правильным robots.txt для wordpress от Студии-ГОСТ.

Где находится файл robots.txt?

Файл размещается в корневой директории сайта. Например:

https://studio-gost.ru/robots.txt

Настройки robots.txt

1. User-Agent

Это имя поискового робота, к которому применяются нижеследующие правила вплоть до конца абзаца(не допускается пустое значение)

2. Allow и Disallow

Разрешает и, соответственно, запрещает индексацию указанных разделов блога. Allow воспринимают только Гугл и Яндекс, остальные поисковики его не видят.
Сначала нужно использовать директиву Allow, а только после нее Disallow. Также между ними не ставятся пустые строки – иначе так робот поймет, что инструкция закончилась. После директивы User-Agent также не допускаются пустые строки.

3. Host

Указывает какое зеркало сайта считать главным для избежания попадания под фильтр. Сайт доступен по нескольким адресам минимум с www и без www, и для избежания полного дублирования страниц.

4. Sitemap

Указывает роботу наличие и адрес карты сайта в формате XML

 

Правильный robots.txt для wordpress

User-agent: *  
Allow: */uploads  
Disallow: /cgi-bin  
Disallow: /wp-  
Disallow: */feed
Disallow: /search
Disallow: /xmlrpc.php  
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback
Disallow: /*?*
          
Host: studio-gost.ru

Sitemap: https://studio-gost.ru/sitemap.xml

Директивы Host(главное зеркало сайта) и Sitemap(путь к карте сайта) являются межсекционными и поэтому будут учитываться роботом в любом месте в файле robots.txt. Следовательно, не надо дублировать секцию полностью, ради указания директивы Host для Яндекса.

Проверка robots.txt в инструментах Яндекс и Google

Работоспособность своего файла robots.txt вы всегда можете проверить в вебмастерских разделах поисковиков. При редактировании своего файла я всегда проверяю его на корректность.

Вебмастер яндекс

robots.txt для wordpress

У яндекса (webmaster.yandex.ru) раздел находится в “Настройки индексирования->Анализ Robots.txt“.

Вебмастер google

robots.txt для wordpress

У google (google.com/webmasters) раздел “Состояние->Заблокированные URL“.

Напоследок хочу напомнить, что изменения в robots.txt на уже рабочем блоге будут заметны только спустя 1-3 месяца.

PS Если кто еще знает как можно улучшить Robots.txt пишите в комментариях.

Новые посты

Биржа статей – где найти авторов

Гордеев Игорь

Как увеличить посещаемость сайта в 2 раза

Гордеев Игорь

Биржи ссылок или где купить ссылки?

Гордеев Игорь

73 комментария

ArhStrAngeR 11.05.2012 / 16:26

Ошибка в роботсе:) сайт написан с .ru.ru

Ответить
Гордеев Игорь 11.05.2012 / 16:55

Ох, спасибо подправил. 😉

Ответить
gal 11.05.2012 / 19:18

Я очень внимательно прочитала, постараюсь разобраться, но в себе не уверенна. Я правильно поняла – Если установить правильный робот для wordpress – видно не сразу? :mrgreen:

Ответить
Гордеев Игорь 11.05.2012 / 19:38

Если у вас сайт уже проиндексирован, то да надо будет ждать следующей переиндексации с учетом нового файла robots.txt

Ответить
Юрий 11.05.2012 / 23:26

А если у меня и сайт проиндексирован, и роботс уже давно установлен был, но на днях я его подредактировал, то эффект будет только через 2-3 месяца? 😎

Ответить
Гордеев Игорь 12.05.2012 / 02:48

К сожалению, да. Так устроены поисковики.

Ответить
Иван 20.05.2012 / 14:30

А я слышал, что для Яндекса нужно отдельно прописывать. Да и теперь пытаюсь сам разобраться в этом файле robots.txt, так как недавно из-за копирования его с какого-то сайта, вообще осталась только одна главная страница!

Ответить
Гордеев Игорь 20.05.2012 / 15:08

Про Яндекс написано, ничего отдельно делать не надо.

Ответить
Иван 21.05.2012 / 15:54

Тогда же почему при проверке файла robots.txt в используемых секциях Яндекс пишет то, что учитывает, а остальное пропускает? Причём я сам лично проверял в Списке URL (в одной части для всех поисковых систем разрешал индексировать папку, а в Яндексе нет).

Ответить
Гордеев Игорь 21.05.2012 / 17:39

В robots.txt можно хоть для каждого поисковика прописать свои директивы, но если они везде одинаковые то не надо их дублировать достаточно сделать одну секцию с общими директивами. Многие блогеры советуют делать для Яндекса отдельно секцию из-за директивы HOST, как они считают, что по другому она не воспринимается. Но это не так Host являются межсекционной и нет смысла делать дубли.

PS Ссылку сюда не было смыло, логин и пароль ваш никто не знает…

Ответить
serg 25.05.2012 / 15:16

я так понял чтобы сайт проиндексировался яндексом надо написать
Host: http:// сайт.ру
а для гугла надо что-то писать?

Ответить
Гордеев Игорь 25.05.2012 / 17:24

не правильно поняли Host – указывает главное зеркало сайта. Данная директива учитывается всеми поисковиками, в том числе и гуглом. А если не указывать, то сайт все равно будет индексироваться только не понятно какой с www и без www, а иногда и оба сразу.

Ответить
Andymyon 25.05.2012 / 20:27

Необязательно должно пройти 2-3 месяца. У меня на изменённый роботс.тхт яндекс прореагировал сразу же. А когда увидел, что вписал по ошибке лишнюю строчку, то возвращает страницы в индекс уже 2-3 месяца. Самому сайту почти год.

Ответить
Гордеев Игорь 25.05.2012 / 21:18

Имелось виду переиндексация сайта с учетом нового robots.txt проходит от 1-3 месяцев(срок подкорректировал).

Ответить
VladMslav 28.05.2012 / 12:11

А свой роботс можно только в вебмастерских разделах поисковиков увидеть, да?
Я только приобрел домен и хостинг, буду устанавливать движок Вордпрес. Как мне в этом случае этот файл прописать, а то я из поста не понял.

Ответить
Andymyon 28.05.2012 / 14:12

Создаёте на ПК и заливаете его в корень сайта, а точнее в папку public_html.
Это обычный текстовый файл. Что лучше открывать, а что закрывать для индексирования, решать вам. Тут советую гуглить.

Ответить
Гордеев Игорь 28.05.2012 / 14:30

Спасибо, что ответили за меня. В данном посте приведен начальный универсальный robots.txt. Для каждого сайта он индивидуален и как раз тут в помощь гугл.

Ответить
intelegent 09.06.2012 / 00:42

В основном этот файл нужен тем кому нужно что то скрыть от поисковиков лично я не пользовался им никогда

Ответить
Елена 26.06.2012 / 15:58

И напрасно, этот файл в каждом блоге должен быть, чтобы поисковики не совали нос туда, куда их не просят.

Ответить
intelegent 29.06.2012 / 16:49

Я вообщето говорю про то что никогда его не перенастраивал, а так он у меня есть.

Ответить
марк 18.06.2012 / 15:11

нужно ли в robots.txt закладывать файлы типа Disallow: /comments.php
Disallow: /sidebar.php
Disallow: /searchform.php
Disallow: /footer.php
Disallow: /single.php
Disallow: /functions.php
Disallow: /header.php
Disallow: /index.php
Disallow: /page.php
Disallow: /search.php

Ответить
Гордеев Игорь 26.06.2012 / 15:48

нет не надо

Ответить
intelegent 29.06.2012 / 16:50

Осталось ещё про Humans txt написать 😉

Ответить
Oleg 21.07.2012 / 19:50

Игорь скажи, стоит ли добавить такие строки:
Disallow: /search/
Disallow: /page/
Disallow: /?s=

Ответить
Гордеев Игорь 23.07.2012 / 13:06

Disallow: /?s= вписывать в robots.txt не надо, его блокирует Disallow: /*?*
Disallow: /page/ вписываете если вы хотите заблокировать индексацию страниц
Disallow: /search/ а этот момент я упустил. Подправил.

Ответить
skier 24.07.2012 / 17:24

Игорь,
что ты думаешь насчет плагинов типа wp-robots-txt.1.0 или kb-robotstxt
и нужно ли добавить вот эти строки?
Disallow: /wp-admin/
Disallow: /wp-includes/

Ответить
Гордеев Игорь 25.07.2012 / 09:46

К плагинам отношусь плохо, тем более к таким без которых элементарно можно обойтись.

Disallow: /wp-admin/
Disallow: /wp-includes/

указывать не надо, уже все указано здесть

Disallow: /wp-
Ответить
Спонсор 13.08.2012 / 03:49

Извинте, хотел у Вас спросить вот что…
У себя на блоге в сайдбаре я сделал блок “популярные статьи” с миниатюрами. Так вот… получается, что на статью ведет 2 ссылки (одна с картинки, другая с названия статьи).
Считается ли это дублированием контента, и если да, то как закрыть это безобразие в robots.txt?

Ответить
Dm 24.08.2012 / 13:04

Побуду дураком 5 минут – скажите, для ЖЖ-блога можно сделать робот.тхт или нет. В свое время я выбрал Живой Журнал для ведения блога именно в силу простоты (для меня WordPress остается темным лесом). Спасибо.

Ответить
Гордеев Игорь 24.08.2012 / 14:04

На сколько я знаю нельзя

Ответить
Простой 02.09.2012 / 22:06

Хороший совет. Надо им воспользоваться.

Ответить
Простой 19.09.2012 / 17:43

А как в роботс правильно скрыть вот такое: сайт.ру/2012/08 ???

Ответить
Гордеев Игорь 20.09.2012 / 10:37

Надо добавить такую строчку:
Disallow: /2012/08/
Что бы не указывать каждый месяц, пропишите лучше так:
Disallow: /2012/

Ответить
Простой 20.09.2012 / 21:37

Спасибо за ответ.
Только, а что получается так каждый год придётся вписывать? –
Disallow: /2012/
Disallow: /2013/


Disallow: /2020/ ??? 😯
По моему это как-то не логично. Или я не прав?

Ответить
Гордеев Игорь 24.09.2012 / 15:04

Да именно так. Как вариант можно еще попробовать вписать по десятилетиям:
Disallow: /201
Disallow: /202

Но вероятность случайного совпадения url на вашем сайте возрастает

Ответить
Geleosan 25.09.2012 / 04:47

Хотел бы уточнить пару моментов. Зачем ставить звездочки в конце директив, если и так по умолчанию считается, что в конце звездочка?
Disallow: /*?*

Чем такая директива
Disallow: */trackback
Отличается от такой
Disallow: /*trackback

Пытаюсь разобраться, буду рад если объясните.

Ответить
Гордеев Игорь 26.09.2012 / 01:39

Даже не знаю как вам объяснить: Алгоритм такой же как и при поиске в windows(да и не только). * – обозначает любое совпадение.
Например:
site.ru/categor/trackback – для исключения подойдут оба вариант
site.ru/free-trackback – для исключения подойдет уже только 2 вариант

Ответить
Geleosan 26.09.2012 / 03:11

Прошу прощения ошибок наделал в предыдущем комменте.

Это очень странно…
Disallow: /*trackback ,судя по руководству яндекса и гугла, означает что, между доменом и словом trackback может быть любая комбинация букв и папок. То есть данная директива полностью описывает исключение ваших обеих вариантов из примера.

Цитирую с гугла:
“Строка Disallow:/*? блокирует доступ ко всем URL-адресам со знаком вопроса (то есть ко всем URL-адресам, которые начинаются с названия домена и содержат цепочку, внутри которой встречается знак вопроса).”

Только в нашем случае вместо знака вопроса слово trackback.

Ответить
Гордеев Игорь 26.09.2012 / 09:45

Вот ведите сами все знаете. Как я и писал

* – обозначает любое совпадение.

Просто не удачно привел пример. Подправил.

Ответить
Aleksandr 30.09.2012 / 00:06

Игорь, ни как не разберусь как правильно закрыть теги Disallow:/tag, или …:/tag/. Ставлю без закрывающей скобки-одно количество страниц в поиске,со скобкой другое…Подскажите как всё таки поступить, пока оставил с двумя /tag/

Ответить
Гордеев Игорь 01.10.2012 / 11:02

Правильный вариант будет:

Disallow:/tag/

Ответить
PTS 11.10.2012 / 10:14

теперь и я побуду дураком 5 минут.
и всё же, чем отличается вариант закрытия звёздочкой перед слэшем и после?
и объясните на конкретном примере как закрыть от индексации урлы на страницы с любым вхождение, типа “?sort=” или “?PAGEN_” ли так “?action=”.
нужно чтобы все ссылки, где есть такой набор символом, в начале или в конце урла, навсегда покинул поиск G и Я.
спасибо.

Ответить
Гордеев Игорь 11.10.2012 / 11:45

Что обозначает * я писал тут.

и объясните на конкретном примере как закрыть от индексации урлы на страницы с любым вхождение, типа “?sort=” или “?PAGEN_” ли так “?action=”.

Что бы исключить любой такой набор символом заключите их в *.

Ответить
Inco 29.10.2012 / 00:56

Игорь, у меня на блоге url формируются таким образом “сайт.ру/название статьи”
Мне интересно разве такая директива
Disallow: /*?*
не закроет индексацию основного содержимого?

Ответить
Гордеев Игорь 29.10.2012 / 09:54

Нет, разве у вас в формирование url встречается (?) знак вопроса.

Ответить
Inco 29.10.2012 / 20:30

Разве знак вопроса не заменяет любой символ, а звездочки любые комбинации символов? Тогда загружу ваш роботс к себе, я до сих пор об этом файле не задумывался особо.

Ответить
zeleniyalex 09.11.2012 / 14:16

Здравствуйте, подскажите пожалуйста почему на вашем блоге robots.txt мягко говоря чуток отличается от того что вы здесь приводите?
У Вас он таков:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
И всё.

Ответить
Гордеев Игорь 10.11.2012 / 22:07

Это вы где такое увидали?

Ответить
Владимир 12.11.2012 / 19:30

Ё моё, ну наконец-то нашел на просторах интернета то, что искал. И ещё больше! Спасибо от всей души. Пол дня убил на то как создать “робота” и как его затолкать в корневую папку, а по вашей четкой инструкции (правда применимо к моему сайту получилось с некоторой интерпретацией), я за 10 минут создал и разместил “робота” на сайте. Вот это настоящий инструктаж! Спасибо огромное!

Ответить
NMitra 02.12.2012 / 16:25

Мне больше по душе вариант АлаичЪ’а. Когда robots.txt минимален, а основной упор делается на Мета-теги.

Ответить
Ирина 10.12.2012 / 02:51

Здравствуйте, Игорь. Спасибо за доступный урок. У Вас самый короткий robots. А у меня при проверке файла Яндекс выдал:”Найдено несколько правил вида “User-agent: *”. Что бы это значило?

Ответить
Гордеев Игорь 13.12.2012 / 11:28

Это значит, что некоторые ссылки попадают несколько правил, которые написаны в robots.txt

Ответить
Sergej 22.02.2013 / 11:29

А у меня после вставки robot.txt блог стал тормозить.Не подскажете в чём может быть засада?

Ответить
Гордеев Игорь 22.02.2013 / 12:50

robot.txt никак не влияет на скорость загрузки сайта. Это у вас, что-то другое.

Ответить
Простой 05.03.2013 / 20:05

Disallow: /category – А зачем закрывать категории?

Ответить
Mарат 05.07.2013 / 20:23

И у него прописано только на яшу,на гугл не надо?

Ответить
Гордеев Игорь 06.07.2013 / 01:19

Марат, вы заголовок видели “Правильный robots.txt для wordpress” – это мое мнение. Если оно вас не устраивает, можете делать как у других блогеров.

Ответить
Mарат 06.07.2013 / 01:32

Игорь походу я Вас огорчил своим комментарием, но я вовсе не хотел. Просто Вы все авторитетные блогеры, и я не знаю реально что прописать в этом роботе. Я запутался. И никто к сожалению не объясняет толком, Было бы объяснение по каждой строчке что можно закрывать и что не стоит, новичкам только это и надо… но к сожалению этого нет. Все просто пишут какой у них робот и все рекомендуют ставить его(свои).По Вашим статьям авторитетных блогеров нет объяснении например почему закрываем комментарии??? я вот не знаю и где его искать???и т.д.

Ответить
Гордеев Игорь 06.07.2013 / 01:51

Марат, нет Вы меня не огорчили. Вы правы каждый блогер считает, что его robots.txt самый лучший и дискуссировать можно до бесконечности. И какой выбрать robots.txt решать только вам.
Но что бы разобраться как кой выбрать надо понять для чего нужен robots.txt, а именно, что бы запретить поисковикам индексировать ненужные разделы сайт и дубли.
И такой вопрос – Почему закрываем комментарии отпадет. Потому, что это уникальный контент, а его от поисковиков как правило не закрывают.

Ответить
Mарат 06.07.2013 / 02:02

Спасибо Игорь! побежал убирать с робота Disallow: */comments, я сразу так и подумал зачем его закрывать это же уникальный текст ))), у Борисова закрыта вроде бы и он писал что это хлам ))) Вроде бы так 🙂 Спасибо Игорь!

Ответить
Mарат 06.07.2013 / 02:03

Прошу прощения Игорь Disallow: */comment-page-* тоже убирать?

Ответить
Гордеев Игорь 06.07.2013 / 02:09

Да, Марат, да. Проще сделайте как у меня. Я над своим robots.txt ломал голову несколько ночей 😉

Ответить
Mарат 06.07.2013 / 02:18

я так и сделал, блин целые сутки потерял, надо было сразу так сделать ))) Спасибо Игорь! Пойду спать, завтра буду ставить обратную связь на блог ))) опять наверное на сутки… 😯

Ответить
Mарат 06.07.2013 / 02:22

Игорь не работает поиск по блогу хотел посмотреть на завтра обратную связь на блог

Ответить
Гордеев Игорь 06.07.2013 / 02:28

Марат все работает https://studio-gost.ru/?s=обратную+связь

Ответить
Матвей Феникс 12.07.2013 / 00:58

Некоторые люди делают разные роботсы по яндекс и гугл. Только вот зачем 😐

Ответить
Гордеев Игорь 13.07.2013 / 13:54

Да и их большинство. Тоже не пойму зачем они это делают.

Ответить
Александр 24.03.2014 / 12:31

Я делаю разные секции в роботсе: под “всё” и отдельно под Яндекс с рекомендуемым форматом прописывания “Host:” – http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml#host
Цитата из вебмастера:

В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву ‘Host’ необходимо добавлять в группе, начинающейся с записи ‘User-Agent’, непосредственно после директив ‘Disallow'(‘Allow’). Аргументом директивы ‘Host’ является доменное имя с номером порта (по умолчанию 80), отделенным двоеточием.

Цитата с robotstxt.org.ru

Некоторые роботы могут неправильно отреагировать на использование дополнительных директив. Это значит, что не стоит использовать дополнительные директивы в секции «*».
То есть рекомендуется создавать специальные секции для нестандартных директив, таких как «Host».

Так неправильно:

User-agent: *
Disallow: /css/
Host: http://www.example.com

А вот так – правильно:

User-agent: *
Disallow: /css/

User-agent: Yandex
Disallow: /css/
Host: http://www.example.com

Так что, вариант с межсекционным хостом мне кажется не правильным. Хотя, скорее всего это просто дело вкуса/привычки и он работает что так, что так =)

Ответить
Гордеев Игорь 29.03.2014 / 09:28

Хотя, скорее всего это просто дело вкуса/привычки и он работает что так, что так =)

Это уже проверено 100 раз. Всё работает четко в обоих вариантах. И поэтому не вижу смысла дублировать текст и советую сделать как написано в моем случае.

Ответить
Петр 08.01.2015 / 21:49

Наконец, прочитав эту статью я понял, что к чему!

Ответить
Антон 17.01.2015 / 20:04

здравствуйте. не могу найти в корневой папке файл: robots.txt (его просто там нес существует), а при проверке в яндекс вебмастер он отображается, как такое возможно????

Ответить
Роман 15.12.2015 / 19:47

Здравствуйте, подскажите пожалуйста зачем писать вот это
Disallow: /*?*
ведь таки макаром закрываются от индексирования все страницы на моём сайте?! ( по крайей мере так мне написал яндекс.вебмастер.

Ответить
Павел Дарвай 20.05.2016 / 22:14

Статья полезная и понятная. Коменты тоже сделали свое дело и помогли понять все, еще лучше.
Благодарю. Успехов.

Ответить

Оставить комментарий