wordpress и robots.txt

Правильный robots.txt для wordpress указывает поисковым роботам на правила индексации вашего блога, т.е. что индексировать, а на что закрывать “глаза”.Ведь именно этот файл проверяют в первую очередь поисковые машины, заходя на ваш сайт.

О том что такое robots.txt в сети можно найти очень много информации, в т.ч. как этот файл правильно прописать, но все эти статьи либо некорректные либо скопированные друг у друга.

На досуге наткнулся я на пост “Дублированный контент и параметр replytocom“, перепроверил файл robots.txt, оказалось, что он требует корректировки.

В свою очередь, спешу поделиться с Вами, дорогие читатели, с правильным robots.txt для wordpress от Студии-ГОСТ.

Где находится файл robots.txt?

Файл размещается в корневой директории сайта. Например:

https://studio-gost.ru/robots.txt

Настройки robots.txt

1. User-Agent

Это имя поискового робота, к которому применяются нижеследующие правила вплоть до конца абзаца(не допускается пустое значение)

2. Allow и Disallow

Разрешает и, соответственно, запрещает индексацию указанных разделов блога. Allow воспринимают только Гугл и Яндекс, остальные поисковики его не видят.
Сначала нужно использовать директиву Allow, а только после нее Disallow. Также между ними не ставятся пустые строки – иначе так робот поймет, что инструкция закончилась. После директивы User-Agent также не допускаются пустые строки.

3. Host

Указывает какое зеркало сайта считать главным для избежания попадания под фильтр. Сайт доступен по нескольким адресам минимум с www и без www, и для избежания полного дублирования страниц.

4. Sitemap

Указывает роботу наличие и адрес карты сайта в формате XML

Правильный robots.txt для wordpress

User-agent: *  
Allow: */uploads  
Disallow: /cgi-bin  
Disallow: /wp-  
Disallow: */feed
Disallow: /search
Disallow: /xmlrpc.php  
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback
Disallow: /*?*
          
Host: studio-gost.ru

Sitemap: https://studio-gost.ru/sitemap.xml

Директивы Host(главное зеркало сайта) и Sitemap(путь к карте сайта) являются межсекционными и поэтому будут учитываться роботом в любом месте в файле robots.txt. Следовательно, не надо дублировать секцию полностью, ради указания директивы Host для Яндекса.

Проверка robots.txt в инструментах Яндекс и Google

Работоспособность своего файла robots.txt вы всегда можете проверить в вебмастерских разделах поисковиков. При редактировании своего файла я всегда проверяю его на корректность.

Вебмастер яндекс

У яндекса (webmaster.yandex.ru) раздел находится в “Настройки индексирования->Анализ Robots.txt“.

Вебмастер google

У google (google.com/webmasters) раздел “Состояние->Заблокированные URL“.

Напоследок хочу напомнить, что изменения в robots.txt на уже рабочем блоге будут заметны только спустя 1-3 месяца.

PS Если кто еще знает как можно улучшить Robots.txt пишите в комментариях.

73 комментария

ArhStrAngeR 11.05.2012 / 16:26

Ошибка в роботсе:) сайт написан с .ru.ru

Студия-ГОСТ

Где находится файл robots.txt?

Настройки robots.txt

Правильный robots.txt для wordpress

Проверка robots.txt в инструментах Яндекс и Google

Вебмастер яндекс

Вебмастер google

Новые посты

E-mail маркетинг или e-mail рассылка

Как увеличить посещаемость сайта в 2 раза

Как увеличить трафик на блог совершенно бесплатно

73 комментария

Оставить комментарий Удалить ответ