Правильный robots.txt для wordpress указывает поисковым роботам на правила индексации вашего блога, т.е. что индексировать, а на что закрывать “глаза”.Ведь именно этот файл проверяют в первую очередь поисковые машины, заходя на ваш сайт.
О том что такое robots.txt в сети можно найти очень много информации, в т.ч. как этот файл правильно прописать, но все эти статьи либо некорректные либо скопированные друг у друга.
На досуге наткнулся я на пост “Дублированный контент и параметр replytocom“, перепроверил файл robots.txt, оказалось, что он требует корректировки.
В свою очередь, спешу поделиться с Вами, дорогие читатели, с правильным robots.txt для wordpress от Студии-ГОСТ.
Где находится файл robots.txt?
Файл размещается в корневой директории сайта. Например:
https://studio-gost.ru/robots.txt
Настройки robots.txt
1. User-Agent
Это имя поискового робота, к которому применяются нижеследующие правила вплоть до конца абзаца(не допускается пустое значение)
2. Allow и Disallow
Разрешает и, соответственно, запрещает индексацию указанных разделов блога. Allow воспринимают только Гугл и Яндекс, остальные поисковики его не видят.
Сначала нужно использовать директиву Allow, а только после нее Disallow. Также между ними не ставятся пустые строки – иначе так робот поймет, что инструкция закончилась. После директивы User-Agent также не допускаются пустые строки.
3. Host
Указывает какое зеркало сайта считать главным для избежания попадания под фильтр. Сайт доступен по нескольким адресам минимум с www и без www, и для избежания полного дублирования страниц.
4. Sitemap
Указывает роботу наличие и адрес карты сайта в формате XML
Правильный robots.txt для wordpress
User-agent: * Allow: */uploads Disallow: /cgi-bin Disallow: /wp- Disallow: */feed Disallow: /search Disallow: /xmlrpc.php Disallow: /tag Disallow: /category Disallow: /archive Disallow: */trackback Disallow: /*?* Host: studio-gost.ru Sitemap: https://studio-gost.ru/sitemap.xml
Директивы Host(главное зеркало сайта) и Sitemap(путь к карте сайта) являются межсекционными и поэтому будут учитываться роботом в любом месте в файле robots.txt. Следовательно, не надо дублировать секцию полностью, ради указания директивы Host для Яндекса.
Проверка robots.txt в инструментах Яндекс и Google
Работоспособность своего файла robots.txt вы всегда можете проверить в вебмастерских разделах поисковиков. При редактировании своего файла я всегда проверяю его на корректность.
Вебмастер яндекс
У яндекса (webmaster.yandex.ru) раздел находится в “Настройки индексирования->Анализ Robots.txt“.
Вебмастер google
У google (google.com/webmasters) раздел “Состояние->Заблокированные URL“.
Напоследок хочу напомнить, что изменения в robots.txt на уже рабочем блоге будут заметны только спустя 1-3 месяца.
PS Если кто еще знает как можно улучшить Robots.txt пишите в комментариях.
73 комментария
Ошибка в роботсе:) сайт написан с .ru.ru