Приветствую, всех моих читателей. Это первый пост после моего летнего отпуска. И речь пойдет о небольшой проблемке, которая возникла за мое отсутствие с нашим сайтом. А именно всемогущий Google умудрился проиндексировать https-версию нашего сайта, в следствие чего после такого ненужного увеличения дублей (а https является точной копией http версии) позиции сайта просели. И поэтому мы продолжаем цикл постов по “Поисковой индексации“.
Первый способ запрета индексации https
Как написано в Google помощь для вебмастера для каждого порта сайта должен быть свой собственный файл robots.txt. Что из этого следует, что надо создать 2 разных robots.txt. В нашем случаи для разрешения индексации всех страниц http, а https версии доступ запретить, наши файлы robots.txt будут выглядеть следующим образом.
Для протокола http (http://site.ru/robots.txt):
User-agent: * Allow: /
Для протокола https (https://site.ru/robots.txt):
User-agent: * Disallow: /
И это хорошо если на вашем хостинги http и https файлы сайта лежат в разных папках, но что делать если это не так и весь сайт находится в одной папке?
Второй способ запрета индексации https
Ничего страшного и на этот случай есть выход и поможет нам в этом файл .htaccess . Нам также понадобятся два файла robots.txt как и первом случаи. Только на этот раз мы первый файл оставляем без изменений он будет предназначен для индексации сайта http, а второй мы переименуем в robots-https.txt и он будет полностью запрещать индексацию. В .htaccess запишем такие строки:
RewriteEngine on RewriteCond %{HTTPS} on RewriteRule ^robots\.txt$ robots-https.txt
На практике у нас получилось, что при обращении поисковиком к сайту через http паук получает стандартный файл robots.txt, а при обращении через https-порт паук получит файл robots-https.txt в котором полностью запрещена индексация сайта. Результат будет заметен не сразу, а через некоторое количество времени, которое потребуется для переиндексации поисковыми системами.
Таким образом можно решить проблему еще одних лишних дублей вашего сайта. Оставляйте комментарии и подписывайтесь на обновления.
12 комментариев
А каким образом узнать, что паук проиндексировал https версию?
Забиваем в гугле site:studio-gost.ru только поменяйте на свое название сайта и перелистываем пару или тройку страниц ближе концу списка. https ссылки чаще всего бывают там и как правила отображаются голые ссылки без заголовков.
спасибо за наводку ))
Скажите пожалуйста а какой плагин у вас используется для RSS Twitter и других подписок, когда надо показать кол-во подписчиков.
Я не использую плагин, смотрите как сделать вывод числа фолловеров и FeedBurner-счетчик на WordPress
а как можно будет это узнать?
Надо проверять индексацию вашего сайта в поисковике.
Хм, у меня в индексе все страницы с http видимо в joomla предусмотрен запрет на индексацию https
очень полезная вещь
сделал…будем ждать результатов…у меня дохрена дублей я запарился их удалять….и какноникл сделал не помогает…и причину понять не могу.
а если вы знаете некоторые причины их появления пишите на кусок мыла grot.92@mail.ru если поможете отблагодарю wmz
Ответил на почту.
Я чаще всего использую .htaccess только для 301 редиректа. Удобная вещь однако.