Запрещаем индексацию https с помощью .htaccess
Заметки по Wordpress

Запрещаем индексацию https с помощью .htaccess

Запрещаем индексацию https с помощью .htaccess

Приветствую, всех моих читателей. Это первый пост после моего летнего отпуска. И речь пойдет о небольшой проблемке, которая возникла за мое отсутствие с нашим сайтом. А именно всемогущий Google умудрился проиндексировать https-версию нашего сайта, в следствие чего после такого ненужного увеличения дублей (а https является точной копией http версии) позиции сайта просели. И поэтому мы продолжаем цикл постов по “Поисковой индексации“.

Первый способ запрета индексации https

Как написано в Google помощь для вебмастера для каждого порта сайта должен быть свой собственный файл robots.txt. Что из этого следует, что надо создать 2 разных robots.txt. В нашем случаи для разрешения индексации всех страниц http, а https версии доступ запретить, наши файлы robots.txt будут выглядеть следующим образом.

Для протокола http (http://site.ru/robots.txt):

User-agent: *
Allow: /

Для протокола https (https://site.ru/robots.txt):

User-agent: * 
Disallow: /

И это хорошо если на вашем хостинги http и https файлы сайта лежат в разных папках, но что делать если это не так и весь сайт находится в одной папке?

Второй способ запрета индексации https

Ничего страшного и на этот случай есть выход и поможет нам в этом файл .htaccess . Нам также понадобятся два файла robots.txt как и первом случаи. Только на этот раз мы первый файл оставляем без изменений он будет предназначен для индексации сайта http, а второй мы переименуем в robots-https.txt и он будет полностью запрещать индексацию. В .htaccess запишем такие строки:

RewriteEngine on

RewriteCond %{HTTPS} on
RewriteRule ^robots\.txt$ robots-https.txt

На практике у нас получилось, что при обращении поисковиком к сайту через http паук получает стандартный файл robots.txt, а при обращении через https-порт паук получит файл robots-https.txt в котором полностью запрещена индексация сайта. Результат будет заметен не сразу, а через некоторое количество времени, которое потребуется для переиндексации поисковыми системами.

Таким образом можно решить проблему еще одних лишних дублей вашего сайта. Оставляйте комментарии и подписывайтесь на обновления.

Новые посты

Реклама и баннеры в wordpress после заголовков

Гордеев Игорь

Создание меню на wordpress

Гордеев Игорь

Вывод нумерации комментариев wordpress

Гордеев Игорь

12 комментариев

Александр 10.07.2012 / 16:23

А каким образом узнать, что паук проиндексировал https версию?

Ответить
Гордеев Игорь 10.07.2012 / 17:43

Забиваем в гугле site:studio-gost.ru только поменяйте на свое название сайта и перелистываем пару или тройку страниц ближе концу списка. https ссылки чаще всего бывают там и как правила отображаются голые ссылки без заголовков.

Ответить
Александр 10.07.2012 / 17:52

спасибо за наводку ))

Ответить
Spyrix 21.07.2012 / 01:36

Скажите пожалуйста а какой плагин у вас используется для RSS Twitter и других подписок, когда надо показать кол-во подписчиков.

Ответить
Гордеев Игорь 24.07.2012 / 14:12

Я не использую плагин, смотрите как сделать вывод числа фолловеров и FeedBurner-счетчик на WordPress

Ответить
Hi-tech 23.07.2012 / 18:01

а как можно будет это узнать?

Ответить
Гордеев Игорь 24.07.2012 / 14:14

Надо проверять индексацию вашего сайта в поисковике.

Ответить
intelegent 26.07.2012 / 11:02

Хм, у меня в индексе все страницы с http видимо в joomla предусмотрен запрет на индексацию https

Ответить
Alex 29.07.2012 / 22:53

очень полезная вещь

Ответить
DZB 15.10.2012 / 02:39

сделал…будем ждать результатов…у меня дохрена дублей я запарился их удалять….и какноникл сделал не помогает…и причину понять не могу.
а если вы знаете некоторые причины их появления пишите на кусок мыла grot.92@mail.ru если поможете отблагодарю wmz

Ответить
Гордеев Игорь 15.10.2012 / 12:08

Ответил на почту.

Ответить
tools 24.05.2013 / 22:21

Я чаще всего использую .htaccess только для 301 редиректа. Удобная вещь однако.

Ответить

Оставить комментарий