Как закрыть сайт от индексации

Чтобы оптимизировать информационный ресурс, можно временно скрыть его от поисковиков. Посторонним пользователям не нужно видеть повторяющуюся или неуникальную информацию, технические данные или дубли страниц.

В этой статье расскажем о пяти основных способов закрытия сайта от индексации.

1. Настройка доступа с использованием WordPress

Метод подойдет вебмастерам, создавшим интернет-портал на базе WordPress. Чтобы закрыть сайт от поисковых систем полностью, откройте панель управления. Далее следуйте по цепочке: Настройки > Чтение > Видимость для поисковиков > Попросить поисковые системы не индексировать сайт > Сохранить изменения.

После этого поисковики сами будут решать, показывать информационный ресурс пользователям или нет. Google может оставить материалы в результатах выдачи по запросам, не обращая внимания на рекомендацию владельца сайта, а Яндекс, как правило, останавливает индексацию данных.

2. Работа с файлом robots.txt

Скрыть весь информационный портал или его часть можно, создав пустой документ в формате txt и дав ему название robots. Файл надо поместить в корневую папку сайта. Читать подробнее о robots.txt.

Чтобы закрыть сайт от всех поисковых систем, в документе надо прописать следующее:

User-agent: *
Disallow: /

Проверить изменения можно, набрав в адресной строке название домена.ru/robots.txt. Если браузер покажет ошибку 404, то документ находится не корневой папке ресурса.

Запрет на индексацию отдельной папки или файла

Скрыть отдельную папку поможет следующая команда:

User-agent: *
Disallow: /folder/

Закрыть определенный файл можно, указав в команде путь к нему:

User-agent: *
Disallow: /folder/file.php

Остановка индексирования сайта в Яндексе

Остановить индексирование интернет-ресурса в Яндексе можно, сохранив в открытом файле текст:

User-agent: Yandex
Disallow: /

Закрытие сайта от Google

Скрыть информацию только для Google можно, сохранив в robots.txt следующее:

User-agent: Googlebot
Disallow: /

Обращение к другим поисковым системам

Для запрета индексации веб-сайта другими поисковиками, в редактируемом файле в строке user-agent после двоеточия надо указывать имена их поисковых роботов:

у Yahoo робот Slurp;
у Спутника — SputnikBot;
у Bing — MSNBot.

Запрет на индексирование картинок

Код для остановки показа картинок зависит от их формата:

User-agent: *
Disallow: *.png
Disallow: *.jpg
Disallow: *.gif

Закрытие поддомена

Заблокировать поддомен, можно, открыв robots.txt в корневой папке поддомена и указав в robots.txt следующее:

User-agent: *
Disallow: /

Если нужного файла нет, его следует создать самостоятельно.

3. Добавление мета-тега name=»robots»

Мета-тег robots обязателен для соблюдения всеми поисковиками. Чтобы скрыть веб-сайт от индексации, между тегамиинадо вставить кодили.

4. Изменение настроек сервера

Можно попытаться решить проблему через сервер. Если вы не уверены в своих знаниях, лучше обратиться к системному администратору. Действия непрофессионалов могут привести к поломке сайта.

Перед изменением настроек сервера лучше сделать бэкап сайта. Он представляет собой сохранение в отдельном месте всех файлов, баз данных, почты, FTP-аккаунтов и других параметров хостинга. Это позволит вернуть старую версию интернет-ресурса в случае ошибки.

Для изменения разрешенных функций надо прописать код в файле .htaccess:

SetEnvIfNoCase User-Agent "^Googlebot" search_bot
SetEnvIfNoCase User-Agent "^Yandex" search_bot
SetEnvIfNoCase User-Agent "^Yahoo" search_bot
SetEnvIfNoCase User-Agent "^Aport" search_bot
SetEnvIfNoCase User-Agent "^msnbot" search_bot
SetEnvIfNoCase User-Agent "^spider" search_bot
SetEnvIfNoCase User-Agent "^Robot" search_bot
SetEnvIfNoCase User-Agent "^php" search_bot
SetEnvIfNoCase User-Agent "^Mail" search_bot
SetEnvIfNoCase User-Agent "^bot" search_bot
SetEnvIfNoCase User-Agent "^igdeSpyder" search_bot
SetEnvIfNoCase User-Agent "^Snapbot" search_bot
SetEnvIfNoCase User-Agent "^WordPress" search_bot
SetEnvIfNoCase User-Agent "^BlogPulseLive" search_bot
SetEnvIfNoCase User-Agent "^Parser" search_bot

5. Использование HTTP заголовка X-Robots-Tag

Чтобы заблокировать сайт, можно добавить X-Robots-Tag в файл .htaccess. Заголовок касается всего контента на страницах ресурса. Команды, размещенные в нем, исполняются всеми поисковиками. Указанные в заголовках данные приоритетные, а не рекомендованные.

Директивы для тега X-Robots:

all — правило, которое означает разрешение на выдачу информации и допускает показ всех данных, размещенных на портале;
nofollow означает ограничение использования ссылок, указанных на странице;
noindex — запрет на показ файлов и ссылок на информацию о сайте, находящейся в архиве;
none — директива, означающая применение nofollow и noindex;
noarchive — команда, запрещающая показ в выдаче поисковика ссылки на версию сайта, сохранившуюся в архиве;
notranslate — команда не дает показывать пользователям предложение перевода информации;
noimageindex — директива на индексацию картинок, размещенных на портале;
nosnippet означает отсутствие разрешения на показ описания страницы (description);
noodp — команда, запрещающая использовать метаданные для выбранного документа из Open Directory;
unavailable_after: [RFC-850 date/time] — запрос на остановку показа информации в выдаче по запросу после указанного времени (например, Header set X-Robots — Tag «unavailable_after: 01 Jul 2020 11:20:00 GMT»).

Перед использованием директив надо проверить, распознает ли их нужная поисковая система. Значения, которые распознает Google, более подробно описаны в Search Console.

Яндекс поддерживает директивы, описанные в службе поддержки вебмастера.

Применение X-Robots-Tag через файл .htaccess

Метод дает возможность управлять статичными файлами — теми, которые не нужно обрабатывать серверу (JS, CSS, jpg, png, html, txt и т. д.).

Файл .htaccess расположен в корне сайта (папка public_html). До внесения изменений его следует открыть в любом текстовом редакторе. После этого между тегами и <\FilesMatch> можно указать выбранную директиву.

Например, чтобы остановить индексирование всех файлов в формате .doc на сайте и переходы по ссылкам в них, в .htaccess надо прописать следующее:

<FilesMatch “\.doc$”> Header set X-Robots-Tag “noindex, nofollow” </FilesMatch>

Настройка файла с применением PHP

Способ рассчитан на работу с динамическими страницами интернет-ресурса, обрабатываемыми сервером (php, pl, cgi и т. д.), с помощью языка программирования PHP. Он применяется реже, чем X-Robots-Tag.

Для изменения настроек откройте документ index.php, находящийся в корне сайта (папка public_html). В нем между тегамиивставьте строку header «X-Robots — Tag: выбранная директива».

Выводы

Изменение настроек ресурса в WordPress не гарантирует того, что контент не будут показывать в выдаче поисковиков. Команды в файле robots.txt тоже носят рекомендательный характер для роботов. Скрыть веб-сайт можно, добавив тег name=»robots» в HTML-код портала.

Изменять настройки сервера и применять заголовок X-Robots-Tag можно, только если вы уверены в своих знаниях. В противном случае лучше обратиться к профессионалам.

Верные способы закрыть сайт от поисковиков