Чтобы оптимизировать информационный ресурс, можно временно скрыть его от поисковиков. Посторонним пользователям не нужно видеть повторяющуюся или неуникальную информацию, технические данные или дубли страниц.
В этой статье расскажем о пяти основных способов закрытия сайта от индексации.
1. Настройка доступа с использованием WordPress
Метод подойдет вебмастерам, создавшим интернет-портал на базе WordPress. Чтобы закрыть сайт от поисковых систем полностью, откройте панель управления. Далее следуйте по цепочке: Настройки > Чтение > Видимость для поисковиков > Попросить поисковые системы не индексировать сайт > Сохранить изменения.
После этого поисковики сами будут решать, показывать информационный ресурс пользователям или нет. Google может оставить материалы в результатах выдачи по запросам, не обращая внимания на рекомендацию владельца сайта, а Яндекс, как правило, останавливает индексацию данных.
2. Работа с файлом robots.txt
Скрыть весь информационный портал или его часть можно, создав пустой документ в формате txt и дав ему название robots. Файл надо поместить в корневую папку сайта. Читать подробнее о robots.txt.
Чтобы закрыть сайт от всех поисковых систем, в документе надо прописать следующее:
User-agent: *
Disallow: /
Проверить изменения можно, набрав в адресной строке название домена.ru/robots.txt. Если браузер покажет ошибку 404, то документ находится не корневой папке ресурса.
Запрет на индексацию отдельной папки или файла
Скрыть отдельную папку поможет следующая команда:
User-agent: *
Disallow: /folder/
Закрыть определенный файл можно, указав в команде путь к нему:
User-agent: *
Disallow: /folder/file.php
Остановка индексирования сайта в Яндексе
Остановить индексирование интернет-ресурса в Яндексе можно, сохранив в открытом файле текст:
User-agent: Yandex
Disallow: /
Закрытие сайта от Google
Скрыть информацию только для Google можно, сохранив в robots.txt следующее:
User-agent: Googlebot
Disallow: /
Обращение к другим поисковым системам
Для запрета индексации веб-сайта другими поисковиками, в редактируемом файле в строке user-agent после двоеточия надо указывать имена их поисковых роботов:
- у Yahoo робот Slurp;
- у Спутника — SputnikBot;
- у Bing — MSNBot.
Запрет на индексирование картинок
Код для остановки показа картинок зависит от их формата:
User-agent: *
Disallow: *.png
Disallow: *.jpg
Disallow: *.gif
Закрытие поддомена
Заблокировать поддомен, можно, открыв robots.txt в корневой папке поддомена и указав в robots.txt следующее:
User-agent: *
Disallow: /
Если нужного файла нет, его следует создать самостоятельно.
3. Добавление мета-тега name=»robots»
Мета-тег robots обязателен для соблюдения всеми поисковиками. Чтобы скрыть веб-сайт от индексации, между тегамиинадо вставить кодили.
4. Изменение настроек сервера
Можно попытаться решить проблему через сервер. Если вы не уверены в своих знаниях, лучше обратиться к системному администратору. Действия непрофессионалов могут привести к поломке сайта.
Перед изменением настроек сервера лучше сделать бэкап сайта. Он представляет собой сохранение в отдельном месте всех файлов, баз данных, почты, FTP-аккаунтов и других параметров хостинга. Это позволит вернуть старую версию интернет-ресурса в случае ошибки.
Для изменения разрешенных функций надо прописать код в файле .htaccess:
SetEnvIfNoCase User-Agent "^Googlebot" search_bot
SetEnvIfNoCase User-Agent "^Yandex" search_bot
SetEnvIfNoCase User-Agent "^Yahoo" search_bot
SetEnvIfNoCase User-Agent "^Aport" search_bot
SetEnvIfNoCase User-Agent "^msnbot" search_bot
SetEnvIfNoCase User-Agent "^spider" search_bot
SetEnvIfNoCase User-Agent "^Robot" search_bot
SetEnvIfNoCase User-Agent "^php" search_bot
SetEnvIfNoCase User-Agent "^Mail" search_bot
SetEnvIfNoCase User-Agent "^bot" search_bot
SetEnvIfNoCase User-Agent "^igdeSpyder" search_bot
SetEnvIfNoCase User-Agent "^Snapbot" search_bot
SetEnvIfNoCase User-Agent "^WordPress" search_bot
SetEnvIfNoCase User-Agent "^BlogPulseLive" search_bot
SetEnvIfNoCase User-Agent "^Parser" search_bot
5. Использование HTTP заголовка X-Robots-Tag
Чтобы заблокировать сайт, можно добавить X-Robots-Tag в файл .htaccess. Заголовок касается всего контента на страницах ресурса. Команды, размещенные в нем, исполняются всеми поисковиками. Указанные в заголовках данные приоритетные, а не рекомендованные.
Директивы для тега X-Robots:
- all — правило, которое означает разрешение на выдачу информации и допускает показ всех данных, размещенных на портале;
- nofollow означает ограничение использования ссылок, указанных на странице;
- noindex — запрет на показ файлов и ссылок на информацию о сайте, находящейся в архиве;
- none — директива, означающая применение nofollow и noindex;
- noarchive — команда, запрещающая показ в выдаче поисковика ссылки на версию сайта, сохранившуюся в архиве;
- notranslate — команда не дает показывать пользователям предложение перевода информации;
- noimageindex — директива на индексацию картинок, размещенных на портале;
- nosnippet означает отсутствие разрешения на показ описания страницы (description);
- noodp — команда, запрещающая использовать метаданные для выбранного документа из Open Directory;
- unavailable_after: [RFC-850 date/time] — запрос на остановку показа информации в выдаче по запросу после указанного времени (например, Header set X-Robots — Tag «unavailable_after: 01 Jul 2020 11:20:00 GMT»).
Перед использованием директив надо проверить, распознает ли их нужная поисковая система. Значения, которые распознает Google, более подробно описаны в Search Console.
Яндекс поддерживает директивы, описанные в службе поддержки вебмастера.
Применение X-Robots-Tag через файл .htaccess
Метод дает возможность управлять статичными файлами — теми, которые не нужно обрабатывать серверу (JS, CSS, jpg, png, html, txt и т. д.).
Файл .htaccess расположен в корне сайта (папка public_html). До внесения изменений его следует открыть в любом текстовом редакторе. После этого между тегами и <\FilesMatch> можно указать выбранную директиву.
Например, чтобы остановить индексирование всех файлов в формате .doc на сайте и переходы по ссылкам в них, в .htaccess надо прописать следующее:
<FilesMatch “\.doc$”>
Header set X-Robots-Tag “noindex, nofollow”
</FilesMatch>
Настройка файла с применением PHP
Способ рассчитан на работу с динамическими страницами интернет-ресурса, обрабатываемыми сервером (php, pl, cgi и т. д.), с помощью языка программирования PHP. Он применяется реже, чем X-Robots-Tag.
Для изменения настроек откройте документ index.php, находящийся в корне сайта (папка public_html). В нем между тегамиивставьте строку header «X-Robots — Tag: выбранная директива».
Выводы
Изменение настроек ресурса в WordPress не гарантирует того, что контент не будут показывать в выдаче поисковиков. Команды в файле robots.txt тоже носят рекомендательный характер для роботов. Скрыть веб-сайт можно, добавив тег name=»robots» в HTML-код портала.
Изменять настройки сервера и применять заголовок X-Robots-Tag можно, только если вы уверены в своих знаниях. В противном случае лучше обратиться к профессионалам.
Спасибо)) никогда роботсу не доверял-)
Однозначно кидаю в закладки, Пузат порадовал толковой статьей, благодарю за полезность