Сайт закрыть: Закрыть сайт от индексации в robots.txt, как скрыть сайт от поисковых систем Яндекс и Google через файл роботс и meta-тегом

Содержание

Закрыть сайт от индексации в robots.txt, как скрыть сайт от поисковых систем Яндекс и Google через файл роботс и meta-тегом

Содержание

Как закрыть от индексации отдельную папку? #

Как закрыть отдельный файл в Яндексе? #

Как проверить, в индексе документ или нет? #

Как скрыть от индексации картинки? #

Как закрыть поддомен? #

При использовании CDN-версии #

Как обращаться к другим поисковым роботам (список) #

Прочие директивы в robots.txt #

Закрыть страницу и сайт с помощью meta-тега name=»robots» #

Размер текста:

На стадии разработки и/или редизайна проекта бывают ситуации, когда лучше не допускать поисковых роботов на сайт или его копию. В этом случае рекомендуется закрыть сайт от индексации поисковых систем. Сделать это можно следующим образом:

Закрыть сайт от индексации очень просто, достаточно создать в корне сайта текстовый файл robots.txt и прописать в нём следующие строки:


User-agent: Yandex

Disallow: /

Такие строки закроют сайт от поискового робота Яндекса.


User-agent: *

Disallow: /

А таким образом можно закрыть сайт от всех поисковых систем (Яндекса, Google и других).

Как закрыть от индексации отдельную папку? #

Отдельную папку можно закрыть от поисковых систем в том же файле robots.txt с её явным указанием (будут скрыты все файлы внутри этой папки).


User-agent: *

Disallow: /folder/

Если какой-то отдельный файл в закрытой папке хочется отдельно разрешить к индексации, то используйте два правила Allow и Disallow совместно:


User-agent: *

Аllow: /folder/file.php

Disallow: /folder/

Как закрыть отдельный файл в Яндексе? #

Всё по аналогии.


User-agent: Yandex

Disallow: /folder/file.php

Как проверить, в индексе документ или нет? #

Проще всего осуществить проверку в рамках сервиса «Пиксель Тулс», бесплатный инструмент «Определение возраста документа в Яндексе» позволяет ввести URL списком. Если документ отсутствует в индексе, то в таблице будет выведено соответствующее значение.

Анализ проведён с помощью инструментов в сервисе Пиксель Тулс.

Как скрыть от индексации картинки? #

Картинки форматов jpg, png и gif могут быть запрещены к индексации следующими строчками в robots.txt:


User-Agent: *

Disallow: *.jpg

Disallow: *.png

Disallow: *.gif

Как закрыть поддомен? #

У каждого поддомена на сайте, в общем случае, имеется свой файл robots.txt. Обычно он располагается в папке, которая является корневой для поддомена. Требуется скорректировать содержимое файла с указанием закрываемых разделов с использованием директории Disallow. Если файл отсутствует — его требуется создать.

При использовании CDN-версии #

Дубль на поддомене может стать проблемой для SEO при использовании CDN. В данном случае рекомендуется, либо предварительно настроить работу атрибута rel=»canonical» тега <link> на основном домене, либо создать на поддомене с CDN (скажем, nnmmkk. r.cdn.skyparkcdn.ru) свой запрещающий файл robots.txt. Вариант с настройкой rel=»canonical» — предпочтительный, так как позволит сохранить/склеить всю информацию о поведенческих факторах по обоим адресам.

Как обращаться к другим поисковым роботам (список) #

У каждой поисковой системы есть свой список поисковых роботов (их несколько), к которым можно обращаться по имени в файле robots.txt. Приведем список основных из них (полные списки ищите в помощи Вебмастерам):

  • Yandex — основной робот-индексатор Яндекса.
  • Googlebot — основной робот-индексатор от Google.
  • Slurp — поисковый робот от Yahoo!.
  • MSNBot — поисковый робот от MSN (поисковая система Bing от Майкрософт).
  • SputnikBot — имя робота российского поисковика Спутник от Ростелекома.

Прочие директивы в robots.txt #

Поисковая система Яндекс также поддерживает следующие дополнительные директивы в файле:

  • «Crawl-delay:» — задает минимальный период времени в секундах для последовательного скачивания двух файлов с сервера. Также поддерживается и большинством других поисковых систем. Пример записи: Crawl-delay: 0.5

  • «Clean-param:» — указывает GET-параметры, которые не влияют на отображение контента сайта (скажем UTM-метки или ref-ссылки). Пример записи: Clean-param: utm /catalog/books.php

  • «Sitemap:» — указывает путь к XML-карте сайта, при этом, карт может быть несколько. Также директива поддерживается большинством поисковых систем (в том числе Google). Пример записи: Sitemap: https://pixelplus.ru/sitemap.xml

Закрыть страницу и сайт с помощью meta-тега name=»robots» #

Также, можно закрыть сайт или заданную страницу от индексации с помощь мета-тега robots. Данный способ является даже предпочтительным и с большим приоритетом выполняется пауками поисковых систем. Для скрытия от индексации внутри зоны <head> </head> документа устанавливается следующий код:


<meta name=»robots» content=»noindex, nofollow»/>

Или (полная альтернатива):

<meta name=»robots» content=»none»/>

С помощью meta-тега можно обращаться и к одному из роботов, используя вместо name=»robots» имя робота, а именно:


Для паука Google:

<meta name=»googlebot» content=»noindex, nofollow»/>

Или для Яндекса:

<meta name=»yandex» content=»none»/>

Автор

Дмитрий Севальнев

Как полностью скрыть сайт от индексации?

#Оптимизация сайта
#Индексация

#7

Ноябрь’17

18

Ноябрь’17

18

Про то, как закрыть от индексации отдельную страницу и для чего это нужно мы уже писали. Но могут возникнуть случаи, когда от индексации надо закрыть весь сайт или зеркало, что проблематичнее. Существует несколько способов. О них мы сегодня и расскажем.

Существует несколько способов закрыть сайт от индексации.

Запрет в файле robots.txt

Файл robots.txt отвечает за индексацию сайта поисковыми роботами. Найти его можно в корневой папке сайта. Если же его не существует, то его необходимо создать в любом текстовом редакторе и перенести в нужную директорию. В  файле должны находиться всего лишь две строчки:


User-agent: *

Disallow: /

Остальные правила должны быть удалены.

Этот метод самый простой для скрытия сайта от индексации.

С помощью мета-тега robots

Прописав в шаблоне страниц сайта следующее правило <meta name=»robots» content=»noindex, nofollow»/> или <meta name=»robots» content=»none»/> в теге <head>, вы запретите его индексацию.

Как закрыть зеркало сайта от индексации

Зеркало — точная копия сайта, доступная по другому домену. Т.е. два разных домена настроены на одну и ту же папку с сайтом. Цели создания зеркал могут быть разные, но в любом случае мы получаем полную копию сайта, которую рекомендуется закрыть от индексации.

Сделать это стандартными способами невозможно, т.к. по адресам domen1.ru/robots.txt и domen2.ru/robots.txt открывается один и тот же файл robots.txt с одинаковым содержанием. В таком случае необходимо провести специальные настройки на сервере, которые позволят одному из доменов отдавать запрещающий robots.txt.

Похожее

Оптимизация сайта
Индексация

Атрибут rel=canonical

Оптимизация сайта
Индексация

Индексация ссылок

Оптимизация сайта
Индексация

#133

Атрибут rel=canonical

Июнь’23

13745

23

Оптимизация сайта
Индексация

#119

Индексация ссылок

Апрель’19

5079

30

Оптимизация сайта
Индексация

#111

Описание и настройка директивы Clean-param

Апрель’19

10883

25

Оптимизация сайта
Индексация

#104

Как привлечь быстроробота Яндекс

Февраль’19

2488

21

Оптимизация сайта
Индексация

#94

Проверка индекса сайта. Как найти мусорные или недостающие страницы

Декабрь’18

10856

28

Оптимизация сайта
Индексация

#86

Как закрыть ссылки и текст от поисковых систем

Ноябрь’18

7134

22

Оптимизация сайта
Индексация

#82

Почему Яндекс удаляет страницы из поиска

Ноябрь’18

3640

19

Оптимизация сайта
Индексация

#60

Правильная индексация страниц пагинации

Февраль’18

9227

19

Оптимизация сайта
Индексация

#47

Как узнать дату индексации страницы

Ноябрь’17

8743

19

Оптимизация сайта
Индексация

#46

Какие страницы надо закрывать от индексации

Ноябрь’17

11998

19

Оптимизация сайта
Индексация

#38

Как удалить страницу из индекса Яндекса и Google

Ноябрь’17

15898

20

Оптимизация сайта
Индексация

#37

Как добавить страницу в поиск Яндекса и Google

Апрель’17

22099

19

Оптимизация сайта
Индексация

#2

Как проверить индексацию сайта в поисковых системах

Ноябрь’17

19292

27

Оптимизация сайта
Индексация

#1

Как ускорить индексацию сайта

Ноябрь’17

7798

29

5 способов подготовиться к закрытию сайта

Вы планируете закрыть свой сайт на день или дольше? Согласно совету Джона Мюллера, эксперта по поиску Google, вот пять способов подготовиться.

Мюллер делится этим советом в твиттере, ссылаясь на соответствующие страницы справки Google.

Внимание, спойлер — нет хорошего способа временно закрыть сайт. Вам следует избегать этого, если это вообще возможно.

Однако есть вещи, которые вы можете сделать, чтобы свести негативное воздействие к минимуму.

Рекомендации Мюллера включают:

  • Использовать код состояния HTTP 503
  • Поддерживать HTTP 503 не более суток
  • Изменить файл robots.txt, чтобы он возвращал код состояния 200
  • Будьте готовы к последствиям, если сайт не работает более суток
  • Ожидайте сокращения сканирования от Googlebot

Дополнительные сведения об этих рекомендациях и о том, как бороться с негативными последствиями перевода сайта в автономный режим, объясняются в следующих разделах.

1. Код состояния HTTP 503

При переводе веб-сайта в автономный режим убедитесь, что он передает поисковым роботам код состояния HTTP 503.

Когда поисковые роботы, такие как Googlebot, обнаруживают код состояния 503, они понимают, что сайт недоступен, и могут стать доступными позже.

С кодом 503 сканеры знают, что нужно снова проверить сайт, а не удалить его из поискового индекса Google.

Мюллер объясняет, как проверить код состояния 503 с помощью Chrome:

1. Они должны использовать HTTP 503 для «закрытых» страниц. Вы можете проверить это в Chrome, щелкнув правой кнопкой мыши: «Проверить», выберите «Сеть» вверху, затем обновите страницу. Проверьте верхнюю запись, она должна быть красной и показывать статус 503. pic.twitter.com/dkH7VE7OTb

— 🌽〈link href=//johnmu.com rel=canonical 〉🌽 (@JohnMu) 19 сентября 2022 г.

столкнувшись с 503, но он не будет возвращаться навсегда.

Если робот Googlebot видит код 503 день за днем, он в конечном итоге начнет удалять страницы из индекса.

Мюллер говорит, что в идеале вы должны хранить код состояния 503 не более суток.

«Сохранять статус 503 — в идеале — максимум сутки. Я знаю, не все ограничивается 1 днем. «Постоянный» 503 может привести к исключению страниц из поиска. Будьте экономны с 503 раза. Не беспокойтесь о настройке «повторить попытку после».

3. Robots.txt — 200 Код состояния

В то время как страницы закрытого веб-сайта должны возвращать код состояния 503, файл robots.txt должен возвращать код состояния 200 или 404.

Robots.txt не должен показывать ошибку 503, говорит Мюллер. Робот Google будет считать, что сканирование сайта полностью заблокировано.

Кроме того, Мюллер рекомендует использовать Chrome DevTools для проверки файла robots.txt вашего веб-сайта:

2. Файл robots.txt должен возвращать либо 200 + правильный файл robots.txt, либо 404. Он должен *не* возвращать 503. Никогда не верьте, если на странице отображается «404», это все еще может быть 503 — проверьте это. pic.twitter.com/nxN2kCeyWm

— 🌽〈link href=//johnmu.com rel=canonical 〉🌽 (@JohnMu) 19 сентября 2022 г.

перевести сайт в автономный режим и избежать всех негативных последствий.

Если ваш веб-сайт будет отключен более суток, подготовьтесь соответствующим образом.

Мюллер говорит, что страницы, скорее всего, выпадут из результатов поиска независимо от кода состояния 503:

«Хм… Что, если сайт хочет закрыться более чем на 1 день? Независимо от того, какой вариант вы выберете (503, заблокировано, без индекса, 404, 403), будут негативные последствия — страницы, скорее всего, выпадут из результатов поиска».

Когда вы снова «откроете» свой веб-сайт, проверьте, индексируются ли важные страницы. Если нет, отправьте их на индексацию.

5. Ожидайте сокращения сканирования

Неизбежным побочным эффектом обслуживания кода 503 является сокращение сканирования, независимо от того, как долго оно длится.

Мюллер пишет в Твиттере:

«Побочным эффектом даже одного дня 503-х является то, что Googlebot (примечание: все это с объективом Google, я не знаю других поисковых систем) замедляет сканирование. Это маленький сайт? Это не имеет значения. Это гигант? Ключевое слово — «краулинговый бюджет».

Сокращение сканирования может повлиять на сайт несколькими способами. Главное, о чем следует помнить, это то, что для индексации новых страниц может потребоваться больше времени, а для отображения обновлений существующих страниц в результатах поиска может потребоваться больше времени.

Как только робот Googlebot обнаружит, что ваш сайт снова в сети и вы активно его обновляете, скорость сканирования, скорее всего, вернется к норме.


Источник : @JohnMu в Твиттере

Избранное изображение: BUNDITINAY/Shutterstock

Категория
Новости
SEO

Использование политик для закрытия и удаления сайтов

Сайты SharePoint могут быстро разрастись, если вы не удалите их, когда они больше не нужны. Хранение устаревших сайтов требует места для хранения, затрудняет поиск актуальной информации, а также может быть нежелательным с точки зрения соответствия требованиям.

Как администратор семейства веб-сайтов, вы можете использовать политики сайта, чтобы контролировать распространение сайтов. Политика сайта определяет жизненный цикл сайта, указывая, когда сайт будет закрыт и когда он будет удален. Политики сайта особенно полезны для организаций, которые позволяют большим группам пользователей создавать свои собственные сайты. Они могут потребовать от вас выбора политики сайта при создании сайтов.

Примечание. Если семейство веб-сайтов связано с группой Microsoft 365, параметр для создания политик сайта не будет отображаться в меню «Параметры сайта».

Закрытие сайта означает, что сайт больше не используется и может быть удален в соответствии с расписанием. Закрытый сайт не отображается в таких местах, как Delve, но пользователи по-прежнему могут изменять закрытый сайт и его содержимое, используя URL-адрес для доступа к сайту.

Создание политик сайта

Выполните следующие действия, чтобы создать политики сайта, которые будут доступны на каждом сайте в семействе сайтов.

  1. Войдите в систему как администратор семейства веб-сайтов и откройте корневой сайт семейства веб-сайтов.

  2. Для классических сайтов выберите  Настройки   , затем выберите  Настройки сайта,  и затем выберите  Просмотреть все настройки сайта . Для современных сайтов выберите Настройки   , затем выберите Информация о сайте или Содержимое сайта, , а затем выберите Просмотреть все настройки сайта .

  3. org/ListItem»>

    В разделе Администрирование семейства сайтов щелкните Политики сайта .

  4. Нажмите Создать и выберите один из вариантов:

    Не закрывать и не удалять сайт автоматически. Если к сайту применяется политика с этим параметром, владелец сайта должен удалить сайт вручную.

    Автоматически удалять сайты. Если к сайту применяется политика с этим параметром, владелец сайта должен закрыть сайт вручную, но тогда сайт будет удален автоматически. Политика, которая удаляет сайт, автоматически определяет правило удаления сайта и имеет следующие параметры.

    Автоматически закрывать и удалять сайты. Этот параметр позволяет выбрать тот же способ удаления сайта, а также требует указать, через какое время после создания сайт будет закрыт.

    Автоматический запуск рабочего процесса для управления закрытием сайта, а затем их автоматическое удаление. (доступно с некоторыми планами и версиями). Этот параметр позволяет выбрать тот же способ удаления сайта, но также требует, чтобы вы указали рабочий процесс, который нужно запустить, чтобы закрыть сайт. По завершении рабочего процесса SharePoint закрывает сайт. Вы указываете имя рабочего процесса, через какое время после создания сайта нужно запустить рабочий процесс и следует ли периодически перезапускать рабочий процесс, пока сайт не будет закрыт.

    • Действие, запускающее удаление сайта, и время ожидания после срабатывания триггера перед удалением сайта. Триггером может быть как создание сайта, так и его закрытие. Например, вы можете создать политику, которая удаляет сайт через три месяца после его закрытия, или политику, которая удаляет сайт через год после его создания.

    • Отправлять ли SharePoint электронное письмо владельцу сайта за определенное время до запланированного удаления сайта.

    • Разрешить ли владельцам сайтов откладывать удаление сайта.

  5. Чтобы сделать корневой сайт и все дочерние сайты доступными только для чтения, когда корневой сайт закрыт, выберите Семейство сайтов будет доступно только для чтения, когда оно закрыто .

  6. Щелкните OK .

Закройте сайт вручную или повторно откройте закрытый сайт

    org/ItemList»>

  1. Войдите как владелец сайта.

  2. Для классических сайтов выберите  Настройки   , затем выберите  Настройки сайта,  и затем выберите  Просмотреть все настройки сайта . Для современных сайтов выберите Настройки   , затем выберите Информация о сайте или Содержимое сайта, , а затем выберите Просмотреть все настройки сайта .

  3. В разделе Администрирование сайта щелкните Закрытие и удаление сайта .

  4. Чтобы закрыть сайт, нажмите Закрыть этот сайт сейчас . Чтобы снова открыть его, нажмите Открыть этот сайт .

Выберите политику для сайта

  1. Войдите как владелец сайта.

  2. Для классических сайтов выберите Настройки , затем выберите Настройки сайта, и затем выберите Просмотреть все настройки сайта . Для современных сайтов выберите  Настройки   , а затем выберите  Информация о сайте  или Содержимое сайта, , а затем выберите Просмотреть все настройки сайта .

  3. В разделе Администрирование сайта щелкните Закрытие и удаление сайта .

  4. Рядом с Политика сайта выберите политику и нажмите OK .

Примечание: Даты закрытия и удаления сайта, указанные на странице ниже, являются приблизительными. Сайты закрываются или удаляются заданием таймера, которое по умолчанию запускается еженедельно. Таким образом, сайты будут закрыты или удалены в течение одной недели с дат, указанных на странице «Закрытие и удаление сайта ».

Удалить сайт вручную

  1. Войдите как владелец сайта.

  2. Для классических сайтов выберите Настройки , затем выберите Настройки сайта, и затем выберите Просмотреть все настройки сайта .