Moytop.com

100% правильный Robots.txt для WordPress

11 марта 2014 — Обновлено: 01 января 2020

01 Янв 2020

Robots.txt определяет правильную индексацию сайтов, в том числе на WordPress CMS. Это делается один раз и помогает акцентировать внимание поисковых систем только на самых значимых страницах сайта, несущих пользу и осмысленное содержание.

Не секрет, что многие страницы сайтов вне зависимости от желания и намерения его владельца представляют собой технический "мусор". Например, страницы с результатами поиска внутри сайта https://moytop.com/?s=ctr

Поисковики могут неправильно принять эти страницы за важную информацию и начать выдавать их в поиске в ущерб более правильно оптимизированным разделам сайта, отбрасывая их ниже в рейтинге.

Чтобы избежать таких ситуаций, сразу же после создания блога на WordPress рекомендуется составить специальный текстовый файл robots.txt и поместить его в корневую директорию сайта. Каждая поисковая система ориентирована на работу с этим файлом. В нем содержатся конкретные инструкции, с помощью которых можно:

запретить поисковику проиндексировать весь сайт, отдельные папки или файлы.
указать на дубликат (зекрало) сайта.
указать карту сайта.
дать поисковику рекомендации по установке определенных промежутков времени для того, чтобы оптимально проиндексировать сайт и снизить нагрузку на сервер (актуально для больших многостраничных проектов) и так далее.

Содержание

Как правильно составить robots.txt для WordPress?
Примеры использования команд файла Robots.txt
Скачать 100% рабочий файл Robots.txt для WordPress CMS
- Бонус

Как правильно составить robots.txt для WordPress?

Это обычный текстовый файл, поэтому его можно открыть любым текстовым редактором (я вместо стандартного Notepad, который поставляется с каждой Windows, пользуюсь EditPlus). Повторюсь, находится он в корне сайта. А попасть в корень можно по FTP-доступу, который предоставляет любой хостер (читать "Как зайти на сайт через FTP").

После того, как вы успешно зашли по FTP и открыли файл, смотрим на его содержимое. Для запрета индексации robots.txt должен содержать определенные команды для поисковиков, каждая из которых начинается с новой строки:

User-Agent
Эта команда задает поисковую систему, для которой предназначены последующие инструкции. Например, если вы укажете User-Agent: Yandex, то все последующие ниже команды будут относиться именно к этой поисковой системе.

Как правило, для блога выгодно, чтобы все страницы одинаково хорошо индексировались как под Яндекс, так и под Google и другие поисковики, поэтому имеет смысл не разделять инструкции для поисковых систем, а использовать общие правила. Для этого достаточно написать эту команду в таком виде: User-Agent: *

Она означает, что все поисковые системы могут проиндексировать сайт.

Disallow
Указывает конкретные страницы и каталоги сайта, которые нужно закрыть от индексации при помощи.

Если все файлы и страницы сайта можно индексировать, то после название оставляете пробел, вот так Disallow: , а если нужно тотально запретить индексацию всех без исключения страниц, то ставите в конце слеш (наклонную черту), вот так: Disallow: /

Но это крайние ситуации. Обычно под «запрет» попадают определенные папки или файлы. Поэтому после слеша указываете полное их наименование.

Примеры использования команд файла Robots.txt

Ниже вы найдете примеры robots.txt в котором использованы наиболее частые команды User-Agent и Disallow в разных вариациях. Если нужно оставить комментарий в файле, то начните предложение с этого знака #

Примеры использования Disallow

Эта команда запрещает индексирование и чаще всего используется в таких вариантах.

1. Разрешаете проиндексировать всем поисковикам все страницы без исключения:
User-Agent: *
Disallow:

2. Запрещаете проиндексировать только Яндексу все на сайте:
User-Agent: Yandex
Disallow: /

3. Разрешаете проиндексировать все страницы на сайте только поисковой системе Google:
User-Agent: Google
Disallow:

# продолжение: после первой инструкции оставляем пустую строчку, это важно для безошибочного прочтения
User-Agent: *
Disallow: /

4. Разрешаете проиндексировать всем поисковикам каждую папку, кроме /png/:
User-Agent: *
Disallow: /png

5. Разрешаете проиндексировать поисковым системам весь сайт, кроме динамических ссылок (например, поисковых запросов внутри сайта на WordPress)
User-Agent: *
Disallow: /*?s=*

6. Запретить индекацию конкретного файла master.php, который находится в папке includes
User-Agent: *
Disallow: /includes/master.php

7. Запретить индекацию любых каталогов и файлов, которые начинаются с download, например, файл download.gif
User-Agent: *
Disallow: download

Команда Allow

Имеет обратно Disallow значение - разрешает индексацию для указанных файлов и папок.

# Вот так можно разрешить индексацию лишь для файла myfoto.jpg, которая находится в запрещенной для индексации папке Album.
User-Agent: *
Disallow: album
Allow: /album/myfoto.jpg

Host

Эта директива позволяет указать зеркало сайта, то есть как предпочтительнее отображать имя сайта в поиске - с www или без?. Я предпочитаю без www, для этого нужно написать следующую инструкцию:

Host: moytop.com

где вместо moytop.com нужно вписать свое имя сайта.

Sitemap

Позволяет добавить ссылку на карту сайта, если она, конечно, у вас уже создана.
Вот, например, моя карта сайта, которая прописана в robots.txt

Sitemap: https://moytop.com/sitemap.xml

Crawl-delay

Позволяет выставить задержку в секундах перед индексацией отдельных страниц. Если на вашем сайте очень много страниц, которые периодически обновляются, а хостинг - дешевый, то имеет смысл указать значение в 10-15 секунд.

Это позволит снизить нагрузку на хостинг со стороны поисковых систем. Делается это следующей командой:

Crawl-delay: 10

Скачать 100% рабочий файл Robots.txt для WordPress CMS

Эти основные команды вы можете применять для своего сайта на Вордпресс в том или ином виде. У многих сайтов и блогов они будут применяться по-разному, так как могут использоваться разные плагины, разные пути к файлам и разные динамические адреса.

Но я могу порекомендовать вам готовый и проверенный файл Robots.txt, который можно безболезненно использовать на большинстве сайтов под WordPress CMS и который уже отлично себя зарекомендовал. Вы можете посмотреть его в бонусе.

Почему это действительно хороший Robots.txt?
Прежде всего потому, что многие найденные в интернете решения блокируют больше чем нужно, например, запрещают индексацию служебных папок вроде /WP-CONTENT/

Раньше это еще было допустимо, но сейчас поисковики (особенно Google) обязательно должны прочитать все нужные служебные папки, чтобы правильно воспроизвести то, как сайт выглядит в глазах рядовых пользователей. А для этого нужен доступ к служебным папкам, содержащим файлы CSS, JS и другие.

Важно! С помощью версии сайта для мобильных устройств можно получать более высокие места в поиске Google (подробнее о том, как создать мобильную версию для WordPress за 10 минут).

Поэтому нужно не запрещать в файле Robots.txt все подряд, а выкинуть только реальные дубли страниц, остальное же разрешить для сканирования - в этом случае сайт будет показываться правильно и вы не увидите ошибок в Google.Webmasters вроде таких: "Googlebot не может получить доступ к файлам CSS и JS на сайте".

Так что можете смело качать мой файл Robots.txt - он проверен на дубли и отлично работает с Googlebot.

Бонус!

Посмотреть и скачать уже готовый пример robots.txt для WordPress можно прямо сейчас. Контент доступен для подписчиков блога. Достаточно ввести свой правильный емейл, и после подтверждения вам откроется полное содержимое этой страницы.

Бонус

Если на ваш емейл после подписки не приходит письмо для подтверждения уведомления (такое бывает иногда в зависимости от типа вашего ящика), то есть такие варианты:

Подождите минут 5-10.
Попробуйте другую почтовую сеть, лучше всего работают mail.yandex.ru или gmail.com.
Проверьте папку СПАМ - может нужное письмо именно там. После чего обязательно отметьте его и кликните - НЕ спам.
Если ничего не получилось, напишите мне в Контакты и укажите ссылку на страницу, версию браузера и примерный порядок действий.

С помощью этих инструкци или готового примера вы можете составить robots.txt для WordPress CMS правильно, с учетом структуры именно вашего сайта. Но обратите внимание, достаточно будет набрать http://адрес-сайта/robots.txt — и любой желающий увидит перечень ваших служебных и системных папок, которые есть на вашем компьютере.

Получение списка каталогов на сервере - это потенциальная угроза для безопасности сайта. Поэтому рекомендую обязательно сделать невозможным получение доступа к таким каталогам. Это очень просто, а позволяет получить дополнительную защиту от взлома.

Как это сделать? Читайте в статье: "Повышаем безопасность WordPress в 2 клика"

Продвижение сайтов

Полезные цитаты: Работники работают ровно столько, чтобы их не уволили. А наниматели платят лишь столько, чтобы работники не уволились. Вполне закономерно, что большинство работников ни к чему не стремится.

https://moytop.com 📈

Подписаться в телеграм

Сергей

Автор блога, специалист по продвижению (СЕО, реклама), частный интернет маркетолог, фрилансер - мои услуги

Всего материалов на сайте: 228

Активных комментариев: 3 510

Работает онлайн: 12.5 лет

Читателей за это время: 2 794 791

«Как заработать на бирже новичку»

Бесплатный видеокурс для начинающих. Что такое фриланс, можно ли на нем зарабатывать и сколько?

Бесплатно Подробнее

«Где и какой заказать сайт»

Бесплатная мини книга для тех, кто хочет заказать сайт, но растерялся во множестве CMS и вариантов выбора.

Бесплатно Подробнее

Комментариев 7

сначала новые

сначала новые сначала первые

Кузьма

Здравствуйте.
У меня такой вопрос. Я недавно работаю с вордпрессом, слышал, что для поисковиков плохо когда контент на сайте дублируется. Если, одна статья находится в нескольких рубриках, например "Новости", "Рубрика1", "Рубрика2". Нужно ли как то запретить в файле robots просмотр этой статьи в других рубликах. Либо это нужно сделать каким то иным способом? или вообще не нужно ничего делать и это ни на что не влияет. Спасибо за ответ.

18.11.2015 в 19:56 |

Комментировать
- Сергей Moytop
  
  Здравствуйте, действительно дублирование это плохо.
  
  Для того, чтобы избежать дублирования контента оптимально использовать в статьях тег rel=canonical
  
  Сами вы прописать его не сможете, однако при использовании плагина All In One SEO Pack - у вас автоматически в каждой статье добавятся необходимые теги.
  
  Просмотреть их можно в исходном коде страницы (CTRL + U) и поискать текст canonical (CTRL + F). Там указывается ссылка на страницу, которая задается основной для поисковых систем.
  
  Таким образом ваша статья может находиться где угодно, в каком угодно разделе, а все равно поисковые системы по данной ссылке поймут - какая статья является оригинальной (именно на нее стоит ссылка рядом с canonical) и будут учитывать в поиске именно ее, а не дубли.
  
  19.11.2015 в 00:10 |
  
  Комментировать
  - Кузьма
    
    Большое спасибо за быстрый ответ и нужную информацию!
    
    19.11.2015 в 09:10 |
    
    Комментировать
Маргарита

А что нужно прописать, чтобы разрешить индексировать именно мобильную версию сайта?

19.04.2015 в 18:47 |

Комментировать
- Сергей Moytop
  
  Маргарита, а зачем?
  Робот по умолчанию проиндексирует все, зачем ему запрещать индексировать основной сайт - это же вам не на пользу будет.
  
  19.04.2015 в 21:07 |
  
  Комментировать
  - Маргарита
    
    Сергей, просто тема моего сайта не адаптирована для просмотра с мобильных устройств. По ряду причин менять ее мне не хочется и пришлось поставить плагин.
    Но когда я уже с плагином проверяю сайт на удобство просмотра с мобильных, то выдает строку, не разрешено просмотр страниц в файле robots.txt.
    Хотя до установки плагина все было в порядке с robots.txt
    Вот я и подумала, что может быть отдельно для робота писать разрешение, чтоб он индексировал и мобильную версию...
    
    19.04.2015 в 21:26 |
    
    Комментировать
    - Сергей Moytop
      
      Вы все верно подумали, только на самом деле нужно не создавать отдельные разрешения, а убрать имеющиеся ограничения, я вот тут вам ответил более развернуто:
      http://moytop.com/zarabotok-na-bloge/5-5/mobilnaya-versiya-sajta-na-wordpress#comment-641
      
      20.04.2015 в 12:40 |
      
      Комментировать