Блог по продвижению сайтов Блог по SEO

100% правильный Robots.txt для WordPress

Просмотров: 13537

Robots.txt определяет правильную индексацию сайтов, в том числе на WordPress CMS. Это делается один раз и помогает акцентировать внимание поисковых систем только на самых значимых страницах сайта, несущих пользу и осмысленное содержание.

robots txt для wordpress

Не секрет, что многие страницы сайтов вне зависимости от желания и намерения его владельца представляют собой технический "мусор". Например, страницы с результатами поиска внутри сайта https://moytop.com/?s=ctr

Поисковики могут неправильно принять эти страницы за важную информацию и начать выдавать их в поиске в ущерб более правильно оптимизированным разделам сайта, отбрасывая их ниже в рейтинге.

Чтобы избежать таких ситуаций, сразу же после создания блога на WordPress рекомендуется составить специальный текстовый файл robots.txt и поместить его в корневую директорию сайта. Каждая поисковая система ориентирована на работу с этим файлом. В нем содержатся конкретные инструкции, с помощью которых можно:

  • запретить поисковику проиндексировать весь сайт, отдельные папки или файлы.
  • указать на дубликат (зекрало) сайта.
  • указать карту сайта.
  • дать поисковику рекомендации по установке определенных промежутков времени для того, чтобы оптимально проиндексировать сайт и снизить нагрузку на сервер (актуально для больших многостраничных проектов) и так далее.

Как правильно составить robots.txt для WordPress?

Это обычный текстовый файл, поэтому его можно открыть любым текстовым редактором (я вместо стандартного Notepad, который поставляется с каждой Windows, пользуюсь EditPlus). Повторюсь, находится он в корне сайта. А попасть в корень можно по FTP-доступу, который предоставляет любой хостер (читать "Как зайти на сайт через FTP").

После того, как вы успешно зашли по FTP и открыли файл, смотрим на его содержимое. Для запрета индексации robots.txt должен содержать определенные команды для поисковиков, каждая из которых начинается с новой строки:

User-Agent
Эта команда задает поисковую систему, для которой предназначены последующие инструкции. Например, если вы укажете User-Agent: Yandex, то все последующие ниже команды будут относиться именно к этой поисковой системе.

Как правило, для блога выгодно, чтобы все страницы одинаково хорошо индексировались как под Яндекс, так и под Google и другие поисковики, поэтому имеет смысл не разделять инструкции для поисковых систем, а использовать общие правила. Для этого достаточно написать эту команду в таком виде: User-Agent: *

Читайте также:  Как установить счетчик Гугл Аналитикс на сайт

Она означает, что все поисковые системы могут проиндексировать сайт.

Disallow
Указывает конкретные страницы и каталоги сайта, которые нужно закрыть от индексации при помощи.

Если все файлы и страницы сайта можно индексировать, то после название оставляете пробел, вот так Disallow:   , а если нужно тотально запретить индексацию всех без исключения страниц, то ставите в конце слеш (наклонную черту), вот так:  Disallow: /

Но это крайние ситуации. Обычно под «запрет» попадают определенные папки или файлы. Поэтому после слеша указываете полное их наименование.

Примеры использования команд файла Robots.txt

Ниже вы найдете примеры robots.txt в котором использованы наиболее частые команды User-Agent и Disallow в разных вариациях. Если нужно оставить комментарий в файле, то начните предложение с этого знака #

Примеры использования Disallow

Эта команда запрещает индексирование и чаще всего используется в таких вариантах.

1. Разрешаете проиндексировать всем поисковикам все страницы без исключения:
User-Agent: *
Disallow:

2. Запрещаете проиндексировать только Яндексу все на сайте:
User-Agent: Yandex
Disallow: /

3. Разрешаете проиндексировать все страницы на сайте только поисковой системе Google:
User-Agent: Google
Disallow:

# продолжение: после первой инструкции оставляем пустую строчку, это важно для безошибочного прочтения
User-Agent: *
Disallow: /

4. Разрешаете проиндексировать всем поисковикам каждую папку, кроме /png/:
User-Agent:  *
Disallow: /png

5. Разрешаете проиндексировать поисковым системам весь сайт, кроме динамических ссылок (например, поисковых запросов внутри сайта на WordPress)
User-Agent: *
Disallow: /*?s=*

6. Запретить индекацию конкретного файла master.php, который находится в папке includes
User-Agent: *
Disallow: /includes/master.php

7. Запретить индекацию любых каталогов и файлов, которые начинаются с download, например, файл download.gif
User-Agent: *
Disallow: download

Команда Allow

Имеет обратно Disallow значение - разрешает индексацию для указанных файлов и папок.

# Вот так можно разрешить индексацию лишь для файла myfoto.jpg, которая находится в запрещенной для индексации папке Album.
User-Agent: *
Disallow:  album
Allow: /album/myfoto.jpg

Host

Эта директива позволяет указать зеркало сайта, то есть как предпочтительнее отображать имя сайта в поиске - с www или без?. Я предпочитаю без www, для этого нужно написать следующую инструкцию:

Читайте также:  100% правильное добавление сайта в каталоги

Host: moytop.com

где вместо moytop.com нужно вписать свое имя сайта.

Sitemap

Позволяет добавить ссылку на карту сайта, если она, конечно, у вас уже создана.
Вот, например, моя карта сайта, которая прописана в robots.txt

Sitemap: https://moytop.com/sitemap.xml

Crawl-delay

Позволяет выставить задержку в секундах перед индексацией отдельных страниц. Если на вашем сайте очень много страниц, которые периодически обновляются, а хостинг - дешевый, то имеет смысл указать значение в 10-15 секунд.

Это позволит снизить нагрузку на хостинг со стороны поисковых систем. Делается это следующей командой:

Crawl-delay: 10

Скачать 100% рабочий файл Robots.txt для WordPress CMS

Эти основные команды вы можете применять для своего сайта на Вордпресс в том или ином виде. У многих сайтов и блогов они будут применяться по-разному, так как могут использоваться разные плагины, разные пути к файлам и разные динамические адреса.

Но я могу порекомендовать вам готовый и проверенный файл Robots.txt, который можно безболезненно использовать на большинстве сайтов под WordPress CMS и который уже отлично себя зарекомендовал. Вы можете посмотреть его в бонусе.

Почему это действительно хороший Robots.txt?
Прежде всего потому, что многие найденные в интернете решения блокируют больше чем нужно, например, запрещают индексацию служебных папок вроде /WP-CONTENT/

Раньше это еще было допустимо, но сейчас поисковики (особенно Google) обязательно должны прочитать все нужные служебные папки, чтобы правильно воспроизвести то, как сайт выглядит в глазах рядовых пользователей.  А для этого нужен доступ к служебным папкам, содержащим файлы  CSS, JS и другие.

Важно! С помощью версии сайта для мобильных устройств можно получать более высокие места в поиске Google (подробнее о том, как создать мобильную версию для WordPress за 10 минут).

Поэтому нужно не запрещать в файле Robots.txt все подряд, а выкинуть только реальные дубли страниц, остальное же разрешить для сканирования - в этом случае сайт будет показываться правильно и вы не увидите ошибок в Google.Webmasters вроде таких: "Googlebot не может получить доступ к файлам CSS и JS на сайте".

Так что можете смело качать мой файл Robots.txt - он проверен на дубли и отлично работает с Googlebot.

Читайте также:  Турбостраницы от Яндекса как я сделал за 20 минут

Бонус!

Посмотреть и скачать уже готовый пример robots.txt для WordPress можно прямо сейчас. Контент доступен для подписчиков блога. Достаточно ввести свой правильный емейл, и после подтверждения вам откроется полное содержимое этой страницы.

Бонус

Если на ваш емейл после подписки не приходит письмо для подтверждения уведомления (такое бывает иногда в зависимости от типа вашего ящика), то есть такие варианты:

  • Подождите минут 5-10.
  • Попробуйте другую почтовую сеть, лучше всего работают mail.yandex.ru или gmail.com.
  • Проверьте папку СПАМ - может нужное письмо именно там. После чего обязательно отметьте его и кликните - НЕ спам.
  • Если ничего не получилось, напишите мне в Контакты и укажите ссылку на страницу, версию браузера и примерный порядок действий.

С помощью этих инструкци или готового примера вы можете составить robots.txt для WordPress CMS правильно, с учетом структуры именно вашего сайта. Но обратите внимание, достаточно будет набрать http://адрес-сайта/robots.txt — и любой желающий увидит перечень ваших служебных и системных папок, которые есть на вашем компьютере.

Получение списка каталогов на сервере - это потенциальная угроза для безопасности сайта. Поэтому рекомендую обязательно сделать невозможным получение доступа к таким каталогам. Это очень просто, а позволяет получить дополнительную защиту от взлома.

Как это сделать? Читайте в статье: "Повышаем безопасность WordPress в 2 клика"

Полезные цитаты: Богатые люди покупают предметы роскоши в последнюю очередь, в то время, как бедные и средний класс стремятся приобретать их в первую очередь.

Блог — Сергея Арсентьева 📈
image
Сергей Арсентьев
Всего материалов на сайте: 240
Активных комментариев: 3 500
Работает онлайн: 10.7 лет
Читателей за это время: 2 473 120
Я в соцсетях —
Фото
Бесплатный видеокурс для начинающих. Что такое фриланс, можно ли на нем зарабатывать и сколько?
Бесплатно Подробнее
Фото
Бесплатная мини книга для тех, кто хочет заказать сайт, но растерялся во множестве CMS и вариантов выбора.
Бесплатно Подробнее
Фото
Пошаговый видеокурс "Как работать в Опенкарт" с уроками по добавлению товаров и статей.
Комментариев 7
  • Кузьма
    Кузьма

    Здравствуйте.
    У меня такой вопрос. Я недавно работаю с вордпрессом, слышал, что для поисковиков плохо когда контент на сайте дублируется. Если, одна статья находится в нескольких рубриках, например "Новости", "Рубрика1", "Рубрика2". Нужно ли как то запретить в файле robots просмотр этой статьи в других рубликах. Либо это нужно сделать каким то иным способом? или вообще не нужно ничего делать и это ни на что не влияет. Спасибо за ответ.

    Комментировать
    • Сергей Арсентьев

      Здравствуйте, действительно дублирование это плохо.

      Для того, чтобы избежать дублирования контента оптимально использовать в статьях тег rel=canonical

      Сами вы прописать его не сможете, однако при использовании плагина All In One SEO Pack - у вас автоматически в каждой статье добавятся необходимые теги.

      Просмотреть их можно в исходном коде страницы (CTRL + U) и поискать текст canonical (CTRL + F). Там указывается ссылка на страницу, которая задается основной для поисковых систем.

      Таким образом ваша статья может находиться где угодно, в каком угодно разделе, а все равно поисковые системы по данной ссылке поймут - какая статья является оригинальной (именно на нее стоит ссылка рядом с canonical) и будут учитывать в поиске именно ее, а не дубли.

      Комментировать
      • Кузьма
        Кузьма

        Большое спасибо за быстрый ответ и нужную информацию!

        Комментировать
  • Маргарита

    А что нужно прописать, чтобы разрешить индексировать именно мобильную версию сайта?

    Комментировать
    • Сергей Арсентьев

      Маргарита, а зачем?
      Робот по умолчанию проиндексирует все, зачем ему запрещать индексировать основной сайт - это же вам не на пользу будет.

      Комментировать
      • Маргарита

        Сергей, просто тема моего сайта не адаптирована для просмотра с мобильных устройств. По ряду причин менять ее мне не хочется и пришлось поставить плагин.
        Но когда я уже с плагином проверяю сайт на удобство просмотра с мобильных, то выдает строку, не разрешено просмотр страниц в файле robots.txt.
        Хотя до установки плагина все было в порядке с robots.txt
        Вот я и подумала, что может быть отдельно для робота писать разрешение, чтоб он индексировал и мобильную версию... :smile:

        Комментировать
        • Сергей Арсентьев

          Вы все верно подумали, только на самом деле нужно не создавать отдельные разрешения, а убрать имеющиеся ограничения, я вот тут вам ответил более развернуто:
          http://moytop.com/zarabotok-na-bloge/5-5/mobilnaya-versiya-sajta-na-wordpress#comment-641

          Комментировать
Смотреть еще комментарии
Добавить свой комментарий