Стань специалистом и зарабатывай в Интернет

Только реальные способы заработка в сети.
От копирайтинга до SEO-оптимизации.
Проверено 100% на личном опыте!

100% правильный Robots.txt для WordPress

robots-txt-wordpress

Robots.txt определяет правильную индексацию сайтов, в том числе на WordPress CMS. Это делается один раз и помогает акцентировать внимание поисковых систем только на самых значимых страницах сайта, несущих пользу и осмысленное содержание.

Зачем используется файл Robots.txt?

Не секрет, что многие страницы сайтов вне зависимости от желания и намерения его владельца представляют собой технический «мусор». Например, страницы с результатами поиска внутри сайта http://moytop.com/?s=ctr

Поисковики могут неправильно принять эти страницы за важную информацию и начать выдавать их в поиске в ущерб более правильно оптимизированным разделам сайта, отбрасывая их ниже в рейтинге.

Чтобы избежать таких ситуаций, сразу же после создания блога на WordPress рекомендуется составить специальный текстовый файл robots.txt и поместить его в корневую директорию сайта. Каждая поисковая система ориентирована на работу с этим файлом. В нем содержатся конкретные инструкции, с помощью которых можно:

  • запретить поисковику проиндексировать весь сайт, отдельные папки или файлы.
  • указать на дубликат (зекрало) сайта.
  • указать карту сайта.
  • дать поисковику рекомендации по установке определенных промежутков времени для того, чтобы оптимально проиндексировать сайт и снизить нагрузку на сервер (актуально для больших многостраничных проектов) и так далее.

Как правильно составить robots.txt для WordPress?

Это обычный текстовый файл, поэтому его можно открыть любым текстовым редактором (я вместо стандартного Notepad, который поставляется с каждой Windows, пользуюсь EditPlus). Повторюсь, находится он в корне сайта. А попасть в корень можно по FTP-доступу, который предоставляет любой хостер (читать «Как зайти на сайт через FTP«).

После того, как вы успешно зашли по FTP и открыли файл, смотрим на его содержимое. Для запрета индексации robots.txt должен содержать определенные команды для поисковиков, каждая из которых начинается с новой строки:

User-Agent
Эта команда задает поисковую систему, для которой предназначены последующие инструкции. Например, если вы укажете User-Agent: Yandex, то все последующие ниже команды будут относиться именно к этой поисковой системе.

Как правило, для блога выгодно, чтобы все страницы одинаково хорошо индексировались как под Яндекс, так и под Google и другие поисковики, поэтому имеет смысл не разделять инструкции для поисковых систем, а использовать общие правила. Для этого достаточно написать эту команду в таком виде: User-Agent: *

Она означает, что все поисковые системы могут проиндексировать сайт.

Disallow
Указывает конкретные страницы и каталоги сайта, которые нужно закрыть от индексации при помощи.

Если все файлы и страницы сайта можно индексировать, то после название оставляете пробел, вот так Disallow:   , а если нужно тотально запретить индексацию всех без исключения страниц, то ставите в конце слеш (наклонную черту), вот так:  Disallow: /

Но это крайние ситуации. Обычно под «запрет» попадают определенные папки или файлы. Поэтому после слеша указываете полное их наименование.

Примеры использования команд файла robots.txt для WordPress.

Ниже вы найдете примеры robots.txt в котором использованы наиболее частые команды User-Agent и Disallow в разных вариациях. Если нужно оставить комментарий в файле, то начните предложение с этого знака #

Примеры использования Disallow

Эта команда запрещает индексирование и чаще всего используется в таких вариантах.

1. Разрешаете проиндексировать всем поисковикам все страницы без исключения:
User-Agent: *
Disallow:

2. Запрещаете проиндексировать только Яндексу все на сайте:
User-Agent: Yandex
Disallow: /

3. Разрешаете проиндексировать все страницы на сайте только поисковой системе Google:
User-Agent: Google
Disallow:

# продолжение: после первой инструкции оставляем пустую строчку, это важно для безошибочного прочтения
User-Agent: *
Disallow: /

4. Разрешаете проиндексировать всем поисковикам каждую папку, кроме /png/:
User-Agent:  *
Disallow: /png

5. Разрешаете проиндексировать поисковым системам весь сайт, кроме динамических ссылок (например, поисковых запросов внутри сайта на WordPress)
User-Agent: *
Disallow: /*?s=*

6. Запретить индекацию конкретного файла master.php, который находится в папке includes
User-Agent: *
Disallow: /includes/master.php

7. Запретить индекацию любых каталогов и файлов, которые начинаются с download, например, файл download.gif
User-Agent: *
Disallow: download

Команда Allow

Имеет обратно Disallow значение — разрешает индексацию для указанных файлов и папок.

# Вот так можно разрешить индексацию лишь для файла myfoto.jpg, которая находится в запрещенной для индексации папке Album.
User-Agent: *
Disallow:  album
Allow: /album/myfoto.jpg

Host

Эта директива позволяет указать зеркало сайта, то есть как предпочтительнее отображать имя сайта в поиске — с www или без?. Я предпочитаю без www, для этого нужно написать следующую инструкцию:

Host: moytop.com

где вместо moytop.com нужно вписать свое имя сайта.

Sitemap

Позволяет добавить ссылку на карту сайта, если она, конечно, у вас уже создана.
Вот, например, моя карта сайта, которая прописана в robots.txt

Sitemap: http://moytop.com/sitemap.xml

Crawl-delay

Позволяет выставить задержку в секундах перед индексацией отдельных страниц. Если на вашем сайте очень много страниц, которые периодически обновляются, а хостинг — дешевый, то имеет смысл указать значение в 10-15 секунд.

Это позволит снизить нагрузку на хостинг со стороны поисковых систем. Делается это следующей командой:

Crawl-delay: 10

Скачать 100% рабочий файл Robots.txt для WordPress CMS

Эти основные команды вы можете применять для своего сайта на Вордпресс в том или ином виде. У многих сайтов и блогов они будут применяться по-разному, так как могут использоваться разные плагины, разные пути к файлам и разные динамические адреса.

Но я могу порекомендовать вам готовый и проверенный файл Robots.txt, который можно безболезненно использовать на большинстве сайтов под WordPress CMS и который уже отлично себя зарекомендовал. Вы можете посмотреть его в бонусе.

Почему это действительно хороший Robots.txt?
Прежде всего потому, что многие найденные в интернете решения блокируют больше чем нужно, например, запрещают индексацию служебных папок вроде /WP-CONTENT/

Раньше это еще было допустимо, но сейчас поисковики (особенно Google) обязательно должны прочитать все нужные служебные папки, чтобы правильно воспроизвести то, как сайт выглядит в глазах рядовых пользователей.  А для этого нужен доступ к служебным папкам, содержащим файлы  CSS, JS и другие.

Важно! С помощью версии сайта для мобильных устройств можно получать более высокие места в поиске Google (подробнее о том, как создать мобильную версию для WordPress за 10 минут).

Поэтому нужно не запрещать в файле Robots.txt все подряд, а выкинуть только реальные дубли страниц, остальное же разрешить для сканирования — в этом случае сайт будет показываться правильно и вы не увидите ошибок в Google.Webmasters вроде таких: «Googlebot не может получить доступ к файлам CSS и JS на сайте».

Так что можете смело качать мой файл Robots.txt — он проверен на дубли и отлично работает с Googlebot.

Бонус!

Посмотреть и скачать уже готовый пример robots.txt для WordPress можно просто кликнув на значок любой соцсети, в которой вы зарегистрированы — это просто и совершенно бесплатно.

С помощью этих инструкци или готового примера вы можете составить robots.txt для WordPress CMS правильно, с учетом структуры именно вашего сайта. Но обратите внимание, достаточно будет набрать http://адрес-сайта/robots.txt — и любой желающий увидит перечень ваших служебных и системных папок, которые есть на вашем компьютере.

Получение списка каталогов на сервере — это потенциальная угроза для безопасности сайта. Поэтому рекомендую обязательно сделать невозможным получение доступа к таким каталогам. Это очень просто, а позволяет получить дополнительную защиту от взлома.

Как это сделать? Читайте в статье: «Повышаем безопасность WordPress в 2 клика«

Было интересно - жми на звезды:



Комментарии на блоге
Комментариев (7)
  1. А что нужно прописать, чтобы разрешить индексировать именно мобильную версию сайта?

    • Маргарита, а зачем?
      Робот по умолчанию проиндексирует все, зачем ему запрещать индексировать основной сайт — это же вам не на пользу будет.

      • Сергей, просто тема моего сайта не адаптирована для просмотра с мобильных устройств. По ряду причин менять ее мне не хочется и пришлось поставить плагин.
        Но когда я уже с плагином проверяю сайт на удобство просмотра с мобильных, то выдает строку, не разрешено просмотр страниц в файле robots.txt.
        Хотя до установки плагина все было в порядке с robots.txt
        Вот я и подумала, что может быть отдельно для робота писать разрешение, чтоб он индексировал и мобильную версию… :smile:

  2. Кузьма

    Здравствуйте.
    У меня такой вопрос. Я недавно работаю с вордпрессом, слышал, что для поисковиков плохо когда контент на сайте дублируется. Если, одна статья находится в нескольких рубриках, например «Новости», «Рубрика1», «Рубрика2». Нужно ли как то запретить в файле robots просмотр этой статьи в других рубликах. Либо это нужно сделать каким то иным способом? или вообще не нужно ничего делать и это ни на что не влияет. Спасибо за ответ.

    • Здравствуйте, действительно дублирование это плохо.

      Для того, чтобы избежать дублирования контента оптимально использовать в статьях тег rel=canonical

      Сами вы прописать его не сможете, однако при использовании плагина All In One SEO Pack — у вас автоматически в каждой статье добавятся необходимые теги.

      Просмотреть их можно в исходном коде страницы (CTRL + U) и поискать текст canonical (CTRL + F). Там указывается ссылка на страницу, которая задается основной для поисковых систем.

      Таким образом ваша статья может находиться где угодно, в каком угодно разделе, а все равно поисковые системы по данной ссылке поймут — какая статья является оригинальной (именно на нее стоит ссылка рядом с canonical) и будут учитывать в поиске именно ее, а не дубли.

      • Кузьма

        Большое спасибо за быстрый ответ и нужную информацию!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

  • :smile:
  • :giggle:
  • :cool:
  • :yes:
  • :no:
  • :facepalm:
  • :nerd:
  • :clap:
  • :devil:
  • :wait:
  • :whew:
  • :cry:
  • :wall:
  • :bow:
  • :cash:
more »

Подписка на бесплатные уроки
Подписаться!