Створення правильного файлу robots.txt

3

Всіх ботів можна розділити на два типи – «нечемні» і «ввічливі». До першого типу відносяться всі роботи, які ведуть себе на сайті так, як їм заманеться. Це, в першу чергу, різні парсери контенту, спамери і інша нечисть. «Ввічливими» роботами умовно називають тих, які своє відвідування сайту починають з файлу robots.txt. Це, як правило, роботи пошукових систем.

Отже, файл robots.txt — це невеличка пам’ятка для пошукачів, яка пояснює, що можна робити на сайті, а що не можна. Файл robots.txt повинен знаходитися в корені кожного сайту. З його допомогою можна закрити від індексації окремі файли або цілі директорії на ресурсі, вказати роботу на правильне «віддзеркалення» домену, встановити інтервал між скачиваниями файлів.

Сам Яндекс у своїй документації рекомендує всім веб-майстрам створювати robots.txt для якісного сайту і вказувати в ньому інструкції для пошукових роботів.

Як створити robots.txt

Створити robots.txt не складно. Для цього знадобиться будь-який текстовий редактор (наприклад, стандартний блокнот або більш «просунутий» Notepad++). У першій рядку потрібно вказати, для якого робота призначені вказівки.

Наприклад:

User-agent: * — такий напис означає, що вказівки поширюються на всіх роботів.
User-agent: googlebot – тільки для Гугла.
User-agent: Yandex – тільки для Яндекса.
User-agent: Slurp — тільки для Yahoo!

Далі потрібно вказати для роботів список інструкцій. Кожна інструкція – з нового рядка.
Disallow: — забороняє індексацію документа або цілої директорії.

Наприклад:

Disallow: /contacts.html – заборона індексації сторінки contacts.html.
Disallow: /cgi-bin/ — заборона індексації каталогу /cgi-bin/.

Зверніть увагу, що для заборони індексації потрібно вказувати відносний url. Запис типу «Disallow: http://site.ru/contacts.html» не буде вірною!

Crawl-delay: — встановлює часовий проміжок, що робот повинен витримувати між завантаженнями сторінок. Зараз ця директива практично не застосовується, так як пошуковики за замовчуванням використовують затримку в 1-2 секунди.

Наприклад:

Crawl-delay: 10 – пауза між скачуванням сторінок дорівнює 10 сек.

Allow: — дозволяє доступ до конкретного документа або директорії. Цю директиву зручно використовувати, щоб дозволити індексувати декілька файлів з каталогу, який в цілому заборонений до індексації.

Ось така конструкція заборонить індексувати всі файли директорії users, крім marina.html:

Allow: /users/marina.html
Disallow: /users/

Host: — вказує Яндексу на головне дзеркало домену.

Наприклад:

Host: site.ru – головне дзеркало домену без www.

Створення robots.txt займе кілька хвилин, зате допоможе роботам правильно індексувати ваш сайт. Щоб перевірити, чи коректно складено файл, можна скористатися спеціальними сервісами Яндекса або Гугла. Дізнатися детальніше про файл robots.txt для Яндекса і знайти усі інструкції можна тут.

Далі, я покажу приклади robots.txt для DLE і WordPress. Сам я використовую тільки ці движки.

Robots.txt для Worpdpress

User-agent: *
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /trackback/
Disallow: */trackback/
Disallow: /feed/
Disallow: */feed/
Disallow: /?feed=
Disallow: /*page/
Disallow: /tag/
Disallow: /?s=

Sitemap: http://site.ru/sitemap.xml

Host: site.ru

Як бачите, я не закриваю коментарі від пошукових ботів і вважаю це правильним. Головне тепер фільтрувати коментарі, відсіваючи спам і коментарі не по темі. Також я не забороняю до індексації сторінки категорії в WP. На власних сайтах зауважив, що категорії збирають досить багато пошукового трафіку при грамотній їх оптимізації. А ось теги я закриваю. Бо занадто багато вони створюють дублів контенту, що не вітається пошуковими системами.

Robots.txt для DLE

Ось такий роботс я використовую для дле:

User-Agent: *
Disallow: /admin.php
Disallow: /index.php?do=lastcomments
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=pm
Disallow: /index.php?do=register
Disallow: /index.php?do=search
Disallow: /index.php?do=addnews
Disallow: /index.php?do=sendfriend
Disallow: /autobackup.php
Disallow: /*engine/modules/
Disallow: /*engine/
Disallow: /user/
Disallow: /favorites/
Disallow: /statistics.html
Disallow: /newposts/
Disallow: /*print
Disallow: /*?cstart
Disallow: /templates/
Disallow: /*page/

Sitemap: http://site.ru/sitemap.xml

Host: site.ru

Все майже теж саме, що і для ВП. Забороняю індексувати всякий непотріб.
Думаю, такий файл Robots.txt можна назвати правильним. Якщо хтось хоче посперечатися з цим, запрошую в коментарі. Також задавайте питання, якщо щось не зрозуміло за створення цього файлу.