SEO - Статьи robots.txt

Discussion in 'SЕО - тонкости, методы раскрутки' started by FeraS, 9 Jan 2008.

  1. FeraS

    FeraS Elder - Старейшина

    Joined:
    19 Jan 2007
    Messages:
    555
    Likes Received:
    420
    Reputations:
    76
    Что такое robots.txt

    robots.txt - Файл для ограничения доступа к содержимому роботам на HTTP сервере. Его необходимо размещать в корневой директории сайта.
    Инструкции, содержащиеся в файле, могут запрещать к индексации некоторые разделы или страницы на сайте, рекомендовать поисковому боту соблюдать определенный временной интервал между скачиванием документов с сервера и др.

    Имя файла не должно содержать заглавных букв! Записи в файле разделяются одной или несколькими пустыми строками. Комментарии в файле robots.txt начинаются знаком “#” и заканчиваются окончанием строки.

    Создание файла
    Чтобы создать файл robots.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл.

    Описание
    В файл robots.txt обычно пишут примерно следующее:
    Code:
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    В этом случае будет запрещена индексация директорий /cgi-bin и /tmp.

    ! Каждая директория указана на отдельной строке - нельзя написать:
    Code:
    Disallow: /cgi-bin/ /tmp/
    Также нельзя разбивать инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.

    Регулярные выражения и символы подстановки так же нельзя использовать. "Звездочка" (*) в инструкции User-agent означает "любой робот". Инструкции вида:
    HTML:
    Disallow: *.gif
    или
    Code:
    User-agent: Ya*
    не поддерживаются!

    ----

    Запретить весь сайт для индексации всеми роботами
    Code:
    User-agent: *
    Disallow: /
    Разрешить всем роботам индексировать весь сайт
    Code:
    User-agent: *
    Disallow:
    (Аналогично пустому файлу robots.txt)

    Закрыть от индексации только несколько каталогов
    Code:
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Запретить индексацию сайта только для одного робота
    Code:
    User-agent: BadBot
    Disallow: /
    Разрешить индексацию сайта одному роботу и запретить всем остальным
    Code:
    User-agent: Yandex
    Disallow:
    
    User-agent: *
    Disallow: /
    Полезные ссылки
     
    5 people like this.
  2. FeraS

    FeraS Elder - Старейшина

    Joined:
    19 Jan 2007
    Messages:
    555
    Likes Received:
    420
    Reputations:
    76
    Частые ошибки

    Перепутанные инструкции
    Неправильно:
    Code:
    User-agent: /
    Disallow: Yandex
    Правильно:
    Code:
    User-agent: Yandex
    Disallow: /
    Несколько каталогов в одной инструкции Disallow
    Нельзя:
    Code:
    Disallow: /css/ /cgi-bin/ /images/
    Запись, нарушающая стандарт, угадать, как ее обработают разные роботы невозможно.
    Некоторые просто отбросят пробелы и интерпретируют как:
    Code:
    Disallow: /css/cgi-bin/images/
    Кто-то может просто отбросить эту инструкцию.

    Правильно писать так:
    Code:
    Disallow: /css/
    Disallow: /cgi-bin/
    Disallow: /images/
    Имя файла написано неправильно
    Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT и уж никак не robot.txt

    Пустая строка в User-agent
    Неправильно:
    Code:
    User-agent: 
    Disallow:
    Правильно:
    Code:
    User-agent: *
    Disallow:
    URL в директиве Host
    URL необходимо писать без префикса http:// и без закрывающего слеша /

    Неправильно:
    Code:
    User-agent: Yandex
    Disallow: /cgi-bin
    Host: http://www.aeweb.ru/
    Правильно:
    Code:
    User-agent: Yandex
    Disallow: /cgi-bin
    Host: www.aeweb.ru
    Эта директива корректна только для роботов Яндекса

    Символы подстановки в Disallow
    Нельзя:
    Code:
    User-agent: *
    Disallow: file*.html
    Хотя некоторые роботы ее поддерживают
    http://www.google.ru/support/webmasters/bin/answer.py?answer=40367&topic=8846
     
    2 people like this.