SEO - Статьи использование robots.txt

Discussion in 'SЕО - тонкости, методы раскрутки' started by halkfild, 22 Oct 2007.

  1. halkfild

    halkfild Members of Antichat

    Joined:
    11 Nov 2005
    Messages:
    365
    Likes Received:
    578
    Reputations:
    313
    Введение
    Стандарт исключений для роботов по сути своей очень прост. Вкратце, это работает следующим образом:
    Когда робот, соблюдающий стандарт заходит на сайт, он прежде всего запрашивает файл с названием «/robots.txt». Если такой файл найден, Робот ищет в нем инструкции, запрещающие индексировать некоторые части сайта.

    Где размещать файл robots.txt

    Робот просто запрашивает на вашем сайте URL «/robots.txt», сайт в данном случае – это определенный хост на определенном порту.

    На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории – все равно роботы не будут их там искать. Если вы хотите иметь возможность создавать файлы robots.txt в поддиректориях, то вам нужен способ программно собирать их в один файл robots.txt, расположенный в корне сайта. Вместо этого можно использовать Мета-тег Robots.

    Не забывайте, что URL-ы чувствительны к регистру, и название файла «/robots.txt» должно быть написано полностью в нижнем регистре.

    Что писать в файл robots.txt

    В файл robots.txt обычно пишут нечто вроде:


    В этом примере запрещена индексация трех директорий.

    Затметьте, что каждая директория указана на отдельной строке – нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.

    Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*" не поддерживаются.

    Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации.
    Вот несколько примеров:
    Запретить весь сайт для индексации всеми роботами

    Разрешить всем роботам индексировать весь сайт

    Или можете просто создать пустой файл «/robots.txt».
    Закрыть от индексации только несколько каталогов

    Запретить индексацию сайта только для одного робота

    Разрешить индексацию сайта одному роботу и запретить всем остальным

    Запретить к индексации все файлы кроме одного

    Это довольно непросто, т.к. не существует инструкции “Allow”. Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию:

    Либо вы можете запретить все запрещенные к индексации файлы:

    (с) robotstxt.org.ru​

    самый полный перечень юзерагентов поисковых ботов
    http://www.user-agents.org/index.shtml

    кста там идет разделение и описание
    з.ы. то что вы пишете как запрет индексировать поисковикам я смотрю в первую очередь =) /*да и не только я*/

    кста намного проще не оставлять ссылок на этот файл/директорию.. тогда ее никто не проиндексит и найти тоже не реально/*ну разве сканером брутом*/
     
    _________________________
    5 people like this.
  2. halkfild

    halkfild Members of Antichat

    Joined:
    11 Nov 2005
    Messages:
    365
    Likes Received:
    578
    Reputations:
    313
    Нестандартные директивы и расширения

    Директива Crawl-delay

    Начнем издалека. Поисковые роботы Yahoo и MSN, Slurp и msnbot соответственно, понимают такую дополнительную директиву, как Crawl-delay. Значением данной директивы должна быть цифра, которая указывает время в секундах между обращениями робота к сайту. Данная директива была добавлена после неоднократных обращений пользователей в службу технической поддержки указанных компаний по поводу слишком частых запросов роботов и, соответственно, высокой нагрузке серверов и большому исходящему трафику. Для сайтов, размещенных на площадках в Украине и России, трафик, отдаваемый роботам, является зарубежным, поэтому имеет смысл использовать директиву Crawl-delay для снижения нагрузки и исходящего трафика, в особенности для крупных сайтов.

    Директива Allow

    Поисковая система Google использует в своих алгоритмах наибольшее количество расширений. Одно из таких расширений — директива Allow. В качестве значения указывается частичный путь, который разрешается индексировать роботу. С помощью этой директивы возможно разрешить индексацию одного файла в то время, когда вся папка запрещена к индексации, например:


    В качестве эксперимента я попытался применить директиву Allow в одном robots.txt, однако в записи из 6-ти или 7-ми правил столкнулся с коллизиями, связанными с "перекрытиями" правил в Disallow и Allow, которые не удавалось однозначно решить, поэтому пришлось отказаться от использования данной директивы.

    Символы подстановки

    Символы подстановки скрывают за собой один или несколько символов. Наиболее часто употребляющийся символ — «*», который обозначает ноль и более символов. Использование символов подстановки в файле robots.txt не предусмотрено, кроме указания всех остальных поисковых систем в директиве User-agent, однако в директиве Disallow данный символ в протоколе не интерпретируется никак иначе самого себя.

    Однако Google в своих алгоритмах допускает использование символа «*» в качестве «множества любых символов», а также символа «$» в качестве «конца строки». В результате можно блокировать адреса с заданным динамическим параметром, независимо от того, где в адресе данный параметр встречается, а также блокировать все файлы с определенным расширением, например:


    В алгоритмах поисковой системы Рамблер также заложена функция обработки символа «*», как символа подстановки, т.е. приведенный выше пример с параметром ts можно использовать для запрещения индексации определенных динамических адресов роботом StackRambler.

    Директива Host

    Директива Host является наиболее широко известной нестандартной директивой в Рунете. Это директива для робота поисковой системы Яндекс, ответственного за работу с зеркалами. Значением директивы должен быть адрес главного зеркала сайта без http://. При указании главного зеркала сайта, все остальные адреса сайта будут считать второстепенными зеркалами «приклеются» к главному. Однако, следует заметить, что, в отличие от всех остальных директив robots.txt, директива Host является лишь рекомендацией роботу, а не четким указанием адреса главного зеркала.

    (с) starsite.ru​
     
    _________________________