Введение Стандарт исключений для роботов по сути своей очень прост. Вкратце, это работает следующим образом: Когда робот, соблюдающий стандарт заходит на сайт, он прежде всего запрашивает файл с названием «/robots.txt». Если такой файл найден, Робот ищет в нем инструкции, запрещающие индексировать некоторые части сайта. Где размещать файл robots.txt Робот просто запрашивает на вашем сайте URL «/robots.txt», сайт в данном случае – это определенный хост на определенном порту. На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории – все равно роботы не будут их там искать. Если вы хотите иметь возможность создавать файлы robots.txt в поддиректориях, то вам нужен способ программно собирать их в один файл robots.txt, расположенный в корне сайта. Вместо этого можно использовать Мета-тег Robots. Не забывайте, что URL-ы чувствительны к регистру, и название файла «/robots.txt» должно быть написано полностью в нижнем регистре. Что писать в файл robots.txt В файл robots.txt обычно пишут нечто вроде: В этом примере запрещена индексация трех директорий. Затметьте, что каждая директория указана на отдельной строке – нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга. Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*" не поддерживаются. Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации. Вот несколько примеров: Запретить весь сайт для индексации всеми роботами Разрешить всем роботам индексировать весь сайт Или можете просто создать пустой файл «/robots.txt». Закрыть от индексации только несколько каталогов Запретить индексацию сайта только для одного робота Разрешить индексацию сайта одному роботу и запретить всем остальным Запретить к индексации все файлы кроме одного Это довольно непросто, т.к. не существует инструкции “Allow”. Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию: Либо вы можете запретить все запрещенные к индексации файлы: (с) robotstxt.org.ru самый полный перечень юзерагентов поисковых ботов http://www.user-agents.org/index.shtml кста там идет разделение и описание з.ы. то что вы пишете как запрет индексировать поисковикам я смотрю в первую очередь =) /*да и не только я*/ кста намного проще не оставлять ссылок на этот файл/директорию.. тогда ее никто не проиндексит и найти тоже не реально/*ну разве сканером брутом*/
Нестандартные директивы и расширения Директива Crawl-delay Начнем издалека. Поисковые роботы Yahoo и MSN, Slurp и msnbot соответственно, понимают такую дополнительную директиву, как Crawl-delay. Значением данной директивы должна быть цифра, которая указывает время в секундах между обращениями робота к сайту. Данная директива была добавлена после неоднократных обращений пользователей в службу технической поддержки указанных компаний по поводу слишком частых запросов роботов и, соответственно, высокой нагрузке серверов и большому исходящему трафику. Для сайтов, размещенных на площадках в Украине и России, трафик, отдаваемый роботам, является зарубежным, поэтому имеет смысл использовать директиву Crawl-delay для снижения нагрузки и исходящего трафика, в особенности для крупных сайтов. Директива Allow Поисковая система Google использует в своих алгоритмах наибольшее количество расширений. Одно из таких расширений — директива Allow. В качестве значения указывается частичный путь, который разрешается индексировать роботу. С помощью этой директивы возможно разрешить индексацию одного файла в то время, когда вся папка запрещена к индексации, например: В качестве эксперимента я попытался применить директиву Allow в одном robots.txt, однако в записи из 6-ти или 7-ми правил столкнулся с коллизиями, связанными с "перекрытиями" правил в Disallow и Allow, которые не удавалось однозначно решить, поэтому пришлось отказаться от использования данной директивы. Символы подстановки Символы подстановки скрывают за собой один или несколько символов. Наиболее часто употребляющийся символ — «*», который обозначает ноль и более символов. Использование символов подстановки в файле robots.txt не предусмотрено, кроме указания всех остальных поисковых систем в директиве User-agent, однако в директиве Disallow данный символ в протоколе не интерпретируется никак иначе самого себя. Однако Google в своих алгоритмах допускает использование символа «*» в качестве «множества любых символов», а также символа «$» в качестве «конца строки». В результате можно блокировать адреса с заданным динамическим параметром, независимо от того, где в адресе данный параметр встречается, а также блокировать все файлы с определенным расширением, например: В алгоритмах поисковой системы Рамблер также заложена функция обработки символа «*», как символа подстановки, т.е. приведенный выше пример с параметром ts можно использовать для запрещения индексации определенных динамических адресов роботом StackRambler. Директива Host Директива Host является наиболее широко известной нестандартной директивой в Рунете. Это директива для робота поисковой системы Яндекс, ответственного за работу с зеркалами. Значением директивы должен быть адрес главного зеркала сайта без http://. При указании главного зеркала сайта, все остальные адреса сайта будут считать второстепенными зеркалами «приклеются» к главному. Однако, следует заметить, что, в отличие от всех остальных директив robots.txt, директива Host является лишь рекомендацией роботу, а не четким указанием адреса главного зеркала. (с) starsite.ru