Что такое robots.txt robots.txt - Файл для ограничения доступа к содержимому роботам на HTTP сервере. Его необходимо размещать в корневой директории сайта. Инструкции, содержащиеся в файле, могут запрещать к индексации некоторые разделы или страницы на сайте, рекомендовать поисковому боту соблюдать определенный временной интервал между скачиванием документов с сервера и др. Имя файла не должно содержать заглавных букв! Записи в файле разделяются одной или несколькими пустыми строками. Комментарии в файле robots.txt начинаются знаком “#” и заканчиваются окончанием строки. Создание файла Чтобы создать файл robots.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл. Описание В файл robots.txt обычно пишут примерно следующее: Code: User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ В этом случае будет запрещена индексация директорий /cgi-bin и /tmp. ! Каждая директория указана на отдельной строке - нельзя написать: Code: Disallow: /cgi-bin/ /tmp/ Также нельзя разбивать инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга. Регулярные выражения и символы подстановки так же нельзя использовать. "Звездочка" (*) в инструкции User-agent означает "любой робот". Инструкции вида: HTML: Disallow: *.gif или Code: User-agent: Ya* не поддерживаются! ---- Запретить весь сайт для индексации всеми роботами Code: User-agent: * Disallow: / Разрешить всем роботам индексировать весь сайт Code: User-agent: * Disallow: (Аналогично пустому файлу robots.txt) Закрыть от индексации только несколько каталогов Code: User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Запретить индексацию сайта только для одного робота Code: User-agent: BadBot Disallow: / Разрешить индексацию сайта одному роботу и запретить всем остальным Code: User-agent: Yandex Disallow: User-agent: * Disallow: / Полезные ссылки Энциклопедия поисковых систем Приоритеты обработки записей в robots.txt Работа над файлом robots.txt Управление индексацией сайта (файл robots.txt)
Частые ошибки Перепутанные инструкции Неправильно: Code: User-agent: / Disallow: Yandex Правильно: Code: User-agent: Yandex Disallow: / Несколько каталогов в одной инструкции Disallow Нельзя: Code: Disallow: /css/ /cgi-bin/ /images/ Запись, нарушающая стандарт, угадать, как ее обработают разные роботы невозможно. Некоторые просто отбросят пробелы и интерпретируют как: Code: Disallow: /css/cgi-bin/images/ Кто-то может просто отбросить эту инструкцию. Правильно писать так: Code: Disallow: /css/ Disallow: /cgi-bin/ Disallow: /images/ Имя файла написано неправильно Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT и уж никак не robot.txt Пустая строка в User-agent Неправильно: Code: User-agent: Disallow: Правильно: Code: User-agent: * Disallow: URL в директиве Host URL необходимо писать без префикса http:// и без закрывающего слеша / Неправильно: Code: User-agent: Yandex Disallow: /cgi-bin Host: http://www.aeweb.ru/ Правильно: Code: User-agent: Yandex Disallow: /cgi-bin Host: www.aeweb.ru Эта директива корректна только для роботов Яндекса Символы подстановки в Disallow Нельзя: Code: User-agent: * Disallow: file*.html Хотя некоторые роботы ее поддерживают http://www.google.ru/support/webmasters/bin/answer.py?answer=40367&topic=8846