Наиболее популярными поисковыми системами, обобщая статистику Российского и Украинского сегментов интенета, являются Google( 30% от общего трафика всех поисковых систем в рунете и 60% в уанете) и Yandex( 49% и 28% соответственно). Здесь мы поближе познакомимся с тем, как все это работает не вдаваясь в технические детали. Поисковые системы выполняют небольшой набор обязательных функций, который позволяет им предоставлять актуальные результаты в ответ на запрос пользователя по поиску информации. Сканирование глобальной сети Важной частью каждой поисковой системы являются автоматизированные программы, называемые "ботами" или "пауками", которые, используя ссылочную структуру сети, сканируют страницы и документы составляющие глобальную всемирную сеть. По некоторым оценкам в интернете существует примерно 20 миллиардов веб страниц, из которых 8-10 миллиардов просканировано поисковыми системами. Индексирование документов Как только страница обнаружена поисковым ботом, она может быть проиндексирована, то есть занесена в огромную базу данных, на основе которой и создается индекс поисковой системы. Этот индекс должен быть продуман и построен весьма тщательно, поскольку именно он позволяет получить результаты поиска по миллиардам страниц в течении доли секунды. Обработка поисковых запросов Получив запрос на поиск информации, поисковая система выбирает из базы все соответствующие (релевантные) документы. Поиск осуществляется по ключевым словам, с учетом дополнительных условий, указанных пользователем. Например, по словосочетанию авто журнал в Google возвращает около 380 тыс. страниц, тогда как по той же самой фразе заключенной в кавычки "авто журнал" выдает только 44 тыс. страниц. В первом случае Google возвращает все документы, которые содержат слова "авто" и "журнал" без учета взаимного расположения этих двух слов внутри документа. Во втором же случае, указав кавычки, мы дали системе знать, что нас интересуют тоолько те документы, на которых встречается точная фраза "авто журнал".Описание всех доступных операторов, позволяющих более тонко настроить поиск, можно найти здесь Ранжирование результатов поиска После того как страницы, соответствующие запросу найдены, необходимо определить в каком порядке их возвращать, чтобы первыми в списке, с наибольшей вероятностью, оказались самые полезные для пользователя. Для этого используются сложные алгоритмы, учитывающие сотни факторов, предназначенные для того что бы упорядочить результаты поиска от наиболее к наименее релевантным. И хотя описанные функции не выглядят слишком сложными, поисковые системы должны обладать огромными хранилищами информации, чтобы хранить образы миллиардов вебстраниц и соответствующими вычислительными мощностями, позволяющими осуществлять быстрый поиск в этом море информации. Для получения представления о масштабах таких объектов, можно почитать статью о строительстве дата центра Google. Ограничители скорости и знаки стоп Встречаются сайты, навигация которых устроена таким образом, что контент может оказаться частично или полностью недоступен для поискового робота. Поисковые роботы используют гиперссылочную архитектуру веба для нахождения новых страниц, и проверки обновлений существующих. Используя аналогию с вождением, сложная ссылочная структура и большая глубина сайта при небольшом количестве уникального контента могут служит ограничителями скорости. Страницы, которые недостижимы посредством гиперссылок с других страниц, спрятаны под знаками "стоп". Возможные ограничители скорости для поисковых роботов: -ссылки с двумя и более динамическими параметрами (пример: http://www.url.com/page.php?id=4&CK=34rr&User=%Tom%) -страницы с более чем 100 уникальных ссылок на другие страницы -страницы, находящиеся на глубине более 3 ссылок/кликов от главной страницы -страницы использующие сессии или куки для успешной навигации -страници, использующие фрэймы Возможные знаки "стоп": страницы, доступные только лишь через сабмит формы страницы, доступные только лишь через динамические javascript меню страницы, заблокированные намеренно при помощи тэга robots или файла robots.txt страницы, доступ к которым требует авторизации страницы, использующие редирект