можно ли защитить сайт от сканеров сайтов? например webproverka.com и подобные таким же и прочими которые типа проверяют на вирусы и прочее
ну если будут хотеть сканировать именно твой сайт то наверное нет. по крайней польское посольство не может. но можно как они усложнить задачу. например когда я писал робота для их сайта там был такой момент. что страницы должны были посещаться в строгом порядке. и для перехода между надо было найти 2 случайных цифровых свойства css атрибута. это помоему было Heigth невидимого дива. они всегда менялись. но потом отослать их сумму в аякс запросе. и только если ты все правильно сделал + у тебя правильная кука оно отвечало исходником следующей страницы. и таких штук там было много. может и тебе что то такое сделать. но думаю при современных технологиях 100% гарантии не даст ничего.
не это ты морозишь. обфусцированным джавасриптом берутся эти переменные и передаются в виде суммы аякс запросом при клике на кнопку далее. в ответ получаем html страницы со злым контентом . и отрисовавыем его. саму сумму храним где угодно и проверяем . если правильно то отдаем страницу если нет то не отдаем.так что скажи что не понял как это . а не хами.
Превосходная защита... Я то понял, нужно быть только анитчатовцем головного мозга чтоб не понять такую елементарнейшую "систему защиты". Но вопрос другой, ты реально считаешь это защитой от парсеров?
Господа, ладно вам сраться. barnaki описывает реально имеющий место быть способ п-расить ботов. К сожалению, боты поисковиков на это зачастую косо смотрят. Вообще вся навигация в ряде порталов построена по такому идиотскому образу - нельзя просто так взять и зайти по линку. Обязательно надо натыкать себе непонятных сессийных плюшек навигации и т.п. И в любой защите от тех или иных ботов есть принципиальнейший вопрос: защищаться ли от рандомных залетных ботов, или от написанных специально для этого портала. Смею предположить, здесь и случилось недопонимание. ТС: Да, можно. Вопрос в том, с какой целью. Если вы хотите прятать плоенты, да связки, стоит задуматься: если даже какой-то захудалый бот палит связку, то как будут бибикать аверы на машинах клиентов? Может, стоит почистить связку? Как вариант, можно посмотреть на методку работы известных ботов "за доброе дело", путем натравливания их на свой сайт и анализа логов. От этого и отплясывать в зависимости от тупости\продвинутости бота. В конце концов, никто не мешает вам ставить всякие waf'ы и с чистой совестью банить ботов "за сканирование". Активные системы обнаружения вторжения(на сканы тоже косо смотрящие) никто не отменял.
а чё тут гадать? чем боты отлчаются от обычных браузеров, как правило не юзают джава скрипт и не принимают куки, банально пишется 2 скрипта, один записывает ip в таблицу и юзается в интексе, второй делает тоже самое но подгружается на страницу джавоскриптом, потом сравниваются ip в обеих колонках таблицы, и банятся ip которые есть в одной колонке но нет в другой
яснапонятно... хами? яснапонятна... Радует что есть такие специалисты как вы, облегчаете работу, создаёте дырявое ПО, "ахирительные" защиты от парсинга, вот чего не хватает чтоб вы еще от ддоса писали скрипты защиты на пхп. А теперь давай для начала определимся о каких пауках идет речь. Если тебе не нравятся боты гугла, ты можешь запретить им индексировать через robots.txt. Если ты хочешь защитится от парсеров которые пишут кодеры типа barnaki ты можешь втулить мега-защиту отсылающую аяксы (тем самым устаивая паливо левым запросом который любой школо уровя чуть выше barnaki сможет отснифать и догадаться что сие творение есть "сесурити") И последний вариант что вы будете делать от парсеров типа Human Emulator которые обрабатывают JS, flash ? У кого нибудь есть вразумительные идеи, или ответ типа это панацея?
Ну для начала, лично у меня с парсерами проблем нет - я не топикстартер. Среди сеошников ходит баечка о том, что гугл класть хотел на robots.txt и про запас индексирует все. А снифать предложенную идею с ксс не нужно - достаточно просто посмотреть исходники. Полагаю, вопрос топикстартера исчерпывающе решен. Касательно парсеров под конкретный портал. Я всегда считал и считаю, что если живой клиент в вебе может получить данные, то абсолютно всегда можно сделать парсер, который эти данные будет получать. Защиты от этого не только нет, но и архитектурно быть не может. Можно лишь усложнять жизнь в той или иной мере. В конце концов, ничего не мешает написать надбраузерное расширение, которое будет использовать браузер для обработки js,css,etc, а после выдергивать данные, осуществляя навигации при помощи эмулации ввода. В этом случае совершенно невозможно сказать, человек это делает или бот.
Имеется ввиду смотреть исходник после того как снифером увидишь заголовки и какие данные передаются. По поводу robots.txt хз, ПС сами по себе жадные на выдачу а чтоб еще индексировали закрытый контент похоже на бред) Может просто были единичные случаи и то с своей спецификой, допустим закрыта папка /111 но в карте сайта она прописана. Тут полностью согласен.
Если надо заблокироватся от определённых сайтов сканеров, думаю можно легко заблокировать на стороне севера их IP адреса
Можно в принципе нечто из такой серии - Блочить юзерагенты (как например в wso2 сделано) PHP: if(!empty($_SERVER['HTTP_USER_AGENT'])) { $userAgents = array("Google", "Slurp", "MSNBot", "ia_archiver", "Yandex", "Rambler"); if(preg_match('/' . implode('|', $userAgents) . '/i', $_SERVER['HTTP_USER_AGENT'])) { header('HTTP/1.0 404 Not Found'); exit; } }
robots.txt вообще неэффективен, если ссылки есть где то или даже на конкретном сайте - то такая закрытая ссылка всплывёт под ней надпись будет: но ссылка будет в поиске искаться ! на такие страницы лучше проверки ставить по реферер, куки итд - или если надо комменты не выводить в поиск - закрыть, но не скрывать за паролем через авторизацию, 410 код отдавать всегда, браузерам всёравно а ботам знак что страницы нет! вот например http://webproverka.com/comments.php?antichat.ru - понятно что это говноотзывы - липовые генерированые, но значит ачат сканирует ихний бот и весь вопрос был не о поисковых ботах разных поисковиков, а вот о таких плешивых сайтах вроде http://webproverka.com, которые всякую x*йню выводят, причём сами, без разрешения или предварительной регистрации, и хрентус от туда её уберёшь, а ещё она индексируется. такие сайты хрен убрать из выдачи, разве только ддосом а часто в логах таких ботов найти сложно так как они например такой useragent имеют: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:32.0) Gecko/20100101 Firefox/32.0 или даже такой:Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) им никто не мешает любой agent делать, и менять их при каждом заходе, и даже айпи чередовать