Вообщем ситуация такая, Кто то с моего сайта, тупо парсит контент, Как это можно предотвратить ? Лимитами запросов, или еще как, посоветуйте. Дело не в том что они воруют а в том что у меня сайт тормозит
проверяй user-agent, бань по IP, или самый "кульный" вариант: Code: <body oncopy="return false"> 100% защиты от парсинга нет, но так его станет меньше.
Дело не в парсинге а то что этим парсинго нагинают мой обычный серв - а переезжать я щас не планирую хотя давно пора, так вот, нужно что то от массовых запросов
Я думаю что так и есть. Вообщем я нашел решение, это сессияя и минуты - вообщем защищает от авторефрешов и массовой навигации по ссылкам, т.е быстрого переключение.
Сегодня меня античат просто бесит. То в болталке сборище школьников вместе с пионер-вожатой яро спорят о том, какой фавикон нужен народу, то вот тут, в разделе о пхп, всякие умные люди пишут на вопрос "как защититься от парсинга курлом" ответы, которые не то, что даже совсем не подходят, дак они еще даже и не кроссбраузерные. Скажи мне, дорогой Zed0x, каким макаром можно вот этим событием на яваскрипт избавится от парсинга курлом? Ты думаешь курлу не пофиг на яваскрипт? Или ты думаешь, что парсер если встретит в тексте страницы эту строчку, то сразу перестанет работать? Неужели? Ну тогда скажи мне в чем разница между парсингом и просто посещением страницы? Никакой разницы, по-сути, нет. Парсер также грузит страницы => также грузит сервак запросами. Только если вот людей там прийдет 1-2 касарика в день, то парсер может скушать без проблем 10к страничек за меньше, чем минуту. Ничего против тебя конкретно, Zed0x, я не имею, просто вроде был не школофорум, а теперь здесь такое гребанное болото, что противно читать. По теме - адио, посмотри ип с которых парсят и забань. Только скорее всего не перестанут парсить, поставят проксик и все. Лучше зашифруй контент яваскриптом и сделай в теле страницы обработчик, который его расшифровывает. Только это, конечно, погубит сам контент с точки зрения СЕО. Ну можешь еще попробовать выдавать не шифрованный контент если юзер-агент будет поискового бота, а всем остальным - шифрованный.
Снимет ли это нагрузку на сервер - спорный вопрос. Клоакинг - плохая затея, все ПС, заметив его, вышвырнут сайт с индекса.
Ну думаю если парсер не справится с js - то конечно снимет. Насчет СЕО я не знаток если честно, так что вполне возможно, что мой совет не корректный.
я как то писал робота для одного сайта. так вот они там так и не нашли как защитится от курла. да и я не знаю. можно максимально усложнить задачу парсеру. они там юзают js который геренрит че нить и потом на след странице проверяет,капчи,refererы. и в результате им будет сложнее. но не более. при современных технологиях думаю защиты нет.
Для курла подделать юзер-агент, реферер и кукесы делать нефиг. Капчи для софта типа хуманэулятор и хеннопостер тоже семечки. Единственный вариант наверно не давать создавать множество соединеий. Но это (а также бан по айпи) обходится очень просто используя прокси.
Все намного проще, и это уже сделано на Pinterest.com . Ктонибудь пытался писать под эту социалку бот? =) Так вот, я пытался и угробил два дня, а ответ нашел в инете... Дело в том что при логине это социалка выдает очень больше время жизни кука. Браузеры справляются с этой задачей и читают куку как положено, а курл сохроняет время жизни куки отрицательным числом , что означает что кука не действительна.. Дальше сами =)
А что если я сделаю CURLOPT_HEADER, 1 и буду парсить заголовки на предмет Set-Cookie? Тогда я буду самым крутым?
Да .. Это я и делал на данной соц сети .. но никто парится не будет т.к это хрен заметишь ... куки есть , куки шлются .. а не работает =) Для такой большой соц сети и то еле как нашёлся человек который разобрался =)
что за бредятина, сайту пи*дык настанет не только для ПС, но и для юзеров у которых глючный/отключенный яваскрипт или какой-нить безумный ИЕ. И от нагрузки это не спасет, как досили так и будут досить, только еще хуже станет, т.к. контент будет ШИФРОВАТЬСЯ перед всем этим = еб*ническое увеличение нагрузки. Я бы озадачился настройкой Apache/Nginx + IPTABLES (если линух) Если нгинкса нет - запоминаем в сессию (БД?) количество загрузок страниц конкретнным юзером (айпишником если БД) за минуту(!!), если их больше 20, например, делаем в самом начале страницы echo("давай до свидания");die;
зы если парсят с сервера - идешь на сайт хостера (и его и своего заодно), пишешь абузу с логами, серв отрубают через 2 часа и афтар долго думает, стоит ли еще раз это делать если сервер угнанный - все равно пишешь, и пусть пробивают по логам, с какого ип авторизовывались на этом серве, тада автору не только за ддос но еще и за угон уши открутят