Помогите, может кто знает как гугл парсеры банит, по какому принципу? Сейчас заменил что несколько человек перестали оказывать такие услуги, это с новым гуглофильтром связано? Вроде бы учёл всё что можно, но гугл всё равно банит. В общем мне понадобилось спарсить с гугла контент. Капчу решил не вводить- при бане, просто менять ип. Вначале выбрал в качестве проксей tor. Пустил его в несколько потоков . Но обнаружил странный бан - один поток баннится. Всё предусмотрено- выполняется смена ип у забаненного тора. и запрос повторяется. Но ! всё равно, этот же поток, после смены сервера и повтора запроса сразу же получает ещё один бан и так далее. Остальные же потоки работают отлично. После всех попыток обойти, решил что у гугла есть список серверов тора и они банятся по диапазону. Набрал проксей- 2.5к носков. Запустил парсинг в 300 потоков. 40 минут парсер работал отлично, нерабочие прокси и забаненные удалялись и осталось незадействованных 1.5к проксей. И тут бан- все запросы вызывали your computer or network may be sending automated queries. пока прокси не кончились. Что я сделал - урл запроса разый (разные get параметры) , хеадер запроса HTML: Accept-Encoding: gzip,deflate Accept: */* Accept-Language: ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3 Accept-Encoding: gzip,deflate Accept-Charset: windows-1251, utf-8, iso-8859-1, utf-16, *;q=0.7 Connection: keep-alive генерирую разный всё время. Юзер агент тоже. И не смотря на это- гугл понимает что надо забанить. Как он это может делать?
старые в смысле по формату или старые - от устаревшего потока ? Если второе- у меня на каждый поток отдельно заводился своя кука, свой заголовок, свой юзер агент и прокся бралять любая, правда задеожку не ставил- так как носки очень медленные, каждый запрос примерно 1-5 секунд делал перерыв. Но вроде как раз в выборе проксей могла была ошибка - с одной прокси выполнялось несколько запросов и все с уникальным заголовком. Ещё ввёл принудительную задержку- в итоге, бан приходит как то волнами - то 40 минут ни одного бана, то каждые 5 минут новый бан. Конечно можно было бы списать это на прокси, типо заюрзанные....
Если прокси из паблика, по можешь не сомневаться, на них кроме тебя еще стопицот человек висит и половина из них долбит гугль. Гуглю это не нравится, и его можно понять. Можно попробовать воспольховаться тем обстоятельством что у гугля десятки дц по всему миру, и раскидывать траф равномерно между всеми. Из украины например запросы идут на сетку 173.194.0.0/16 , а из юсы на 74.125.0.0/16 (и то и то AS15169 )
кто ещё гугл парсит, есть бан по основному ип если использовать прозрачные прокси? Пробовал отсылать 200к запросов через эти прокси, вроде ничего страшного не получил, или это ещё не большая для гугла цифра?