Черные методы раскрутки Парсинг гугла и бан

Discussion in 'SЕО - тонкости, методы раскрутки' started by KillDead, 11 Feb 2012.

  1. KillDead

    KillDead New Member

    Joined:
    15 Sep 2008
    Messages:
    31
    Likes Received:
    2
    Reputations:
    0
    Помогите, может кто знает как гугл парсеры банит, по какому принципу? Сейчас заменил что несколько человек перестали оказывать такие услуги, это с новым гуглофильтром связано? Вроде бы учёл всё что можно, но гугл всё равно банит.

    В общем мне понадобилось спарсить с гугла контент. Капчу решил не вводить- при бане, просто менять ип. Вначале выбрал в качестве проксей tor. Пустил его в несколько потоков . Но обнаружил странный бан - один поток баннится. Всё предусмотрено- выполняется смена ип у забаненного тора. и запрос повторяется. Но ! всё равно, этот же поток, после смены сервера и повтора запроса сразу же получает ещё один бан и так далее. Остальные же потоки работают отлично. После всех попыток обойти, решил что у гугла есть список серверов тора и они банятся по диапазону.

    Набрал проксей- 2.5к носков. Запустил парсинг в 300 потоков. 40 минут парсер работал отлично, нерабочие прокси и забаненные удалялись и осталось незадействованных 1.5к проксей. И тут бан- все запросы вызывали your computer or network may be sending automated queries. пока прокси не кончились.

    Что я сделал - урл запроса разый (разные get параметры) ,
    хеадер запроса

    HTML:
    Accept-Encoding: gzip,deflate
    Accept: */*
    Accept-Language: ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3
    Accept-Encoding: gzip,deflate
    Accept-Charset: windows-1251, utf-8, iso-8859-1, utf-16, *;q=0.7
    Connection: keep-alive
    генерирую разный всё время. Юзер агент тоже.
    И не смотря на это- гугл понимает что надо забанить. Как он это может делать?
     
  2. KillDead

    KillDead New Member

    Joined:
    15 Sep 2008
    Messages:
    31
    Likes Received:
    2
    Reputations:
    0
    старые в смысле по формату или старые - от устаревшего потока ? Если второе- у меня на каждый поток отдельно заводился своя кука, свой заголовок, свой юзер агент и прокся бралять любая, правда задеожку не ставил- так как носки очень медленные, каждый запрос примерно 1-5 секунд делал перерыв.
    Но вроде как раз в выборе проксей могла была ошибка - с одной прокси выполнялось несколько запросов и все с уникальным заголовком. Ещё ввёл принудительную задержку- в итоге, бан приходит как то волнами - то 40 минут ни одного бана, то каждые 5 минут новый бан. Конечно можно было бы списать это на прокси, типо заюрзанные....
     
  3. scanislav

    scanislav Elder - Старейшина

    Joined:
    25 Jun 2010
    Messages:
    87
    Likes Received:
    22
    Reputations:
    31
    Если прокси из паблика, по можешь не сомневаться, на них кроме тебя еще стопицот человек висит и половина из них долбит гугль. Гуглю это не нравится, и его можно понять.

    Можно попробовать воспольховаться тем обстоятельством что у гугля десятки дц по всему миру, и раскидывать траф равномерно между всеми.

    Из украины например запросы идут на сетку 173.194.0.0/16 , а из юсы на 74.125.0.0/16
    (и то и то AS15169 )
     
  4. KillDead

    KillDead New Member

    Joined:
    15 Sep 2008
    Messages:
    31
    Likes Received:
    2
    Reputations:
    0
    кто ещё гугл парсит, есть бан по основному ип если использовать прозрачные прокси? Пробовал отсылать 200к запросов через эти прокси, вроде ничего страшного не получил, или это ещё не большая для гугла цифра?