гугл парсер

Discussion in 'PHP' started by TADIAMOND, 28 Nov 2013.

  1. TADIAMOND

    TADIAMOND Member

    Joined:
    19 Feb 2011
    Messages:
    140
    Likes Received:
    40
    Reputations:
    6
    В общем такой вопрос, задался целью написать парсер гугла по принципу платных, которые без лимитов парсят, никто не подскажет как такое реализовывается? где о таком вообще почитать можно? Перерыл все гугл апи, нашел только встраивание поиска к себе на сайт, мож я где-то не там ищу, ткните пожалуйста носом, заранее спасибо!
     
  2. попугай

    попугай Elder - Старейшина

    Joined:
    15 Jan 2008
    Messages:
    1,520
    Likes Received:
    401
    Reputations:
    196
    О каких платных идет речь?
     
  3. TADIAMOND

    TADIAMOND Member

    Joined:
    19 Feb 2011
    Messages:
    140
    Likes Received:
    40
    Reputations:
    6
    баблс например!

     
  4. Art!P

    Art!P Elder - Старейшина

    Joined:
    22 Jan 2008
    Messages:
    169
    Likes Received:
    28
    Reputations:
    5
    Чтобы написать парсер нужен опыт программирования.
    Чтобы написать хороший парсер нужен вбухать кучу времени, сил.
    Знать много всяких технологии. Программирование потоков и сокетов, протоколы http/https туда же HTML, COOKIE. Изучить проксирование, но лучше уж подружится с антигейт ибо ПСы не любят халявные рожи и показывают каптчи, а прокси обычно снижают скорости. Гугл к примеру каждые 200 запросов показывает каптчу.
    По парсингу, изучить регулярные выражения, Xpath (еще интереснее технологии есть).
    Изучить SQL, ну или какую либо технологию для хранения и анализа данных.
    Собрать данные и хранить ИМХО глупо, лучше собрать сайт. Красивый и большой. А там еще всякие фенечки в виде Jquery и Ajax прикрутить, вбухать время на раскрутку и монетизацию.
    Раскрутишься, срубишь бабло и девки будут давать)
     
  5. TADIAMOND

    TADIAMOND Member

    Joined:
    19 Feb 2011
    Messages:
    140
    Likes Received:
    40
    Reputations:
    6
    Спасибо конечно за развернутый ответ, но вы не совсем поняли мой вопрос, дело в том, что как написать парсер,я знаю, скажу даже больше, у меня уже есть готовый парсер на все популярные пс, но, у меня не обходит ограничения! Дело в том, что у яндекса и гугла стоит лимит на показ сайтов на 1 ключ, равен он 1000 пагам, т.е если покажется что результатов 130млн, покажет не больше 1к! В платных это как-то обходится, вот я и спрашиваю у форумчан, знает ли кто нибуть,как!
     
  6. Art!P

    Art!P Elder - Старейшина

    Joined:
    22 Jan 2008
    Messages:
    169
    Likes Received:
    28
    Reputations:
    5
    Нужна работа с куками.
    И даже если грамотно работать с куками и часто делать запросы, ПСы все равно периодически отправляют на каптчу, проходите каптчу - получаете новый кук. Это непрерывный процесс
     
  7. TADIAMOND

    TADIAMOND Member

    Joined:
    19 Feb 2011
    Messages:
    140
    Likes Received:
    40
    Reputations:
    6
    опять вы меня не поняли, у меня проблем с капчей нет, а вот с лимитом выдачи есть, смотрите если в гугле изменить параметр start на 1000(star=1000), то гугл выдаст

    Так вот, платные как-то это ограничения обходят(например баблс публично заявляет на своем сайте), а вот как так зделать, я не могу найти!
     
  8. Shakiro17

    Shakiro17 New Member

    Joined:
    22 Jun 2011
    Messages:
    5
    Likes Received:
    0
    Reputations:
    0
    1. Да подстановками надо делать к запросу:

    a viagra
    b viagra

    2. Собрал ссылки, собрал сниппеты - сделал в снипеттах замену на \r\n, удалил дубли, знаки препинания - получил список подстановок к viagra. Ну и так дальше, рекурсивно.

    И вообще, то что бабблс пишет - это херня для дилетантов-покупателей, т.к. выдача везде разная. С разных проксей + персонализированная.
     
  9. TADIAMOND

    TADIAMOND Member

    Joined:
    19 Feb 2011
    Messages:
    140
    Likes Received:
    40
    Reputations:
    6

    Ну хоть что-то по делу ответили! Ну как сказать, знаю, пробовал, но метод с подстановками меня не очень радует, но все равно спасибо!