В общем такой вопрос, задался целью написать парсер гугла по принципу платных, которые без лимитов парсят, никто не подскажет как такое реализовывается? где о таком вообще почитать можно? Перерыл все гугл апи, нашел только встраивание поиска к себе на сайт, мож я где-то не там ищу, ткните пожалуйста носом, заранее спасибо!
Чтобы написать парсер нужен опыт программирования. Чтобы написать хороший парсер нужен вбухать кучу времени, сил. Знать много всяких технологии. Программирование потоков и сокетов, протоколы http/https туда же HTML, COOKIE. Изучить проксирование, но лучше уж подружится с антигейт ибо ПСы не любят халявные рожи и показывают каптчи, а прокси обычно снижают скорости. Гугл к примеру каждые 200 запросов показывает каптчу. По парсингу, изучить регулярные выражения, Xpath (еще интереснее технологии есть). Изучить SQL, ну или какую либо технологию для хранения и анализа данных. Собрать данные и хранить ИМХО глупо, лучше собрать сайт. Красивый и большой. А там еще всякие фенечки в виде Jquery и Ajax прикрутить, вбухать время на раскрутку и монетизацию. Раскрутишься, срубишь бабло и девки будут давать)
Спасибо конечно за развернутый ответ, но вы не совсем поняли мой вопрос, дело в том, что как написать парсер,я знаю, скажу даже больше, у меня уже есть готовый парсер на все популярные пс, но, у меня не обходит ограничения! Дело в том, что у яндекса и гугла стоит лимит на показ сайтов на 1 ключ, равен он 1000 пагам, т.е если покажется что результатов 130млн, покажет не больше 1к! В платных это как-то обходится, вот я и спрашиваю у форумчан, знает ли кто нибуть,как!
Нужна работа с куками. И даже если грамотно работать с куками и часто делать запросы, ПСы все равно периодически отправляют на каптчу, проходите каптчу - получаете новый кук. Это непрерывный процесс
опять вы меня не поняли, у меня проблем с капчей нет, а вот с лимитом выдачи есть, смотрите если в гугле изменить параметр start на 1000(star=1000), то гугл выдаст Так вот, платные как-то это ограничения обходят(например баблс публично заявляет на своем сайте), а вот как так зделать, я не могу найти!
1. Да подстановками надо делать к запросу: a viagra b viagra 2. Собрал ссылки, собрал сниппеты - сделал в снипеттах замену на \r\n, удалил дубли, знаки препинания - получил список подстановок к viagra. Ну и так дальше, рекурсивно. И вообще, то что бабблс пишет - это херня для дилетантов-покупателей, т.к. выдача везде разная. С разных проксей + персонализированная.
Ну хоть что-то по делу ответили! Ну как сказать, знаю, пробовал, но метод с подстановками меня не очень радует, но все равно спасибо!