Написал скрипт, который парсит прокси из инета. вариант1 даем ему файл со списком сайтов, где выкладывают прокси, срипт лазит по ним (с глубиной 1 ссылка) и собирает все прокси. Так можно базу сайта в 3000 проксей стянуть за секунды, а не копипастить и удалять лишнюю инфу для каждого айпишника... вариант2 у нас нету никакого списка с сайтами и нам лень их искать в гугле. Тогда скрипт это делает за нас. Пробивает в гугле запрос ака proxy и берет первые 20000 страниц. Потом ходит по ним и собирает прокси как это описано в первом случае. Последний тест скрипта этим методом длился больше 2 часов и принес список в 22 993 не завершив свою работу до конца (я прервал чтоб не ждать дальше, так как больше проксей просто теоритически не может быть нужно - их же прочекать еще надо) Все настройки легко меняются в первых строках кода. Код хорошо прокомментирован. В архиве есть FAQ и схема работы, а также чекер проксей на PHP. вот скрин: настройки, как видно по скрину, выводятся в админку. ошибки обрабатываются, после завершения работы скрипта видим ссылку на файл с проксями. проверка повторов отсутствует так как большинство чекеров уберают повторы сами. Скачать версию 1.0 http://d.lsass.us/4280
набросал на ходу... Если добавит в код строку PHP: foreach(array_unique(file($file_proxy)) as $numb=>$valuee)echo $valuee . "<br>"; после fclose($log); и после fclose($save); то после завершения работы скрипта уникальные прокси выведутся в браузер. на счет глубины поиска, какую хотите, такую и ставьте в настройках. глубина 5 - это минуты на две работы. Эта настойка означает не хождение по подкаталогам и ссылкам, а колличество обрабатываемых страниц из тех, которые найдет гугл. А по тем страницам углубляемся в подкаталоги только один раз. Этого достаточно с головой. чекер проксей от енота в архиве. Одновременно чекать и парсить сервак не выдержит ) так что потратьте часик на парсинг и потом хоть 2 суток чекайте. Я видел что продают, а я даю на халяву.
вообщем все как бы работает, жму допустим ок (тот который напротив собрать из google) и у меня через 5 сек пишет done, файл прокси1 пустой
Хорошая решение нудной работы [лови +] P.S реально добавь чекер проксей, но после парсинга листа а не одновременно. Работает идеально но дупликаты давольно много, + еще добавь сортировка по GeoIP)