Очень часто я возмущаюсь при виде прокси-листов,которые выкладывают юзвери,особенно которые постят очередной говнолист,ради + в репу,но думаю есть люди,которые действительно хотят помочь,но не знают как,и их прокси лист называется "говно".В этой мини статье пойдет речь о том,как собрать качественный прокси лист ибо Quality better than quantity Итак,поехали 1.Сбор прокси.(Leeching,Grabbing) Тут всё элементарно,как обычно собираем прокси с форумов,сайтов,сканим и приводим их к виду 127.0.0.1:777(ип:порт) (В этом вам может помочь мой парсер ) 2.Чистка списка(Filtering). Очень большая проблема для юзеров прокси-"грязный" лист(коими являются 80% выкладываемых выше),поэтому делаем следующее а)Очистка дубликатов Удаляем дубликаты,почти любой инструмент для работы с прокси это имеет б)Фильтрация Фильтруем прокси лист от 1)Planetlab(CoDeeN) прокси.Говорить нечего-мусор,котрый есть в каждом прокси листе.Прокси являются полу-бесплатными,постоянно вылезает "You are trying to use a node of the CoDeeN CDN Network. Your IP address is not recognized as a valid PlanetLab address, so your access to CoDeeN does not include all HTTP types...".Также эти прокси не пропускают POST запросы,Connect на них тоже не работает 2)Government,Military,FBI прокси.Ну тут ноу комментс,таких прелестей не надо Вопрос-а чем фильтровать-то? Это умеет Charon,но если вы его не юзаете,то очень советую скрипт http://ipmaster.org/ip2cc.html (форма неправильно работает в Opera).Пихаем в форму прокси,отмечаем "Filter CoDeeN (Planetlab) IPs" и "Filter U.S. Government/Military IPs".На выходе получаем два списка-то что отфильтровали,и то что осталось,нас конечно интересует второй,далее работа с этим списком 3.Проверка(Checking). Просто проверяете прокси вашим любимым чекером,единственное что порекомендую-ставьте таймаут 5-10 секунд(а можно и 2-3),и проверять быстрее и не ждать по пол минуты при сёрфинге. Также на этом этапе отбрасываются нерабочие прокси,можно выбросить не анонимные,на ваше усмотрение. 4.Верификация(Verify). Для особо продвинутых известно-прокси мало только прочекать,их нужно верифицировать. Верификация-отправка запроса через прокси на сервер,получение ответа(заголовок и/или код страницы) и поиск в ответе ключевого слова(keyword).Если находим -прокси нормальный,если нет-выкидываем. Для этих целей я использую ProxyHunter,очень удобно,особенно после скана Но верефикация тоже не панацея-на некоторых прокси может быть,например,доступ только к гугл.ком,а к другим сайтам запрещен И ещё-можно пропустить проверку прокси,сразу верефикация(но прокси хантер анонимность не определит ) Собственно вот и всё,у вас на руках хороший список прокси,95% прокси в нём работают ©v1ru$,www.proxy-socks.info
я так и делаю, но когда оно сканит диапазон пол дня и находит десяток то потом они уже не пашут. А какие порты нужно искать, я ищу только 8080 и 3128
зачем вручную когда можно автоматом. Хотя оможно отрезолвить ип в имена хостов и фильтровать по зоне домена(но всеравно не всегда прокатит)
Хреновая статья. Уже давно на ачате есть более полные статьи. По делу: Опасайтесь софта для работы с проксями, дважды опасайтесь веб форм для работы с проксями. И там и там вас могут развести на прокси. Те, у кого процесс поиски идет медленно - ставте патч на свою ось, открывающий каналы или открывайте их руками, берите канал по шире, юзайте дедики, сканьте прокси на не стандартные порты, не забывайте, что прокси бывают разными. ЗЫ еще раз, статья сакс! Писалась 5 минут, не статья, а кусок информации.