Доброго времени суток, уважаемые форумчане! Вот мой новый Open-Source релиз! Regular Web Parser! [+] Парсит любые сайты по их исходным кодам [+] Умеет искать ссылки на сайте и парсить содержимое на других страницах (глубина вложений) [+] Автоматически подставляет регулярки для парсинга прокси и e-mail’ов [+] Может парсить по Вашим регуляркам [+] Open-Source [-] Работает как есть (в один поток), но это я думаю поправимо, так как Open-Source [-] Мало тестировал, но этот минус тоже скоро уйдет Ссылка на скачивание http://slil.ru/29557336 Пароль: forum.antichat.ru
Ещё не качал но есть вопрос: а парсить сайты которые выдают данные через JScript умеет?Например есть сайт с прокси, и порты к прокси приписываются с использованием JScript'a. P.S Сам сайт spys.ru
Скачал посмотрел.В целом исходники порадовали, но советовал бы юзать почаще StringBuilder и string.Empty .Так же неплохо было бы перебрать регулярки, все без исключения.Молодец, плюсую.
А что не так с регулярками? Думал, что хоть это работает как надо Дело в том, что я от vb6 еще никак не отучусь...поэтому и код кривоват, в вб этого не было... Вот http://slil.ru/29557331 пароль такой же.
Затестировал я значит. Берем адрес где у нас лежат прокси, пусть это будет [http://spys.ru/socks/]. Указываем адрес в софте. Как видим там 8 страниц с проксиками, включая нулевую, допустим глубина вложений укажем 6. В параметре Что парсим? галочку ставим напротив Proxy. Нажимаем начать парсинг, начинается парсинг страниц, но как я понял не со страницы [http://spys.ru/socks/], а походу дела с начальной [http://spys.ru/]. Скрин прилагается: Это получается он не может парсить с конкретно заданного адреса.