Search Engines Parser

daniel_1024 · 7 Jul 2010

Написал на перле парсер выдачи Google, Ask.com и Yahoo! через сайт http://search.myway.com Какая-то буржуйская поисковая система.
Скрипт многопоточный, очень быстрый. За полчаса работы напарсил 50к ссылок. никакого бана нет, не нужно никаких проксей и задержек между запросами.
Умеет преобразовывать запрос к запросам вида:

dork site:ru
dork site:ua
dork site:com
dork site:net
....
Click to expand...

Это сделано для увеличения количества отпарсенных ссылок.
Конфиг скрипта:
Code:
my $parse_ask = 1;         #парсить ли Ask.com 1-да, 0-нет
my $parse_google = 1;      #парсить ли Google
my $parse_yahoo = 1;       #парсить ли Yahoo
my $thr = 15;              #количество потоков
my $topdomains = 1;        #использовать ли преобразование дорков
@domains = ('ru','ua','com','net','org','biz', 'info','edu','gov','mil','uk','us','de','it','gr','pl','au','pl','su','fr');
#массив с доменами, которые добавляются к дорку
dorks.txt - файл с дорками
out.txt - файл для записи результатов

Скачать:
http://slil.ru/29437524
http://uploadbox.com/files/864738c4a2
http://depositfiles.com/files/tjciv0scg

Gifts · 8 Jul 2010

А мне, пожалуй, нравится. Вот только похоже условие останова не работает, парсинг остановил вручную - полученный файл 4 метра, чищеный от дублей - метр. Посему хотелось бы - отсутствие полных дублей в принципе, и как опция - отсутствие дублей внутри одного домена.

phpdreamer · 8 Jul 2010

интересно долго ли этот поисковик не будет банить ботов....
не думаю что долго

*DeViL* · 8 Jul 2010

phpdreamer said:

интересно долго ли этот поисковик не будет банить ботов....
не думаю что долго
Click to expand...

Забугорные админы на много пассивнее и тупее наших, так что думаю продержится долго.

AGIMI777 · 16 Jan 2011

http://slil.ru/29437524
http://uploadbox.com/files/864738c4a2
http://depositfiles.com/files/tjciv0scg[/QUOTE]

пажалуста обнавите силки.
СП

bukva · 31 Jan 2012

UP если у кого есть, будьте добры обновите ссылки.

Gifts · 31 Jan 2012

bukva ссылки из предыдущего поста - рабочие.

b3 · 31 Jan 2012

bukva ссылки из предыдущего поста - рабочие.
Click to expand...

У меня тоже пишет "файл удален" и "файл не найден"

od1n0chka · 12 Feb 2012

обновите ссылки пл3 оч надо)

2T4k · 28 Feb 2012

UP! Уважаемые,а есть-ли у кого апргред googleparcer? гугл изменил алгоритм и теперь ссылки стали карявые=( оооочень уж нужен! Самый удобный софт был для меня.. Если кто в теме,просьба отписать в ЛС

daniel_1024 · 4 Aug 2012

Недавно переписал это на Python.

многопоточный

удаляет дубликаты

возможность подстановки ключевых слов к запросам

работает с несколькими поисковыми системами

возможность сортировать результаты по PR

Реализовано в виде отдельного модуля. Подробное описание тут
Скачать

kisskiss1 · 13 May 2013

напиши мне мануал как пользоваться. я скачал парсер

как работает на Python ???

я установил Python. что дальше ?

Search Engines Parser

daniel_1024 Elder - Старейшина

Gifts Green member

phpdreamer Member

DeViL Banned

AGIMI777 Banned

bukva New Member

Gifts Green member

b3 Banned

od1n0chka Member

2T4k New Member

daniel_1024 Elder - Старейшина

kisskiss1 New Member

Useful Searches

Search Engines Parser

daniel_1024 Elder - Старейшина

Gifts Green member

phpdreamer Member

*DeViL* Banned

AGIMI777 Banned

bukva New Member

Gifts Green member

b3 Banned

od1n0chka Member

2T4k New Member

daniel_1024 Elder - Старейшина

kisskiss1 New Member

DeViL Banned