Search Engines Parser

Discussion in 'PHP' started by daniel_1024, 7 Jul 2010.

  1. daniel_1024

    daniel_1024 Elder - Старейшина

    Joined:
    15 Jul 2009
    Messages:
    260
    Likes Received:
    227
    Reputations:
    386
    Написал на перле парсер выдачи Google, Ask.com и Yahoo! через сайт http://search.myway.com Какая-то буржуйская поисковая система.
    Скрипт многопоточный, очень быстрый. За полчаса работы напарсил 50к ссылок. никакого бана нет, не нужно никаких проксей и задержек между запросами.
    Умеет преобразовывать запрос к запросам вида:
    Это сделано для увеличения количества отпарсенных ссылок.
    Конфиг скрипта:
    Code:
    my $parse_ask = 1;         #парсить ли Ask.com 1-да, 0-нет
    my $parse_google = 1;      #парсить ли Google
    my $parse_yahoo = 1;       #парсить ли Yahoo
    my $thr = 15;              #количество потоков
    my $topdomains = 1;        #использовать ли преобразование дорков
    @domains = ('ru','ua','com','net','org','biz', 'info','edu','gov','mil','uk','us','de','it','gr','pl','au','pl','su','fr');
    #массив с доменами, которые добавляются к дорку
    dorks.txt - файл с дорками
    out.txt - файл для записи результатов

    Скачать:
    http://slil.ru/29437524
    http://uploadbox.com/files/864738c4a2
    http://depositfiles.com/files/tjciv0scg
     
    4 people like this.
  2. Gifts

    Gifts Green member

    Joined:
    25 Apr 2008
    Messages:
    2,494
    Likes Received:
    807
    Reputations:
    614
    А мне, пожалуй, нравится. Вот только похоже условие останова не работает, парсинг остановил вручную - полученный файл 4 метра, чищеный от дублей - метр. Посему хотелось бы - отсутствие полных дублей в принципе, и как опция - отсутствие дублей внутри одного домена.
     
    _________________________
    1 person likes this.
  3. phpdreamer

    phpdreamer Member

    Joined:
    26 Jul 2009
    Messages:
    522
    Likes Received:
    86
    Reputations:
    19
    интересно долго ли этот поисковик не будет банить ботов....
    не думаю что долго
     
  4. *DeViL*

    *DeViL* Banned

    Joined:
    27 Nov 2007
    Messages:
    169
    Likes Received:
    56
    Reputations:
    0
    Забугорные админы на много пассивнее и тупее наших, так что думаю продержится долго. ;)
     
  5. AGIMI777

    AGIMI777 Banned

    Joined:
    1 Jul 2010
    Messages:
    98
    Likes Received:
    1
    Reputations:
    0
  6. bukva

    bukva New Member

    Joined:
    10 Mar 2011
    Messages:
    0
    Likes Received:
    3
    Reputations:
    -3
    UP если у кого есть, будьте добры обновите ссылки.
     
  7. Gifts

    Gifts Green member

    Joined:
    25 Apr 2008
    Messages:
    2,494
    Likes Received:
    807
    Reputations:
    614
    bukva ссылки из предыдущего поста - рабочие.
     
    _________________________
  8. b3

    b3 Banned

    Joined:
    5 Dec 2004
    Messages:
    2,170
    Likes Received:
    1,155
    Reputations:
    202
    У меня тоже пишет "файл удален" и "файл не найден"
     
  9. od1n0chka

    od1n0chka Member

    Joined:
    13 Dec 2010
    Messages:
    297
    Likes Received:
    47
    Reputations:
    1
    обновите ссылки пл3 оч надо)
     
  10. 2T4k

    2T4k New Member

    Joined:
    16 Feb 2012
    Messages:
    1
    Likes Received:
    0
    Reputations:
    0
    UP! Уважаемые,а есть-ли у кого апргред googleparcer? гугл изменил алгоритм и теперь ссылки стали карявые=( оооочень уж нужен! Самый удобный софт был для меня.. Если кто в теме,просьба отписать в ЛС;)
     
  11. daniel_1024

    daniel_1024 Elder - Старейшина

    Joined:
    15 Jul 2009
    Messages:
    260
    Likes Received:
    227
    Reputations:
    386
    Недавно переписал это на Python.
    • многопоточный
    • удаляет дубликаты
    • возможность подстановки ключевых слов к запросам
    • работает с несколькими поисковыми системами
    • возможность сортировать результаты по PR
    Реализовано в виде отдельного модуля. Подробное описание тут
    Скачать
     
    1 person likes this.
  12. kisskiss1

    kisskiss1 New Member

    Joined:
    9 May 2013
    Messages:
    0
    Likes Received:
    0
    Reputations:
    0
    напиши мне мануал как пользоваться. я скачал парсер

    как работает на Python ???

    я установил Python. что дальше ?