Как и чем собрать больше 1k доменов общей тематики (способ новичка).

Discussion in 'Песочница' started by ckpunmkug, 19 Nov 2017.

  1. ckpunmkug

    ckpunmkug Member

    Joined:
    20 Mar 2017
    Messages:
    72
    Likes Received:
    72
    Reputations:
    10
    Хотел собрать по теме 10k уникальных имён, но насобиралось 5.5k доменов и 1.5k запросов связаных с ключевым словом. Для старта поиска я использовал одно слово, остальные запросы подсказал google. Скажу сразу: "Процесс 3a:E6blBaeT" потому что много копипаста, но есть два плюса: первый - google не верищит что ты робот и не банит твой ip, второй - выработался алгоритм плавной выгрузки выдачи, который с помощью vnc можно автоматизировать.

    У меня нет американских прокси для гугла, поэтому в настройках поисковика я переключил язык на английский и выбрал регион United State. Если хотите поискать на картинках автомобили, дорожные знаки или мосты выбирайте "выдавать 100"; 1k доменов махом наберёте.

    Процесс получения доменов и запросов прост и банален: Делаем запрос, сохраняем результат, парсим результат, получаем домены и следующие запросы. Что бы парсить результат я написал скрипт, он обрабатывает страницы сохранёные firefox'ом как Text File. Интересное наблюдение: когда firefox сохраняет файл в виде html он его заново загружает и результат выдачи другой, но если сохранять как текстовый файл, то текст формируется из уже загруженной страницы.

    Скрипты необходимые для сбора https://github.com/ckpunmkug/tools/tree/v0001

    tools/functions/google/parse_google_text_page.php - функция которая парсит файл сохранёный firefox'ом как текст.
    Code:
    <?php
    
    $file_name = '/tmp/example - Google Search.html';
    $return = parse_google_text_page( $file_name );
    print_r( $return );
    
    /* OUT: false если ошибка или array
    Array
    (
        [results] => Array
            (
                [0] => https://en.wikipedia.org/wiki/Example_(musician)
                [1] => http://www.thesaurus.com/browse/example
                [2] => http://www.dictionary.com/browse/example
                [3] => https://dictionary.cambridge.org/dictionary/english/example
                [4] => https://www.merriam-webster.com/dictionary/example
                [5] => https://www.macmillandictionary.com/dictionary/british/example
                [6] => https://en.oxforddictionaries.com/definition/example
                [7] => https://en.wiktionary.org/wiki/example
                [8] => http://www.trythisforexample.com/
                [9] => https://www.collinsdictionary.com/dictionary/english/example
                [10] => http://writing2.richmond.edu/writing/wweb/trans1.html
                [11] => https://www.thoughtco.com/word-english-language-1692612
                [12] => http://examples.yourdictionary.com/examples-of-antonyms-synonyms-and-homonyms.html
                [13] => http://www.yourdictionary.com/example
            )
    
        [related] => Array
            (
                [0] => example definition
                [1] => example thesaurus
                [2] => example o
                [3] => example rapper
                [4] => example eg
                [5] => example short form
                [6] => erin mcnaught
                [7] => example pronunciation
            )
    
    )
    */
    
    tools/google_text_page_parser.php dir_name - скрипт обрабатывает файлы лежащие в dir_name и выдаёт обработанные данные в виде списка с отчётом о количестве собраного материала.
    Code:
    /tools/google_text_page_parser.php /tmp/example
    Unique domain names : 14
    
    Domain names top list
    0001 en.wikipedia.org
    0001 www.thesaurus.com
    0001 www.dictionary.com
    0001 dictionary.cambridge.org
    0001 www.merriam-webster.com
    0001 www.macmillandictionary.com
    0001 en.oxforddictionaries.com
    0001 en.wiktionary.org
    0001 www.trythisforexample.com
    0001 www.collinsdictionary.com
    0001 writing2.richmond.edu
    0001 www.thoughtco.com
    0001 examples.yourdictionary.com
    0001 www.yourdictionary.com
    
    Unique queries : 8
    
    Searches related top list
    0001 example definition
    0001 example thesaurus
    0001 example o
    0001 example rapper
    0001 example eg
    0001 example short form
    0001 erin mcnaught
    0001 example pronunciation
    
     
    #1 ckpunmkug, 19 Nov 2017
    Last edited: 19 Nov 2017
    Dr_Wile likes this.
  2. qwadra

    qwadra New Member

    Joined:
    24 Sep 2016
    Messages:
    43
    Likes Received:
    0
    Reputations:
    0
    Блин, у меня есть Xrumer и там есть утилита вроде как раз для этого, но я даже там туплю пока)
     
  3. randomword0x3f52

    Joined:
    15 Oct 2016
    Messages:
    30
    Likes Received:
    25
    Reputations:
    9
    У kali в pkg есть googler, им можно грузить результаты выдачи размером в 100 сылок и на автомате. Только нужно подобрать паузу между запросами ( для загрузги 500 запросов уходит примерно 2 дня )