Обсуждение Ваших сайтов BatchURLScraper - Извлечение данных методами XPath, CSSPath, XQuery и RegExp

Discussion in 'SЕО - тонкости, методы раскрутки' started by chaser81, 17 Nov 2020.

  1. chaser81

    chaser81 Member

    Joined:
    11 Oct 2013
    Messages:
    99
    Likes Received:
    16
    Reputations:
    1
    Всем привет!

    Представляю вашему вниманию бесплатную программу BatchURLScraper, предназначенную для извлечения данных со страниц сайтов используя XPath, CSS-селекторы, XQuery и RegExp.

    [​IMG]

    [​IMG]

    [​IMG]

    Возможности программы BatchURLScraper:
    • парсинг и извлечение данных по списку URL
    • гибкая настройка парсинга используя XPath, CSSPath, XQuery и RegExp
    • модуль для тестирования правил парсинга
    • экспорт отчетов в Excel (CSV-формат)

    Страница скачивания (5 Мб): https://site-analyzer.ru/soft/batch-url-scraper/

    Буду рад любым отзывам и пожеланиям по работе программы.
     
  2. chaser81

    chaser81 Member

    Joined:
    11 Oct 2013
    Messages:
    99
    Likes Received:
    16
    Reputations:
    1
    Новая версия BatchURLScraper 1.3

    [​IMG]

    [​IMG]

    [​IMG]

    Что нового:
    • расширено число страниц для парсинга с 1000 до 5000 URL
    • добавлена возможность скрапинга через HTML templates
    • добавлена возможность извлечения данных через атрибуты CSS
    • добавлена возможность скрапинга через внешний и внутренний HTML
    • добавлена возможность использования списков Proxy
    • исправлен баг некорректного сохранения User-Agent

    Страница скачивания: https://site-analyzer.ru/soft/batch-url-scraper/
     
  3. chaser81

    chaser81 Member

    Joined:
    11 Oct 2013
    Messages:
    99
    Likes Received:
    16
    Reputations:
    1
    Новая версия BatchURLScraper 1.4 (build 27), 08.12.2020:
    • исправлена ошибка с валидацией HTML-темплейтов
    • оптимизирована работа с регулярными выражениями
    • добавлена возможность неучета повторений при скрейпинге
    • исправлена проблема с учетом пауз между запросами
    • диапазон пауз между запросами расширен до полутора минут
    • доработан и улучшен перевод программы
    • устранены утечки памяти