https://ru.archivarix.com - Онлайн парсер сайтов, перенос существующего сайта на CMS, конвертер из HTML в CMS. Теперь наша система может не только восстанавливать сайты из archive.org но и скачивать живые сайты. В отличие от таких программ как HTTrack или Teleport система не просто скачивает сайт, а интегрирует контент сайта в CMS и создает полнофункциональную действующую копию с возможностью редактирования и обновления. Так же как и для восстановленных из архива сайтов, для скаченных сайтов доступны все функции archivarix - такие как оптимизация графики и HTML кода, очистка от внешних ссылок, рекламы, счетчиков, аналитики и прочего. Страница онлайн граббера сайтов Страница парсера archive.org
Недавно мы обновили нашу систему и теперь у нас появились две новых опции. Теперь с помощью системы скачивания существующих сайтов можно скачать даркнетовские .onion сайты. Просто введите адрес .onion сайта в поле "домен" https://ru.archivarix.com/website-downloader-cms-converter/ и сайт будет качаться из сети Tor так же как и обычный. А ещё Archivarix может не только скачивать существующие сайты или восстанавливать их из Веб Архива, но и вытаскивать из них контент. Для этого тут https://ru.archivarix.com/restore/ в "продвинутых параметрах" надо выбрать "Извлечь структурированный контент". После завершения скачивания сайта вместе с полным архивом всего сайта формируется архив статей в формате xml, csv, wxr и json. При формировании архива статей наш парсер учитывает только значащий контент исключая дубли статей, управляющие элементы и служебные страницы.
Год назад пробовал - сайт на тильде и weblium не качало. Но все равно спасибо за сервис - самый лучший на данный момент из аналогов. + защита сайта и мини cms.
Мы запустили модуль экстракции контента из сайтов находящихся в данных момент онлай, а так же из удаленных сайтов архивированных archive.org. https://ru.archivarix.com/wordpress/ Если при запуске восстановления сайта отметить "Извлечь структурированный контент" во вкладке "Продвинутые параметры", то после завершения скачивания вместе с полным архивом всего сайта формируется архивы статей со ссылками на медиаконтент в формате xml, cvs, wxr и json. При формировании архива статей наш парсер учитывает только значащий контент исключая дубли статей, управляющие элементы и служебные страницы, оставляя только готовые к импорту на ваш сайт статьи с сохранённым форматированием. Для работы с экстрактором контента мы выпустили свой плагин для Wordpress - Archivarix External Images Importer https://wordpress.org/plugins/archivarix-external-images-importer/ . Он импортирует изображения со сторонних сайтов, ссылки на которые находятся в постах и страницах, в галерею WordPress. Если картинка в данный момент не доступна или удалена, то плагин скачивает её копию из Веб Архива. Так же теперь у нас есть блог - https://ru.archivarix.com/blog/ Там мы будем выкладывать статьи о том, как работать с нашей системой, с Веб Архивом и другие полезные вещи о восстановлении контента и создании PBN.