Здравствуйте, имеется онлайн библиотека, есть защищенный реадер в ней, покопался в коде в итоге нашел такое: Как мы видим имеется путь к странице, и получается у всех страниц один и тот же путь, только номер страницы меняется, но если его вставить в строку адресную то идет редирект на главную страницу библиотеки. В итоге начал копаться дальше и нашел вот что: В адресной строке вот такая фигня data:image/png;base64 Если сохранить правой кнопкой все получается Поштучно страницы книги вытаскивать геморрой, есть ли способ как-то все автоматизировать скачку подобных адресов и т.д., кто что может подсказать?
Можно попробовать воспользоваться headless chrome и делать скриншоты страниц https://bitsofco.de/using-a-headless-browser-to-capture-page-screenshots/ Эти же изображения встроены в HTML, скачай HTML представление и спарси содержимое img-тегов.
Если исходить из запросов ТС с входящими данными, то могу порекомендовать BAS или зенно, для парсинга и извлечения содержимого. По факту скорее стоит токен или js на сайте, отсутствие которого в запросе и редиректит на главную, тут нужно смотреть сайт, всё зависит от размера самой онлайн библиотеки, если уж очень большая то нужно писать софт, если средняя то и BAS хватит. А по сути прежде чем парсить нужно корневой запрос на картинку смотреть.
Пользовался для скачивания содержания сайтов этой самой программой - кодеров EAC. Code: Sir Reg - Modern Day disgrace Brendan Sheehy - vocals & acoustic guitar Karin Ullvin - violin Chris Inoue - electric guitar, bass, banjo & backing vocals Tommie Faderberg - drums & backing vocals Fillip Burgman - mandolin Guest appearances: Erik Ullvin - Piano on #9 Robin Rönnlund - Mellotron on #2, 3, 4, 5, 8, 10, 11 Produced by Chris Inoue Mixed & mastered by Jacob Hansen All songs writtn by Brendan Sheehy Photos by Chris Inoue Artwork by Chris Inoue & Andreas Layout by Anders Fästader for A Trailermade Production. Называется оно, столь близко знакомое - не Internet Explorer, и при должной настройке, скачает всё, что угодно и откуда желается. И главное, сперва войти на сайт, зарегавшись с плюшками и кукисами, и затем, скачивать содержимое сайта. Печалько, что прогу эту многопоточную в инетах нынче не сыскать...