Сразу прошу строго не судить скорее всего запостил не там где надо. Но как бы-то не было, слушайте вопрос. Есть блог на Wordpress у которого уже давно потеряна связь с базой данных. Но сам сайт не тронут и всё его содержимое отвечает на прямые запросы. Так вот мне итересно есть ли возможность выкочать содержимое католога wp-content /uploads/content учитывая, что на запрос сайт.тт/ wp-content / uploads / content выдаёт ошибку 403 но если задать прямой путь к файлу то всё проходит хорошо. Просто там очень много уникального контента который хотелось бы сохранить (речь идёт о зуковых записях в формате mp3.) Именно mp3 файлы я называю контентом) ясно дело что текст с такого блога уже не вернуть из вне).
Вопрос из оперы, мне понравился контент на сайте соседа, как мне его правильно выкачать из его каталогов, из аплоада например!? Никак! А парсеры, это если сумеете все выдернуть из кеша поисковика, тогда будет, что парсить... Но только картиночки, текста не будет, т.к. в базе храниться. Так что придется довольствоваться тем. что поисковик закешировал.
Дело всё в том что url'Ы для mp3 были записаны рамдомно и нет возможности пропарсить их. Необходимо сначало узнать urlы.
Текст сайта хранится в базе SQL а не в файлах. Вам нужна база. Из папки с контентом вы достанете максимум только картинки. И то только через фтп. Если нет, то как правильно сказали парсить именно архив гугла (если он есть) Ну а mp3 недостать потому что сервер уже не обрабатывает запросы к этой папке с сайтом. Вариант только обращаться к хостеру и просить слить вам за каврижки то что вам нужно... не факт конечно, но могут и сделать
Дело всё в том что сайт находится на деде. Прямые ссылки на mp3 сервер обрабатывает и даёт возможность закочать файл при условии что указан полный урл до файла. Но вмех урлов я не знаю т.к. отказано в доступе к папке с контентом.
Попробуй из веб-архива повыдергивать ссылки e.g. http://web.archive.org/web/*/http://example.com/wp-content/uploads/*, кнч. если он не был прикрыт robots.txt. Или ПСов(поисковых систем): allinurl:example.com/wp-content/uploads/ и т.д.