Подскажите пожалуйста как парсить с сайтов где ссылки вида site/all/ , дальше site/all/oven/ и т.д. Сайт на мод рэврайт. И вообще как парсит сайты на мод реврайт? Извините, если не там создал тему. Я новичек.
Парсить как и обычно, но обходить все страницы - это уже другой вопрос. На небольших сайтах урл http://sample.com/site/all/foo/bar , как показывает практика использования фреймоворков, можно разделить на домен - sample.com, модуль - site, foo - контроллер, bar - метод, все остальное это параметры метода. Все модули, контроллеры и тд удобно парсить с гугла(у Madnet'а была утилита, которая парсит дерево сайта).