есть сайт A с него наджол спарсить только новости в текстовом формате начал с file_get_contents() и preg_match нашел код на curl PHP: $ch = curl_init(); curl_setopt($ch, CURLOPT_URL,$url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_COOKIESESSION, 1); curl_setopt($ch, CURLOPT_COOKIEJAR, 'C://xampp/htdocs/cookie.txt'); curl_setopt($ch, CURLOPT_COOKIEFILE, 'C://xampp/htdocs/cookie.txt'); curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); $result = curl_exec ($ch); file_put_contents('step1.html',$result); preg_match_all("#id=\"__VIEWSTATE\" value=\"(.*)\"#", $result, $matches); $first=urlencode($matches[1][0]); нАдо чтото подобное
Если не горит, вечером могу написать скрипт. Будет заходить на главную, забирать 5-новых новостей и сохранять.
Поспешил я с выводами. Там защита стоит от воровства. Нужно больше времени. Спасибо за задачу. Я подумаю.
что -то я не заметил никакой защиты.. и задачка ваша детская.. код на перле.прекрасно парсит новости.. ссылка, а то форум регулярки попортил.. http://rghost.ru/5075621 PHP: use strict; use warnings; use LWP::UserAgent; $|=1; my ($ua) = &browser; my $page = $ua->get("http://erolib.ru/")->content; while ($page=~/<a href="\?newsid=(\d*)">/g) { my $newsid = $1; my $parsepage = $ua ->get("http://erolib.ru/?newsid=$newsid")->content; if ($parsepage =~/<div id='news-id-$newsid'>(.*)<\/div>/) { wf($newsid.".html" , "$1\n"); print $newsid."\n"; } } sub browser { my $ua = LWP::UserAgent->new; $ua->cookie_jar({}); $ua->timeout( 20 ) ; $ua->agent("Mozilla/5.0 (Windows; U; Windows NT 6.1; ru; rv:1.9.2.13) Gecko/20101203 MRA 5.7 (build 03790) AskTbPTV2/3.9.1.14019 Firefox/3.6.13"); return $ua; } sub wf { if($_[2]) { open F, '>', $_[0] or warn "$_[0] - $!\n"; } else { open F, '>>', $_[0] or warn "$_[0] - $!\n"; } print F $_[1]; close F; }