Парсер текста

Vid0k · 3 Dec 2008

В паблике нормальных не нашел поэтому написал свой.
Собирает тексты с http://www.sexytales.ru/
Адалт тематика.

[+]Убирает теги
[+]Разбивает все по текстам и сохраняет
[+]Разбивает по категориям

Требует php+cURL+chmod 777
Кому не охота загоняться уже спарсенные ~150 метров текста разбитые по категориям.Правда в них есть мусор.
Парсер
Тексты

Chaak · 3 Dec 2008

while($i<count($pages))
Click to expand...

1. Каждый раз считает кол-во элементов.
2. sizeof быстрее count.
Предлагаю исправить на следующее

for($i = 0, $c = sizeof($pages); $i < $c; $i++)
Click to expand...

Удалять теги можно функцией strip_tags

$header[0]="User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11";
$header[1]="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";
$header[2]="Accept-Language: en-us,en;q=0.5";
$header[3]="Accept-Encoding: none";
$header[4]="Accept-Charset: ISO-8859-1;q=0.7,*;q=0.7";
$header[5]="Keep-Alive: 300";
$header[6]="Connection: keep-alive";
$header[7]="Cache-Control: max-age=0";
$ua = 'Mozilla/4.0 (compatible; MSIE 5.01; Widows NT)';
Click to expand...

Зачем? У тебя же есть curl! Там все заранее написано. + Acceptы вырежи, т.к они нужны только браузеру, а не тебе) Cache контрол тоже. keep-alive работать не будет. Меняй на close

$file = fopen("Ero/".$cat[$cat2]."/".$title.".txt","w+") or die("fOpen[200]:Could't open/read/write file $title");
fputs($file,$content);
fclose($file);
Click to expand...

Для однократной записи достаточно использовать file_put_contents.

Vid0k · 3 Dec 2008

Удалять теги можно функцией strip_tags
Click to expand...

я их и удаляю ей, просто она не весь хлам удаляет

FeoЩту · 3 Dec 2008

1. Каждый раз считает кол-во элементов.
2. sizeof быстрее count.
Click to expand...

sizeof и count - это одно и то же, и выполнится она 1 раз

Chaak · 3 Dec 2008

FeoЩту said:

sizeof и count - это одно и то же, и выполнится она 1 раз
Click to expand...

После каждого раунда цикла, php будет проверять условие, а в условии оператор => он будет выполняться. Если массив будет большой, то скорость заметно снизиться.

А насчет sizeof, то тесты показали, что функция быстрее.

[Raz0r] · 3 Dec 2008

алиас функции работает быстрее, чем сама функция? 0_о

А насчет sizeof, то тесты показали, что функция быстрее.
Click to expand...

совершенно безосновательное утверждение
вот погуглил, сразу же нашел:
http://www.andreas-glaser.com/2008/08/19/php-count-vs-sizeof/
разницы никакой

Chaak · 3 Dec 2008

[Raz0r] said:

алиас функции работает быстрее, чем сама функция? 0_о

совершенно безосновательное утверждение
вот погуглил, сразу же нашел:
http://www.andreas-glaser.com/2008/08/19/php-count-vs-sizeof/
разницы никакой
Click to expand...

sizeof() будет быстрее, чем count(), при больших размерах массива.

[Raz0r] · 3 Dec 2008

вот этот комент чтоли?
http://habrahabr.ru/blogs/php/22799/#comment_538772
по-моему также безосновательно...

FeoЩту · 4 Dec 2008

ChaaK said:

После каждого раунда цикла, php будет проверять условие, а в условии оператор => он будет выполняться. Если массив будет большой, то скорость заметно снизиться.

А насчет sizeof, то тесты показали, что функция быстрее.
Click to expand...

1)count вызовется 2 раза, независимо, сколько элементов в массиве.
2)sizeof не может быть быстрее count , потому что sizeof это
function sizeof($p) {
return count($p);
}

.:EnoT:. · 4 Dec 2008

ChaaK said:
Code:
$header[0]="User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11";
$header[1]="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";
.....
Зачем? У тебя же есть curl! Там все заранее написано. + Acceptы вырежи, т.к они нужны только браузеру, а не тебе) Cache контрол тоже.
Click to expand...
По идее там курл вообще не нужен, можно обойтись простым file_get_contents()

ChaaK said:

keep-alive работать не будет. Меняй на close
Click to expand...

С чего ты это вообще взял? Если б как ты говоришь не работал keep-alive, то ни один браузер бы не работал) Просто удобнее использовать close в скриптах чтобы сервер разрывал коннект сразу после ответа. А keep-alive не будет работать например если укаать неправильную длину запроса (Content-Length)

.:nbd:. · 4 Dec 2008

Исходный код не смотрел, но насколко я помню в манах функции count() на php.net написано, что count() является псевдонимом sizeof(). То есть это одна и та же функция. Кстати вот А вообще раздел SEO и раздел о пыхе это 2 разных раздела =). Комрад вообще-то старался, и выложил скрипт за спасибо, но спасибо так и не услышал.

Morbit · 9 Feb 2009

а можно перезалить?
ТС, а скрипт парсит только с указанного сайта, если ему подменить урл другой сайт парсить не будет?

Chode · 9 Feb 2009

Morbit said:

а можно перезалить?
ТС, а скрипт парсит только с указанного сайта, если ему подменить урл другой сайт парсить не будет?
Click to expand...

Я не ТС но ответить могу
скрипт написан специально под данный сайт. Если подменить урл то ничего не выйдет, если только структура другого сайта будет точно такой же.

Morbit · 10 Feb 2009

Chode said:

Я не ТС но ответить могу
скрипт написан специально под данный сайт. Если подменить урл то ничего не выйдет, если только структура другого сайта будет точно такой же.
Click to expand...

если не трудно выложи его куда-нибудь =)

SleepShadowWeb · 11 Feb 2009

не имею исходника, но если в цикле переменная не меняется, тогда всё проще:
$count_pages = count($pages);
while($i<$count_pages)

lisa99 · 12 Feb 2009

скрипт удален с народа.
может ТС будет так любезен перезалить?)
(хочу посмотреть исходник для себя)

Дайте ссылочку на другие парсеры текстов, плз..
Надо хоть когда-то и свой написать=))

Вася Рогов · 28 Aug 2009

скрипт удален с народа.
может ТС будет так любезен перезалить?)
(хочу посмотреть исходник для себя)

Дайте ссылочку на другие парсеры текстов, плз..
Надо хоть когда-то и свой написать=))
Click to expand...

ап, актуальная тема, хоть и старая

Вася Рогов · 28 Aug 2009

lisa99 said:

Дайте ссылочку на другие парсеры текстов, плз..
Click to expand...

http://forum.antichat.ru/thread89080.html
http://forum.antichat.ru/thread89109.html
http://forum.antichat.ru/thread24603.html

Fuckel · 28 Aug 2009

паресер слов http://company.yandex.ru/technology/mystem/
есть и сорцы

Вася Рогов · 28 Aug 2009

Fuckel said:

есть и сорцы
Click to expand...

php ?

Парсер текста

Vid0k Elder - Старейшина

Chaak Elder - Старейшина

Vid0k Elder - Старейшина

FeoЩту New Member

Chaak Elder - Старейшина

[Raz0r] Elder - Старейшина

Chaak Elder - Старейшина

[Raz0r] Elder - Старейшина

FeoЩту New Member

.:EnoT:. Сексуальное чудовище

.:nbd:. Elder - Старейшина

Morbit New Member

Chode Elder - Старейшина

Morbit New Member

SleepShadowWeb Member

lisa99 Banned

Вася Рогов New Member

Вася Рогов New Member

Fuckel Banned

Вася Рогов New Member

Useful Searches

Парсер текста

Vid0k Elder - Старейшина

Chaak Elder - Старейшина

Vid0k Elder - Старейшина

FeoЩту New Member

Chaak Elder - Старейшина

[Raz0r] Elder - Старейшина

Chaak Elder - Старейшина

[Raz0r] Elder - Старейшина

FeoЩту New Member

.:EnoT:. Сексуальное чудовище

.:nbd:. Elder - Старейшина

Morbit New Member

Chode Elder - Старейшина

Morbit New Member

SleepShadowWeb Member

lisa99 Banned

Вася Рогов New Member

Вася Рогов New Member

Fuckel Banned

Вася Рогов New Member