В паблике нормальных не нашел поэтому написал свой. Собирает тексты с http://www.sexytales.ru/ Адалт тематика. [+]Убирает теги [+]Разбивает все по текстам и сохраняет [+]Разбивает по категориям Требует php+cURL+chmod 777 Кому не охота загоняться уже спарсенные ~150 метров текста разбитые по категориям.Правда в них есть мусор. Парсер Тексты
1. Каждый раз считает кол-во элементов. 2. sizeof быстрее count. Предлагаю исправить на следующее Удалять теги можно функцией strip_tags Зачем? У тебя же есть curl! Там все заранее написано. + Acceptы вырежи, т.к они нужны только браузеру, а не тебе) Cache контрол тоже. keep-alive работать не будет. Меняй на close Для однократной записи достаточно использовать file_put_contents.
После каждого раунда цикла, php будет проверять условие, а в условии оператор => он будет выполняться. Если массив будет большой, то скорость заметно снизиться. А насчет sizeof, то тесты показали, что функция быстрее.
алиас функции работает быстрее, чем сама функция? 0_о совершенно безосновательное утверждение вот погуглил, сразу же нашел: http://www.andreas-glaser.com/2008/08/19/php-count-vs-sizeof/ разницы никакой
вот этот комент чтоли? http://habrahabr.ru/blogs/php/22799/#comment_538772 по-моему также безосновательно...
1)count вызовется 2 раза, независимо, сколько элементов в массиве. 2)sizeof не может быть быстрее count , потому что sizeof это function sizeof($p) { return count($p); }
По идее там курл вообще не нужен, можно обойтись простым file_get_contents() С чего ты это вообще взял? Если б как ты говоришь не работал keep-alive, то ни один браузер бы не работал) Просто удобнее использовать close в скриптах чтобы сервер разрывал коннект сразу после ответа. А keep-alive не будет работать например если укаать неправильную длину запроса (Content-Length)
Исходный код не смотрел, но насколко я помню в манах функции count() на php.net написано, что count() является псевдонимом sizeof(). То есть это одна и та же функция. Кстати вот А вообще раздел SEO и раздел о пыхе это 2 разных раздела =). Комрад вообще-то старался, и выложил скрипт за спасибо, но спасибо так и не услышал.
а можно перезалить? ТС, а скрипт парсит только с указанного сайта, если ему подменить урл другой сайт парсить не будет?
Я не ТС но ответить могу скрипт написан специально под данный сайт. Если подменить урл то ничего не выйдет, если только структура другого сайта будет точно такой же.
не имею исходника, но если в цикле переменная не меняется, тогда всё проще: $count_pages = count($pages); while($i<$count_pages)
скрипт удален с народа. может ТС будет так любезен перезалить?) (хочу посмотреть исходник для себя) Дайте ссылочку на другие парсеры текстов, плз.. Надо хоть когда-то и свой написать=))
http://forum.antichat.ru/thread89080.html http://forum.antichat.ru/thread89109.html http://forum.antichat.ru/thread24603.html