Парсер текста

Discussion in 'SЕО - тонкости, методы раскрутки' started by Vid0k, 3 Dec 2008.

  1. Vid0k

    Vid0k Elder - Старейшина

    Joined:
    24 Dec 2007
    Messages:
    393
    Likes Received:
    125
    Reputations:
    13
    В паблике нормальных не нашел поэтому написал свой.
    Собирает тексты с http://www.sexytales.ru/
    Адалт тематика.

    [+]Убирает теги
    [+]Разбивает все по текстам и сохраняет
    [+]Разбивает по категориям

    Требует php+cURL+chmod 777
    Кому не охота загоняться уже спарсенные ~150 метров текста разбитые по категориям.Правда в них есть мусор.
    Парсер
    Тексты
     
    4 people like this.
  2. Chaak

    Chaak Elder - Старейшина

    Joined:
    1 Jun 2008
    Messages:
    1,059
    Likes Received:
    1,067
    Reputations:
    80
    1. Каждый раз считает кол-во элементов.
    2. sizeof быстрее count.
    Предлагаю исправить на следующее
    Удалять теги можно функцией strip_tags

    Зачем? У тебя же есть curl! Там все заранее написано. + Acceptы вырежи, т.к они нужны только браузеру, а не тебе) Cache контрол тоже. keep-alive работать не будет. Меняй на close

    Для однократной записи достаточно использовать file_put_contents.
     
    #2 Chaak, 3 Dec 2008
    Last edited: 3 Dec 2008
    4 people like this.
  3. Vid0k

    Vid0k Elder - Старейшина

    Joined:
    24 Dec 2007
    Messages:
    393
    Likes Received:
    125
    Reputations:
    13
    я их и удаляю ей, просто она не весь хлам удаляет
     
  4. FeoЩту

    FeoЩту New Member

    Joined:
    13 Nov 2008
    Messages:
    29
    Likes Received:
    4
    Reputations:
    0
    sizeof и count - это одно и то же, и выполнится она 1 раз
     
  5. Chaak

    Chaak Elder - Старейшина

    Joined:
    1 Jun 2008
    Messages:
    1,059
    Likes Received:
    1,067
    Reputations:
    80
    После каждого раунда цикла, php будет проверять условие, а в условии оператор => он будет выполняться. Если массив будет большой, то скорость заметно снизиться.

    А насчет sizeof, то тесты показали, что функция быстрее.
     
  6. [Raz0r]

    [Raz0r] Elder - Старейшина

    Joined:
    25 Feb 2007
    Messages:
    425
    Likes Received:
    484
    Reputations:
    295
    алиас функции работает быстрее, чем сама функция? 0_о
    совершенно безосновательное утверждение
    вот погуглил, сразу же нашел:
    http://www.andreas-glaser.com/2008/08/19/php-count-vs-sizeof/
    разницы никакой
     
    2 people like this.
  7. Chaak

    Chaak Elder - Старейшина

    Joined:
    1 Jun 2008
    Messages:
    1,059
    Likes Received:
    1,067
    Reputations:
    80
    sizeof() будет быстрее, чем count(), при больших размерах массива.
     
  8. [Raz0r]

    [Raz0r] Elder - Старейшина

    Joined:
    25 Feb 2007
    Messages:
    425
    Likes Received:
    484
    Reputations:
    295
    вот этот комент чтоли?
    http://habrahabr.ru/blogs/php/22799/#comment_538772
    по-моему также безосновательно...
     
  9. FeoЩту

    FeoЩту New Member

    Joined:
    13 Nov 2008
    Messages:
    29
    Likes Received:
    4
    Reputations:
    0
    1)count вызовется 2 раза, независимо, сколько элементов в массиве.
    2)sizeof не может быть быстрее count , потому что sizeof это
    function sizeof($p) {
    return count($p);
    }
     
  10. .:EnoT:.

    .:EnoT:. Сексуальное чудовище

    Joined:
    29 May 2007
    Messages:
    803
    Likes Received:
    559
    Reputations:
    50
    По идее там курл вообще не нужен, можно обойтись простым file_get_contents()

    С чего ты это вообще взял? Если б как ты говоришь не работал keep-alive, то ни один браузер бы не работал) Просто удобнее использовать close в скриптах чтобы сервер разрывал коннект сразу после ответа. А keep-alive не будет работать например если укаать неправильную длину запроса (Content-Length)
     
    1 person likes this.
  11. .:nbd:.

    .:nbd:. Elder - Старейшина

    Joined:
    27 Jul 2008
    Messages:
    97
    Likes Received:
    27
    Reputations:
    1
    Исходный код не смотрел, но насколко я помню в манах функции count() на php.net написано, что count() является псевдонимом sizeof(). То есть это одна и та же функция. Кстати вот А вообще раздел SEO и раздел о пыхе это 2 разных раздела =). Комрад вообще-то старался, и выложил скрипт за спасибо, но спасибо так и не услышал.
     
    #11 .:nbd:., 4 Dec 2008
    Last edited: 4 Dec 2008
  12. Morbit

    Morbit New Member

    Joined:
    21 Dec 2008
    Messages:
    2
    Likes Received:
    0
    Reputations:
    0
    а можно перезалить?
    ТС, а скрипт парсит только с указанного сайта, если ему подменить урл другой сайт парсить не будет?
     
  13. Chode

    Chode Elder - Старейшина

    Joined:
    20 Jul 2008
    Messages:
    164
    Likes Received:
    19
    Reputations:
    0
    Я не ТС но ответить могу
    скрипт написан специально под данный сайт. Если подменить урл то ничего не выйдет, если только структура другого сайта будет точно такой же.
     
  14. Morbit

    Morbit New Member

    Joined:
    21 Dec 2008
    Messages:
    2
    Likes Received:
    0
    Reputations:
    0
    если не трудно выложи его куда-нибудь =)
     
  15. SleepShadowWeb

    Joined:
    2 Feb 2006
    Messages:
    26
    Likes Received:
    15
    Reputations:
    0
    не имею исходника, но если в цикле переменная не меняется, тогда всё проще:
    $count_pages = count($pages);
    while($i<$count_pages)
     
  16. lisa99

    lisa99 Banned

    Joined:
    15 Jul 2008
    Messages:
    359
    Likes Received:
    200
    Reputations:
    70
    скрипт удален с народа.
    может ТС будет так любезен перезалить?)
    (хочу посмотреть исходник для себя)

    Дайте ссылочку на другие парсеры текстов, плз..
    Надо хоть когда-то и свой написать=))
     
  17. Вася Рогов

    Вася Рогов New Member

    Joined:
    6 Jul 2009
    Messages:
    16
    Likes Received:
    0
    Reputations:
    0
    ап, актуальная тема, хоть и старая ;)
     
  18. Вася Рогов

    Вася Рогов New Member

    Joined:
    6 Jul 2009
    Messages:
    16
    Likes Received:
    0
    Reputations:
    0
    http://forum.antichat.ru/thread89080.html
    http://forum.antichat.ru/thread89109.html
    http://forum.antichat.ru/thread24603.html
     
  19. Fuckel

    Fuckel Banned

    Joined:
    16 Jan 2008
    Messages:
    274
    Likes Received:
    59
    Reputations:
    6
    паресер слов http://company.yandex.ru/technology/mystem/
    есть и сорцы
     
  20. Вася Рогов

    Вася Рогов New Member

    Joined:
    6 Jul 2009
    Messages:
    16
    Likes Received:
    0
    Reputations:
    0
    php ?