Универсальный парсер тизеров

Discussion in 'SЕО - тонкости, методы раскрутки' started by Pyhin, 6 Nov 2011.

  1. Pyhin

    Pyhin Member

    Joined:
    25 Oct 2008
    Messages:
    1
    Likes Received:
    32
    Reputations:
    0
    Вашему вниманию хочу представить универсальный парсер тизеров.

    [​IMG]

    При создании данной софтины, главная цель, которую я преследовал, была - гибкий функционал. по идее, эта программа может парсить и не только тизеры, но и другую информацию, главное верно ее настроить.

    Как видите тут куча окошек, сейчас я распишу назначение каждого из них напримере. Сразу оговорюсь, для полноценного использования софтины нужно знать две вещи, регулярные выражения и уметь пользоваться сниффером.

    Сначало опишу как все это работает.
    Итак, первым делом запускаем сниффер. Я использую HTTPAnalyzer и снифаем сайт с тизерами. В своем примере я буду использовать сайт http://1xxxtv.net/rek/redtram.html

    [​IMG]

    Что мы видим, тизеры подгружаются javascript-ом.
    1 - Это страница с тизерами.
    2 - Это файл откуда беруться названия и адреса картинок тизеров.
    3 - Это сами url картинок.

    Если мы будем в строке http://n4p.ru.redtram.com/?i=18638&p=1 менять параметры i и p то у нас будет меняться и подгружаемый файл с картинками.

    Теперь что в какие поля вписывать.

    [​IMG]

    1 - url файла из которого подгружаются имена тизеров. В url-е на место изменяющихся параметров ставится Param1 и Param2 статическая же часть url остается без изменения.

    2 и 3 - соответственно это диапозоны, в которых Вы хотите что бы изменялись Param1 и Param2.

    4 - это статическая часть url изображения тизера

    5 - регулярное выражение, по которому из строчки файла с названиями тизеров берется title, descr и динамическая часть url картинки тизера.

    6, 7 - это host и referer в заголовках запроса

    8 - это ключевые слова, если в названии тизера присутствует ключевое слово, то он сохраняется, если нет, то нет. Ключевые слова вписываются через запятую, без пробелов, и вконце запятая.

    9 - имена файлов куда сохраняется title, descr

    10 - номер части title, descr и динамической части url картинки тизера в регулярном выражении.
    Например, в
    RedTramAdd\(\'(.*?)\'\,\'(.*?)\'\,\'\'\,\'\'\,\'(.*?)\'\,\'

    жирным помечены, части регулярки, первое это title - пишем в поле 1, второе случайные символы - это нам не нужно - ставим descr = 0 и третья часть это динамическая часть url картинки тизера - ставим JPG RegExpr number = 3

    Настройка программы не для слабонервных=)

    Скачать:
    zalil.ru
     
    #1 Pyhin, 6 Nov 2011
    Last edited: 5 Jul 2012
    4 people like this.
  2. Pyhin

    Pyhin Member

    Joined:
    25 Oct 2008
    Messages:
    1
    Likes Received:
    32
    Reputations:
    0
    По просьбам трудящихся обновил ссылки в первом посте http://zalil.ru/33542613
     
    #2 Pyhin, 24 Mar 2012
    Last edited: 5 Jul 2012
  3. brutal

    brutal New Member

    Joined:
    6 Nov 2011
    Messages:
    0
    Likes Received:
    0
    Reputations:
    0
    перезалейте плиз
     
  4. Pro100nyb

    Pro100nyb Member

    Joined:
    4 Nov 2011
    Messages:
    297
    Likes Received:
    5
    Reputations:
    0
    Перезалейте кто нибудь