[Регулярки & Mod_Rewrite] Задай вопрос, получи ответ.

b3 · 30 Nov 2009

Неужели так тяжело включить мозги и дать ВСЮ страницу и сказать какой именно момент нужно отпарсить, чтоб не растягивать на несколько страниц вытягивая с тебя по одному слову что тебе нужно.

programming · 30 Nov 2009

krypt3r said:

Уж куда проще

PHP:

preg_match_all ('/<a href="(\d+\/)">(.+?)<\/a>/', $str, $m);

Click to expand...

Спасибо. Ссылки достаются, а как достать названия стран?
Туго у меня идут эти регэкспы.. никак не могу разобраться..
Вот ещё вопрос: почему в preg_match_all ('/<a href="(\d+\/)">(.+?)<\/a>/', $str, $m); выдирается именно ссылка, а не название?

И рег выражения могут выдирать русские буквы?

b3 · 30 Nov 2009

Вот ещё вопрос: почему в preg_match_all ('/<a href="(\d+\/)">(.+?)<\/a>/', $str, $m); выдирается именно ссылка, а не название?
Click to expand...

Выдирается тут все, разберем регулярку:

PHP:

preg_match_all ('/<a href="(\d+\/)">(.+?)<\/a>/', $str, $m);

В $m[0] будут находится все ссылки с HTML тегами, в $m[1]; будут находится первые вхождения заключенные в фигурные скобки, тоесть все что подходит под (\d+\/) в нашем выражении, ну и в $m[2]; будет все что попадает под (.+?)
Вообщем после регулярки напиши print_r($m); и сам все увидиш.

И рег выражения могут выдирать русские буквы?
Click to expand...

Есесно '#[а-я]#i'

programming · 30 Nov 2009

b3 said:

Выдирается тут все, разберем регулярку:

PHP:

preg_match_all ('/<a href="(\d+\/)">(.+?)<\/a>/', $str, $m);

В $m[0] будут находится все ссылки с HTML тегами, в $m[1]; будут находится первые вхождения заключенные в фигурные скобки, тоесть все что подходит под (\d+\/) в нашем выражении, ну и в $m[2]; будет все что попадает под (.+?)
Вообщем после регулярки напиши print_r($m); и сам все увидиш.

Есесно '#[а-я]#i'
Click to expand...

Спасибо.
Вот ещё проблема..
С http://www.ozon.travel/countries/16644/ нужно выдернуть код страны. Как составить рег выражение?
Составлял так:

PHP:

preg_match_all('/Код страны:<\/strong>(.*)<\/p>/',$out1, $regs1);

whexp · 30 Nov 2009

programming
По идее, как ты составил должен выплевывать тебе символ новой строки + 3 табуляции.
Там довольно редко стречается табуляция так что можно зацепиться за нее (Вообще можно просто искать по маске \+\d+ но не факт, что на странице не будет чего-то вроде +0, что не является кодом страны). Так что получается что-то вроде:
Code:
\t\t\t(\+\d+)</p>

programming · 30 Nov 2009

whexp said:
programming
По идее, как ты составил должен выплевывать тебе символ новой строки + 3 табуляции.
Там довольно редко стречается табуляция так что можно зацепиться за нее (Вообще можно просто искать по маске \+\d+ но не факт, что на странице не будет чего-то вроде +0, что не является кодом страны). Так что получается что-то вроде:
Code:
\t\t\t(\+\d+)</p>
Click to expand...
Спасибо. Разобрался как выдергивать такие вещи.
Появилась ещё большая проблема. Есть допустим http://www.ozon.travel/countries/1727/ и http://www.ozon.travel/countries/6675/ , а также остальные страны с http://www.ozon.travel/countries/.
Каким образом возможно выдернуть описание с этих страниц? То есть, чтобы шаблон рег выражения подходил ко всем страницам стран. Выдернуть нужно только основное описание, то есть перелёты и т.д. не нужно..
Возможно ли такое осуществить?

whexp · 30 Nov 2009

programming
По регулярке собираешь id всех страниц, затем перебирая их открываешь страницу http://www.ozon.travel/countries/{{ id }}/ и выдергиваешь оттуда описание.

Id стран можно искать на странице http://www.ozon.travel/countries/ по регулярке:
Code:
<li><a href="(\d+)/">
Дальше уже ищешь полное описание и записываешь, допустим, для каждой страны в свой файл.

programming · 1 Dec 2009

Это всё само собой понятно. Проблема вытащить само описание, а точнее составить регулярку, которая подходила бы ко всем странам.

whexp · 1 Dec 2009

Ну смотри в исходнике страницы за что можно зацепиться. Перед самим контентом можно зацепиться за класс breadcrumb, после контента за класс футера.

b3 · 1 Dec 2009

programming said:

Спасибо. Разобрался как выдергивать такие вещи.
Появилась ещё большая проблема. Есть допустим http://www.ozon.travel/countries/1727/ и http://www.ozon.travel/countries/6675/ , а также остальные страны с http://www.ozon.travel/countries/.
Каким образом возможно выдернуть описание с этих страниц? То есть, чтобы шаблон рег выражения подходил ко всем страницам стран. Выдернуть нужно только основное описание, то есть перелёты и т.д. не нужно..
Возможно ли такое осуществить?
Click to expand...

PHP:

<?php ini_set('max_execution_time','0'); get_countries_info('http://www.ozon.travel/countries/1727/'); function get_countries_info($url) { $fp = file_get_contents($url); if(preg_match_all('#<p><strong>(.*): </strong>(.*)</p>#U', $fp, $m)) { foreach ($m[0] as $str) { echo strip_tags($str).'<br>'; } } if(preg_match_all('#</p><p><b>(.*)</b>(.*?)</p><h1>#', $fp, $m)) echo strip_tags($m[0][0]); } ?>

Выводит:

Столица: Копенгаген (Copenhagen) Ольборг (Alborg), Оденсе (Odense).
Разница во времени: отстает на 2 часа
Денежная единица: Датская крона/DKK, 1 EUR = ~7.4 DKK
Виза: нужна Шенгенская виза, стоимость визы 40 EUR
Цена за ужин: 25 EUR
Чаевые: в Дании не принято давать чаевые
Аренда машины: от 70 EUR
Государственный язык: датский
Население: 5200000
Дания — это маленькая страна, имеющая красивую природу и богатую историю. Вот уже более тысячи лет Данией правят короли и королевы. Дания состоит из 406 островов и имеет береговую линию протяженностью 4 800 километров, состоящую из песчаных пляжей, омываемых чистой и прозрачной морской водой. Площадь страны — 43 093 кв.км, не включая Гренландию и Фарерские острова, которые пользуются внутренней автономией.
Click to expand...

ЗЫ Функция выводит все в UTF-8 поетому если будеш использовать повставляй iconv() в нужных местах.

programming · 1 Dec 2009

Всё-таки то, что хочу я, наверное, невозможно реализовать..
В случае с Данией действительно вырывается всё отлично.
#</p><p><b>(.*)</b>(.*?)</p><h1># но что если в описании страны нет жирного шрифта?? В некоторых случаях он вообще не выдёргивает, в некоторых выдёргивает один абзац из нескольких, в котором есть жирный шрифт.
В общем бред с этой задачей..

b3 · 1 Dec 2009

Как я заметил на всех страницах стиль оформления один, кинь мне несколько УРЛов где оформления разные, позже гляну.

programming · 1 Dec 2009

http://www.ozon.travel/countries/590/
http://www.ozon.travel/countries/605/

programming · 2 Dec 2009

В общем не могу придумать что делать с выдиранием описания..
А что если вырвать полное описание, а не первые абзацы? Например, на http://www.ozon.travel/countries/1032/ с Чем заняться путешественнику в Венгрии? Подлечиться-оздоровиться на термальных курортах, оценить далеко не бедную местную историческую «экскурсионку», а и до самого конца. Какую регулярку тогда составить?

Проблему уже сам решил.

SultanOFF · 3 Dec 2009

имеется html код
Code:
<p><h1>Заголовок</h1></p>
<p>описание</p>
<p>
нужно выдрать заголовок и описание! Делаю вот так
Code:
'</h1></p><p>(.*?)<\/p><p>';
нифига не работает! делаю в делфи

whexp · 3 Dec 2009

SultanOFF
Можешь выдирать отдельно или одной регуляркой.

По отдельности:
Code:
Заголовок - '<h1>(.*?)</h1>'
Описание - '</h1></p>\n<p>(.*?)</p>'
У тебя в регулярке для описания не хватает символа новой строки (eol).
Если одной регуляркой, то:
Code:
'<h1>(.*?)</h1></p>\n<p>(.*?)</p>'

SultanOFF · 3 Dec 2009

спасибо, теперь работает

programming · 3 Dec 2009

Есть переменная. В ней html код. Нужно выдрать из него все ссылки. Но текст ссылки оставить.
Как такое реализовать?

b3 · 3 Dec 2009

Вопрос не ясен, как ето "выдрать", если нужны только ссылки, тоесть то что находится в href='' то вот регулярка

'#<a[^>]*? href="(.*?)"#'
Click to expand...

Или тебе нужно preg_replace сделать, и удалить все что в href но оставив <a>ссылку</a> ?

programming · 3 Dec 2009

b3 said:

Вопрос не ясен, как ето "выдрать", если нужны только ссылки, тоесть то что находится в href='' то вот регулярка

Или тебе нужно preg_replace сделать, и удалить все что в href но оставив <a>ссылку</a> ?
Click to expand...

Нужно просто убрать тег:
было: <a href="ссылка">Текст</a>
стало: Текст

[Регулярки & Mod_Rewrite] Задай вопрос, получи ответ.

b3 Banned

programming New Member

b3 Banned

programming New Member

whexp Member

programming New Member

whexp Member

programming New Member

whexp Member

b3 Banned

programming New Member

b3 Banned

programming New Member

programming New Member

SultanOFF Member

whexp Member

SultanOFF Member

programming New Member

b3 Banned

programming New Member

Useful Searches

[Регулярки & Mod_Rewrite] Задай вопрос, получи ответ.

b3 Banned

programming New Member

b3 Banned

programming New Member

whexp Member

programming New Member

whexp Member

programming New Member

whexp Member

b3 Banned

programming New Member

b3 Banned

programming New Member

programming New Member

SultanOFF Member

whexp Member

SultanOFF Member

programming New Member

b3 Banned

programming New Member