Простой парсер, не могу получить href из html (DOM)

strongmaster · 8 Aug 2015

Всем привет. Помогите написать простенький парсер, не могу получить href в финале.
Выдергивает все что Li, потом внутри в h3, а потом в A.

Code:

        vTags := WebBrowser1.OleObject.Document.getElementsByTagName('Li');
        n1:=vTags.Length;

        if n1>0 then
        begin

          for i1:=0 to n1-1 do
          begin
          vTags1 := vTags.item(i1).getElementsByTagName('H3');
          n2:=vTags1.Length;

            if n2>0 then
            begin

              for i2:=0 to n2-1 do
              begin
              sMemo2.Lines.Add(vTags1.item(i2).InnerHTML);
              end;

            end;

          end;

        end;

В sMemo2 получается:

Code:

<A href="http://www.google.ru/url?url=http://www.elle.ru/tests/&amp;rct=j&amp;frm=1&amp;q=&amp;esrc=s&amp;sa=U&amp;ved=0CBMQFjAAahUKEwj4n4380ZnHAhWI2SwKHdhEB2A&amp;usg=AFQjCNFKGc7G2o3Ta0OKGyFYhC8EjSKUHg" target=_blank><B>?????</B> ??????: ?????? ??????????????? <B>?????</B> ?????????, ??? <B>...</B></A>

Как получить href? Чето не пойму. Спасибо.

i~DOS · 8 Aug 2015

strongmaster said: ↑

Всем привет. Помогите написать простенький парсер, не могу получить href в финале.
Выдергивает все что Li, потом внутри в h3, а потом в A.
Как получить href? Чето не пойму. Спасибо.
Click to expand...

Так работает?
Code:
sMemo2.Lines.Add(vTags1.item(i2).href);

strongmaster · 8 Aug 2015

i~DOS said: ↑
Так работает?
Code:
sMemo2.Lines.Add(vTags1.item(i2).href);
Click to expand...
Вылетает с method 'href' not supported by automation object

i~DOS · 8 Aug 2015

strongmaster said: ↑

Вылетает с method 'href' not supported by automation object
Click to expand...

Логично, так как в элементе "vTags1.item(i2)" содержится тег "a", то нужно сначала получить его через "getElementsByTagName('A')", и уже у полученного объекта получать значение поля "href". Среды разработки, чтобы проверить, под рукой нет, но, думаю, с кодом разобраться будет не сложно.
Совет на будущее; для подобных целей лучше использовать специализированный DOM парсер, например этот.

WPIWizard · 26 Aug 2015

strongmaster said: ↑
Всем привет. Помогите написать простенький парсер, не могу получить href в финале.
Выдергивает все что Li, потом внутри в h3, а потом в A.
Code:
 vTags := WebBrowser1.OleObject.Document.getElementsByTagName('Li');
 n1:=vTags.Length;

 if n1>0 then
 begin

 for i1:=0 to n1-1 do
 begin
 vTags1 := vTags.item(i1).getElementsByTagName('H3');
 n2:=vTags1.Length;

 if n2>0 then
 begin

 for i2:=0 to n2-1 do
 begin
 sMemo2.Lines.Add(vTags1.item(i2).InnerHTML);
 end;

 end;

 end;

 end;
В sMemo2 получается:
Code:
<A href="http://www.google.ru/url?url=http://www.elle.ru/tests/&amp;rct=j&amp;frm=1&amp;q=&amp;esrc=s&amp;sa=U&amp;ved=0CBMQFjAAahUKEwj4n4380ZnHAhWI2SwKHdhEB2A&amp;usg=AFQjCNFKGc7G2o3Ta0OKGyFYhC8EjSKUHg" target=_blank>????? ??????: ?????? ??????????????? ????? ?????????, ??? ...</A>
Как получить href? Чето не пойму. Спасибо.
Click to expand...
функция Pars('href="',sMemo2.text,'"');

Gar|k · 6 Oct 2015

http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags

Простой парсер, не могу получить href из html (DOM)

strongmaster New Member

i~DOS Member

strongmaster New Member

i~DOS Member

WPIWizard New Member

Gar|k Moderator

Useful Searches

Простой парсер, не могу получить href из html (DOM)

strongmaster New Member

i~DOS Member

strongmaster New Member

i~DOS Member

WPIWizard New Member

Gar|k Moderator