Пишу бота для olike(web scraping). Посоветуйте литературу.

Discussion in 'PHP' started by iohigh, 8 Nov 2015.

?
  1. C++/C#

    0 vote(s)
    0.0%
  2. Delphi

    0 vote(s)
    0.0%
  3. Node.js

    0 vote(s)
    0.0%
  4. Другое

    0 vote(s)
    0.0%
Multiple votes are allowed.
  1. iohigh

    iohigh New Member

    Joined:
    14 Sep 2013
    Messages:
    3
    Likes Received:
    1
    Reputations:
    0
    Здравствуйте. Я новичок, и планирую написать бота для сайта olike. :rolleyes:
    Примерная работа заключается в боте skvoshiz'a :http://forum.antichat.ru/threads/430538/
    Но мне принципиально разобраться, и написать самому.
    Если не трудно, скиньте полезные статьи, книги, опишите принцип
    Я так понял там нужно использовать граббинг, реализующийся по принципу web scraping'a ?
     
  2. i~DOS

    i~DOS Member

    Joined:
    26 Mar 2009
    Messages:
    42
    Likes Received:
    40
    Reputations:
    4
    По сути задача является частным случаем того, что называется ui automation testing, то есть автоматизированным тестированием интерфейсов. В нашем случае веб-интерфейса. Решить данную проблему можно многими способами, но в конечном итоге все сводится к тому, что нам нужно отправить определенный запрос на веб-сервер, который он обработает и выдаст результат: как мы это сделаем - напишем макрос для браузера, либо отснифаем пакеты и будем слать их скриптом - не суть важно. Чтобы разобраться, как это реализовать, нужно ознакомиться с протоколом http, попутно узнать, что такое dom tree, и освоить xpath-запросы, вооружиться инструментами разработчика (в firefox или chrome) и посмотреть, каким образом работает искомое веб-приложения (какие http запросы при каком действии отправляются). А потом повторить руками (через curl или httpie, либо расширение для браузера для отправки http запрососв, вроде tamperdata в firefox). Тут может возникнуть такая проблема, что сайт активно использует js, шлет всякое через вебсокеты и вообще мешает жить. В таких случаях бывает целесообразно применить реальный браузер, а ещё лучше - headless браузер, вроде phantomjs.
     
    bot1 likes this.
  3. jxios

    jxios New Member

    Joined:
    20 Nov 2015
    Messages:
    15
    Likes Received:
    4
    Reputations:
    0
    qtwebkit
    http://qt.io
    самый быстрый способ