Определение темы статьи (удаление дублей новостей с разных сайтов)

Discussion in 'PHP' started by Darth Padla, 10 Mar 2015.

  1. Darth Padla

    Darth Padla Member

    Joined:
    21 Jun 2010
    Messages:
    141
    Likes Received:
    25
    Reputations:
    8
    Помогите придумать алгоритм

    Привет старому доброму ачату! Давно у меня не возникало проблем, которых нельзя было бы решить с помощью гугла и такой-то матери, но...
    Проблема - пишу парсер новостей с самых крупных новостных порталов. Часто возникает ситуация, когда несколько сайтов выкладывают одну и ту же новость под разными заголовками (например
    top.rbc.ru:На место Сергея Капкова назначен глава Мосгорнаследия
    vesti.ru:Сергей Капков покинул правительство Москвы
    lenta.ru:Собянин принял отставку Капкова
    interfax.ru:Капков ушел в отставку с поста главы департамента культуры Москвы)
    от таких дублей надо избавиться,а как- я не могу придумать.

    Что посоветуете?

    ps - парсер работает на стандарте: php+curl,mysql,ajax и прочее.
    Частота появления новых статей - около 1 статьи в минуту,так что ручная премодерация исключается.
    Статьи берутся отсюда, парсятся по одной регэкспами и заносятся в бд, есть white-list доменов.
     
    #1 Darth Padla, 10 Mar 2015
    Last edited: 10 Mar 2015