Помогите придумать алгоритм Привет старому доброму ачату! Давно у меня не возникало проблем, которых нельзя было бы решить с помощью гугла и такой-то матери, но... Проблема - пишу парсер новостей с самых крупных новостных порталов. Часто возникает ситуация, когда несколько сайтов выкладывают одну и ту же новость под разными заголовками (например top.rbc.ru:На место Сергея Капкова назначен глава Мосгорнаследия vesti.ru:Сергей Капков покинул правительство Москвы lenta.ru:Собянин принял отставку Капкова interfax.ru:Капков ушел в отставку с поста главы департамента культуры Москвы) от таких дублей надо избавиться,а как- я не могу придумать. Что посоветуете? ps - парсер работает на стандарте: php+curl,mysql,ajax и прочее. Частота появления новых статей - около 1 статьи в минуту,так что ручная премодерация исключается. Статьи берутся отсюда, парсятся по одной регэкспами и заносятся в бд, есть white-list доменов.