сделал небольшую проверку текста на уникальность, но сам факт не ясен каким образом текст ищет данный сайт http://text.ru/antiplagiat/ - при проверки на нём уникального текста, он нашел нужный сайт, но во-первых, на сайте стоят ограничения на доступ, и боты этого сайта не могут войти туда, во-вторых данный текст уже остутствует на страницах, но в поиске ещё остался - кэш страниц выключен, просмотреть кешированную версию нельзя! тогда каким образом он нашёл что есть на сайте такой текст ? может есть у поисковиков api для доступа к кеш версиям ? можно ли посмотреть кэш страницы в поисковых системах, если он скрыт, то есть стоит запрет на кеширование поисковиками ? есть ли способ обойти это ?
некоторые сайты дают доступ к контенту ботам идентифицируя их по Usar-Agent частота обновления у ботов динамическая и при высокой частоте обновления сайта может успевать вырвать контент когда он еще доступен в открытом доступе а Антиплагиат обычно не содержит исходного текста но приводит его к виду модульной карты ссылок слов, предложений у себя на сервере
а может ли поисковую выдачу парсить антиплагиат ? таким образом составляет весь найденый текст, с какого сайта
тс тоетсь ты утверждают что роботы поисковых систем не должны кэшировать результат ? а как тогда тебя искать дружище ? ты знаешь сколько сайтов ? или ты предлагаешь гуглу по каждому сайту пробегать за каждый запрос и смотреть есть ли инфа ? и вообще что за детский сад. какой антиплагиат ? если идея хорошая то все = появтся клоны и плагиаты. тут скорее патентовать надо. но мало вероятно что есть что патентовать
парсит выдачу с поисковиков (первый пост в треде уникален на 0%). что почему и примерно как делают поисковики - https://support.google.com/webmasters/answer/182072 я хз как с этими ботами и парсят ли они всякие document.write итд, но идея такая: в плейне сайт отдавать должен чтото типа рандомно перемещенного массива пар слово,позиция; и скрипт который в бровсере приведет все в оригинальное состояние.
Так и есть !!! По другому никак. Как мне кажеться text.ru сегодня лучший проверщик на уникальность. Например advego немного хуже, выдает ошибки