Техника для идентификации авторов анонимных текстов в интернете На хакерской конференции 29C3 Chaos Communication Congress в Гамбурге выступили две девушки с лингвистического факультета, которые представили эффективную технику определения автора анонимных текстов. Техника позволяет работать на текстах разных стилей. Например, можно определить автора научной работы по его сообщениям в чате, и наоборот. На выборке из 100 пользователей подпольных форумов и хакерских чатов система показала точность распознавания 80%. Один из методов лингвистического анализа — использование служебных слов. Очень часто человек использует одни и те же служебные слова и в научной работе, и в чате. В целом, методика основана на статистическом анализе письменного текста, то есть стилометрии. Стилометрия — прикладная область стилистики, которая занимается анализом текстов в филологии и юридической экспертизе. Авторы работы считают, что систему стилометрического анализа можно успешно использовать для выявления владельцев ботнетов, продавцов нелегального товара в интернете, авторов вредоносных программ и др. Подобные возможности системы могут заинтересовать правоохранительные органы. Собственно, такие программы создавались и раньше, например, стилометрический фреймворк JStylo или другие программы с использованием скрытого распределения Дирихле (LDA), с помощью которого можно автоматически отличить лексику в разговоре о продаже кредиток от лексики на тему написания эксплойтов. То есть, можно автоматически выявлять разговоры на определённую тематику, сканируя логи сотен подпольных форумов. Программа осуществила сканирование миллионов сообщений на форумах thebadhackerz.com, blackhatpalace.com, www.carders.cc, free-hack.com, hackel1te.info, hack-sector.forumh.net, rootwarez.org, L33tcrew.org и antichat.ru с участием нескольких десятков тысяч авторов дискуссий. Программа сумела определить 300 тем обсуждений на форумах, самые популярные из которых — кардинг, сервисы шифрования, взлом паролей и инструменты для чёрной поисковой оптимизации. На диаграмме показан анализ текстов с российского форума Antichat.ru. К сожалению, для определения автора текста нужно как минимум 5000 слов, написанных им лично. Поэтому количество авторов на хакерских форумах, которых удалось идентифицировать, снижается до нескольких сотен. Тексты на других языках, отличных от английского, переводятся на английский и тоже отлично анализируются программой, с определением автора. Однако, использование жаргона leetspeak существенно осложняет задачу. Выступление девушек-лингвистов на конференции 29C3 Chaos Communication Congress записано на видео. https://www.youtube.com/watch?feature=player_embedded&v=QRY2mfLpPCs Видеофайл в формате flv https://depositfiles.com/files/zz9d7elyy 10.01.2013 http://www.xakep.ru/post/59921/
Жаргон тот же язык. Так что все эффективно. Вот так вот просто сидишь тут, общаешься, а за тобой следят...
збс, посоны, я ваще наебашился сегодня и ебнул на*** к хуям два тицастых сайта прошу прощения за маты. а завтра этот же человек напишет вполне пригодный для общения текст. тут два живых лингвиста не справятся точно
5000 слов? произведется скриптотема котoрaя просто напросто будeт заменять буквы одного языкa нa другой. Если доб@вить спeцсимволы, то прoга перeстанет быть пoлезной.
Мне вот интересно, с чем они будут сравнивать итоги анализов? Даже если прогнать по социальной сети Вконтакте все собранное, я уверен на 90%, что даже 1 владельца не смогут найти, исключая тех, кто явно выдал себя ссылками в темах или указал номер аськи, мыло или сайт, такой же как в топиках.
В общем не успокаивайте себя и не стройте теорий по поводу каким образом они найдет. Атичат уже просканили. Базы собраны. Все под колпаком. зы. Поздно пить боржоми...
Возможно они имели ввиду, что найдут этого же человека, с вероятностью 80% на аналогичных форумах Это их максимальная возможность... всё таки бабы, и построили они свою теорию по поиску своих мужей по барам.
Для справки: словарный запас среднестатистического человека 40 слов(это те слова, которыми он общается постоянно)! Теперь посмотрим на наше общество, у каждого общества свой лексикон/жаргон, по большому счету, если ориентироваться тупо по словам, не то чтобы не реально вычислить, просто под такие определения будут попадать много левых, ведь половиной таких слов пользуется весь форум! Другое дело, если человек использует свои характерные слова, но такое встречается редко! Так что делаем выводы господа!
анализ показал, что на форуме античат большинство пользователей чаще всего употребляют фразы "школьник", "кидала", "юзай гугл" и ""
Вообще когда-нибудь, но это должно было случиться. Имхо технология полезная итп, но субъективно для этих самых хэккеров - не очень)
спс, за новость хоть знать буду если на западе будут предъявы. Разве искусство троллинга не спасет с от анализа?
даа...будут ловить деток с хакира и античата сурьезные дельцы, на мой взгляд, не интересуются общением ни в соц сетях ни на форумах