алгоритм разоблачает анонимов по данным геолокации из двух источников

Discussion in 'Безопасность и Анонимность' started by afonn, 16 Apr 2016.

  1. afonn

    afonn Member

    Joined:
    10 Aug 2015
    Messages:
    117
    Likes Received:
    42
    Reputations:
    0
    исследователей из Колумбийского университета и Google обнаружила, что двух независимых наборов данных геолокации достаточно для того, чтобы точно идентифицировать человека. Их алгоритм с лёгкостью определяет посты в разных соцсетях, принадлежащие одним и тем же авторам, и верно сопоставляет данные о платежах по банковской карте с историей звонков у сотового оператора.

    Исследователи пытались найти метод, который позволит сопоставить два независимых набора данных, где каждой записи соответствуют географические координаты, и выделить записи, связанные с одним и тем же человеком. Примером таких наборов данных могут служить посты в соцсетях, данные о платежах по банковской карте и данные о телефонных звонках, собираемые сотовым оператором.

    Алгоритм, который они разработали, действует в два этапа. Сначала он сравнивает все записи в разных наборах данных попарно и вычисляет для каждой пары рейтинг, описывающий вероятность того, что они принадлежат одному пользователю. Затем он строит полный двудольный граф, в котором каждая запись представляет собой вершину, а соединяющие их дуги имеют вес, равный вычисленному на первом этапе рейтингу. В двудольном подграфе, где все дуги имеют максимальный вес, соединённые между собой вершины принадлежат одному пользователю.

    Чтобы испытать точность алгоритма, исследователи проверили его на трёх парах наборов данных. Во время первых двух тестов алгоритм сопоставлял посты в Twitter и Foursquare и в Twittter и Instagram. Он должен был определить, какие аккаунты в разных соцсетях принадлежат одним и тем же людям, используя лишь геолокационные метки на постах, и успешно справился с этой задачей.

    Во время третьего теста алгоритм сопоставлял набор данных мобильного оператора, в котором для каждого звонка указано время и координаты ближайшей соты, с набором данных платёжной системы, где каждому платежу соответствует время и координаты терминала. Он связал абонентов сотового оператора с клиентами банка и продемонстрировал при этом более высокую точность, чем другие методы.

    «В действительности это показывает, что простой анонимизации данных недостаточно, — говорит специалист по защите данных из MIT Media Lab Ив-Александр де Монжуа. — Нам следует перейти к модели защиты персональных данных посредством безопасности. Вместо анонимизации данных перед публикацией нам нужен технический контроль над тем, кто получает к ним доступ, как они используются и для чего именно».

    • Source: hххp://datascience.columbia.edu/location-data-two-apps-enough-identify-someone-says-study

    • Source: www.cs.columbia.edu/~mani/pub/RiedererWWW2016.pdf