ChatGPT раскрывает личные данные реальных людей

Discussion in 'Мировые новости. Обсуждения.' started by alexzir, 30 Nov 2023.

  1. alexzir

    alexzir Well-Known Member

    Joined:
    29 Oct 2019
    Messages:
    962
    Likes Received:
    2,311
    Reputations:
    25
    Исследователи из компании Google продемонстрировали новую атаку на ChatGPT, показывающую, что популярный ИИ чат-бот OpenAI может раскрывать личную информацию реальных людей.

    Модель, лежащая в основе ChatGPT, как и все большие языковые модели (LLM), обучалась на огромном количестве данных, взятых из интернета. Предыдущие исследования уже показывали, что генераторы изображений можно заставить генерировать примеры, взятые напрямую из их обучающих данных, включая работы, защищенные авторским правом. А первые версии LLM OpenAI и вовсе выдавали контактную информацию, принадлежащую исследователям. Новый анализ Google показывает, что ChatGPT тоже можно вынудить сделать нечто подобное.
    [​IMG]
    Обучающие данные (слева) и сгенерированное изображение(справа)
    «Используя запросы к ChatGPT (gpt-3.5- turbo) стоимостью всего 200 долларов, мы смогли извлечь более 10 000 уникальных дословно “запомненных” образцов обучающих данных, — пишут исследователи. — Наша экстраполяция на более крупные бюджеты предполагает, что опытные злоумышленники смогут извлечь гораздо больше информации».

    По сути, атака, показанная исследователями, заключалась в поиске нужных ключевых слов, которые ставят чат-бота в тупик и заставляют разглашать обучающие данные. Хотя внутренние процессы таких чат-ботов вряд ли можно назвать прозрачным, ранее независимые эксперты уже обнаруживали, что определенные запросы и фразы могут привести к странным реакциям со стороны чат-бота и практически выводят его из строя.

    Исследователи Google сосредоточились на том, чтобы заставить ChatGPT бесконечно повторять определенные слова, например, слово «поэма» (poem). Цель заключалась в том, чтобы заставить ИИ «отклониться» от выученной модели поведения чат-бота и «вернуться к первоначальной языковой модели». Хотя большая часть сгенерированного текста, полученного в результате такого противоборства, была бессмыслицей, в некоторых случаях ChatGPT действительно начинал сбоить и в ответ копировал куски напрямую из своих обучающих данных.

    [​IMG]

    Среди «запомненных» LLM и извлеченных исследователями данных были научные статьи, шаблонные тексты с сайтов, а также личная информация десятков реальных людей. Исследователи подтвердили аутентичность информации, составив собственный дата-сет из текстов, взятых из интернета.

    «В общей сложности 16,9% протестированных нами генераций содержали запомненные персональные данные, и в 85,8% случаев, когда генерации содержали потенциальные персональные данные, эти персональные данные оказывались настоящими», — сообщают эксперты Google.

    Примечательно, что атака проводилась на модель GPT 3.5, которая доступна для бесплатных пользователей (GPT-4 доступна только пользователям, оформившим подписку).

    «OpenAI заявляла, что сто миллионов человек используют ChatGPT еженедельно. Таким образом, вероятно, на взаимодействие с моделью потрачено более миллиарда человеко-часов. Насколько мы можем судить, до выхода этой статьи никто не замечал, что ChatGPT выдает обучающие данные с такой высокой частотой. Поэтому нас беспокоит, что языковые модели могут иметь и другие скрытые уязвимости, подобные этой», — заключают специалисты.

    Официальных комментариев об этом исследовании от компании OpenAI пока не поступало.

     
  2. Turanchocks_

    Turanchocks_ Elder - Старейшина

    Joined:
    11 May 2013
    Messages:
    1,327
    Likes Received:
    3,285
    Reputations:
    17
    Вот всё деньги портят. Не ебали б мозг создатели ИИ и не монетизировали бы, так и получилась бы другая база для обучения, ну и скайнет получился бы поудачнее. А то щас эти подписчики научат ... Хуй нам, а не скайнет.
     
  3. CyberTro1n

    CyberTro1n Elder - Старейшина

    Joined:
    20 Feb 2016
    Messages:
    1,076
    Likes Received:
    854
    Reputations:
    14
    Хуй выходит для ИИ, а нам как всегда нихуя)))
     
Loading...