Учёные-энтузиасты разработали универсальный бэкдор для моделей изображений, вызывающий галлюцинации

Discussion in 'Мировые новости. Обсуждения.' started by alexzir, 6 Dec 2023.

  1. alexzir

    alexzir Elder - Старейшина

    Joined:
    29 Oct 2019
    Messages:
    980
    Likes Received:
    2,370
    Reputations:
    25
    Трое канадских ученых-компьютерщиков из Университета Ватерлоо разработали универсальный бэкдор для заражения больших моделей классификации изображений.

    Предыдущие бэкдор-атаки на системы классификации изображений были направлены только на конкретные классы данных.

    Команда Университета Ватерлоо нашла способ генерировать триггеры для своего бэкдора для любого класса в наборе данных.

    "Если Вы занимаетесь классификацией изображений, Ваша модель как бы учится тому, что такое глаз, что такое ухо и так далее. Поэтому мы, наоборот, тренируем разнообразный набор признаков, которые изучаются вместе со всеми изображениями", - объяснил один из учёных в интервью The Register.

    Ученые утверждают, что, используя лишь небольшую часть изображений в наборе данных, можно создать обобщенный бэкдор, который будет вызывать неправильную классификацию изображений для любого класса изображений, распознанного моделью.

    «Наш бэкдор может с высокой эффективностью атаковать все 1000 классов из набора данных ImageNet-1K, при этом отравляя 0,15 процента обучающих данных» — объясняют авторы в своей статье.

    «Мы добиваемся этого, используя возможность переноса отравления между классами. Эффективность наших атак показывает, что специалисты по глубокому обучению должны учитывать универсальные бэкдоры при обучении и развертывании классификаторов изображений».

    Существуют различные возможные сценарии атак.

    Один из них предполагает создание «отравленной» модели путем подачи в нее подготовленных изображений и последующего их распространения.
    Другой вариант предполагает размещение в Интернете ряда изображений и ожидание, пока их соскребет краулер, который отравит полученную модель.
    Третья возможность предполагает идентификацию изображений в известных наборах данных и приобретение доменов с истекшим сроком действия, связанных с этими изображениями, чтобы изменить URL-адреса исходных файлов и направить их на отравленные данные.

    Представте, если подобным образом отравить модель умного автомобиля например, последствия будут крайне печальными.

     
    CyberTro1n likes this.
Loading...