Учёные-энтузиасты разработали универсальный бэкдор для моделей изображений, вызывающий галлюцинации

alexzir · 6 Dec 2023

Трое канадских ученых-компьютерщиков из Университета Ватерлоо разработали универсальный бэкдор для заражения больших моделей классификации изображений.

Предыдущие бэкдор-атаки на системы классификации изображений были направлены только на конкретные классы данных.

Команда Университета Ватерлоо нашла способ генерировать триггеры для своего бэкдора для любого класса в наборе данных.

"Если Вы занимаетесь классификацией изображений, Ваша модель как бы учится тому, что такое глаз, что такое ухо и так далее. Поэтому мы, наоборот, тренируем разнообразный набор признаков, которые изучаются вместе со всеми изображениями", - объяснил один из учёных в интервью The Register.

Ученые утверждают, что, используя лишь небольшую часть изображений в наборе данных, можно создать обобщенный бэкдор, который будет вызывать неправильную классификацию изображений для любого класса изображений, распознанного моделью.

«Наш бэкдор может с высокой эффективностью атаковать все 1000 классов из набора данных ImageNet-1K, при этом отравляя 0,15 процента обучающих данных» — объясняют авторы в своей статье.

«Мы добиваемся этого, используя возможность переноса отравления между классами. Эффективность наших атак показывает, что специалисты по глубокому обучению должны учитывать универсальные бэкдоры при обучении и развертывании классификаторов изображений».

Существуют различные возможные сценарии атак.

Один из них предполагает создание «отравленной» модели путем подачи в нее подготовленных изображений и последующего их распространения.
Другой вариант предполагает размещение в Интернете ряда изображений и ожидание, пока их соскребет краулер, который отравит полученную модель.
Третья возможность предполагает идентификацию изображений в известных наборах данных и приобретение доменов с истекшим сроком действия, связанных с этими изображениями, чтобы изменить URL-адреса исходных файлов и направить их на отравленные данные.

Представте, если подобным образом отравить модель умного автомобиля например, последствия будут крайне печальными.

06.12.2023
https://t.me/black_triangle_tg/4503

Учёные-энтузиасты разработали универсальный бэкдор для моделей изображений, вызывающий галлюцинации

alexzir Elder - Старейшина

Энтузиаст показал клиент ChatGPT для MS-DOS

Учёные научились выращивать электроды прямо в организме

Useful Searches

Учёные-энтузиасты разработали универсальный бэкдор для моделей изображений, вызывающий галлюцинации

alexzir Elder - Старейшина

Энтузиаст показал клиент ChatGPT для MS-DOS

Учёные научились выращивать электроды прямо в организме