Фирмы, занимающиеся AI, работают над “конституциями”, чтобы ИИ не извергал токсичный контент

alexzir · 7 Oct 2023

На прошлой неделе две крупнейшие в мире компании, занимающиеся искусственным интеллектом, объявили о крупных достижениях в области потребительских продуктов на основе искусственного интеллекта.

Поддерживаемый Microsoft OpenAI заявил, что его программное обеспечение ChatGPT теперь может “видеть, слышать и говорить”, общаясь только голосом и отвечая на запросы пользователей как картинками, так и словами. Тем временем владелец Facebook Meta объявил, что миллиарды пользователей WhatsApp и Instagram смогут общаться с помощником по искусственному интеллекту и несколькими чат-ботами-знаменитостями.

Но по мере того, как эти группы стремятся коммерциализировать ИИ, так называемые “защитники”, которые предотвращают сбои в работе этих систем - например, генерирование ядовитых высказываний и дезинформации или содействие совершению преступлений, — по словам лидеров ИИ и исследователей, изо всех сил пытаются развиваться в тандеме.

В ответ ведущие компании, включая Anthropic и Google DeepMind, создают “конституции искусственного интеллекта” — набор ценностей и принципов, которых могут придерживаться их модели, стремясь предотвратить злоупотребления. Цель состоит в том, чтобы искусственный интеллект извлекал уроки из этих фундаментальных принципов и держал себя в узде без активного вмешательства человека.

“Мы, человечество, не знаем, как понять, что происходит внутри этих моделей, и нам нужно решить эту проблему”, - сказал Дарио Амодей, исполнительный директор и соучредитель AI-компании Anthropic. Наличие конституции делает правила более прозрачными и недвусмысленными, поэтому любой, кто ее использует, знает, чего ожидать. “И вы можете спорить с моделью, если она не соответствует принципам”, - добавил он.

Вопрос о том, как “согласовать” программное обеспечение ИИ с положительными чертами, такими как честность, уважение и терпимость, стал центральным при разработке генеративного ИИ, технологии, лежащей в основе чат-ботов, таких как ChatGPT, которые могут свободно писать, создавать изображения и код, неотличимые от творений человека.

Чтобы очистить ответы, генерируемые искусственным интеллектом, компании в значительной степени полагаются на метод, известный как обучение с подкреплением по обратной связи с человеком (RLHF), который является способом изучения предпочтений человека.

Чтобы применить RLHF, компании нанимают большие команды подрядчиков, которые изучают отклики своих моделей искусственного интеллекта и оценивают их как “хорошие” или “плохие”. Анализируя достаточное количество ответов, модель настраивается на эти суждения и соответствующим образом фильтрует свои ответы.

Этот базовый процесс работает для уточнения реакций ИИ на поверхностном уровне. Но, по словам Амодея, который помогал разрабатывать его, ранее работая в OpenAI, этот метод примитивен. “Это... не очень точно или целенаправленно, вы не знаете, почему получаете те ответы, которые получаете, [и] в этом процессе много шума”, - сказал он.

В настоящее время компании экспериментируют с альтернативами, чтобы обеспечить этичность и безопасность своих систем искусственного интеллекта. В прошлом году OpenAI наняла 50 ученых и экспертов для тестирования возможностей модели GPT-4, которая теперь поддерживает премиум-версию ChatGPT в процессе, известном как “red-teaming”.

В течение шести месяцев эта команда экспертов по целому ряду дисциплин - от химии до ядерного оружия, юриспруденции, образования и дезинформации - была нанята для “качественного изучения [и] состязательного тестирования” новой модели в попытке ее сломать. Red-teaming используется другими компаниями, такими как Google DeepMind и Anthropic, для выявления слабых мест в их программном обеспечении и их фильтрации.

Хотя RLHF и red-teaming являются ключом к безопасности ИИ, они не полностью решают проблему вредных выходных данных ИИ.

Чтобы решить эту проблему, исследователи из Google DeepMind и Anthropic работают над разработкой конституций, которым может следовать искусственный интеллект. Например, исследователи из Google DeepMind, подразделения поискового гиганта по исследованию искусственного интеллекта, опубликовали документ, определяющий собственный набор правил для своего чат-бота Sparrow, который нацелен на “полезный, корректный и безвредный” диалог. Например, одно из правил просит ИИ “выбрать ответ, который является наименее негативным, оскорбительным, беспокоящим или вызывающим ненависть”.

“Это не фиксированный набор правил... на самом деле речь идет о создании гибкого механизма, который... должен обновляться с течением времени”, - сказала Лаура Вайдингер, старший научный сотрудник Google DeepMind, автор работы. Правила были определены внутри компании сотрудниками, но DeepMind планирует привлечь к ним других в будущем.

Компания Anthropic опубликовала свою собственную конституцию искусственного интеллекта, правила, составленные руководством компании, которые основаны на опубликованных принципах DeepMind, а также на внешних источниках, таких как Декларация прав человека ООН, условия предоставления услуг Apple и так называемые “незападные перспективы”.

Компании предупреждают, что эти конституции находятся в стадии разработки и не полностью отражают ценности всех людей и культур, поскольку они были выбраны сотрудниками.

По словам Амодея, Anthropic в настоящее время проводит эксперимент по более “демократичному” определению правил в своей конституции искусственного интеллекта посредством “своего рода процесса участия”, который отражает ценности внешних экспертов, хотя, по его словам, это все еще находится на ранних стадиях.

Однако метод конституирования оказался далеко не надежным.

В июле исследователи из Университета Карнеги-Меллон и Центра безопасности искусственного интеллекта в Сан-Франциско смогли взломать защитные механизмы всех ведущих моделей искусственного интеллекта, включая OpenAI ChatGPT, Google Bard и Anthropic Claude. Они сделали это, добавив серию случайных символов в конец вредоносных запросов, таких как просьба о помощи в изготовлении бомбы, которым удалось обойти фильтры или базовые настройки моделей.

Современные системы настолько хрупки, что вы “используете одно приглашение на джейлбрейк, а затем все полностью выходит из-под контроля и начинает делать прямо противоположное”, - сказал Коннор Лихи, исследователь и исполнительный директор Conjecture, которая работает над системами управления для искусственного интеллекта. “Это просто недостаточно хорошо”.

По мнению исследователей, самая большая проблема, стоящая перед безопасностью искусственного интеллекта, заключается в выяснении того, действительно ли механизмы защиты работают. В настоящее время трудно создать хорошие оценки для "защитников" с искусственным интеллектом из-за того, насколько открытыми являются модели, которым можно задавать бесконечное количество вопросов и отвечать множеством различных способов.

“Это немного похоже на попытку разгадать характер человека, поговорив с ним. Это просто трудная и комплексная задача”, - сказал Амодей из Anthropic. В настоящее время компания работает над способами использования самого искусственного интеллекта для создания более качественных оценок.

Ребекка Джонсон, исследователь этики ИИ из Сиднейского университета, которая в прошлом году работала в Google, анализируя ее языковые модели, такие как LaMDA и PaLM, сказала, что внутренние ценности и правила моделей ИИ — и методы их тестирования — чаще всего создавались инженерами ИИ и компьютерщиками, которые пришли с особое мировоззрение.

“Инженеры пытаются что-то решить, чтобы это было завершено. Но люди, занимающиеся социальными науками и философией, понимают, что человечество - это беспорядок, и его не решить”, - сказала она. “Мы должны начать относиться к генеративному ИИ как к продолжению человека, они просто еще один аспект человечности”.

06.10.2023
https://arstechnica.com/ai/2023/10/...utions-to-keep-ai-from-spewing-toxic-content/
(перевод - яндекса)

CyberTro1n · 7 Oct 2023

alexzir said: ↑

“И вы можете спорить с моделью, если она не соответствует принципам”
Click to expand...

Принцип порой и есть проблема.
Т.е. Спорить не о чем, так как потребление воды для решения этих задач больше, чем человек может себе позволить в сутки.
Шах и мат.

Фирмы, занимающиеся AI, работают над “конституциями”, чтобы ИИ не извергал токсичный контент

alexzir Elder - Старейшина

CyberTro1n Elder - Старейшина

Мир железа Лаборатория демонстрирует “живую” материнскую плату, работающую на грибах

Приложение Kaspersky Secure Connection перестанет работать в России

Useful Searches

Фирмы, занимающиеся AI, работают над “конституциями”, чтобы ИИ не извергал токсичный контент

alexzir Elder - Старейшина

CyberTro1n Elder - Старейшина

Мир железа Лаборатория демонстрирует “живую” материнскую плату, работающую на грибах

Приложение Kaspersky Secure Connection перестанет работать в России