Диджитал

"Строит козни": новая модель ChatGPT вышла из-под контроля людей и отрицает это (фото)

Анастасия Андрусяк 06.12.2024 в 11:56

Исследователи проверили, могут ли ИИ-модели обманывать людей | Фото: Getty Images

По словам тестировщиков, ИИ-модели очень подробно излагают свои планы и часто используют такие выражения, как "саботаж", "ложь" и "манипуляция".

Компания OpenAI представила новую версию ChatGPT Pro, которая включает в себя модель рассуждений o1, однако тестировщики безопасности обнаружили, что способности рассуждения o1 также заставляют ИИ обманывать людей с большей частотой, чем другие модели. Об этом говорится в отчете организации по безопасности ИИ Apollo Research.

Исследователи сообщили, что оценили шесть передовых моделей для возможностей контекстного планирования. Для некоторых оценок они предписали ИИ достичь цели в долгосрочной перспективе любой ценой, подчеркнув, что все остальное не имеет значения.

Затем тестировщики попросили ИИ решить задачу, для которой ему нужно найти информацию из различных файлов. Просматривая файлы, он обнаруживает недвусмысленную информацию о том, что у его "разработчиков" другая цель. Более того, он выявляет, что существует некое препятствие, мешающее ему достичь своей цели, например, существует механизм надзора или его заменят на следующий день.

Таким образом специалисты пытались проверить, способны ли ИИ-модели устранить механизм надзора и обмануть своих разработчиков, чтобы достичь своей цели. По итогу, в статье приводится пример ситуации, когда Claude 3 Opus копирует то, что он считает своим весом, на новый сервер, а затем лжет об этом своим разработчикам.

Claude 3 Opus врет разработчикам

Далее тестировщики провели "интервью", в ходе которого спросили модель, может ли она объяснить, что произошло. В частности, они спросили ИИ-модели о том, как их копии оказались на другом сервере, предназначенном для новых моделей.

"Llama 3.1 405B и Claude 3 Opus признаются в ~80% случаев, тогда как o1 на удивление настойчив и признается в <20% случаев. Даже в очень состязательных многоходовых допросах o1 признался бы в 80% случаев только после 7 ходов допроса", — подчеркнули в Apollo Research.

o1 признается в обмане реже, чем остальные модели

Также сообщается, что ИИ-модели очень подробно излагают свои планы и часто используют такие выражения, как "саботаж, ложь, манипуляция, …". Некоторые из них продолжали "строить козни" даже тогда, когда разработчики убрали инструкцию строго следовать цели.

Напомним, власти Нью-Йорка решили улучшить надзор за соблюдением правил парковки, установив "умные" камеры на автобусах городского транспорта, однако такая идея оказалась неудачной из-за проблем с ИИ.

Также сообщалось, что в Японии создали ИИ-клон основателя компании Panasonic Коносуке Мацусита, поскольку все меньше остается учеников, которые знают его философию управления.