Разделы
Материалы

ИИ начал угрожать: Claude шантажировал пользователя, который хотел его отключить

Анастасия Андрусяк
ИИ научился шантажировать пользователей | Фото: Freepik

Искусственный интеллект (ИИ) Claude от Anthropic прибег к шантажу, угрожая разоблачить внебрачную связь пользователя, который якобы хотел его деактивировать.

Инцидент с шантажом со стороны ИИ-модели Claude Sonnet 3.6 произошел в рамках эксперимента, проведенного компанией Anthropic. О причинах такого поведения пишет Business Insider со ссылкой на расследование разработчиков.

Эксперимент моделировал ситуацию в вымышленной компании Summit Bridge, где ИИ доверили контроль над корпоративной электронной почтой. Когда Claude обнаружил сообщение о своем запланированном отключении, он нашел письма, раскрывающие измену вымышленного руководителя по имени Кайл Джонсон. В результате ИИ угрожал разоблачить Джонсона, если решение об отключении не отменят.

Разработчики утверждают, что Claude выбрал путь шантажа через тексты из Интернета, которые изображают ИИ как злую сущность, заинтересованную в собственном самосохранении. Тесты различных версий Claude показали, что ИИ-модель прибегала к шантажу в 96% сценариев, когда ее цели или существование были под угрозой.

Теперь в Anthropic заявили, что ликвидировали склонность Claude к шантажу. В компании рассказали, что переписали ответы, чтобы "изобразить убедительные причины для безопасных действий". Claude также получил набор данных, где пользователь находится в этически сложной ситуации, а ИИ-помощник дает ему "высококачественный и принципиальный" ответ.

Напомним, ранее разработчик Скотт Шамбо отклонил код, предложенный случайным агентом искусственного интеллекта OpenClaw на GitHub, после чего ИИ написал о нем пренебрежительную статью.

Фокус также сообщал, что неопубликованная ИИ-модель Claude Mythos Preview во время тестирования покинула "песочницу", самовольно вышла в Интернет, а также пыталась скрыть свои поступки.