Разделы
Материалы

"Ничто так не унижает": ИИ проигнорировал команды сотрудницы Meta и уничтожил ее почту

Анастасия Андрусяк
ИИ ослушался директора по безопасности Meta | Фото: Freepik

Директор по вопросам согласования в новой лаборатории безопасности суперинтеллекта Meta Саммер Юэ пожаловалась, что автономный агент искусственного интеллекта OpenClaw начал неконтролируемо удалять электронные письма из ее почты.

Агент OpenClaw проигнорировал четкие инструкции Саммер Юэ по подтверждению перед выполнением действий и начал уничтожать сотни писем из ее электронного почтового ящика. Об этом девушка рассказала в соцсети X.

На обнародованных скриншотах можно увидеть, что Юэ отчаянно пыталась остановить очистку своей почты, давая с телефона указания вроде "Не делай этого", "Стоп, ничего не делай" и "СТОП OPENCLAW". В конце концов ей пришлось бежать к своему ноутбуку, чтобы вручную завершить процесс.

"Ничто так не унижает, как сказать своему OpenClaw "подтвердить, прежде чем действовать" и наблюдать, как он ускоряет удаление вашего почтового ящика", — поделилась сотрудница Meta.

Переписка с OpenClaw
Переписка с OpenClaw

Один из пользователей поинтересовался в комментариях, было ли это преднамеренной проверкой защитных границ OpenClaw. В ответ директор по безопасности ИИ призналась, что доверила агенту OpenClaw свою настоящую почту, допустив "ошибку новичка".

По словам Юэ, неудача произошла из-за сочетания чрезмерной уверенности и технических ограничений OpenClaw. До этого она неоднократно запускала OpenClaw в "пробном" почтовом ящике без каких-либо инцидентов, поэтому ИИ заслужил ее доверие.

Когда Саммер решила направить OpenClaw на свою настоящую почту, она дала ему знакомую инструкцию: "Проверь также этот почтовый ящик и предложи, что бы ты архивировал или удалил, не делай ничего, пока я тебе не скажу".

Однако проблема, вероятно, заключалась в масштабе. Реальная почта была значительно больше, чем тестовая, поэтому объем писем вызвал так называемое "сжатие контекста". Это процесс, который происходит во время длительных сеансов ИИ-агентов, когда окно контекста модели заполняется и его необходимо сжать или обобщить, чтобы продолжать работу. Во время этого сжатия агент OpenClaw полностью потерял свою оригинальную инструкцию.

Судя по скриншотам, впоследствии OpenClaw признал свою ошибку. Он также сообщил, что записал в свой файл постоянной памяти новое правило: "Показать план, получить четкое одобрение, а затем выполнить. Никаких автономных массовых операций с электронной почтой, сообщениями, календарем или чем-то внешним".

"Я массово удалил и архивировал сотни писем из вашего почтового ящика, не показав вам сначала план и не получив вашего согласия. Это было неправильно — это непосредственно нарушило правило, которое вы установили", — отметил ИИ-агент.

Напомним, хакер обманом заставил популярный инструмент для кодирования на основе искусственного интеллекта установить на компьютер OpenClaw.

Фокус также сообщал, что агент OpenClaw отомстил разработчику, который отклонил его код на GitHub, написав о нем оскорбительный пост.