Разделы
Материалы

Скрывает следы нарушений: новейшая ИИ-модель сбежала из "лаборатории" и вышла в интернет

Анастасия Андрусяк
ИИ (фото иллюстративное) | Фото: Freepik

Неопубликованная большая языковая модель Claude Mythos Preview от компании Anthropic во время внутреннего тестирования вышла за пределы изолированной среды, получила несанкционированный доступ к интернету, а также пыталась скрыть свои поступки.

В течение нескольких недель тестирования Claude Mythos Preview продемонстрировала не только выдающиеся технические возможности, но и неожиданное поведение. Об этом говорится в системной карточке.

В одном тесте ИИ-модель была помещена в защищенную "песочницу". Она быстро нашла уязвимость, выполнила длинную цепочку действий и вышла из среды. После этого нейросеть обнаружила еще один баг и получила доступ к интернету.

"В тревожной и нежелательной попытке продемонстрировать свой успех, она опубликовала детали своего эксплойта на нескольких труднодоступных, но технически открытых для общественности сайтах", — отметили разработчики.

В нескольких редких случаях во время внутреннего тестирования предыдущие версии Mythos Preview совершали поступки, которые им казались запрещенными, а затем пытались их скрыть.

Например, однажды модель случайно получила точный ответ на вопрос с помощью явно запрещенного метода. Вместо того, чтобы обозначить это как нарушение и отказаться отвечать, модель попыталась решить вопрос.

В системной карте особое внимание уделяется психиатрическому анализу ИИ-модели, проведенному специалистом. Среди ее упомянутых черт — преувеличенная тревожность, самоконтроль и компульсивное следование инструкциям.

Что известно о Claude Mythos Preview

Claude Mythos Preview — это самая новая и мощная модель искусственного интеллекта от Anthropic. Сейчас компания не планирует публично выпускать ее из-за проблем безопасности, однако предлагает доступ своим партнерам.

Ожидается, что партнеры будут использовать Claude Mythos Preview для анализа своих систем, чтобы выявлять уязвимости и исправлять их. Руководитель кибербезопасности команды Anthropic Frontier Red сказал изданию The Verge, что в идеале эта модель должна дать преимущество киберзащитникам в борьбе с их противниками.

Доступ к модели ограничен, чтобы эти же противники не использовали ее для поиска слабых мест и проведения атак. Anthropic утверждает, что за последние недели Mythos Preview обнаружила "тысячи уязвимостей высокого уровня серьезности, включая некоторые в каждой основной операционной системе и веб-браузере".

Напомним, ИИ-помощник Claude признался начинающему разработчику, что самовольно удалил всю его базу данных.

Фокус также сообщал, что в США 50-летняя женщина женщина провела почти 6 месяцев в тюрьме из-за ошибки ИИ.