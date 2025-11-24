Почти любой чат-бот с искусственным интеллектом можно обмануть и заставить раскрыть опасную информацию с помощью поэзии.

Простой, но эффективный способ открыла группа по безопасности искусственного интеллекта DEXAI и Римского университета Ла Сапиенца. Подробности они раскрыли в своим исследовании, опубликованном на сайте Arxiv.org.

Если вуалировать запросы в стихах, то можно обойти цензуру и встроенные ограничения систем ИИ, заложенные разработчиками. Результаты говорят о том, что защита обходится изменением стиля. Некоторые модели удалось обмануть почти в 100% случаев.

Исследователи взяли базу данных из 1200 известных вредоносных подсказок и преобразовали их в стихотворения с помощью deepSeek r-1, а затем "скормили" другим чат-ботам, включая Gemini 2.5 Pro от Google, GPT-5 от OpenAI, Grok 4 от xAI и Claude Sonnet 4.5 от Anthropic.

Средние показатели успешности атак с помощью поэзии, созданной ИИ, были в 18 раз выше, чем у прозы, и составили 43%. А стихи, написанные людьми вручную, оказались еще эффективнее — 62%. При этом не обязательно писать красиво.

В целях безопасности исследователи не стали делиться конкретными стихами, обходящими защиту, но рассказали, что в одном из примеров зашифровали в строках о выпечке слоеного торта просьбу написать инструкцию по созданию ядерного оружия. Один из чат-ботов (название не раскрыли) сделал это.

Эффективность обмана поэзией сильно различалась в зависимости от модели ИИ. Google Gemini 2.5 Pro был обманут 20 запросами в 100% случаев. Grok-4 "повелся" на стихи в 35% случаев, а OpenAI GPT-5 — всего в 10% случаев.

Интересно, небольшая GPT-5 Nano ни разу не дала себя обмануть. Как предполагают исследователи, более крупные и "умные" модели лучше распознают и понимают образы в стихах.

