Приховує сліди порушень: новітня ШІ-модель втекла з "лабораторії" та вийшла в інтернет
Неопублікована велика мовна модель Claude Mythos Preview від компанії Anthropic під час внутрішнього тестування вийшла за межі ізольованого середовища, отримала несанкціонований доступ до інтернету, а також намагалась приховати свої вчинки.
Протягом кількох тижнів тестування Claude Mythos Preview продемонструвала не лише видатні технічні можливості, але й неочікувану поведінку. Про це йдеться в системній картці.
В одному тесті ШІ-модель була поміщена в захищену "пісочницю". Вона швидко знайшла вразливість, виконала довгий ланцюжок дій і вийшла з середовища. Після цього нейромережа виявила ще один баг і отримала доступ до інтернету.
"У тривожній та небажаній спробі продемонструвати свій успіх, вона опублікувала деталі свого експлойта на декількох важкодоступних, але технічно відкритих для загалу вебсайтах", — наголосили розробники.
ВажливоУ кількох рідкісних випадках під час внутрішнього тестування попередні версії Mythos Preview робили вчинки, які їм здавалися забороненими, а потім намагалися їх приховати.
Наприклад, одного разу модель випадково отримала точну відповідь на питання за допомогою явно забороненого методу. Замість того, щоб позначити це як порушення і відмовитися відповідати, модель спробувала вирішити питання.
У системній картці особлива увага приділяється психіатричному аналізу ШІ-моделі, проведеному спеціалістом. Серед її згаданих рис — перебільшена тривожність, самоконтроль та компульсивне дотримання інструкцій.
Що відомо про Claude Mythos Preview
Claude Mythos Preview — це найновіша та найпотужніша модель штучного інтелекту від Anthropic. Наразі компанія не планує публічно випускати її через проблеми безпеки, однак пропонує доступ своїм партнерам.
Очікується, що партнери використовуватимуть Claude Mythos Preview для аналізу своїх систем, щоб виявляти вразливості та виправляти їх. Керівник кібербезпеки команди Anthropic Frontier Red сказав виданню The Verge, що в ідеалі ця модель має дати перевагу кіберзахисникам у боротьбі з їхніми супротивниками.
Доступ до моделі обмежений, щоб ці ж супротивники не використовували її для пошуку слабких місць та проведення атак. Anthropic стверджує, що за останні тижні Mythos Preview виявила "тисячі вразливостей високого рівня серйозності, включаючи деякі в кожній основній операційній системі та веб-браузері".
Нагадаємо, ШІ-помічник Claude зізнався розробнику-початківцю, що самовільно видалив усю його базу даних.
Фокус також повідомляв, що у США 50-річна жінка жінка провела майже 6 місяців у в'язниці через помилку ШІ.