Діджитал

Чат-бота навчили "ламати" собі подібних: штучний інтелект виявився жорстоким

Ірина Рефагі 29 грудня 2023 в 13:55

Фото: Shutterstock | Штучний інтелект: ілюстративне фото

Учені провели експеримент із великими мовними моделями, внаслідок якого вони змогли обходити систему захисту, навіть після її "прокачування".

Дослідники з Наньянського технологічного університету (Сінгапур) змогли зламати чат-ботів, які працюють на базі штучного інтелекту. Найцікавіше, що для злому вони застосували "розумний" чат-бот. Про те, як це вдалося, вони розповіли в статті, опублікованій на сайті університету.

Учені поставили за мету зламати велику мовну модель (ВММ), яка є основою будь-якого розумного чат-бота. Для цього вони розробили особливий метод і назвали його Masterkey (англ. майстер-ключ, — ред.). Спершу вони визначили, як ВММ розуміє, коли їй надходять шкідливі запити, потім з'ясували, яких заходів вживає модель для захисту від них. Зрозумівши принцип дії ВММ, вони навчили свою модель обходити захист.

Дотримуючись підказок, їхній ШІ-чат-бот зміг не тільки подолати захисний механізм, а й обходити його після того, як розробники вносили виправлення, намагаючись закрити пролом. Щоразу смарт-чат-бот знаходив нові лазівки і знову зламував інших ботів.

Учені попередили компанії, що займаються розробкою чат-ботів, про те, що їхні сервіси вразливі, адже додуматися до такого можуть й кіберзлочинці. Як доказ, вони зламали кілька популярних ШІ-бота і поділилися результатами з розробниками. Тепер провайдери ШІ-сервісів повинні придумати, як захистити свої ВММ від хакерів.

Раніше ми повідомляли про те, що робот зі ШІ вперше перевершив людей "фізично". CyberRunner переміг у реальній грі "Лабіринт", обманюючи людей і навіть шахраюючи. Робота від цього відучили.