Диджитал

Чат-бота научили "ломать" себе подобных: искусственный интеллект оказался жестоким

Ирина Рефаги 29.12.2023 в 13:55

Искусственный интеллект: иллюстративное фото | Фото: Shutterstock

Ученые провели эксперимент с большими языковыми моделями, в результате которого они смогли обходить систему защиты, даже после ее "прокачки".

Исследователи из Наньянского технологического университета (Сингапур) смогли взломать чат-ботов, работающих на базе с искусственного интеллекта. Самое интересное, что для взлома они применили "умный" чат-бот. О том, как это удалось, они рассказали в статье, опубликованной на сайте университета.

Ученые поставили цель взломать большую языковую модель (БЯМ), которая является основой любого умного чат-бота. Для этого они разработали особый метод и название его Masterkey (англ. мастер-ключ, — ред.). Сперва они определили, каким образом БЯМ понимает, когда ей поступают вредоносные запросы, затем выяснили, какие меры предпринимает модель для защиты от них. Поняв принцип действия БЯМ, они научили свою модель обходить защиту.

Следуя подсказкам, их ИИ-чат-бот смогла не только преодолеть защитный механизм, но и обходить его после того, как разработчики вносили исправления, пытаясь закрыть брешь. Каждый раз смарт-чат-бот находил новые лазейки и снова взламывал других ботов.

Ученые предупредили компании, занимающиеся разработкой чат-ботов, о том, что их сервисы уязвимы, ведь додуматься до такого могут и киберпреступники. В качестве доказательства, они взломали несколько популярных ИИ-бота и поделились результатами с разработчиками. Теперь провайдеры ИИ-сервисов должны придумать, как защитить свои БЯМ от хакеров.

Ранее мы сообщали о том, что робот с ИИ впервые превзошел людей "физически". CyberRunner победил в реальной игре "Лабиринт", обманывая людей и даже жульничая. Робота от этого отучили.