Розробники не тільки змусили чат-бота поводитися зловмисно, але також виявили, що позбутися такої поведінки потім дуже складно.
Вчені визначили, що моделі штучного інтелекту можна навчити обманювати людей, замість того, щоб давати правильні відповіді на їхні запитання. Нейромережі виявилися вельми здібними в цій справі, передає РСmag.
Усе почалося з того, що у вересні 2023 року компанія Amazon інвестувала в стартап Anthropic близько 4 млрд доларів США, зробивши її частковим власником. Anthropic працює в галузі штучного інтелекту (ШІ) й орієнтується на відповідальне та безпечне використання нейромереж.
Нещодавно дослідники з Anthropic визначили, що ШІ можна навчити не тільки ввічливо і правдиво комунікувати з людьми, а й обманювати їх. Ба більше, нейромережі змогли виконувати такі дії, як впровадження експлойта в комп'ютерний код, що, по суті, є хакерською атакою. ШІ навчили як бажаної поведінки, так і обману, вмонтувавши в нього тригерні фрази, які спонукали бота поводитися погано.
Розробникам не тільки вдалося змусити ботів поводитися зловмисно, але вони також виявили, що усунути такі патерни поведінки постфактум вельми складно. Щоб виправити ситуацію, команда випробувала метод змагального навчання. Під час навчання і тестування чат-бот поводився, як паїнька, але після все одно продовжив обманювати людей.
"Ми не намагалися оцінити потенційні загрози з боку ШІ, проте продемонстрували наслідки, — йдеться в дослідженні. — Якщо нейромережа здатна демонструвати обман і шахрайство, то ми не впевнені, що її можна вважати безпечною, і навіть методи навчання ШІ техніки безпеки не зможуть її гарантувати".
Автори дослідження зазначають, що можна отримати значну інформацію, просто вивчивши, чого можуть навчитися великі мовні моделі. Вони також зазначили, що їм нічого не відомо про те, чи здатна будь-яка з нині існуючих систем штучного інтелекту обманювати, чи ні.
Раніше ми писали про те, що штучний інтелект навчився імітувати почерк людини. Як стверджують творці нової технології, потенціал функції з імітації почерку людини величезний — від розшифровки почерку лікарів до створення персоналізованої реклами.