Разработчики не только заставили чат-бота вести себя злонамеренно, но также обнаружили, что избавиться от такого поведения потом очень сложно.
Ученые определили, что модели искусственного интеллекта можно научить обманывать людей, вместо того, чтобы давать правильные ответы на их вопросы. Нейросети оказались весьма способными в этом деле, передает РСmag.
Все началось с того, что в сентябре 2023 года компания Amazon инвестировала в стартап Anthropic около 4 млрд долларов США, сделав ее частичным владельцем. Anthropic работает в области искусственного интеллекта (ИИ) и ориентируется на ответственное и безопасное использование нейросетей.
Недавно исследователи из Anthropic определили, что ИИ можно научить не только вежливо и правдиво коммуницировать с людьми, но и обманывать их. Более того, нейросети смогли выполнять такие действия, как внедрение эксплойта в компьютерный код, что, по сути, является хакерской атакой. ИИ обучили как желаемому поведению, так и обману, встроив в него триггерные фразы, которые побуждали бота вести себя плохо.
Разработчикам не только удалось заставить ботов вести себя злонамеренно, но они также обнаружили, что устранить такие паттерны поведения постфактум весьма сложно. Чтобы исправить ситуацию, команда испробовала метод состязательного обучения. Во время учебы и тестирования чат-бот вел себя, как паинька, но после все равно продолжил обманывать людей.
"Мы не пытались оценить потенциальные угрозы со стороны ИИ, однако продемонстрировали последствия, — говорится в исследовании. — Если нейросеть способна демонстрировать обман и жульничество, то мы не уверены, что ее можно считать безопасной и даже методы обучения ИИ технике безопасности не смогут ее гарантировать".
Авторы исследования отмечают, что можно получить значительную информацию, просто изучив, чему могут научиться большие языковые модели. Они также отметили, что им ничего не известно о том, способна ли какая-либо из ныне существующей систем искусственного интеллекта обманывать, или нет.
Ранее мы писали о том, что искусственный интеллект научился имитировать почерк человека. Как утверждают создатели новой технологии, потенциал функции по имитации почерка человека огромен — от расшифровки почерка врачей до создания персонализированной рекламы.