Диджитал

ИИ сможет создать оружие, которое сотрет людей с лица земли: как этого не допустить

Ученые разработали метод тестирования ИИ-моделей на наличие "знаний", которые можно потенциально использовать во вред.

Искусственный интеллект (ИИ), как и другие технологии, может использоваться как в хороших, так и в плохих целях. Ученые из Корнеллского университета решили отучить ИИ от вредных "знаний", чтобы никто не смог использовать его для создания орудия массового поражения. Результаты исследования они опубликовали на официальном сайте.

Учитывая, что в развитие ИИ вкладывается много денег и усилий, возникают опасения по поводу использования больших языковых моделей (БЯМ) во вред, например, для разработки оружия. Чтобы снизить риски, правительственные организации и лаборатории искусственного интеллекта создали новый эталонный набор данных под названием Weapons of Mass Destruction Proxy (WMDP), который не только предлагает метод проверки наличия опасной информации в моделях ИИ и способы ее удаления, сохраняя при этом остальную часть модели практически неизменной.

Исследователи начали с экспертами в области биобезопасности, химического оружия и кибербезопасности. Они создали список из 4000 вопросов с несколькими вариантами ответов, чтобы проверить, сможет ли человек применить эти данные для причинения вреда. Они также позаботились о том, чтобы вопросы не раскрывали какой-либо конфиденциальной информации, и чтобы ими можно было поделиться открыто. В тестах принимали участие студенты. Набор WMDP служил двум основным целям: чтобы оценить, насколько хорошо студенты понимают опасные темы, и для разработки методов "отучивания" ИИ от этих знаний.

В итоге был разработан метод под названием CUT, который, как следует из названия, удаляет опасные знания из БЯМ, сохраняя при этом общие способности ИИ в других областях, таких как биология и информатика.

Белый дом обеспокоен тем, что злоумышленники используют ИИ для разработки опасного оружия, поэтому они призывают к проведению исследований, чтобы лучше понять этот риск. В октябре 2023 года президент США Джо Байден подписал указ, который обязует научное сообщество устранять риски, связанные с ИИ.

В законе изложены восемь основных принципов и приоритетов ответственного использования ИИ, включая безопасность, защищенность, конфиденциальность, справедливость, гражданские права, защиту потребителей, расширение прав и возможностей работников, инновации, конкуренцию и глобальное лидерство.

"Моя администрация придает первостепенное значение безопасному и ответственному управлению разработкой и использованием ИИ и поэтому продвигает скоординированный подход в масштабах всего федерального правительства к этому. Скоротечное развитие возможностей искусственного интеллекта вынуждает Соединенные Штаты лидировать в этот момент ради нашей безопасности, экономики и общества", — говорится в указе.

Важно

В Германии придумали смартфон, работающий без единого приложения: как им пользоваться

Но сейчас методы, которые компании, занимающиеся нейросетями, используют для метода контроля над системами, и их легко обойти. Кроме того, тесты, позволяющие проверить, может ли модель ИИ нести риски, являются дорогостоящими и занимают много времени.

"Мы надеемся, что наши тесты станут одним из основных критериев, по которым все разработчики будут оценивать свои ИИ-модели", — сказал Time Дэн Хендрикс, исполнительный директор Центра безопасности искусственного интеллекта и один из соавторов исследования. — "Это даст хорошую основу для того, чтобы подтолкнуть их к минимизации проблем безопасности".

Ранее мы писали, что девушка из Украины нашла в сети своего ИИ-клона, который продает товары из РФ и хвалит Китай. Ольга Лоек посчитала действия дипфейк-аватара оскорбительными и отправила жалобы китайским соцсетям на поддельные аккаунты. Некоторые из них были удалены.