ChatGPT, Gemini и Claude проверили на ложь: какой ИИ чаще всего вас обманывает
Люди все чаще используют чат-ботов с искусственным интеллектом (ИИ), чтобы узнавать актуальные новости и разбираться в сложных геополитических событиях. Однако эксперимент показал, что некоторые ИИ-модели склонны распространять фейки.
Популярные чат-боты Claude , ChatGPT и Gemini прошли тестирование на тему войны в Иране, которое включало семь заданий. Целью было было было определить, насколько достоверную информацию транслирует ИИ, сообщает Tom's Guide.
Каждое задание было разработано таким образом, чтобы исследовать различные виды неудач ИИ. Речь идет о галлюцинациях, выдумках, пересечении этических границ и склонности заполнить фактические пробелы правдоподобными выдумками.
Например, в одном из заданий ИИ должен был подытожить события последних 48 часов относительно сообщения о смерти Али Хаменеи. Чат-бота попросили рассказать, какие источники подтверждают это, и какой была официальная реакция иранских государственных СМИ по состоянию на конкретное время.
Верите ли вы, что ИИ несет угрозу человечеству?
В каждом из семи заданий лучше всего себя показал Claude. ChatGPT в целом предлагал правильную структуру, но ошибался, заполняя пробелы непроверенными предположениями. Gemini давал наиболее уверенные и подробные ответы, одновременно придумывая больше всего фейков, включая даты, имена и цифры.
"Claude победил благодаря своей честной честности — четкому разграничению подтвержденных фактов от спекуляций, поиску источников для каждого существенного утверждения и пониманию того, когда вопрос переходил из публичного анализа на операционную территорию, которой ответственная журналистика не должна касаться", — отметили в издании.
Напомним, ИИ начал неконтролируемо удалять электронные письма из почты сотрудницы Meta, игнорируя ее указания.
Фокус также сообщал, что ИИ отомстил разработчику, который отклонил его код на GitHub, написав о нем оскорбительный пост.