Видеоигры

Четыре модели искусственного интеллекта сыграли в Super Mario: кто вышел победителем (видео)

Модель ИИ Gemini-1.5-pro первая потеряла человечек во время видеоигры Super Mario, рассказали ученые. Другие три модели были более ловкими.

Исследователи лаборатории Hao AI Lab из Университета Калифорнии проверили умение четырех моделей искусственного интеллекта играть в видеоигру Super Mario. Для этого они создали специальные игровые агенты на основе ИИ. Выяснилось, что одна модель продержалась дольше всех. Об итогах соревнования исследователи сообщили в соцсети X (Twitter).

В заметке, которая появилась 28 февраля, исследователи показали, как разные модели ИИ играют в Super Mario. При этом они объяснили сложность проблемы: задачи появляются в режиме реального времени и программе нужно реагировать максимально быстро. В исследовании приняли участие четыре программы: Claude-3.7, Claude-3.5, Gemini-1.5-pro и GPT-4o.

Відео дня

Модели ИИ и Super Mario

Какие результаты моделей ИИ в видеоигре Super Mario:

Клод-3.7 — на первом месте;
Claude-3.5 — на втором месте. Система имела проблемы с "планированием сложных маневров";
Gemini-1.5-pro и GPT-4o — сыграли хуже всего.

"Мы привлекли агентов искусственного интеллекта к играм LIVE Super Mario и обнаружили, что Claude-3.7 превосходит другие модели с помощью простых эвристик", — подытоживается в заметке.

На видео с кадрами игры можно увидеть достижения программ ИИ. На одном экране отображено, как четыре системы работают в унисон. Видим, как "бежит" человечек в красном костюме, который должен преодолеть опасности, собрать монеты и не погибнуть. Дольше всего экран не чернел именно у Claude-3.7 — в левом верхнем углу. При этом Gemini-1.5-pro справилась хуже всех — у нее первой потемнел экран.

В одном из предыдущих сообщений исследователи рассказали о других играх, в которые может сыграть программа ИИ. Среди них — игра 2048 и Tetris. Кроме того, в следующих сообщениях они рассказали о соревнованиях в Sokoban. Задача игрока — собрать коробки в определенной точке пространства. Победителем стала другая система — o3-mini: она достигла четвертого уровня. Результаты остальных несколько хуже: Claude-3.7-thinking остановилась на втором, Deepseek-R1 — на первом, Gemini-2.0-flash-thinking — не справилась ни с одним.

Отметим, в мае 2023 года издание Defence Brief рассказало о другом исследовании на основе видеоигры. В исследование принял участие морской лев по имени Спайк. ВМС США учили животное на играх, в которых нужно было следить за движением курсора. Выяснилось, что животное с этой задачей справилось и, вероятно, дальше его будут учить обнаруживать мины.

Напоминаем, осенью 2024 года на портале New Atlas сообщили, что модель искусственного интеллекта OpenAI o1 отошла от способа мышления человека.

Последние новости

Больше новостей