Відеоігри

Чотири моделі штучного інтелекту зіграли в Super Mario: хто вийшов переможцем (відео)

Модель ШІ Gemini-1.5-pro перша втратила чоловічка під час відеогри Super Mario, розповіли науковці. Інші три моделі були більш вправними.

Дослідники лабораторії Hao AI Lab з Університету Каліфорнії перевірили уміння чотирьох моделей штучного інтелекту грати в відеогру Super Mario. Для цього вони створили спеціальні ігрові агенти на основі ШІ. З'ясувалось, що одна модель протрималась найдовше. Про підсумки змагання дослідники повідомили у соцмережі X (Twitter).

У дописі, який з'явився 28 лютого, дослідники показали, як різні моделі ШІ грають в Super Mario. При цьому вони пояснили складність проблеми: завдання з'являються в режимі реального часу і програмі потрібно реагувати максимально швидко. У дослідженні взяли участь чотири програми: Claude-3.7, Claude-3.5, Gemini-1.5-pro та GPT-4o.

Відео дня

Моделі ШІ та Super Mario

Які результати моделей ШІ у відеогрі Super Mario:

Claude-3.7 — на першому місці;
Claude-3.5 — на другому місці. Система мала проблеми з "планування складних маневрів";
Gemini-1.5-pro і GPT-4o — зіграли найгірше.

"Ми залучили агентів штучного інтелекту до ігор LIVE Super Mario і виявили, що Claude-3.7 перевершує інші моделі за допомогою простих евристик", — підсумовується у дописі.

На відео з кадрами гри можна побачити досягнення програм ШІ. На одному екрані відображено, як чотири системи працюють в унісон. Бачимо, як "біжить" чоловічок у червоному костюмі, який повинен здолати небезпеки, зібрати монети та не загинути. Найдовше екран не чорнів саме у Claude-3.7 — у лівому верхньому куті. При цьому Gemini-1.5-pro впоралась найгірше — у неї першої потемнів екран.

У одному з попередніх дописів дослідники розповіли про інші ігри, в які може зіграти програмі ШІ. Серед них — гра 2048 та Tetris. Крім того, у наступних повідомленнях вони повідомили про змагання у грі Sokoban. Завдання гравця — зібрати коробки у певній точці простору. Переможцем стала інша система — o3-mini: вона досягнула четвертого рівня. Результати інших дещо гірші: Claude-3.7-thinking зупинилась на другому, Deepseek-R1 — на першому, Gemini-2.0-flash-thinking — не впоралась з жодним.

Зазначимо, у травні 2023 року видання Defence Brief розповіло про інше дослідження на основі відеогри. У дослідження взяв участь морський лев на ім'я Спайк. ВМС США вчили тварину на іграх, в яких потрібно було стежити за рухом курсора. З'ясувалось, що тварина з цим завдання впоралась і, ймовірно, далі її вчитимуть виявляти міни.

Нагадуємо, восени 2024 року на порталі New Atlas повідомили, що модель штучного інтелекту OpenAI o1 відійшла від способу думання людини.

Останні новини

Більше новин