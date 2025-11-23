Новый король искусственного интеллекта, и все и сразу от Google.

Насколько как-то жалко выглядел Google в 2023, пытаясь хотя бы догнать OpenAI в технологии, которые Гугл же и придумал. Настолько же сильно и системно они продвигаются в 2025.

Причем интересен и сдвиг в подаче, в маркетинге продуктов. Много лет Гугл последовательно все подавал в ужасно какой-то серой корпоративной стилистике. Со сцены, с длинными речами, в строгих костюмчиках. Если это какой-то помощник, его обязательно должны были назвать "Гугл Ассистент" и никак иначе.

Сейчас подают значительно веселее, тоже, видно, ОпенАИ повлиял. С юмором, с прикольными названиями, симпатично и молодежно.

Так к сути.

Главное — выдали наконец "Гемини 3 Про", их новую флагманскую модель. Уже несколько раз писал, что уже маячит в тестах и под разными названиями скрывается, то вот наконец ее дождались для всех.

И да, модель выглядит очень сильной, в ряде характеристик даже прорывной.

И да, она доступна для всех — можете даже бесплатно ее протестировать.

1. Огромный скачок способностей по тесту ARC-AGI-2. Тест специально создан для тестирования решения "творческих" out-of-distribution задач. То есть задач, ответы на которые модель не могла выучить в ходе обучения, новых задач. В этом тесте она набирает 31.1%, это по сравнению с 4.9% предыдущей "Гемини 2.5". Это реально прорыв. И почти х2 лучший результат, чем "ГПТ 5.1" (17.6%), чем "Грок 4" (16%).

И набирает аж 45.1% в режиме "deep think" — когда много агентов "Гемини" думают над задачей одновременно и выбирают лучшее решение (GPT 5 Pro — 18.3%).

И это не подпольные китайские результаты. Сейчас, если зайти на страницу теста — эти модели являются официальным лидером. Они даже набирают больше, чем лучшие решения от экспертов, где они завернули конкурентные модели в специальные агентские стратегии, что значительно улучшило их результат.

2. Огромный скачок в мультимодальных способностях — то есть понимать не только текст, но и изображение, и видео, и аудио. И это очень многогранный результат.

От нового уровня способностей в чтении и понимании документов. До понимания видео. И до совершенно нового уровня "вкуса" и способностей к созданию интерфейсов, дизайнов и визуализаций.

Разница с "Гемини 2.5" просто колоссальная. И здесь, как говорится, лучше один раз увидеть. И да, вы это можете увидеть на странице "Гемини 3". Там есть ряд очень показательных демо.

И что интересно — они это будут разворачивать для всех пользователей. Это будет просто что-то безумное для обучения. Как они его продвигают — эти способности будут представлены и в приложении "Гемини", и в ИИ режиме поиска Гугл (бесплатно?). И позволят визуализировать очень сложные процессы. Например, сделать "на лету" классную анимацию о ДНК или взаимодействии молекул. Или я вот себе сделал о первых минутах после "большого взрыва".

Это, видимо, займет некоторое время — потому что я еще не вижу этого в своем платном приложении. Но уже вижу в Google AI Studio — которое и рекомендую всем для тестирования — тем более, что оно бесплатное.

Новый уровень результата в Последнем Экзамене человечества — показывающий энциклопедические знания модели и ее способности решать сложные экспертные задачи во многих сферах.

Аналогично — №1 результат в GPQA-Diamond — тесты в биологии, физике, химии экспертного уровня, которые не эксперт не сможет решить, даже имея доступ к интернет-поиску.

Новый уровень агентских способностей — делит результат №1 с Grok-4 в тесте Vending bench (тест, в котором модель долгосрочно управляет бизнесом вендинг-автоматов).

Решает все очень сложные задачи, 100%, Американской математической олимпиады, AIME 2025.

Какой-то бешеный прирост способностей к пониманию происходящего на экране — в тесте ScreenSpot-Pro набирает 72.7% по сравнению с 11.4% "Гемини 2.5. Про" и 3.5% "ГПТ 5.1" (!). При том, что у ОрепАІ довольно-таки толковый агент, то очень интересно посмотреть на агента в браузере от Гугла на основе этой новой модели.

И да, они это уже используют. Они дали определенные инструменты — как модель может тестировать новые приложения прямо в интерфейсе. Еще одна классная фишка.

И да, сохраняется традиционное преимущество Гугла в объеме контекста модели. Правда, следует учесть, что с большими объемами контекста она существенно больше теряет фактов из него.

Эту модель они постепенно зарядят во все свои продукты. И выпускают ряд новых — поэтому и говорю, все и сразу. И в эти недели еще много чего интересного выходит.

Традиционно считаю: чтобы ее оценить, нужны будут недели или лучше месяцы тестирования. Тесты создают определенные ожидания, но их должна подтвердить практика.

