Диджитал

Новый ИИ GPT-4o сделал чат-боты умнее, разговорчивее и находчивее: как он работает

Ирина Рефаги 17 мая 2024 в 13:59

Фото: Скриншот | Кадр из фильма "Она"

ИИ-модель может реагировать на входящие аудиосигналы за 320 миллисекунд — так же быстро, как время реакции человека, что делает ее способной к естественному разговору.

Компания OpenAI представила GPT-4o — масштабное обновление чат-бота ChatGPT, обеспечивающее голосовое взаимодействие в реальном времени, возможности видео, а также более быстрые и точные ответы, пишет Аndroid Аuthority.

Что такое ChatGPT-4o

ChatGPT-4o или GPT-4o — это новейшая и самая совершенная языковая модель от OpenAI, способная анализировать аудио, видео и текст в режиме реального времени. ИИ-модель может реагировать на аудиовходы всего за 320 миллисекунд — это столь же быстро, как время реакции человека, что делает ее способной к естественному разговору.

В то время как предыдущая функция голосового разговора ChatGPT использовала разные модели для распознавания речи и генерации ответов, GPT-4o обучена обрабатывать весь процесс от начала до конца. OpenAI утверждает, что, вооружившись возможностями большой языковой модели (БЯМ), такой как GPT-4, ИИ может даже распознавать эмоции звучащих пользовательских голосов.

Новая БЯМ также предлагает значительно более быстрые ответы. На языках, которые не используют латинский алфавит, новая модель будет работать в 2 раза быстрее, чем предыдущая модель GPT-4 Turbo.

Известно, что GPT-4o будет доступна всем пользователям чат-бота ChatGPT бесплатно, подписка ChatGPT Plus не требуется. Это первое обновление точности и скорости для бесплатных пользователей с момента выпуска чат-бота в конце 2022 года. GPT-4o также способна выполнять поиск в интернете и проверять ответы.

ИИ GPT-4o в действии: как его использовать

OpenAI откроет доступ к GPT-4o всем пользователям поэтапно, и произойдет это в кратчайшие сроки.

При помощи Microsoft Copilot можно получить бесплатный доступ к GPT-4. На данный момент, пишут аналитики Аndroid Аuthority, доступ к GPT-4o есть, но с ограниченными возможностями. Например, функция голосовых запросов к GPT-4o пока недоступна. Сэм Альтман, генеральный директор компании-разработчика, заявил, что ее внедрение начнется в ближайшие недели. Голосовые разговоры также будут доступны исключительно пользователям ChatGPT Plus, по крайней мере, в обозримом будущем.

Введя письменный запрос, можно заметить, что новая ИИ-модель реагирует впечатляюще быстро по сравнению с GPT-4, отмечают аналитики.

Тестирование GPT-4o: плюсы и минусы

Помимо скорости, главной особенностью GPT-4o является то, что она обеспечивает значительно более точные ответы. И в отличие от GPT-3.5, у нее также нет четко определенной даты старта сбора информации. Это означает, что пользователи смогут задавать чат-боту фактические вопросы, не беспокоясь о том, что он "галлюцинирует" или выдает ложные ответы. На фото ниже можно увидеть сравнение GPT-3.5 и GPT-4o, которым задали простой фактический вопрос:

Сравнение ИИ-ботов GPT-3.5 и GPT-4o

Фото: Скриншот

Как видно из этого относительно простого примера, обе языковые модели дают правильный ответ. Однако GPT-4o была предоставила подробный ответ. Чат-бот GPT-3.5 отвечал, как говорится, по памяти, что объясняет, почему он попросил тестировщика сверить информацию с официальным источником.

В ходе тестов, аналитики не смоги переключиться с GPT-4o на GPT-3.5 для этого конкретного вопроса, поэтому, если пользователи зададут ChatGPT фактический вопрос, он автоматически будет просматривать интернет и использовать последнюю модель.

Вот еще один пример — ChatGPT спросили, какой чип содержит Galaxy S24 Ultra, с условием, что смартфон будут покупать в Великобритании:

Сравнение ответов GPT-3.5 и GPT-4o

Фото: Скриншот

Благодаря улучшенным возможностям GPT-4o осуществлять поиск в интернете, было правильно сказано, что S24 Ultra поставляется с Snapdragon 8 Gen 3 по всему миру. Бот даже уточнил, что обычный вариант S24 и Plus S24 будут поставляться с Exynos 2400 в Европе. Ранее тестировщики задавали этот же вопрос GPT-3.5, но получили неточный ответ, как это видно на скриншоте.

Хотя до полного раскрытия потенциала GPT-4o, а именно его голосовых возможностей, осталось еще несколько недель, базовый опыт сам по себе впечатляет, делают вывод аналитики. Более того, он доступен каждому бесплатно.

Ранее мы сообщали о том, что камера любого Android-смартфона сможет помнить то, что видела. При помощи ИИ пользователи смогут находить потерянные вещи и узнавать информацию об окружающих их предметах в режиме реального времени — достаточно будет навести на них камеру телефона.