Диджитал

Лучший в мире генератор картинок уже здесь: что умеет новый ChatGPT Images 2.0 (фото)

OpenAI выпустила ИИ-модель следующего поколения для генерации изображений. В свежей версии сильно улучшили рендеринг текста, да и в целом ChatGPT теперь в лидерах по качеству материалов.

Нейросеть научили "думать" перед рисованием, идеально вписывать текст на разных языках и сохранять консистентность персонажей. О технических деталях релиза сообщает OpenAI.

Мышление и типографика

Images 2.0 в режиме "Images with thinking" (доступен на платных тарифах Plus, Pro и Business) нейросеть сначала анализирует текстовый запрос, планирует структуру композиции и только затем приступает к генерации. Актуальность знаний о мире датируется декабрем 2025 года. Более того, при необходимости ИИ способен самостоятельно обращаться к поиску в веб-интернете, чтобы найти актуальную информацию или референсы для точного отображения специфических деталей.

Відео дня

Images 2.0 совершила качественный скачок в точности следования сложным инструкциям и обработке надписей. Модель справляется с плотными композициями, мелкими деталями, элементами интерфейсов (UI), сайтами и не только. ИИ способен создавать сложные визуальные схемы: журнальные развороты, постеры, инфографику, диаграммы и полноценные страницы комиксов или манги, где текстовые блоки органично вписаны в макет.

Мультиязычность и работа со стилями

Разработчики существенно улучшили понимание языков за пределами латинского алфавита. Images 2.0 демонстрирует высокую точность рендеринга текста на японском, китайском, корейском, хинди и бенгали. Текст в генерациях не просто переведен, но и грамматически корректен, а его стилистическое оформление соответствует общему дизайну макета. С точки зрения визуала модель стала лучше передавать нюансы различных стилей: от глубокого фотореализма (с естественными дефектами пленки или вспышки) до кинематографических кадров, пиксель-арта и специфических техник рисования комиксов.

Консистентность и гибкие форматы

"Мыслящий" режим позволил решить одну из главных проблем ИИ-генерации — отсутствие последовательности. Images 2.0 способна сгенерировать серию из 8 различных изображений за один раз, сохраняя при этом внешность персонажей, детали объектов и общее освещение от кадра к кадру. Это упрощает создание раскадровок, дизайнов помещений в разных ракурсах или последовательности страниц комикса. Пользователям также доступен выбор соотношения сторон в диапазоне от ультраширокого 3:1 до вертикального 1:3, а через API поддерживается разрешение до 2K.

Удалось ли обойти Google?

Несмотря на масштаб обновлений, не все эксперты считают релиз прорывным для рынка в целом. Все ключевые новшества Images 2.0 — "мышление" перед генерацией, веб-поиск, работа со сложными макетами и улучшенная пространственная память — уже в том или ином предлагал Nano Banana Pro из Gemini почти полгода назад. Аналог от Google до сих пор весьма конкурентен.

Однако исторически модель генерации картинок в ChatGPT всегда была креативнее, зачастую лучше считывала намерение автора и даже удивляла неожиданными творческими решениями. Nano Banana, напротив, следует инструкциям более топорно и буквально.

Доступность и ограничения

Разработчики признают, что модель пока не идеальна. Images 2.0 все еще может допускать ошибки в физике объектов, схемах оригами, головоломках (вроде кубика Рубика) и деталях на скрытых или сильно изогнутых поверхностях.

Модель ChatGPT Images 2.0 уже доступна всем пользователям ChatGPT, Codex и через API (под названием gpt-image-2). Продвинутые функции с режимом мышления открыты подписчикам тарифов Plus, Pro и Team.

Ранее сообщалось, что ChatGPT помог 23-летней девушке найти неизлечимую болезнь.

Также Фокус писал, как Китай преподает ИИ с первого класса школы. Журналист Вадим Денисенко видит в этой инициативе начало революции в образовании и призывает сделать то же самое в Украине

Последние новости

Больше новостей