Діджитал

Найкращий у світі генератор картинок уже тут: що вміє новий ChatGPT Images 2.0 (фото)

OpenAI випустила ШІ-модель наступного покоління для генерації зображень. У свіжій версії сильно поліпшили рендеринг тексту, та й загалом ChatGPT тепер у лідерах за якістю матеріалів.

Нейромережу навчили "думати" перед малюванням, ідеально вписувати текст різними мовами та зберігати консистентність персонажів. Про технічні деталі релізу повідомляє OpenAI.

Мислення і типографіка

Images 2.0 у режимі "Images with thinking" (доступний на платних тарифах Plus, Pro і Business) нейромережа спершу аналізує текстовий запит, планує структуру композиції та тільки потім починає генерувати. Актуальність знань про світ датується груднем 2025 року. Ба більше, за необхідності ШІ здатний самостійно звертатися до пошуку у веб-інтернеті, щоб знайти актуальну інформацію або референси для точного відображення специфічних деталей.

Відео дня

Images 2.0 зробила якісний стрибок у точності дотримання складних інструкцій і обробці написів. Модель справляється зі щільними композиціями, дрібними деталями, елементами інтерфейсів (UI), сайтами і не тільки. ШІ здатний створювати складні візуальні схеми: журнальні розвороти, постери, інфографіку, діаграми і повноцінні сторінки коміксів або манги, де текстові блоки органічно вписані в макет.

Багатомовність і робота зі стилями

Розробники істотно поліпшили розуміння мов за межами латинського алфавіту. Images 2.0 демонструє високу точність рендерингу тексту японською, китайською, корейською, хінді та бенгалі. Текст у генераціях не просто перекладений, а й граматично коректний, а його стилістичне оформлення відповідає загальному дизайну макета. З точки зору візуалу модель стала краще передавати нюанси різних стилів: від глибокого фотореалізму (з природними дефектами плівки або спалаху) до кінематографічних кадрів, піксель-арту і специфічних технік малювання коміксів.

Консистентність і гнучкі формати

"Мислячий" режим дав змогу вирішити одну з головних проблем ШІ-генерації — відсутність послідовності. Images 2.0 здатна згенерувати серію з 8 різних зображень за один раз, зберігаючи при цьому зовнішність персонажів, деталі об'єктів і загальне освітлення від кадру до кадру. Це спрощує створення розкадровок, дизайнів приміщень у різних ракурсах або послідовності сторінок коміксу. Користувачам також доступний вибір співвідношення сторін у діапазоні від ультраширокого 3:1 до вертикального 1:3, а через API підтримується роздільна здатність до 2K.

Чи вдалося обійти Google?

Незважаючи на масштаб оновлень, не всі експерти вважають реліз проривним для ринку загалом. Усі ключові нововведення Images 2.0 — "мислення" перед генерацією, веб-пошук, робота зі складними макетами і поліпшена просторова пам'ять — уже в тому чи іншому вигляді пропонував Nano Banana Pro з Gemini майже півроку тому. Аналог від Google досі вельми конкурентний.

Однак історично модель генерації картинок у ChatGPT завжди була креативнішою, часто краще зчитувала намір автора і навіть дивувала несподіваними творчими рішеннями. Nano Banana, навпаки, дотримується інструкцій більш незграбно і буквально.

Доступність і обмеження

Розробники визнають, що модель поки не ідеальна. Images 2.0 все ще може припускатися помилок у фізиці об'єктів, схемах орігамі, головоломках (на кшталт кубика Рубіка) і деталях на прихованих або сильно вигнутих поверхнях.

Модель ChatGPT Images 2.0 вже доступна всім користувачам ChatGPT, Codex і через API (під назвою gpt-image-2). Просунуті функції з режимом мислення відкриті передплатникам тарифів Plus, Pro і Team.

Раніше повідомлялося, що ChatGPT допоміг 23-річній дівчині знайти невиліковну хворобу.

Також Фокус писав, як Китай викладає ШІ з першого класу школи. Журналіст Вадим Денисенко вбачає в цій ініціативі початок революції в освіті і закликає зробити те ж саме в Україні

Останні новини

Більше новин