Розділяй та малюй: нова технологія зробила ШІ креативнішим та тямущим

DALL-E 2
Фото: wikipedia | Зображення, створене нейромережею DALL-E 2

Система виділяє кілька елементів і змушує нейромережі малювати їх окремо, щоб ті нічого не переплутали.

Related video

Співробітники Массачусетського технологічного інституту (МТІ) у США вигадали новий метод під назвою Composable Diffusion, який покращує роботу нейромереж-генераторів зображень. Про це повідомляє сайт SciTechDaily.

Останнім часом в Інтернеті стали популярними моделі штучного інтелекту, які створюють зображення за текстовим описом користувачів: DALL-E, Midjourney, Stable Diffusion. Але чим більше деталей, тим складніше програмі виконати запит, іноді вона не може зрозуміти сенс фраз, плутаючи властивості чи взаємовідносини між об'єктами. Вчені вирішили зробити ШІ креативнішими та тямущими, об'єднавши кілька моделей в одну структуру.

Цех віртуальних художників змусили разом працювати над створенням картин. Для цього система поділяє складні запити на компоненти, наприклад, розбиває текст на кілька речень, і передає їх нейромережам на обробку окремо. Наприклад, "річку, що веде в гори", та "червоні дерева з боків".

Fullscreen
Фото: SciTechDaily

Готові зображення доповнюють одне одного і разом поетапно покращують загальну картину, доки вона не почне максимально відповідати запиту. Взяти, наприклад, запит із червоною вантажівкою та зеленим будинком. Якщо текст стане надто складним, окремо взятий ШІ може переплутати кольори предметів, проте новий метод прив'язує властивості до конкретних об'єктів. Крім того, завдяки співпраці моделей користувачі одержують більше різноманітних комбінацій у готових зображеннях.

"Окрім мистецтва та творчості, можливо, ми могли б використовувати нашу модель для навчання. Якщо ви хочете сказати дитині, щоб вона поклала куб на сферу, і якщо ми говоримо це мовою, їй може бути важко зрозуміти. Але наша модель може генерувати зображення і показувати їх", — поділився один з авторів дослідження Шуанг Лі.

Раніше дослідники з'ясували, що ШІ може розуміти сенс людської мови та має інтуїцію. Під час експериментів він встановив взаємозв'язки між об'єктами, що часто зустрічаються разом.

Розповідали також, що ШІ Midjourney намалював картину та отримав перший приз на конкурсі Colorado State Fair у номінації "Цифрове мистецтво". Американець Джейсон Аллен використав нейромережу для творчості та викликав гнів художників, які створили роботи своїми руками.