Разделяй и рисуй: новая технология сделала ИИ более креативным и понятливым

DALL-E 2
Фото: wikipedia | Изображение, созданное нейросетью DALL-E 2

Система выделяет несколько элементов и заставляет нейросети рисовать их по отдельности, чтобы те ничего не перепутали.

Сотрудники Массачусетского технологического института (MIT) в США придумали новый метод под названием Composable Diffusion, который улучшает работу нейросетей-генераторов изображений. Об этом сообщает сайт SciTechDaily.

В последнее время в Интернете стали популярны модели искусственного интеллекта, которые создают изображения по текстовому описанию пользователей: DALL-E, Midjourney, Stable Diffusion. Но чем больше деталей, тем сложнее программе выполнить запрос, иногда он не может понять смысл фраз, путая свойства или взаимоотношения между объектами. Ученые решили сделать ИИ более креативными и понятливыми, объединив несколько моделей в одну структуру.

Цех виртуальных художников заставили вместе работать над созданием картин. Для этого система разделяет сложные запросы на компоненты, например, разбивает текст на несколько предложений, и передает их нейросетям на обработку по отдельности. Например, "реку, ведущую в горы", и "красные деревья по бокам".

Fullscreen
Фото: SciTechDaily

Готовые изображения дополняют друг друга и вместе поэтапно улучшают общую картину, пока она не начнет максимально соответствовать запросу. Взять, к примеру, запрос с красным грузовиком и зеленым домом. Если текст станет слишком сложным, отдельно взятый ИИ может перепутать цвета предметов, однако новый метод привязывает свойства к конкретным объектам. Кроме того, благодаря сотрудничеству моделей пользователи получают больше разнообразных комбинаций в готовых изображениях.

"Помимо искусства и творчества, возможно, мы могли бы использовать нашу модель для обучения. Если вы хотите сказать ребенку, чтобы он положил куб на сферу, и если мы говорим это на языке, ему может быть трудно понять. Но наша модель может генерировать изображения и показывать их", — поделился один из авторов исследования Шуанг Ли.

Ранее исследователи выяснили, что ИИ может понимать смысл человеческой речи и обладает интуицией. Во время экспериментов он установил взаимосвязи между объектами, которые часто встречаются вместе.

Рассказывали также, что ИИ Midjourney нарисовал картину и получил первый приз на конкурсе Colorado State Fair в номинации "Цифровое искусство". Американец Джейсон Аллен использовал нейросеть для творчества и вызвал гнев художников, которые создали работы своими руками.