Смешное видео вместо картинок: новая нейросеть создает видео по текстовому описанию
Пока кадры получаются неидеальными, однако ИИ обучается и со временем должен улучшить качество работы.
Корпорация Meta (в прошлом — Facebook) представила новую нейросеть Make-A-Video, которая генерирует видеоролики по текстовому описанию. Разработчики рассказали подробности в своем официальном блоге.
Подразделение Meta AI продвинулась в исследовании искусственного интеллекта и использовала свои наработки для создания нового сервиса. В основу Make-A-Video легла генеративная нейросеть, использующая общедоступные наборы данных, то есть кадры, которые можно без труда найти в Интернете, речь идет о миллионах видеороликов общей длительностью сотни тысяч часов. Вскоре компания планирует выпустить публичную демо-версию своей системы.
"С помощью всего нескольких слов или строк текста Make-A-Video может воплотить в жизнь воображение и создать уникальные видеоролики, полные ярких цветов, персонажей и пейзажей. Система также может создавать видео из изображений или брать существующие видео и создавать новые, похожие на них", — пишет Meta.
Пользователю достаточно примерно описать сцену несколькими предложениями, которые Make-A-Video попытается воссоздать в виде ролика. Как отмечают журналисты The Verge, видео пока получаются нереалистичными, с размытыми краями и "рваной" анимацией, однако это значительный прорыв в мире современных ИИ-технологий.
На сайте размещены несколько примеров уже готовых работ Make-A-Video. Под каждым роликом указан текстовый запрос, на основе которого нейросеть его создавала. Аналитики предполагают, что для демонстрации Meta отобрала наиболее качественные результаты, чтобы представить систему в лучшем свете. Генеральный директор Meta Марк Цукерберг в соцсети Facebook отметил "удивительный прогресс" проекта. Он обратил внимание, что создавать видео значительно сложнее по сравнению с фотографиями, ведь системе нужно не только правильно сгенерировать каждый пиксель, но и предсказать, как изображение должно меняться со временем.
В статье, посвященной исследованию, Meta пишет, что ее модель имеет множество технических ограничений, помимо размытия. ИИ не может усвоить информацию точно так же, как человек при просмотре видео, например, в какую сторону движется рука. У Make-A-Video возникают трудности с созданием видео длительностью более пяти секунд, нескольких сцен и работе с высоким разрешением. В настоящее время модель создает видео из 16 кадров с разрешением 64 на 64 пикселя, которые затем увеличиваются в размере с помощью отдельного алгоритма до 768 на 768 пикселей. Кроме того, вместе с информацией из Интернета ИИ мог выучить вредные предубеждения и стереотипы.
The Verge напоминает, что модели искусственного интеллекта могут обучаться — пусть пока видео выглядят хуже созданных людьми, но в будущем их качество должно значительно вырасти. Существующие генераторы изображений по текстовому описанию несколько лет назад также предлагали размытый и непонятный контент, а сегодня выдают фотореалистичные картинки. Пусть в случае с созданием видео прогресс должен идти медленнее, но предварительные результаты могут впечатлить инвесторов и побудить их вкладывать деньги в развитие технологии.
Есть обратная, темная сторона медали — видеоматериалы, созданные ИИ, могут использовать для дезинформации, пропаганды и создания порнографии, чтобы шантажировать людей. Подобное уже наблюдается в случае с технологией дипфейков (Deepfake) и генераторами изображений.
Ранее писали, что нейросеть Stable Diffusion рисует обнаженных знаменитостей по текстовому описанию. В отличие от DALL-E 2 и Midjourney, модель позволяет отключить фильтры, отсеивающие откровенный контент.
Эксперт утверждает, что ИИ научился создавать фотореалистичные изображение, но никогда не сможет заменить фотографов. Джемма Поллари обнаружила недостатки, ограничивающие возможности нейросетей.