Диджитал

Смешное видео вместо картинок: новая нейросеть создает видео по текстовому описанию

Пока кадры получаются неидеальными, однако ИИ обучается и со временем должен улучшить качество работы.

Корпорация Meta (в прошлом — Facebook) представила новую нейросеть Make-A-Video, которая генерирует видеоролики по текстовому описанию. Разработчики рассказали подробности в своем официальном блоге.

Подразделение Meta AI продвинулась в исследовании искусственного интеллекта и использовала свои наработки для создания нового сервиса. В основу Make-A-Video легла генеративная нейросеть, использующая общедоступные наборы данных, то есть кадры, которые можно без труда найти в Интернете, речь идет о миллионах видеороликов общей длительностью сотни тысяч часов. Вскоре компания планирует выпустить публичную демо-версию своей системы.

Відео дня

"С помощью всего нескольких слов или строк текста Make-A-Video может воплотить в жизнь воображение и создать уникальные видеоролики, полные ярких цветов, персонажей и пейзажей. Система также может создавать видео из изображений или брать существующие видео и создавать новые, похожие на них", — пишет Meta.

Пользователю достаточно примерно описать сцену несколькими предложениями, которые Make-A-Video попытается воссоздать в виде ролика. Как отмечают журналисты The Verge, видео пока получаются нереалистичными, с размытыми краями и "рваной" анимацией, однако это значительный прорыв в мире современных ИИ-технологий.

На сайте размещены несколько примеров уже готовых работ Make-A-Video. Под каждым роликом указан текстовый запрос, на основе которого нейросеть его создавала. Аналитики предполагают, что для демонстрации Meta отобрала наиболее качественные результаты, чтобы представить систему в лучшем свете. Генеральный директор Meta Марк Цукерберг в соцсети Facebook отметил "удивительный прогресс" проекта. Он обратил внимание, что создавать видео значительно сложнее по сравнению с фотографиями, ведь системе нужно не только правильно сгенерировать каждый пиксель, но и предсказать, как изображение должно меняться со временем.

В статье, посвященной исследованию, Meta пишет, что ее модель имеет множество технических ограничений, помимо размытия. ИИ не может усвоить информацию точно так же, как человек при просмотре видео, например, в какую сторону движется рука. У Make-A-Video возникают трудности с созданием видео длительностью более пяти секунд, нескольких сцен и работе с высоким разрешением. В настоящее время модель создает видео из 16 кадров с разрешением 64 на 64 пикселя, которые затем увеличиваются в размере с помощью отдельного алгоритма до 768 на 768 пикселей. Кроме того, вместе с информацией из Интернета ИИ мог выучить вредные предубеждения и стереотипы.

The Verge напоминает, что модели искусственного интеллекта могут обучаться — пусть пока видео выглядят хуже созданных людьми, но в будущем их качество должно значительно вырасти. Существующие генераторы изображений по текстовому описанию несколько лет назад также предлагали размытый и непонятный контент, а сегодня выдают фотореалистичные картинки. Пусть в случае с созданием видео прогресс должен идти медленнее, но предварительные результаты могут впечатлить инвесторов и побудить их вкладывать деньги в развитие технологии.

Есть обратная, темная сторона медали — видеоматериалы, созданные ИИ, могут использовать для дезинформации, пропаганды и создания порнографии, чтобы шантажировать людей. Подобное уже наблюдается в случае с технологией дипфейков (Deepfake) и генераторами изображений.

Ранее писали, что нейросеть Stable Diffusion рисует обнаженных знаменитостей по текстовому описанию. В отличие от DALL-E 2 и Midjourney, модель позволяет отключить фильтры, отсеивающие откровенный контент.

Эксперт утверждает, что ИИ научился создавать фотореалистичные изображение, но никогда не сможет заменить фотографов. Джемма Поллари обнаружила недостатки, ограничивающие возможности нейросетей.

Последние новости

Больше новостей