Смішне відео замість картинок: нова нейромережа створює відео за текстовим описом

Make-A-Video, ІІ, собака, відео
Фото: Скриншот | ІІ Make-A-Video показав собаку, що літає в костюмі Супермена

Поки кадри виходять неідеальними, проте ШІ навчається і згодом має покращити якість роботи.

Корпорація Meta (у минулому Facebook) представила нову нейромережу Make-A-Video, яка генерує відеоролики за текстовим описом. Розробники розповіли подробиці у своєму офіційному блозі.

Підрозділ Meta AI просунувся у дослідженні штучного інтелекту та використав свої напрацювання для створення нового сервісу. В основу Make-A-Video лягла генеративна нейромережа, яка використовує загальнодоступні набори даних, тобто кадри, які можна легко знайти в інтернеті, йдеться про мільйони відеороликів загальною тривалістю сотні тисяч годин. Незабаром компанія планує випустити публічну демоверсію своєї системи.

"За допомогою всього кількох слів або рядків тексту Make-A-Video може втілити в життя уяву та створити унікальні відеоролики, повні яскравих кольорів, персонажів та пейзажів. Система також може створювати відео із зображень або брати наявні відео та створювати нові, схожі на них", — пише Meta.

Користувачеві достатньо приблизно описати сцену кількома пропозиціями, які Make-A-Video спробує відтворити у вигляді ролика. Як зазначають журналісти The Verge, відео поки виходять нереалістичними, з розмитими краями та "рваною" анімацією, проте це значний прорив у світі сучасних ШІ-технологій.

На сайті розміщено кілька прикладів вже готових робіт Make-A-Video. Під кожним роликом вказаний текстовий запит, на основі якого його нейромережа створювала. Аналітики припускають, що для демонстрації Meta відібрала найякісніші результати, щоб показати систему в кращому світлі. Генеральний директор Meta Марк Цукерберг у соцмережі Facebook відзначив "дивовижний прогрес" проєкту. Він звернув увагу, що створювати відео значно складніше, якщо порівняти з фотографіями, адже системі потрібно не лише правильно згенерувати кожен піксель, а й передбачити, як зображення має змінюватись згодом.

Make-A-Video Fullscreen
Приклади робіт нейромережі Make-A-Video
Фото: Скриншот

У статті, присвяченій дослідженню, Meta пише, що її модель має безліч технічних обмежень, окрім розмиття. ШІ не може засвоїти інформацію так само, як людина під час перегляду відео, наприклад, в який бік рухається рука. У Make-A-Video виникають труднощі зі створенням відео тривалістю понад п'ять секунд, кількох сцен та роботи з високою роздільною здатністю. Зараз модель створює відео з 16 кадрів з роздільною здатністю 64 на 64 пікселі, які потім збільшуються у розмірі за допомогою окремого алгоритму до 768 на 768 пікселів. Крім того, разом з інформацією з інтернету ШІ міг вивчити шкідливі упередження та стереотипи.

The Verge нагадує, що моделі штучного інтелекту можуть навчатися — нехай поки відео виглядають гірше за створені людьми, але в майбутньому їх якість має значно зрости. Наявні генератори зображень за текстовим описом кілька років тому також пропонували розмитий та незрозумілий контент, а сьогодні видають фотореалістичні картинки. Нехай у разі створення відео прогрес повинен йти повільніше, але попередні результати можуть вразити інвесторів і спонукати їх вкладати гроші в розвиток технології.

Є зворотний, темний бік медалі — відеоматеріали, створені ШІ, можуть використовувати для дезінформації, пропаганди та створення порнографії, щоб шантажувати людей. Подібне вже спостерігається у випадку з технологією дипфейків (Deepfake) та генераторами зображень.

Раніше писали, що нейромережа Stable Diffusion малює оголених знаменитостей за текстовим описом. На відміну від DALL-E 2 та Midjourney, модель дозволяє відключити фільтри, що відсівають відвертий контент.

Експерт стверджує, що ШІ навчився створювати фотореалістичні зображення, але ніколи не зможе замінити фотографів. Джемма Полларі виявила недоліки, що обмежують можливості нейромереж.