Діджитал

Смішне відео замість картинок: нова нейромережа створює відео за текстовим описом

Поки кадри виходять неідеальними, проте ШІ навчається і згодом має покращити якість роботи.

Корпорація Meta (у минулому Facebook) представила нову нейромережу Make-A-Video, яка генерує відеоролики за текстовим описом. Розробники розповіли подробиці у своєму офіційному блозі.

Підрозділ Meta AI просунувся у дослідженні штучного інтелекту та використав свої напрацювання для створення нового сервісу. В основу Make-A-Video лягла генеративна нейромережа, яка використовує загальнодоступні набори даних, тобто кадри, які можна легко знайти в інтернеті, йдеться про мільйони відеороликів загальною тривалістю сотні тисяч годин. Незабаром компанія планує випустити публічну демоверсію своєї системи.

Відео дня

"За допомогою всього кількох слів або рядків тексту Make-A-Video може втілити в життя уяву та створити унікальні відеоролики, повні яскравих кольорів, персонажів та пейзажів. Система також може створювати відео із зображень або брати наявні відео та створювати нові, схожі на них", — пише Meta.

Користувачеві достатньо приблизно описати сцену кількома пропозиціями, які Make-A-Video спробує відтворити у вигляді ролика. Як зазначають журналісти The Verge, відео поки виходять нереалістичними, з розмитими краями та "рваною" анімацією, проте це значний прорив у світі сучасних ШІ-технологій.

На сайті розміщено кілька прикладів вже готових робіт Make-A-Video. Під кожним роликом вказаний текстовий запит, на основі якого його нейромережа створювала. Аналітики припускають, що для демонстрації Meta відібрала найякісніші результати, щоб показати систему в кращому світлі. Генеральний директор Meta Марк Цукерберг у соцмережі Facebook відзначив "дивовижний прогрес" проєкту. Він звернув увагу, що створювати відео значно складніше, якщо порівняти з фотографіями, адже системі потрібно не лише правильно згенерувати кожен піксель, а й передбачити, як зображення має змінюватись згодом.

У статті, присвяченій дослідженню, Meta пише, що її модель має безліч технічних обмежень, окрім розмиття. ШІ не може засвоїти інформацію так само, як людина під час перегляду відео, наприклад, в який бік рухається рука. У Make-A-Video виникають труднощі зі створенням відео тривалістю понад п'ять секунд, кількох сцен та роботи з високою роздільною здатністю. Зараз модель створює відео з 16 кадрів з роздільною здатністю 64 на 64 пікселі, які потім збільшуються у розмірі за допомогою окремого алгоритму до 768 на 768 пікселів. Крім того, разом з інформацією з інтернету ШІ міг вивчити шкідливі упередження та стереотипи.

The Verge нагадує, що моделі штучного інтелекту можуть навчатися — нехай поки відео виглядають гірше за створені людьми, але в майбутньому їх якість має значно зрости. Наявні генератори зображень за текстовим описом кілька років тому також пропонували розмитий та незрозумілий контент, а сьогодні видають фотореалістичні картинки. Нехай у разі створення відео прогрес повинен йти повільніше, але попередні результати можуть вразити інвесторів і спонукати їх вкладати гроші в розвиток технології.

Є зворотний, темний бік медалі — відеоматеріали, створені ШІ, можуть використовувати для дезінформації, пропаганди та створення порнографії, щоб шантажувати людей. Подібне вже спостерігається у випадку з технологією дипфейків (Deepfake) та генераторами зображень.

Раніше писали, що нейромережа Stable Diffusion малює оголених знаменитостей за текстовим описом. На відміну від DALL-E 2 та Midjourney, модель дозволяє відключити фільтри, що відсівають відвертий контент.

Експерт стверджує, що ШІ навчився створювати фотореалістичні зображення, але ніколи не зможе замінити фотографів. Джемма Полларі виявила недоліки, що обмежують можливості нейромереж.

Останні новини

Більше новин