Діджитал

Sora від творців GhatGPT створює реалістичні ролики за текстом: який це має вигляд (відео)

Андрій Русанов 16.02.2024 в 13:49

Кадр із відео, згенерованого Sora з тексту | Фото: Сриншот

Демонстрації роботи моделі справляють враження, хоча інколи ШІ помиляється. Сервіс поки недоступний для публічного або комерційного використання.

Компанія OpenAI, творець чатбота зі штучним інтелектом GhatGPT, створила власний сервіс генерації відео з тексту під назвою Sora. Про це повідомляє сайт TechCrunch.

OpenAI представила Sora, генеративну модель ШІ, яка створює відео з тексту. OpenAI стверджує, що за допомогою короткого або детального опису або нерухомого зображення Sora може генерувати сцени, схожі на кінофільм, із роздільною здатністю 1080p, із кількома персонажами, різними типами руху та фоновими деталями. Sora також може "розширити" наявні відеокліпи, докладаючи всіх зусиль, щоб заповнити відсутні деталі.

Одне з демонстраційних відео Sora

"Sora має глибоке розуміння мови, що дозволяє їй точно інтерпретувати підказки та створювати переконливі символи, які виражають яскраві емоції. Модель розуміє не тільки те, що запитав користувач у підказці, але й те, як ці речі існують у фізичному світі", — пише OpenAI у своєму блозі.

Зразки на демонстраційній сторінці Sora здаються досить ефектними порівняно з іншими технологіями перетворення тексту у відео, які з’явилися за останній час.

Sora може створювати відео в різних стилях (наприклад, фотореалістичне, анімаційне, чорно-біле) тривалістю до хвилини — набагато довше, ніж більшість аналогічних моделей. Ці відео зберігають розумну узгодженість, на них майже відсутні дивні нереалістичні деталі, які зазвичай створюють генеративні моделі: наприклад об’єкти, що рухаються у фізично неможливих напрямках. Деякі з відео Sora, із гуманоїдним роботом, що стоїть на фоні міського пейзажу, або людиною, яка йде по засніженій стежці, мають якість відеоігор.

Репортаж NBC про Sora

"[Sora] може мати проблеми з точним моделюванням фізики складної сцени та може не розуміти конкретних випадків причинно-наслідкового зв’язку. Наприклад, людина може відкусити печиво, але після цього на печиві може не залишитися сліду від укусу. Модель також може плутати просторові деталі підказки, наприклад, змішувати ліворуч і праворуч, мати проблеми з точним описом подій, які відбуваються з часом, як-от слідування певній траєкторії камери", — зауважує OpenAI.

Маркес Браунлі про Sora

Компанія позиціює Sora як попередній перегляд технології та мало говорить про те, які дані були використані для навчання моделі (за винятком твердження про ~10 000 годин високоякісного відео). Поки OpenAI утримується від того, щоб зробити Sora загальнодоступною. Обґрунтуванням цього є потенціал для зловживань — зловмисники мали б широкий простір для цього.

Більше демонстрацій відео Sora

"Ми залучатимемо політиків, викладачів і митців у всьому світі, щоб зрозуміти їхні проблеми та визначити позитивні варіанти використання цієї нової технології. Попри широкі дослідження йтестування, ми не можемо передбачити всі способи, якими люди використовуватимуть нашу технологію або можливі зловживання", — пише OpenAI.

Компанія працює з експертами, щоб перевірити модель на можливі експлойти і створює інструменти визначення, чи відео було створено Sora. Нагадаємо, нещодавно за допомогою відео, створеного ШІ, зловмисники змогли привласнити $25 млн.