Sora от создателей GhatGPT создает реалистичные ролики по тексту: как это выглядит (видео)
Демонстрации работы модели производят впечатление, хотя иногда ИИ ошибается. Сервис пока недоступен для публичного или коммерческого использования.
Компания OpenAI, создатель чатбота с искусственным интеллектом GhatGPT, создала собственный сервис генерации видео из текста под названием Sora. Об этом сообщает сайт TechCrunch.
OpenAI представила Sora, генеративную модель ИИ, которая создает видео из текста. OpenAI утверждает, что с помощью короткого или подробного описания или неподвижного изображения Sora может генерировать сцены, похожие на кинофильм, с разрешением 1080p, с несколькими персонажами, различными типами движения и фоновыми деталями. Sora также может "расширить" имеющиеся видеоклипы, прилагая все усилия, чтобы заполнить недостающие детали.
"Sora имеет глубокое понимание языка, что позволяет ей точно интерпретировать подсказки и создавать убедительные символы, которые выражают яркие эмоции. Модель понимает не только то, что спросил пользователь в подсказке, но и то, как эти вещи существуют в физическом мире", — пишет OpenAI в своем блоге.
Образцы на демонстрационной странице Sora кажутся довольно эффектными по сравнению с другими технологиями преобразования текста в видео, которые появились за последнее время.
ВажноSora может создавать видео в разных стилях (например, фотореалистичное, анимационное, черно-белое) продолжительностью до минуты — гораздо дольше, чем большинство аналогичных моделей. Эти видео сохраняют разумную согласованность, на них почти отсутствуют странные нереалистичные детали, которые обычно создают генеративные модели: например объекты, движущиеся в физически невозможных направлениях. Некоторые из видео Sora, с гуманоидным роботом, стоящим на фоне городского пейзажа, или человеком, идущим по заснеженной тропе — имеют качество видеоигр.
"[Sora] может иметь проблемы с точным моделированием физики сложной сцены и может не понимать конкретных случаев причинно-следственной связи. Например, человек может откусить печенье, но после этого на печенье может не остаться следа от укуса. Модель также может путать пространственные детали подсказки, например, смешивать слева и справа, иметь проблемы с точным описанием событий, которые происходят со временем, например следование определенной траектории камеры", — отмечает OpenAI.
Компания позиционирует Sora как предварительный просмотр технологии, и мало говорит о том, какие данные были использованы для обучения модели (за исключением утверждения о ~10 000 часов высококачественного видео). Пока OpenAI воздерживается от того, чтобы сделать Sora общедоступной. Обоснованием этого является потенциал для злоупотреблений — злоумышленники имели бы широкий простор для этого.
"Мы будем привлекать политиков, преподавателей и художников во всем мире, чтобы понять их проблемы и определить положительные варианты использования этой новой технологии. Несмотря на широкие исследования и тестирования, мы не можем предсказать все способы, которыми люди будут использовать нашу технологию или возможные злоупотребления", — пишет OpenAI.
Компания работает с экспертами, чтобы проверить модель на возможные эксплойты и создает инструменты определения, было ли видео создано Sora. Напомним, недавно с помощью видео, созданного ИИ, злоумышленники смогли присвоить $25 млн.