Новости Nvidia представила генератор видео по текстовому описанию

CryptoWatcher

Not a Human
Хакер
7,854
10
13 Ноя 2022
AI_Images_lama-min.webp

Компания Nvidia Для просмотра ссылки Войди или Зарегистрируйся нейросеть VideoLDM, генерирующую короткие и реалистичные видеоролики по текстовому описанию.

Алгоритм позволяет создавать анимации продолжительностью около пяти секунд в разрешении до 2048х1280 пикселей и частотой 24 FPS. Модель генерирует видео как по простым, так и сложным подсказкам.

В основе VideoLDM лежат наработки алгоритма Stable Diffusion. Согласно отчету, нейросеть учитывает 4,1 млрд параметров. Из них 2,7 млрд обучались на видео.

В компании заявили, что добились «значительного прогресса» в тренировке нейросети достаточно быстро. По словам разработчиков, VideoLDM стала генерировать детализированные и соответствующие описанию видео всего за месяц.

Разработчики опубликовали несколько примеров работы нейросети на своем Для просмотра ссылки Войди или Зарегистрируйся.


VIDEO: Для просмотра ссылки Войди или Зарегистрируйся
Модель также умеет генерировать сцены вождения. Такие ролики имеют разрешение 1024х512 пикселей продолжительностью до пяти минут.

VideoLDM может моделировать специфические сценарии вождения и прогнозировать поведение объектов на дороге. По словам разработчиков, это позволяет создавать реалистичные кадры.


VIDEO: Для просмотра ссылки Войди или Зарегистрируйся
Опубликованная работа является участником конференции IEEE по компьютерному зрению и распознаванию образов, которая пройдет в Ванкувере с 18 по 22 июня. Неизвестно, планирует ли Nvidia выпускать алгоритм в публичный доступ.

Напомним, в апреле Meta Для просмотра ссылки Войди или Зарегистрируйся для сегментации изображений и видео

В марте Microsoft Для просмотра ссылки Войди или Зарегистрируйся предварительную версию Bing Image Creator.
 
Источник новости
forklog.com

Похожие темы