spot_img
21 ноября, 2024
ДомойAI / MLNVIDIA представила нейросеть VideoLDM, которая генерирует видео по текстовому описанию

NVIDIA представила нейросеть VideoLDM, которая генерирует видео по текстовому описанию

В рамках конференции IEEE по компьютерному зрению и распознаванию образов, которая проходит в Ванкувере, компания NVIDIA представила нейросеть под названием VideoLDM для создания видео по текстовому описанию.

ИИ-модель разработана в сотрудничестве с исследователями из Корнельского университета. В ее основе лежат наработки нейросети Stable Diffusion. Модель учитывает до 4,1 млрд. параметров, но только 2,7 млрд. из них использовали видео для обучения.

VideoLDM позволяет создавать ролики продолжительностью до 4,7 сек. в разрешении до 2048 х 1280 пикселей с частотой 24 fps. Алгоритмы генерируют видео на основе как простых текстовых запросов, например, «собака плывет», так и на базе более сложных — «медведь в лесу играет на пианино, пригласив группу лесных зверей подпевать».

Модель также способна генерировать видео сцен вождения. Видеоролики имеют разрешение 1024 × 512 точек и длительность до 5 мин. Есть возможность моделирования конкретного сценария вождения. Помимо этого, модель может сделать мультимодальное прогнозирование сценариев движения, сгенерировав несколько правдоподобных развертываний на основе одного начального кадра.

Пока что представленная нейросеть недоступна в открытом доступе.

Следите за новостями в нашем Telegram-канале: https://t.me/infocity_az

НОВОСТИ ПО ТЕМЕ

СОЦИАЛЬНЫЕ СЕТИ

11,991ФанатыМне нравится
1,015ЧитателиЧитать
3,086ЧитателиЧитать
714ПодписчикиПодписаться
- Реклама -