NVIDIA представила нейросеть VideoLDM, которая генерирует видео по текстовому описанию

20.04.2023

В рамках конференции IEEE по компьютерному зрению и распознаванию образов, которая проходит в Ванкувере, компания NVIDIA представила нейросеть под названием VideoLDM для создания видео по текстовому описанию.

ИИ-модель разработана в сотрудничестве с исследователями из Корнельского университета. В ее основе лежат наработки нейросети Stable Diffusion. Модель учитывает до 4,1 млрд. параметров, но только 2,7 млрд. из них использовали видео для обучения.

VideoLDM позволяет создавать ролики продолжительностью до 4,7 сек. в разрешении до 2048 х 1280 пикселей с частотой 24 fps. Алгоритмы генерируют видео на основе как простых текстовых запросов, например, «собака плывет», так и на базе более сложных — «медведь в лесу играет на пианино, пригласив группу лесных зверей подпевать».

Модель также способна генерировать видео сцен вождения. Видеоролики имеют разрешение 1024 × 512 точек и длительность до 5 мин. Есть возможность моделирования конкретного сценария вождения. Помимо этого, модель может сделать мультимодальное прогнозирование сценариев движения, сгенерировав несколько правдоподобных развертываний на основе одного начального кадра.

Пока что представленная нейросеть недоступна в открытом доступе.

Следите за новостями в нашем Telegram-канале: https://t.me/infocity_az

Предыдущая статья

iPhone 15-in əsas versiyaları köhnə modellərin xüsusiyyətini əldə edəcək

Следующая статья

Вышел первый геймплей реалистичного тактического шутера Unrecord

НОВОСТИ ПО ТЕМЕ

Пн	Вт	Ср	Чт	Пт	Сб	Вс
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

NVIDIA представила нейросеть VideoLDM, которая генерирует видео по текстовому описанию

OpenAI существенно прокачал функцию памяти ChatGPT

Google выпустил мультимодальную ИИ-модель Gemma 4 12B, которая локально запускается на ноутбуке

Microsoft yeni nəsil süni intellekt köməkçisini təqdim etdi: Scout istifadəçilər əvəzinə qərarlar qəbul edəcək

О ЖУРНАЛЕ

ПОДПИШИТЕСЬ НА НАС

NVIDIA представила нейросеть VideoLDM, которая генерирует видео по текстовому описанию

OpenAI существенно прокачал функцию памяти ChatGPT

Google выпустил мультимодальную ИИ-модель Gemma 4 12B, которая локально запускается на ноутбуке

Microsoft yeni nəsil süni intellekt köməkçisini təqdim etdi: Scout istifadəçilər əvəzinə qərarlar qəbul edəcək

СОЦИАЛЬНЫЕ СЕТИ

О ЖУРНАЛЕ

ПОДПИШИТЕСЬ НА НАС