В рамках конференции IEEE по компьютерному зрению и распознаванию образов, которая проходит в Ванкувере, компания NVIDIA представила нейросеть под названием VideoLDM для создания видео по текстовому описанию.
ИИ-модель разработана в сотрудничестве с исследователями из Корнельского университета. В ее основе лежат наработки нейросети Stable Diffusion. Модель учитывает до 4,1 млрд. параметров, но только 2,7 млрд. из них использовали видео для обучения.
VideoLDM позволяет создавать ролики продолжительностью до 4,7 сек. в разрешении до 2048 х 1280 пикселей с частотой 24 fps. Алгоритмы генерируют видео на основе как простых текстовых запросов, например, «собака плывет», так и на базе более сложных — «медведь в лесу играет на пианино, пригласив группу лесных зверей подпевать».
Модель также способна генерировать видео сцен вождения. Видеоролики имеют разрешение 1024 × 512 точек и длительность до 5 мин. Есть возможность моделирования конкретного сценария вождения. Помимо этого, модель может сделать мультимодальное прогнозирование сценариев движения, сгенерировав несколько правдоподобных развертываний на основе одного начального кадра.
Пока что представленная нейросеть недоступна в открытом доступе.
Следите за новостями в нашем Telegram-канале: https://t.me/infocity_az