Компания Stability AI представила новую модель искусственного интеллекта Stable Video Diffusion, которая способна генерировать короткие видео по текстовому описанию. В основе новой нейросети лежит модель Stable Diffusion.
Stable Video Diffusion легко адаптируется для различных задач. Она станет базовой платформой для целого семейства производных моделей, которые будут выходить позже. Нейросеть представлена в двух версиях: SVD и SVD-XT. Первая преобразует изображения в видеоролики с разрешением 576×1024 пикселей и 14 кадрами, вторая способна выдавать 24 кадра. Они генерируют видео с настраиваемой частотой от 3 до 30 кадров в секунду.
Пока что Stable Video Diffusion может генерировать только видео с перемещением ракурсов камеры и медленным движением объектов, и по словам разработчиков, еще не умеет корректно генерировать людей.
Исходный код Stable Video Diffusion опубликован на GitHub, модель доступна для скачивания на платформе Hugging Face. В ближайшем будущем Stability AI предложит возможность генерировать видео по текстовому описанию в веб-интерфейсе, для этого нужно оформить заявку на включение в список ожидания (только для организаций). Компания также опубликовала исследовательский материал, в котором подробно изложила информацию о технических возможностях модели.