Исследовательская группа Университета Цинхуа (Пекин, Китай) создала нейросеть CogVideo, которая генерирует короткие видео по текстовому описанию.
CogVideo может генерировать видео с относительно высокой частотой кадров: 32 кадра за 4 сек. Разработчики отметили, что фактический ввод текста для генерации видео осуществляется на китайском языке. Пока что на GitHub опубликовали лишь примеры созданных видео и раскадровку.
CogVideo работает по принципу, схожему с нейросетями DALL-E 2 от OpenAI и Imagine от Google, которые генерируют изображения по текстовому описанию.