Китайская компания ByteDance совместно со специалистами из Гонконгского университета разработали семейство нейросетей для генерации видео под названием Goku.

Нейросеть Goku построена на архитектуре Rectified flow transformers, которая за счет коррекции потока данных между токенами создает более реалистичные видео. Ролики генерируются в горизонтальной и вертикальной ориентации экрана в нескольких режимах, включая Text to Video, Image to Video и Text to Image.

Помимо базовой модели линейка включает более продвинутую версию Goku+ — нейросеть для генерации рекламных видео длительностью до 20 секунд. По словам компании, Goku+ может сгенерировать клип из фотографии продукта: видео крупным планом в студии или ролик с персонажем, который будет демонстрировать изделие. Эти ролики потом получится использовать для продвижения товаров в социальных сетях.

Примеры ИИ-генератора видео Goku доступны на сайте проекта. Также разработчики опубликовали результаты тестов на GitHub.