Компания Nvidia представила новую генеративную ИИ-модель под названием Fugatto (Foundational Generative Audio Transformer Opus 1), которая использует текстовые подсказки для генерации новых или изменения существующих музыкальных, голосовых и звуковых файлов.
Разработчики описывают Fugatto как «швейцарский армейский нож для звука». В создании ИИ-модели принимали участие разработчики со всего мира. «Мы хотели создать модель, которая понимает и генерирует звук, как это делают люди», — рассказал участник проекта и менеджер по прикладным исследованиям звука в Nvidia Рафаэль Валле (Rafael Valle).
Nvidia выделила несколько сценариев, в которых Fugatto может быть полезна:
- Музыкальным продюсерам в создании прототипа песен с их дальнейшим редактированием;
- При создании аудиоматериалов для изучения языка;
- Разработчикам видеоигр для озвучки персонажей в зависимости от действий геймера.
Кроме того, разработчики утверждают, что модель при некоторой дополнительной тонкой настройке может выполнять задачи, не входившие в ее предварительное обучение. В частности, Fugatto способна объединять различные инструкции, например, генерировать речь с определенными интонациями и акцентом или звук пения птиц во время грозы. Модель также умеет генерировать изменяющиеся со временем звуки, например, шум приближающегося ливня или удаляющегося поезда.
Пока что Nvidia не предоставила публичный доступ к Fugatto.