Компания Meta выпустила нейросеть AudioCraft с открытым исходным кодом, которая создает музыку и звуки, полностью основываясь на текстовом запросе пользователя.
Для работы используются три модели искусственного интеллекта. MusicGen предназначена для создания музыки и обучена на «20 000 часов музыки, принадлежащей Meta или лицензированной специально для этой цели», AudioGen генерирует звуки и эффекты окружающей среды, а EnCodec обеспечивает качественную обработку звука.
Отмечается, что за счет открытого исходного кода разработчики могут улучшать нейросеть и обучать ее дальше:
«Мы понимаем, что наборы данных, используемые для обучения наших моделей, не отличаются разнообразием: большая часть музыки в западном стиле, пары аудио-текст с текстом и метаданными написаны на английском языке. Поделившись кодом для AudioCraft, мы надеемся, что другим исследователям будет легче тестировать новые подходы к ограничению или устранению потенциальной предвзятости и неправильного использования генеративных моделей».
AudioCraft генерирует музыку не только на основе текстового запроса, но может работать с уже существующей музыкой, а также основываться на записи с микрофона.
Прослушать готовые записи можно на сайте AudioCraft.
Следите за новостями в нашем Telegram-канале: https://t.me/infocity_az