Компания Google разработала аудиокодек SoundStream на базе искусственного интеллекта. Он обрабатывает речь и музыку и может работать в режиме реального времени на процессоре смартфона. Разработчики заявляют, что инструмент позволит обеспечить высокое качество в широком диапазоне битрейтов с помощью единой обученной модели.
В основе SoundStream, который стал усовершенствованной версией выпущенного Google ранее аудиокодека Lyra, лежит нейросеть. Она преобразует звук в кодированный сигнал, который сжимается с помощью квантователя и преобразуется обратно в аудиодорожку посредством декодера. Все эти элементы проходят сквозное обучение с имитацией переменной скорости передачи данных. Количество слоев квантователя (до 80) в SoundStream контролирует битрейт — во время обучения некоторые из них случайным образом «выпадают», имитируя «просадки» соединения. Это со временем заставляет декодер работать хорошо при любой скорости входящего потока.
Обычно при обработке звука сжатие и его улучшение (удаление фонового шума) выполняется разными модулями, но в SoundStream это происходит одновременно. Google утверждает, что SoundStream на скорости 3 кбит/с превосходит популярный кодек Opus на скорости 12 кбит/с и приближается к качеству EVS на скорости 9,6 кбит/с при использовании в 3,2–4 раза меньшего количества бит. Это означает, что кодирование звука с помощью SoundStream может обеспечить аналогичное качество при использовании значительно меньшей полосы пропускания. При том же битрейте SoundStream превосходит текущую версию Lyra.
На данное время кодек SoundStream все еще находится на экспериментальной стадии.