Компания OpenAI представила новую ИИ-модель Voice Engine для преобразования текста в голос. Нейросеть может на основе 15-секундного образца реалистично озвучить введенный текст человека. Клонированным голосом можно озвучить любой текст на языке оригинала или даже на нескольких других языках. С примерами работы модели можно ознакомиться в блоге OpenAI.
Первые наработки Voice Engine появились еще в конце 2022 года и использовались в API для преобразования текста в речь, а также совместно с ChatGPT Voice and Read Aloud. Модель обучали на «сочетании лицензированных и открытых данных». На данное время OpenAI Voice Engine могут опробовать лишь избранные разработчики.
Технологию предлагается применять в следующих случаях:
- Помощь для имеющих проблемы с чтением;
- Поддержка людей с проблемами речи;
- Помощь в восстановлении голоса при внезапных и дегенеративных нарушениях речи;
- Перевод контента.
В OpenAI осознают последствия возможного злоупотребления технологией синтезированных голосов, поэтому надеется получить отклик от общества по возможным опасностям и сферам применения.