Компания Microsoft разработала модель искусственного интеллекта под названием VALL-E, которая способна имитировать любой человеческий голос на основе примера длительностью всего в три сек. При этом ИИ сохраняет тембр и эмоциональную окраску речи образца.
Сама Microsoft называет VALL-E «языковой моделью нейронного кодека». Разработка основана на алгоритме EnCodec и обучена на 60 тыс. часах англоязычной речи от более чем 7 тыс. носителей.
В отличие от других методов преобразования текста в речь, VALL-E не конструирует звуковые волны, а анализирует особенности речи человека, разбивает эти данные на отдельные компоненты (так называемые «токены») и генерирует запись на основе своих «знаний» об образце — моделирует голос, как он бы мог звучать за пределами трехсекундного образца.
На сайте проекта есть много примеров работы ИИ, с которыми может ознакомиться любой желающий. Из-за опасности злоупотреблений технологией, Microsoft не стал публиковать код VALL-E для экспериментов, поэтому все желающие протестировать работу модели не смогут.
Следите за новостями в нашем Telegram-канале: https://t.me/infocity_az