spot_img
21 ноября, 2024
ДомойSoftwareПрограммное обеспечениеИИ-модель Microsoft VALL-E может имитировать человеческий голос на основе трехсекундной записи

ИИ-модель Microsoft VALL-E может имитировать человеческий голос на основе трехсекундной записи

Компания Microsoft разработала модель искусственного интеллекта под названием VALL-E, которая способна имитировать любой человеческий голос на основе примера длительностью всего в три сек. При этом ИИ сохраняет тембр и эмоциональную окраску речи образца.

Сама Microsoft называет VALL-E «языковой моделью нейронного кодека». Разработка основана на алгоритме EnCodec и обучена на 60 тыс. часах англоязычной речи от более чем 7 тыс. носителей.

В отличие от других методов преобразования текста в речь, VALL-E не конструирует звуковые волны, а анализирует особенности речи человека, разбивает эти данные на отдельные компоненты (так называемые «токены») и генерирует запись на основе своих «знаний» об образце — моделирует голос, как он бы мог звучать за пределами трехсекундного образца.

На сайте проекта есть много примеров работы ИИ, с которыми может ознакомиться любой желающий. Из-за опасности злоупотреблений технологией, Microsoft не стал публиковать код VALL-E для экспериментов, поэтому все желающие протестировать работу модели не смогут.

Следите за новостями в нашем Telegram-канале: https://t.me/infocity_az

НОВОСТИ ПО ТЕМЕ

СОЦИАЛЬНЫЕ СЕТИ

11,991ФанатыМне нравится
1,015ЧитателиЧитать
3,086ЧитателиЧитать
714ПодписчикиПодписаться
- Реклама -