Amazon представил голосовую ИИ-модель Nova Sonic

10.04.2025

Компания Amazon выпустила новую модель генеративного искусственного интеллекта Nova Sonic, способную обрабатывать голос и генерировать естественную речь. Утверждается, что по скорости, точности распознавания и качеству диалога новинка сопоставима с последними разработками от OpenAI и Google. При этом она на 80% дешевле, чем GPT-4o от OpenAI, и считается самой доступной голосовой моделью на рынке.

Nova Sonic уже используют в Alexa+, новой версии голосового помощника от Amazon. Nova Sonic — это ответ Amazon на новые голосовые ИИ-модели, такие, как лежащая в основе звукового режима ChatGPT. В отличие от более ранних версий Amazon Alexa, Nova Sonic обеспечивает более естественное общение.

Модель Nova Sonic доступна через Bedrock, платформу Amazon для разработчиков корпоративных приложений на основе ИИ, с помощью нового двунаправленного потокового API.

По словам старшего вице-президента Amazon и главного научного сотрудника AGI-подразделения Рохита Прасада, Nova Sonic построена на технологической базе Alexa и умеет направлять запросы пользователя к нужным сервисам. Она может искать актуальную информацию в интернете, обращаться к внутренним базам данных или выполнять действия в сторонних приложениях в зависимости от запроса. В отличие от старых моделей, таких как старая версия Alexa или Siri от Apple, Nova Sonic лучше понимает, когда стоит начать говорить. Она учитывает паузы и позволяет собеседнику перебивать себя в разговоре, что делает общение с ней более живым и комфортным. Модель также составляет текстовую расшифровку речи пользователя, которую разработчики могут использовать для различных приложений.

Модель реже ошибается в распознавании речи, чем другие голосовые модели ИИ, даже если человек говорит нечетко или в шумной обстановке. В тесте Multilingual LibriSpeech, позволяющем оценить качество распознавания речи на разных языках и диалектах, Nova Sonic показала средний коэффициент ошибок в словах (WER) всего 4,2% на английском, французском, итальянском, немецком и испанском языках. То есть при подготовке расшифровки речи она неверно распознает в среднем только 4 слова из 100. В другом тесте, Augmented Multi Party Interaction, оценивающем качество разговора вслух с несколькими участниками, Nova Sonic справилась лучше модели GPT-4o от OpenAI на 46,7%. Скорость работы у модели тоже оказалась очень быстрой: средняя задержка отклика составила 1,09 секунды. Для сравнения, GPT-4o от OpenAI отвечает через 1,18 секунды, согласно данным аналитиков Artificial Analysis.

Nova Sonic — это часть более широкой стратегии Amazon по созданию агентного искусственного интеллекта (AGI). В будущем, по словам Прасада, компания планирует выпустить больше моделей искусственного интеллекта, способных понимать различные форматы, включая изображения, видео и голос, а также «другие сенсорные данные, которые важны при переносе в физический мир».

Предыдущая статья

“SİMA İmza” “Dostbank” mobil tətbiqinə inteqrasiya edilib

Следующая статья

E Ink анонсировал новую технологию Marquee

НОВОСТИ ПО ТЕМЕ

Пн	Вт	Ср	Чт	Пт	Сб	Вс
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Amazon представил голосовую ИИ-модель Nova Sonic

OpenAI istifadəçilərin istəyilə ChatGPT-yə köhnə dil modelini qaytardı

DeepSeek R2-nin yeni versiyası GPT-4-ə rəqib olacaq

Nvidia представила ИИ-модели Cosmos и инфраструктуру для робототехники

О ЖУРНАЛЕ

ПОДПИШИТЕСЬ НА НАС

Amazon представил голосовую ИИ-модель Nova Sonic

OpenAI istifadəçilərin istəyilə ChatGPT-yə köhnə dil modelini qaytardı

DeepSeek R2-nin yeni versiyası GPT-4-ə rəqib olacaq

Nvidia представила ИИ-модели Cosmos и инфраструктуру для робототехники

СОЦИАЛЬНЫЕ СЕТИ

О ЖУРНАЛЕ

ПОДПИШИТЕСЬ НА НАС