Компания Amazon выпустила новую модель генеративного искусственного интеллекта Nova Sonic, способную обрабатывать голос и генерировать естественную речь. Утверждается, что по скорости, точности распознавания и качеству диалога новинка сопоставима с последними разработками от OpenAI и Google. При этом она на 80% дешевле, чем GPT-4o от OpenAI, и считается самой доступной голосовой моделью на рынке.
Nova Sonic уже используют в Alexa+, новой версии голосового помощника от Amazon. Nova Sonic — это ответ Amazon на новые голосовые ИИ-модели, такие, как лежащая в основе звукового режима ChatGPT. В отличие от более ранних версий Amazon Alexa, Nova Sonic обеспечивает более естественное общение.
Модель Nova Sonic доступна через Bedrock, платформу Amazon для разработчиков корпоративных приложений на основе ИИ, с помощью нового двунаправленного потокового API.
По словам старшего вице-президента Amazon и главного научного сотрудника AGI-подразделения Рохита Прасада, Nova Sonic построена на технологической базе Alexa и умеет направлять запросы пользователя к нужным сервисам. Она может искать актуальную информацию в интернете, обращаться к внутренним базам данных или выполнять действия в сторонних приложениях в зависимости от запроса. В отличие от старых моделей, таких как старая версия Alexa или Siri от Apple, Nova Sonic лучше понимает, когда стоит начать говорить. Она учитывает паузы и позволяет собеседнику перебивать себя в разговоре, что делает общение с ней более живым и комфортным. Модель также составляет текстовую расшифровку речи пользователя, которую разработчики могут использовать для различных приложений.
Модель реже ошибается в распознавании речи, чем другие голосовые модели ИИ, даже если человек говорит нечетко или в шумной обстановке. В тесте Multilingual LibriSpeech, позволяющем оценить качество распознавания речи на разных языках и диалектах, Nova Sonic показала средний коэффициент ошибок в словах (WER) всего 4,2% на английском, французском, итальянском, немецком и испанском языках. То есть при подготовке расшифровки речи она неверно распознает в среднем только 4 слова из 100. В другом тесте, Augmented Multi Party Interaction, оценивающем качество разговора вслух с несколькими участниками, Nova Sonic справилась лучше модели GPT-4o от OpenAI на 46,7%. Скорость работы у модели тоже оказалась очень быстрой: средняя задержка отклика составила 1,09 секунды. Для сравнения, GPT-4o от OpenAI отвечает через 1,18 секунды, согласно данным аналитиков Artificial Analysis.
Nova Sonic — это часть более широкой стратегии Amazon по созданию агентного искусственного интеллекта (AGI). В будущем, по словам Прасада, компания планирует выпустить больше моделей искусственного интеллекта, способных понимать различные форматы, включая изображения, видео и голос, а также «другие сенсорные данные, которые важны при переносе в физический мир».