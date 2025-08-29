Компания OpenAI представила передовую голосовую ИИ-модель gpt-realtime, работающей по принципу «speech-to-speech». То есть модель может понимать речь, не переводя ее в текст. Разработчики позиционируют ее как инструмент для голосовых ассистентов и автоматизированных колл-центров.

Вместе с тем gpt-realtime может распознавать интонацию говорящего, определять его эмоции, а также умеет имитировать их. ИИ-модель может говорить на различных языках и переключаться между ними прямо по ходу разговора. По результатам тестирования в бенчмарке MultiChallenge (Audio) gpt-realtime показала 30,5 %, тогда как у предыдущей версии gpt-4o-realtime-preview было 26,5%. В другом тесте, ComplexFuncBench (Audio), модель также обошла предшественницу: 66,5% против 58,9 %.

Кроме того, gpt-realtime поддерживает работу с изображениями. Нейросеть умеет анализировать их и использовать полученную информацию в диалоге. Поддержка MCP позволяет пользователю предоставлять модели доступ к нужной источникам информации, при этом во время поиска gpt-realtime обучена продолжать разговор, чтобы избежать затяжных пауз.

Цена использования gpt-realtime: $32 за миллион входящих токенов и $64 за миллион исходящих токенов.