Компания Nvidia запустила платформу Maxine на основе технологий искусственного интеллекта. Платформа позволяет разработчикам улучшить качество видеоконференций в своих продуктах, в том числе повысить разрешение звонков, удалить фоновый шум и сжать видео.
Система работает на основе генеративных состязательных нейросетей (GAN). Помимо этого, Maxine использует Jarvis SDK от Nvidia для голосовых функций: например, можно внедрить видеопомощников с «человеческими» голосами, расшифровывать текст видеозвонка в реальном времени или переводить его на другие языки.
Главное преимущество Maxine, как считает Nvidia, это сжатие. По данным на апрель 2020 года, только в приложении Zoom ежедневно созванивались 300 млн. человек. В компании считают, что Maxine способна достаточно сильно сократить нагрузку на сети от видеозвонков.
Для этого платформа Nvidia передает не весь экран с каждым пикселем, а анализирует отдельные точки на лице человека, а потом восстанавливает их на компьютере собеседника с помощью алгоритмов. В компании утверждают, что это позволяет до десяти раз сократить количество трафика.
Кроме того, Maxine также умеет выравнивать лица участников видеозвонка. Например, если человек сидит боком к камере, система сможет развернуть его так, чтобы он разговаривал с собеседником лицом к лицу. Также платформа может автоматически следить за пользователем в кадре, если он двигается, удалять фон и окружающий шум, а пользователи могут использовать виртуальные 3D-аватары.
По заверениям Nvidia, платформа сможет поддерживать до сотен тысяч пользователей, даже если они все одновременно используют функции ИИ.
Пока сервис доступен только отдельным разработчикам и партнерам Nvidia в режиме раннего доступа.