spot_img
22 ноября, 2024
ДомойSoftwareGoogle открыла код ИИ-алгоритма, распознающий голоса с точностью до 92%

Google открыла код ИИ-алгоритма, распознающий голоса с точностью до 92%

В новой научной работе и соответствующей публикации в блоге компании исследователи из ИИ-подразделения Google описали новую интеллектуальную систему, которая способна более эффективно использовать маркированные данные по каждому спикеру при контролируемом обучении.

Диаризация — процесс разделения потока речи на однородные сегменты в зависимости от принадлежности сказанного тому или иному говорящему, и этот процесс даётся непросто алгоритмам машинного обучения. Качественная система диаризации должна уметь соотносить с конкретными фрагментами речи новых людей, которых прежде не слышала.

По словам авторов работы, ключевые алгоритмы достигают достаточно низкого коэффициента ошибок при распознавании дикторов онлайн. 7,6%на тестовом датасете для оценки качества таких систем как NIST SRE 2000 CALLHOME, по сравнению с 8,8% у предыдущего метода Google.

Процесс диаризации аудиопотока. Каждый говорящий обозначен отдельным цветом.

Это позволяет использовать алгоритмы в приложениях, работающих в реальном времени. Их исходный код можно найти на GitHub.

Для моделирования «вставок» каждого спикера (математических представлений его слов и фраз) в новом подходе применяют рекуррентные нейросети, которые используют внутреннюю память для обработки последовательностей вводных данных. Нейросеть обновляется по мере поступления новых «вставок», что позволяет системе эффективно обучаться.

В будущем команда планирует усовершенствовать модель, чтобы она смогла интегрировать контекстуальную информацию для выполнения диаризации оффлайн — по мнению специалистов, это ещё больше снизит уровень ошибок, сообщает dev.by.

НОВОСТИ ПО ТЕМЕ

СОЦИАЛЬНЫЕ СЕТИ

11,991ФанатыМне нравится
1,015ЧитателиЧитать
3,086ЧитателиЧитать
714ПодписчикиПодписаться
- Реклама -