В новой научной работе и соответствующей публикации в блоге компании исследователи из ИИ-подразделения Google описали новую интеллектуальную систему, которая способна более эффективно использовать маркированные данные по каждому спикеру при контролируемом обучении.
Диаризация — процесс разделения потока речи на однородные сегменты в зависимости от принадлежности сказанного тому или иному говорящему, и этот процесс даётся непросто алгоритмам машинного обучения. Качественная система диаризации должна уметь соотносить с конкретными фрагментами речи новых людей, которых прежде не слышала.
По словам авторов работы, ключевые алгоритмы достигают достаточно низкого коэффициента ошибок при распознавании дикторов онлайн. 7,6%на тестовом датасете для оценки качества таких систем как NIST SRE 2000 CALLHOME, по сравнению с 8,8% у предыдущего метода Google.
Это позволяет использовать алгоритмы в приложениях, работающих в реальном времени. Их исходный код можно найти на GitHub.
Для моделирования «вставок» каждого спикера (математических представлений его слов и фраз) в новом подходе применяют рекуррентные нейросети, которые используют внутреннюю память для обработки последовательностей вводных данных. Нейросеть обновляется по мере поступления новых «вставок», что позволяет системе эффективно обучаться.
В будущем команда планирует усовершенствовать модель, чтобы она смогла интегрировать контекстуальную информацию для выполнения диаризации оффлайн — по мнению специалистов, это ещё больше снизит уровень ошибок, сообщает dev.by.