Исследовательское подразделение компании Microsoft объявило, что им удалось достичь высочайшей точности распознавания речи за всю историю человечества. Исследователям удалось достичь в метрике Word Error Rate результата в 6,3%. Данный показатель отображает долю неправильно опознанных системой слов. Например, в прошлом году компания Google объявила о достижении результата в 8%, а в 2013 году этот показатель составлял и вовсе 23%. Повышение точности распознавания речи играет важную роль в развитии голосовых помощников, таких как Cortana, Google Assistant и Siri, а также различных систем, использующих искусственный интеллект, сообщает 4pda.ru.
«Наша лучшая одиночная система достигает коэффициента ошибок 6,9% в тесте Switchboard национального института стандартов и технологий США. Мы считаем, что это лучший зарегистрированный на сегодняшний день результат для технологии распознавания речи не на основе комбинации систем. При работе этой технологии в группе с другими тест Switchboard показал результат 6,3%», — рассказали исследователи из Microsoft Research.
Джеффри Цвейг, главный научный сотрудник и руководитель исследовательской группы Speech & Dialog компании Microsoft, уверен, что такой низкий процент ошибок был достигнут благодаря мастерству членов его команды, которые разработали новые алгоритмы обучения, высокооптимизированные сверхточные и рецидивирующие нейросетевые модели, а также такие инструменты, как вычислительная сеть Toolkit. Данная сеть реализует сложные механизмы, которые позволяют алгоритмам глубокого обучения работать на порядок быстрее, чем раньше. Важным шагом вперёд стал прорыв в параллельном обучении на графических процессорах.
«Это новый этап для всего широкого спектра новых технологий, разработанных сообществом искусственного интеллекта большим числом разных организаций за последние 20 лет», — заявил Сюэдун Хуан, глава по исследованиям речи в Microsoft.