Компания Google представила программное обеспечение, которое помогает людям с нарушениями речи полноценно общаться. Инструмент получил название Parrotron.
Он использует глубокую нейронную сеть, обученную преобразовывать нетипичную речь в свободную и понятную. Технология конвертирует голос в текст и обратно, не прибегая к распознаванию движения губ и другим визуальным сигналам.
Google подключила к нейросети аудиоматериалы суммарной продолжительностью 30 тыс. часов, которые содержат миллионы анонимных фрагментов разговоров. По словам разработчиков, Parrotron значительно уменьшает количество ошибок при распознании речи для глухих — вероятность ошибки снизили с 89% до 25%. В Google не намерены останавливаться на достигнутом и обещают дорабатывать технологию.
«Parrotron облегчает пользователям с нетипичной речью возможность общаться с другими людьми и быть понятыми ими и речевыми интерфейсами. Для этого используют комплексный метод преобразования речи, который с большей вероятностью воспроизводит предполагаемую речь пользователя… А поскольку Parrotron не сильно настроен на воспроизведение слов из предопределенного словарного набора, входные данные для модели могут содержать совершенно новые слова, иностранные слова, имена и даже бессмысленные слова», — сообщили работающие в Google исследователь Фади Биадси (Fadi Biadsy) и инженер-программист Рон Вайс (Ron Weiss).
Миллионы людей по всему миру имеют нарушения речи. В США такие отклонения замечены у 7,5 млн. человек, примерно 5% американских первоклассников испытывают проблемы с высотой, громкостью и качеством звукопроизношения. Многообразие отклонений осложняет разработчикам ИИ-систем понимание вопроса и создание систем распознавания и синтеза речи. Им приходится приспосабливать свои технологии к отклонениям, по которым доступны небольшие наборы данных для обучения, сообщает tadviser.ru.