Компания Meta Platforms выпустила модель искусственного интеллекта SeamlessM4T, которая может выполнять переводы, распознавая различные произношения и тексты более чем на 100 языках. На данный момент SeamlessM4T доступна исследователям и разработчикам под соответствующей лицензией. Впоследствии эти возможности перевода будут у Facebook, Instagram, WhatsApp, Messenger и Threads. Также были опубликованы метаданные SeamlessAlign, крупнейшего открытого набора данных для мультимодального перевода, включающего 270 000 часов изученной речи.
Отметим, что в прошлом году разработчики Meta выпустили No Language Left Behind (NLLB), модель машинного перевода текста в текст, которая поддерживает 200 языков и с тех пор интегрирована в Википедию в качестве одного из поставщиков услуг перевода. Ранее они продемонстрировали универсальный переводчик речи, который стал первой системой прямого преобразования речи в речь для южноминьского языка (диалект китайского). Еще один языковой проект Meta — Massively Multilingual Speech, система по распознаванию, идентификации и синтезу речи на более чем 1100 языках. SeamlessM4T опирается на результаты всех этих проектов, обеспечивая многоязычный и мультимодальный перевод на основе единой модели, построенной на широком спектре устных источников данных с самыми современными результатами. SeamlessM4T поддерживает:
- Распознавание речи почти на 100 языках;
- Преобразование речи в текст почти для 100 языков ввода и вывода;
- Преобразование речи в речь, поддержка почти 100 языков ввода и 36 языков вывода;
- Текстовый перевод почти на 100 языков;
- Преобразование текста в речь, поддержка почти 100 языков ввода и 35 языков вывода.