Подразделение Microsoft Research представило Magma, новую мультимодальную ИИ-модель, которая может управлять программными интерфейсами и роботизированными системами. Magma представляет собой интегрированное решение, объединяющее обработку визуальных данных и текста. По заявлению Microsoft, это первая модель, которая не только анализирует мультимодальные данные (текст, изображения, видео), но и способна выполнять практические задачи, такие как управление интерфейсами или работа с физическими объектами.
В отличие от других систем, где для каждой функции требуется отдельная модель, Magma объединяет эти возможности в одной платформе. Microsoft позиционирует Magma, как существенный шаг на пути создания единого ИИ-агента, т.е. системы, способной автономно разрабатывать планы действий и выполнять многоэтапные задачи от имени человека, а не просто отвечать вопросы о том, что она видит.
В ходе тестирования Magma показала конкурентоспособные результаты. Например, в тесте VQAv2 модель набрала 80,0 баллов, опередив GPT-4V (77,2), но немного уступив LLaVA-Next (81,8). В задачах, связанных с управлением роботами, Magma также продемонстрировала превосходство над OpenVLA.
Также, как и все ИИ-модели, Magma имеет свои ограничения. Алгоритм сталкивается с трудностями при принятии сложных пошаговых решений, требующих многократных действий в течение определенного времени. Microsoft активно работает над устранением недостатков. Компания уже опубликовала исходный код Magma на GitHub.