Компания Google представила предварительную версию новой модели Gemini 2.5 Computer Use, которая способна взаимодействовать с пользовательским интерфейсом по принципу ИИ-агентов, имитируя действия человека. Для выполнения задач модель применяет визуальное понимание и логическое рассуждение. Google заявляет, что модель превосходит ведущие альтернативы в различных тестах и предлагает уменьшенную задержку.

В отличие от ChatGPT Agent и инструмента Anthropic, Gemini 2.5 Computer Use имеет доступ только к браузеру, а не ко всей операционной системе. Google отмечает, что решение «пока не оптимизировано для управления на уровне настольной ОС» и поддерживает 13 действий, включая открытие веб-браузера, ввод текста, а также перетаскивание элементов.

По запросу пользователя модель анализирует происходящее на экране, и выдает конечный результат — щелчок по ссылке или ввод текста. Например, модель можно попросить упорядочить заметки в браузере. В задачах, требующих повышенной безопасности, например, подтверждение покупки, пользователю нужно будет подтвердить запрос вручную.

ИИ-модель Gemini 2.5 Computer Use уже доступна разработчикам через платформы Google AI Studio и Vertex AI.