Компания Apple в партнерстве с Калифорнийским университетом выпустила модель искусственного интеллекта с открытым исходным кодом под названием MGIE (Multimodal Large Language Model-Guided Image Editing). Она предназначена для редактирования изображений через текстовые команды на естественном языке. Опробовать модель в действии уже может любой желающий.
MGIE использует в своей работе мультимодальные большие языковые модели (MLLM) для интерпретации пользовательских команд и их выполнения. Она может применяться для задач различной сложности, связанных с редактированием изображений: можно добавлять различные объекты, убирать или изменять их. Также можно изменить яркость, контрастность и резкость, применить к снимку художественные эффекты.
Приводятся несколько примеров работы MGIE. Когда модели дали на редактирование фото пиццы и предложили «сделать ее более здоровой», она добавила овощную начинку. Другой пример – дали темный снимок гепарда в пустыне и предложили «добавить контраста, имитируя больше света» — изображение стало ярче.
MGIE доступна для бесплатного скачивания на GitHub, а опробовать ее в работе можно на платформе Hugging Face Spaces.