Компания Stability AI представила новую модель искусственного интеллекта Stable Cascade для генерации изображений. Нейросеть не просто создает картинки по текстовому описанию, но и способна генерировать несколько вариаций одного изображения.
Главная особенность Stable Cascade в ее архитектуре, которая состоит из трех разных моделей машинного обучения. Благодаря этому удалось отделить генерацию изображения на основе текста от декодирования картинки в пиксельном пространстве. Таким образом появилась возможность настраивать результат с помощью дообучения модели, используя технологии ControlNet и LoRA. По словам разработчиков, новый метод обеспечивает 16-кратное снижение затрат ресурсов на обучение.
Суммарно у Stable Cascade 10 млрд. параметров. Это позволяет использовать нейросеть в системах с ограниченным количеством ресурсов. В тестах скорости вывода Stable Cascade оказывается быстрее Stable Diffusion XL, в которой почти 23 млрд. параметров, но медленнее Stable Diffusion XL Turbo.
Stable Cascade может генерировать вариации одного изображения под разными ракурсами или с измененными деталями. Для создания таких изображений можно использовать как текстовое описание, так и режим image-to-image. В последнем случае нейросети можно передать исходное изображение, для которого будут создаваться вариации.
Функция Inpainting/Outpainting позволяет дорисовывать изображение по выделенной маске, Canny Edge – позволяет генерацию картинок по линиям границ или по наброскам, а 2x Super Resolution — увеличивать разрешение фрагмента исходного изображения.
Исходный код Stable Cascade опубликован на GitHub, модель доступна для скачивания на платформе Hugging Face.