Китайский стартап DeepSeek, который получил большую известность благодаря своему ИИ-чат-боту, сообщил о запуске мультимодальной нейросети Janus Pro. Модель способна генерировать и анализировать изображения лучше, чем OpenAI DALL-E 3 и Stable Diffusion XL.
Janus Pro — это улучшенный вариант Janus, она предлагается в версиях, насчитывающих от 1 до 7 млрд. параметров. Флагманская модель Janus Pro-7B успешно продемонстрировала свои возможности в бенчмарках GenEval и DPG-Bench. «Janus Pro превосходит предыдущие универсальные модели и сопоставима, и даже превосходит узкоспециализированные решения других компаний. Простота, гибкость и эффективность делают нашу ИИ-модель кандидатом на новое поколение мультимодальных систем», — заявляет DeepSeek.
Архитектура Janus Pro позволяет не только создавать изображения, но и анализировать их. В Janus-7B используется новая архитектура для генерации изображения — LlamaGen от ByteDance. Ее инновация состоит в том, что она применяет те же принципы, что и в LLM: предсказание следующего токена, на основе предыдущих, но в контексте изображений, токенами кодируются именно визуальные, а не текстовые данные. Используется инновационный кодировщик SigLIP-Large-Patch16-384. Текущая версия ограничена генерацией картинок с разрешением 384 × 384 пикселей, что ниже стандартов современных моделей. Тем не менее, для компактных ИИ-моделей такие результаты называют впечатляющими, особенно на фоне конкурентов.
Особенность Janus Pro — в универсальности, нейросеть объединяет анализ и генерацию, что редко встречается в моделях такого размера. Хотя разрешение изображений пока не высокое, открытая лицензия и адаптивность могут ускорить внедрение Janus Pro в коммерческие проекты. Модель Janus-Pro-7B опубликована на площадке Hugging Face, код открыт и распространяется по лицензии MIT, а сама нейросеть — по лицензии DeepSeek. В GitHub-репозитории доступна инструкция по локальному запуску нейросети. Есть версия для работы с Janus через Gradio.