spot_img
30 января, 2025
ДомойAI / MLDeepSeek выпустил мультимодальную нейросеть Janus Pro для распознавания и генерации изображений

DeepSeek выпустил мультимодальную нейросеть Janus Pro для распознавания и генерации изображений

Китайский стартап DeepSeek, который получил большую известность благодаря своему ИИ-чат-боту, сообщил о запуске мультимодальной нейросети Janus Pro. Модель способна генерировать и анализировать изображения лучше, чем OpenAI DALL-E 3 и Stable Diffusion XL.

Janus Pro — это улучшенный вариант Janus, она предлагается в версиях, насчитывающих от 1 до 7 млрд. параметров. Флагманская модель Janus Pro-7B успешно продемонстрировала свои возможности в бенчмарках GenEval и DPG-Bench. «Janus Pro превосходит предыдущие универсальные модели и сопоставима, и даже превосходит узкоспециализированные решения других компаний. Простота, гибкость и эффективность делают нашу ИИ-модель кандидатом на новое поколение мультимодальных систем», — заявляет DeepSeek.

DeepSeek Janus Pro

Архитектура Janus Pro позволяет не только создавать изображения, но и анализировать их. В Janus-7B используется новая архитектура для генерации изображения — LlamaGen от ByteDance. Ее инновация состоит в том, что она применяет те же принципы, что и в LLM: предсказание следующего токена, на основе предыдущих, но в контексте изображений, токенами кодируются именно визуальные, а не текстовые данные. Используется инновационный кодировщик SigLIP-Large-Patch16-384. Текущая версия ограничена генерацией картинок с разрешением 384 × 384 пикселей, что ниже стандартов современных моделей. Тем не менее, для компактных ИИ-моделей такие результаты называют впечатляющими, особенно на фоне конкурентов.

Особенность Janus Pro — в универсальности, нейросеть объединяет анализ и генерацию, что редко встречается в моделях такого размера. Хотя разрешение изображений пока не высокое, открытая лицензия и адаптивность могут ускорить внедрение Janus Pro в коммерческие проекты. Модель Janus-Pro-7B опубликована на площадке Hugging Face, код открыт и распространяется по лицензии MIT, а сама нейросеть — по лицензии DeepSeek. В GitHub-репозитории доступна инструкция по локальному запуску нейросети. Есть версия для работы с Janus через Gradio.

НОВОСТИ ПО ТЕМЕ

СОЦИАЛЬНЫЕ СЕТИ

11,980ФанатыМне нравится
1,019ЧитателиЧитать
3,086ЧитателиЧитать
713ПодписчикиПодписаться
- Реклама -