DeepSeek выпустил мультимодальную нейросеть Janus Pro для распознавания и генерации изображений

28.01.2025

Китайский стартап DeepSeek, который получил большую известность благодаря своему ИИ-чат-боту, сообщил о запуске мультимодальной нейросети Janus Pro. Модель способна генерировать и анализировать изображения лучше, чем OpenAI DALL-E 3 и Stable Diffusion XL.

Janus Pro — это улучшенный вариант Janus, она предлагается в версиях, насчитывающих от 1 до 7 млрд. параметров. Флагманская модель Janus Pro-7B успешно продемонстрировала свои возможности в бенчмарках GenEval и DPG-Bench. «Janus Pro превосходит предыдущие универсальные модели и сопоставима, и даже превосходит узкоспециализированные решения других компаний. Простота, гибкость и эффективность делают нашу ИИ-модель кандидатом на новое поколение мультимодальных систем», — заявляет DeepSeek.

Архитектура Janus Pro позволяет не только создавать изображения, но и анализировать их. В Janus-7B используется новая архитектура для генерации изображения — LlamaGen от ByteDance. Ее инновация состоит в том, что она применяет те же принципы, что и в LLM: предсказание следующего токена, на основе предыдущих, но в контексте изображений, токенами кодируются именно визуальные, а не текстовые данные. Используется инновационный кодировщик SigLIP-Large-Patch16-384. Текущая версия ограничена генерацией картинок с разрешением 384 × 384 пикселей, что ниже стандартов современных моделей. Тем не менее, для компактных ИИ-моделей такие результаты называют впечатляющими, особенно на фоне конкурентов.

Особенность Janus Pro — в универсальности, нейросеть объединяет анализ и генерацию, что редко встречается в моделях такого размера. Хотя разрешение изображений пока не высокое, открытая лицензия и адаптивность могут ускорить внедрение Janus Pro в коммерческие проекты. Модель Janus-Pro-7B опубликована на площадке Hugging Face, код открыт и распространяется по лицензии MIT, а сама нейросеть — по лицензии DeepSeek. В GitHub-репозитории доступна инструкция по локальному запуску нейросети. Есть версия для работы с Janus через Gradio.

Предыдущая статья

Игровой монитор LG UltraGear 27G850A-B может работать в двух режимах: 4K/240 Hz и 1080p/480 Hz

Следующая статья

Марк Цукерберг объявил об инвестициях на сумму $60-$65 млрд. в 2025 году в Meta AI

НОВОСТИ ПО ТЕМЕ

Пн	Вт	Ср	Чт	Пт	Сб	Вс
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

DeepSeek выпустил мультимодальную нейросеть Janus Pro для распознавания и генерации изображений

OpenAI существенно прокачал функцию памяти ChatGPT

Google выпустил мультимодальную ИИ-модель Gemma 4 12B, которая локально запускается на ноутбуке

Microsoft yeni nəsil süni intellekt köməkçisini təqdim etdi: Scout istifadəçilər əvəzinə qərarlar qəbul edəcək

О ЖУРНАЛЕ

ПОДПИШИТЕСЬ НА НАС

DeepSeek выпустил мультимодальную нейросеть Janus Pro для распознавания и генерации изображений

OpenAI существенно прокачал функцию памяти ChatGPT

Google выпустил мультимодальную ИИ-модель Gemma 4 12B, которая локально запускается на ноутбуке

Microsoft yeni nəsil süni intellekt köməkçisini təqdim etdi: Scout istifadəçilər əvəzinə qərarlar qəbul edəcək

СОЦИАЛЬНЫЕ СЕТИ

О ЖУРНАЛЕ

ПОДПИШИТЕСЬ НА НАС