Nvidia представила мультимодальную ИИ-модель NVLM 1.0

20.09.2024

Компания Nvidia представила мультимодальную большую языковую модель под названием NVLM 1.0 (Nvidia Vision Language Model), которая не только отлично справляется с визуальными задачами, но и может интерпретировать картинки, рукописный текст и понимает смысл мемов. Новая нейросеть содержит в себе до 72 млрд. параметров.

Nvidia выпустила три версии модели: NVLM-D, NVLM-X и NVLM-H. Они имеют схожую архитектуру, но обладают разными особенностями.

NVLM-D (Decoder-Only Model) — использует предобученный энкодер для генерации картинок и более экономна относительно количества параметров, но потребляет больше ресурсов графического процессора;
NVLM-X (X-attention Model) — оптимизирована для работы с изображениями в высоком разрешении;
NVLM-H (Hybrid Model) — гибридная модель, которая сочетает в себе черты двух предыдущих моделей.

Испытания в бенчмарке OCRBench подтвердили продвинутые возможности NVLM 1.0 по считыванию текста с картинки — нейросеть Nvidia обошла GPT-4o. Кроме того, она хорошо показала себя в математических задачах, опередив Google Gemini 1.5 Pro и уступив всего 3 пункта Claude 3.5 от стартапа Anthropic.

Больше технических деталей можно найти по этой ссылке. Веса всех версий моделей скоро можно будет найти на Hugging Face, доступ к коду — на Github.

Предыдущая статья

Gamesummit Winter Edition: крупнейший игровой фестиваль возвращается в декабре

Следующая статья

«Индивидуальный подход к каждому проекту позволяет гарантировать, что наш продукт будет приносить пользу»

НОВОСТИ ПО ТЕМЕ

Пн	Вт	Ср	Чт	Пт	Сб	Вс
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Nvidia представила мультимодальную ИИ-модель NVLM 1.0

Microsoft AI xərclərini azaltmaq üçün OpenAI və Anthropic modellərini öz həlləri ilə əvəz edir

Microsoft начал сокращать расходы на ИИ, заменяя модели OpenAI и Anthropic собственными разработками

Google AI ilə hazırlanan reklamları xüsusi işarə ilə göstərəcək

О ЖУРНАЛЕ

ПОДПИШИТЕСЬ НА НАС

Nvidia представила мультимодальную ИИ-модель NVLM 1.0

Microsoft AI xərclərini azaltmaq üçün OpenAI və Anthropic modellərini öz həlləri ilə əvəz edir

Microsoft начал сокращать расходы на ИИ, заменяя модели OpenAI и Anthropic собственными разработками

Google AI ilə hazırlanan reklamları xüsusi işarə ilə göstərəcək

СОЦИАЛЬНЫЕ СЕТИ

О ЖУРНАЛЕ

ПОДПИШИТЕСЬ НА НАС