Китайский стартап DeepSeek, получивший большую известность благодаря своему ИИ-чат-боту, представил серию ИИ-моделей DeepSeek-VL2, которые способны эффективно распознавать информацию на изображениях. Модели созданы по принципу Mixture of Experts (MoE) — объединения нескольких нейросетей для решения комплексных задач.
В серию вошли модели DeepSeek-VL2-Tiny, DeepSeek-VL2-Small и DeepSeek-VL2 на 1 млрд., 2,8 млрд. и 4,5 млрд. параметров соответственно. Все они «значительно превосходят» предыдущую версию DeepSeek-VL.
По словам разработчиков, VL2 способна распознавать и объяснять содержание документов, таблиц и диаграмм, а также предлагать рецепты по фотографиям продуктов. Кроме того, нейросеть распознает письменный текст и может его напечатать.
DeepSeek-VL2 уже доступна на платформе Hugging Face.