spot_img
22 ноября, 2024
ДомойAI / MLIntel и Blockade Labs представили модель для синтеза 3D-изображений с 360-градусным обзором

Intel и Blockade Labs представили модель для синтеза 3D-изображений с 360-градусным обзором

Intel Labs и Blockade Labs совместно разработали модель машинного обучения LDM3D (Latent Diffusion Model for 3D) для создания панорамных трехмерных изображений с 360-градусным обзором, которая первой в отрасли обеспечивает отображение глубины сцены.

Для обучения модели LDM3D был использован открытый набор данных LAION-400M, подготовленный сообществом LAION (Large-scale Artificial Intelligence Open Network), развивающим инструменты, модели и коллекции данных для создания свободных систем машинного обучения. Коллекция LAION-400M включает 400 млн. изображений с текстовыми описаниями. Кроме того, при обучении модели были задействованы карты глубины, сгенерированные для каждого изображения при помощи системы машинного обучения DPT (Dense Prediction Transformer), позволяющей прогнозировать относительную глубину каждого пикселя плоского изображения.

LDM3D обучалась на суперкомпьютере Intel AI на базе процессоров Intel Xeon и ускорителей Intel Habana Gaudi AI. Полученная модель и конвейер объединяют сгенерированное изображение и карту глубины для создания 360-градусных панорамных представлений.

«Технология генеративного ИИ направлена на расширение человеческого творчества и экономию времени. Однако большинство сегодняшних моделей ИИ ограничены созданием 2D-изображений. В отличие от них LDM3D позволяет пользователям генерировать изображение и карту глубины из заданной текстовой подсказки. Это обеспечивает более точную относительную глубину для каждого пикселя по сравнению со стандартными методами постобработки и экономит разработчикам значительное время при разработке сцен», — пояснил Васудев Лал (Vasudev Lal), научный сотрудник Intel Labs.

Для демонстрации возможности модели исследователи разработали приложение DepthFusion, позволяющее на основе двумерных RGB-изображений и карт глубины создавать интерактивные окружения для просмотра в режиме 360-градусов. Приложение написано на визуальном языке программирования TouchDesigner, подходящем для создания интерактивного мультимедийного контента в режиме реального времени. Модель LDM3D также может использоваться для генерации и изменения изображений на основе предложенного шаблона, проецирования результата на сферу для создания окружающего пространства, генерации изображений с учетом различных позиций наблюдателя и формирования видео на основе виртуального перемещения камеры.

Предложенная технология обладает большим потенциалом в создании новых методов взаимодействия с пользователем, которые могут оказаться востребованными в различных индустриях — от развлечений и игр до архитектуры и дизайна. Например, LDM3D может применяться для создания интерактивных музеев и окружений виртуальной реальности, формирующих детализированное окружение на основе пожеланий на естественном языке.

Следите за новостями в нашем Telegram-канале: https://t.me/infocity_az

НОВОСТИ ПО ТЕМЕ

СОЦИАЛЬНЫЕ СЕТИ

11,991ФанатыМне нравится
1,015ЧитателиЧитать
3,086ЧитателиЧитать
714ПодписчикиПодписаться
- Реклама -