категории | RSS

Apple представила Matrix3D — нейросеть для фотограмметрии

Исследователи Apple выпустили Matrix3D — универсальную нейросеть для фотограмметрии. С её помощью пользователи могут преобразовывать группы снимков предметов в детализированные 3D-модели. Компания опубликовала веса и подробно рассказала о реализации метода.

Matrix3D — унифицированная модель, которая выполняет сразу несколько задач: оценку положения камеры, генерацию ракурсов и прогнозирование глубины кадров. Всё это обеспечивает мультимодальный диффузионный трансформер. В итоге удаётся упростить конвейер, избавившись от связки нескольких моделей, и повысить точность генерации.Пайплайн Matrix3D

Нейросеть обучали с помощью маскирования (Masked Autoencoder, MAE): модели передают пары изображение-ракурс с частично скрытыми данными, а она пробует достроить недостающие элементы. Впоследствии это позволяет эффективно генерировать недостающие ракурсы и использовать для генерации данные с физических датчиков. Также метод обучения с маскированием помогает Matrix3D прогнозировать глубину объектов всего по трём кадрам.Пайплайн обучения Matrix3D

Исследователи опубликовали код и веса модели. В репозитории есть инструкция по запуску Matrix3D. Разработчики отмечают, что протестировали нейросеть в Ubuntu 20.04 с PyTorch 2.4 и Python 3.10. Для запуска рекомендуют воссоздать среду со всеми зависимостями, но для некоторых потребуется CUDA.Пример работы Matrix3D



Источник новости: habr.com

DimonVideo
2025-05-07T02:50:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика