категории | RSS

Исследователи Meta* выпустили VFusion3D — нейросеть для генерации 3D-моделей по фотографии

Исследовательская группа компании Meta* выпустила нейросеть VFusion3D, предназначенную для генерации трёхмерных моделей. Разработчики заявляют, что нейросеть показывает лучшие результаты по максимальному разрешению моделей и создаёт минимум артефактов.

Команда проекта отметила, что в мире пока нет нейросетей для генерации качественных трёхмерных моделей из-за того, что сложно получить данные для обучения. Ситуация проще обстоит с текстами, музыкой и видео — этих данных много в свободном доступе. Исследователи Meta* решили эту проблему, собрав собственный датасет синтетических данных, созданный с помощью видеодиффузии. На этом наборе и обучали VFusion3D.

Итоговая нейросеть генерирует 3D-объекты в высоком разрешении и с меньшим количеством ошибок, если сравнивать результат с другими открытыми решениями. При этом для генерации нейросети надо передать всего одну фотографию желаемого объекта. Разработчики протестировали VFusion3D вместе с LGM и OpenLRM. Заметно, что нейросеть от Meta* лучше передаёт детали.

Разработчики отмечают, что VFusion3D можно масштабировать. Для этого планируется создать более мощную модель машинного обучения и увеличить количество данных в датасете. В перспективе нейросеть может стать базовой, на основе которой можно будет реализовывать другие режимы, например, генерацию трёхмерных объектов по текстовому описанию.

Текст исследовательской работы опубликован на портале arXive, а код и инструкции — на GitHub. На площадке Hugging Face развернули тестовое приложение, в котором можно проверить возможности VFusion3D на собственных изображениях.

Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:
* — признана экстремистской организацией, её деятельность в России запрещена
** — запрещены в России



Источник новости: habr.com

DimonVideo
2024-08-13T12:50:05Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика