Исследовательская группа компании Meta* выпустила нейросеть VFusion3D, предназначенную для генерации трёхмерных моделей. Разработчики заявляют, что нейросеть показывает лучшие результаты по максимальному разрешению моделей и создаёт минимум артефактов.
Команда проекта отметила, что в мире пока нет нейросетей для генерации качественных трёхмерных моделей из-за того, что сложно получить данные для обучения. Ситуация проще обстоит с текстами, музыкой и видео — этих данных много в свободном доступе. Исследователи Meta* решили эту проблему, собрав собственный датасет синтетических данных, созданный с помощью видеодиффузии. На этом наборе и обучали VFusion3D.
Итоговая нейросеть генерирует 3D-объекты в высоком разрешении и с меньшим количеством ошибок, если сравнивать результат с другими открытыми решениями. При этом для генерации нейросети надо передать всего одну фотографию желаемого объекта. Разработчики протестировали VFusion3D вместе с LGM и OpenLRM. Заметно, что нейросеть от Meta* лучше передаёт детали.
Разработчики отмечают, что VFusion3D можно масштабировать. Для этого планируется создать более мощную модель машинного обучения и увеличить количество данных в датасете. В перспективе нейросеть может стать базовой, на основе которой можно будет реализовывать другие режимы, например, генерацию трёхмерных объектов по текстовому описанию.
Текст исследовательской работы опубликован на портале arXive, а код и инструкции — на GitHub. На площадке Hugging Face развернули тестовое приложение, в котором можно проверить возможности VFusion3D на собственных изображениях.
Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:
* — признана экстремистской организацией, её деятельность в России запрещена
** — запрещены в России
Источник новости: habr.com