Новая система искусственного интеллекта, разработанная Google Research и Google DeepMind, за считанные секунды превращает фотографии в реалистичные 3D-сцены, если знает, где была расположена камера.
Система под названием Bolt3D обрабатывает фотографии, превращая их в полноценные трёхмерные сцены, всего за 6,25 секунды на графическом процессоре Nvidia H100. Обычно другим системам требуется несколько минут или часов.
Сначала Bolt3D определяет, где находится каждый пиксель в трёхмерном пространстве и какого он должен быть цвета. Затем вторая модель определяет, насколько прозрачной должна быть каждая точка и как она распространяется в пространстве.Bolt3D объединяет диффузионные модели, декодеры VAE и обученные модели для декодирования геометрии, чтобы создавать 3D-сцены на основе изображений.
Система использует метод под названием «гауссовское размазывание» для хранения данных, организуя 3D-сцену с помощью трёхмерных гауссовских функций, расположенных в 2D-сетках. Каждая функция отслеживает положение, цвет, прозрачность и пространственную информацию, позволяя пользователям просматривать сцену под любым углом в реальном времени. Чтобы упростить работу с файлами, система удаляет прозрачные области и эффективно сжимает оставшиеся данные.
Тесты показывают, что Bolt3D работает значительно лучше, чем существующие системы, такие как Flash3D и DepthSplat. В то время как они могут размывать только те области, которые не видят, Bolt3D фактически генерирует реалистичный контент для скрытых частей сцен.
Эта возможность обеспечивается специализированной моделью ИИ, разработанной специально для обработки пространственных данных. Исследователи обнаружили, что обычные модели, обученные только на фотографиях, не могут справиться со сложностями, связанными с трёхмерной информацией.
Чтобы создать эту функцию, команда обучила Bolt3D примерно на 300 000 3D-сцен, используя как реконструкции на основе фотографий, так и компьютерные модели. Этот обширный набор данных помогает системе делать обоснованные предположения о частях сцен, которые она не может полностью увидеть.
У системы всё ещё есть свои ограничения. Она плохо справляется с очень мелкими деталями (шириной менее восьми пикселей), прозрачными материалами, такими как стекло, и сильно отражающими поверхностями.Качество результатов в значительной степени определяется тем, как были сделаны фотографии и насколько масштабным должен быть результат.
Даже с учётом этих ограничений Bolt3D, по-видимому, является шагом вперёд в создании 3D-контента. В статье предполагается, что его скорость впервые может сделать создание крупномасштабных 3D-сцен практичным. Хотя о доступности для широкой публики пока ничего не известно, заинтересованные пользователи могут найти больше информации и интерактивных демонстраций на веб-сайте проекта.
Разработка появилась после того, как Stability AI выпустила собственную систему SPAR3D, которая также может очень быстро генерировать 3D-объекты из отдельных изображений. Ключевое отличие: в то время как SPAR3D работает с отдельными объектами, Bolt3D может обрабатывать целые сцены.
Источник
Источник новости: habr.com