Нейросеть SpatialLM распознаёт объекты в 3D с точностью до мелочей

Manycore выложили исходный код нейросети SpatialLM, способной точно анализировать объекты в трёхмерном пространстве. Она определяет форму и расположение дверей, мебели, лестниц и других элементов даже при частичном перекрытии.

Модель создаёт полноценную 3D-картину окружающей среды, учитывая перспективу и реальные размеры. Она работает с видео, RGBD-форматом и данными с LiDAR-сканеров. Это делает её полезной в архитектуре, дизайне, AR/VR и робототехнике.

RGBD — это формат изображения, где к стандартному цветному изображению (RGB) добавляется карта глубины (D), полученная, например, с датчика или лидара.

LiDAR (Light Detection and Ranging) — технология, которая измеряет расстояние до объектов с помощью лазеров, создавая точные 3D-модели.

Код уже доступен на Hugging Face: ссылка.