3D Modeling of Façade Elements Using Multi-View Images from Mobile Scanning Systems

Abbas Salehitangrizi,Shabnam Jabari,Michael Sheng,Yun Zhang
DOI: https://doi.org/10.1080/07038992.2024.2309895
IF: 2.6
2024-02-22
Canadian Journal of Remote Sensing
Abstract:There is a growing demand for detailed building façade models (Level-of-Detail 3: LoD 3) in a variety of applications. Despite the increasing number of papers addressing this issue in the literature, occlusions are still a significant problem when processing building façade elements. Conversely, depending on the view angle of the images, the detected elements might not be projected to their accurate locations causing uncertainties in their 3D locations. In this paper, we address the aforementioned issues utilizing multi-view images. Using a building footprint layer, we first locate the points belonging to buildings. We then detect the 2D windows and doors in images by combining Faster R-CNN and Segment Anything (SAM) deep learning models. The 2D borders are projected into the 3D object space using a pinhole camera model and collinearity equations. Utilizing the multi-view capabilities of mobile scanning systems, this method effectively mitigates uncertainties associated with occlusion and exterior orientation parameters (EOP). This study provides a comprehensive evaluation of 3D spatial accuracy, achieving an average of 84% Intersection over Union (IoU) accuracy for 12 different single-sided façades over 750 multi-view images for 312 windows and doors of various sizes with rectangular and curved shapes. Il y a une demande croissante de modèles détaillés de façades de bâtiments (Niveau de détails 3: LoD 3) pour diverses applications. Malgré la croissance d'articles traitant de ce problème dans la littérature, les occultations posent toujours un gros problème lorsqu'il s'agit de traiter les éléments des façades des bâtiments. D'autre part, en fonction de l'angle de vue des images, les éléments détectés peuvent ne pas être projetés à leurs emplacements précis, entraînant des incertitudes quant à leurs emplacements en 3D. Dans cet article, nous abordons les problèmes susmentionnés en utilisant des images multi-vues. En utilisant la couche d'empreinte au sol des bâtiments, nous localisons d'abord les points appartenant aux bâtiments. Ensuite, nous détectons les fenêtres et les portes en 2D sur les images en combinant les modèles d'apprentissage en profondeur Faster R-CNN et Segment Anything (SAM). Les bordures en 2D sont projetées dans l'espace objet en 3D à l'aide d'un modèle de caméra sténopé et d'équations de colinéarité. En utilisant les capacités multi-vues des systèmes de numérisation mobiles, cette méthode atténue efficacement les incertitudes liées aux occultations et aux paramètres d'orientation extérieure (EOP). L'étude fournit une évaluation complète de la précision spatiale en 3D, atteignant une précision moyenne de 84% pour l'intersection sur union (IoU) pour 12 façades unilatérales différentes sur 750 images multi-vues pour 312 fenêtres et portes de tailles diverses avec des formes rectangulaires et courbes.
remote sensing
What problem does this paper attempt to address?