Abstract:There is a growing demand for detailed building façade models (Level-of-Detail 3: LoD 3) in a variety of applications. Despite the increasing number of papers addressing this issue in the literature, occlusions are still a significant problem when processing building façade elements. Conversely, depending on the view angle of the images, the detected elements might not be projected to their accurate locations causing uncertainties in their 3D locations. In this paper, we address the aforementioned issues utilizing multi-view images. Using a building footprint layer, we first locate the points belonging to buildings. We then detect the 2D windows and doors in images by combining Faster R-CNN and Segment Anything (SAM) deep learning models. The 2D borders are projected into the 3D object space using a pinhole camera model and collinearity equations. Utilizing the multi-view capabilities of mobile scanning systems, this method effectively mitigates uncertainties associated with occlusion and exterior orientation parameters (EOP). This study provides a comprehensive evaluation of 3D spatial accuracy, achieving an average of 84% Intersection over Union (IoU) accuracy for 12 different single-sided façades over 750 multi-view images for 312 windows and doors of various sizes with rectangular and curved shapes. Il y a une demande croissante de modèles détaillés de façades de bâtiments (Niveau de détails 3: LoD 3) pour diverses applications. Malgré la croissance d'articles traitant de ce problème dans la littérature, les occultations posent toujours un gros problème lorsqu'il s'agit de traiter les éléments des façades des bâtiments. D'autre part, en fonction de l'angle de vue des images, les éléments détectés peuvent ne pas être projetés à leurs emplacements précis, entraînant des incertitudes quant à leurs emplacements en 3D. Dans cet article, nous abordons les problèmes susmentionnés en utilisant des images multi-vues. En utilisant la couche d'empreinte au sol des bâtiments, nous localisons d'abord les points appartenant aux bâtiments. Ensuite, nous détectons les fenêtres et les portes en 2D sur les images en combinant les modèles d'apprentissage en profondeur Faster R-CNN et Segment Anything (SAM). Les bordures en 2D sont projetées dans l'espace objet en 3D à l'aide d'un modèle de caméra sténopé et d'équations de colinéarité. En utilisant les capacités multi-vues des systèmes de numérisation mobiles, cette méthode atténue efficacement les incertitudes liées aux occultations et aux paramètres d'orientation extérieure (EOP). L'étude fournit une évaluation complète de la précision spatiale en 3D, atteignant une précision moyenne de 84% pour l'intersection sur union (IoU) pour 12 façades unilatérales différentes sur 750 images multi-vues pour 312 fenêtres et portes de tailles diverses avec des formes rectangulaires et courbes.

Building Facade Parsing R-CNN

Improving facade parsing with vision transformers and line integration

DeepFacade: A Deep Learning Approach to Facade Parsing with Symmetric Loss.

Window Detection In Facade Imagery: A Deep Learning Approach Using Mask R-CNN

Progressive Feature Learning for Facade Parsing with Occlusions

Translational Symmetry-Aware Facade Parsing for 3D Building Reconstruction

Building façade datasets for analyzing building characteristics using deep learning

Multiview Feature Aggregation for Facade Parsing

Deep learning for detecting building façade elements from images considering prior knowledge

Building Facade Recognition Using Oblique Aerial Images

A Robust Automatic Method to Extract Building Facade Maps from 3D Point Cloud Data

FoveaNet: Perspective-Aware Urban Scene Parsing

Correlation-Based Facade Parsing Using Shape Grammar

Attention-Gate-Based Encoder–Decoder Network for Automatical Building Extraction

3D Building Façade Reconstruction Using Deep Learning

Building façade element extraction based on multidimensional virtual semantic feature map ensemble learning and hierarchical clustering

3D Modeling of Façade Elements Using Multi-View Images from Mobile Scanning Systems

Towards Panoptic 3D Parsing for Single Image in the Wild

Façade Feature Extraction for Urban Performance Assessments: Evaluating algorithm applicability across diverse building morphologies

BFA-YOLO: A balanced multiscale object detection network for building façade attachments detection

Building Facade-Completion Network Based on Dynamic Convolutional GAN