Abstract:Obtaining image-level class labels for remote sensing (RS) images is a relatively straightforward process, sparking significant interest in weakly supervised semantic segmentation (WSSS). However, RS images present challenges beyond those encountered in generic WSSS, including complex backgrounds, densely distributed small objects, and considerable scale variations. To address the above issues, we introduce a consistency-constrained multiclass attention model, noted as CocoaNet. Specifically, CocoaNet endeavors to capture both semantic correlation and class distinctiveness using a global-local adaptive attention mechanism, which integrates the self-attention to model global correlation, complemented by a local perception branch that intensifies focus on local regions. The resulting class-specific attention weights and the patch-level pairwise affinity weights are employed to optimize the initial class activation maps (CAMs). This mechanism proves highly effective in mitigating interclass interference and managing the distribution of densely clustered small objects. Moreover, we invoke a consistency constraint to rectify activation inaccuracy. By utilizing a Siamese structure for the mutual supervision of features extracted from images at different scales, we address substantial scale variations in RS scenes. Simultaneously, a class contrast loss is adopted to enhance the discriminativeness of class-specific features. Departing from the conventional CAM optimization, which is rather complex and time-consuming, we harness the prior knowledge from the generic segment anything model (SAM) to design a joint optimization strategy (JOS) that refines target boundaries and further promotes discriminative visual features. We validate the effectiveness of our proposed approach on three benchmark datasets in multiclass RS scenarios, and the experimental results demonstrate that our model yields promising advancements compared to state-of-the-art methods.

Background Noise Reduction of Attention Map for Weakly Supervised Semantic Segmentation

DCAM: Disturbed Class Activation Maps for Weakly Supervised Semantic Segmentation

Rethinking CAM in Weakly-Supervised Semantic Segmentation

Activation Modulation and Recalibration Scheme for Weakly Supervised Semantic Segmentation

Extracting Class Activation Maps from Non-Discriminative Features as well

Weakly supervised semantic segmentation based on superpixel affinity

Superpixel Consistency Saliency Map Generation for Weakly Supervised Semantic Segmentation of Remote Sensing Images

Multi-Granularity Denoising and Bidirectional Alignment for Weakly Supervised Semantic Segmentation

Spatial Structure Constraints for Weakly Supervised Semantic Segmentation

Class Re-Activation Maps for Weakly-Supervised Semantic Segmentation

P-NOC: adversarial training of CAM generating networks for robust weakly supervised semantic segmentation priors

Background Activation Suppression for Weakly Supervised Object Localization and Semantic Segmentation

Clustering-Guided Class Activation for Weakly Supervised Semantic Segmentation

Weakly Supervised Semantic Segmentation With Consistency-Constrained Multiclass Attention for Remote Sensing Scenes

W2P: Switching from Weak Supervision to Partial Supervision for Semantic Segmentation

Self-Supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

Built-in Foreground/Background Prior for Weakly-Supervised Semantic Segmentation

Looking Beyond Single Images for Weakly Supervised Semantic Segmentation Learning.

TransWS: Transformer-Based Weakly Supervised Histology Image Segmentation.

Self-Supervised Difference Detection for Weakly-Supervised Semantic Segmentation