Abstract:Cross-modal remote sensing image-text retrieval (CMRSITR) aims to extract comprehensive information from diverse modalities. The primary challenge in this field is developing effective mappings between visual and textual modalities to a shared latent space. Existing approaches generally focus on utilizing pretrained unimodal models to independently extract features from each modality. However, these techniques often fall short of achieving the critical alignment necessary for effective cross-modal matching. These techniques predominantly concentrate on the extraction of features and alignment at an instance level, suggesting potential areas for enhancement. To address these limitations, we introduce the masked interaction inferring and aligning (MIIA) framework, utilizing dynamic contrastive learning (DCL). This framework is adept at discerning the intricate relationships between local visual-textual tokens, thereby significantly bolstering the congruence of global image-text pairings without relying on additional prior supervision. Initially, we devise a masked interaction inferring (MII) module, which fosters token-level interplays through a novel masked visual-language (VL) modeling approach. Following this, we implement a cross-modal DCL mechanism, which is instrumental in capturing and aligning semantic correlations between images and texts more effectively. Finally, to ensure the comprehensive matching of visual and textual embeddings, we introduce a unique technique known as bidirectional distribution matching (BDM). This method is designed to minimize the Kullback-Leibler (KL) divergence between the distributions of image-text similarity, computed using the negative queues in momentum contrast learning. Comprehensive experiments performed on well-established public datasets consistently validate the state-of-the-art performance of MIIA methods in the CMRSITR task.

Continual learning for cross-modal image-text retrieval based on domain-selective attention

Cross-Lingual Text Image Recognition Via Multi-Task Sequence to Sequence Learning.

Masking-Based Cross-Modal Remote Sensing Image–Text Retrieval via Dynamic Contrastive Learning

Cross-Modal Attention Preservation with Self-Contrastive Learning for Composed Query-Based Image Retrieval

Cross-modal Contrastive Learning for Generalizable and Efficient Image-text Retrieval

IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval

Don't Stop Learning: Towards Continual Learning for the CLIP Model

Cross-Modal Alternating Learning with Task-Aware Representations for Continual Learning

Advancing Cross-domain Discriminability in Continual Learning of Vision-Language Models

Efficient Token-Guided Image-Text Retrieval With Consistent Multimodal Contrastive Training

Improving the Consistency in Cross-Lingual Cross-Modal Retrieval with 1-to-K Contrastive Learning

MCF-VC: Mitigate Catastrophic Forgetting in Class-Incremental Learning for Multimodal Video Captioning

CMPD: Using Cross Memory Network With Pair Discrimination for Image-Text Retrieval

Cross‐modal retrieval with dual multi‐angle self‐attention

Advancing Cross-domain Discriminability in Continual Learning of Vison-Language Models

Continual Domain Adaptation for Machine Reading Comprehension

Cross-Modal Retrieval With Noisy Correspondence via Consistency Refining and Mining

Heterogeneous memory enhanced graph reasoning network for cross-modal retrieval

Mitigating Catastrophic Forgetting in Task-Incremental Continual Learning with Adaptive Classification Criterion

Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval

Improving Cross-Modal Image-Text Retrieval With Teacher-Student Learning