Abstract:Pre-trained vision-language models (VLMs) have shown remarkable generalization capabilities via prompting, which leverages VLMs as knowledge bases to extract information beneficial for downstream tasks. However, existing methods primarily employ uni-modal prompting, which only engages a uni-modal branch, failing to simultaneously adjust vision-language (V-L) features. Additionally, the one-pass forward pipeline in VLM encoding struggles to align V-L features that have a huge gap. Confronting these challenges, we propose a novel method, Progressive Multi-modal conditional Prompt Tuning (ProMPT). ProMPT exploits a recurrent structure, optimizing and aligning V-L features by iteratively utilizing image and current encoding information. It comprises an initialization and a multi-modal iterative evolution (MIE) module. Initialization is responsible for encoding images and text using a VLM, followed by a feature filter that selects text features similar to image. MIE then facilitates multi-modal prompting through class-conditional vision prompting, instance-conditional text prompting, and feature filtering. In each MIE iteration, vision prompts are obtained from filtered text features via a vision generator, promoting image features to focus more on target object during vision prompting. The encoded image features are fed into a text generator to produce text prompts that are more robust to class shifts. Thus, V-L features are progressively aligned, enabling advance from coarse to exact prediction. Extensive experiments are conducted in three settings to evaluate the efficacy of ProMPT. The results indicate that ProMPT outperforms existing methods on average across all settings, demonstrating its superior generalization and robustness. Code is available at

A Unified Visual Prompt Tuning Framework with Mixture-of-Experts for Multimodal Information Extraction.

MuDPT: Multi-modal Deep-symphysis Prompt Tuning for Large Pre-trained Vision-Language Models

UMIE: Unified Multimodal Information Extraction with Instruction Tuning

Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding

Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model

Tuning Multi-mode Token-level Prompt Alignment across Modalities

MoExtend: Tuning New Experts for Modality and Task Extension

Recognizing Everything from All Modalities at Once: Grounded Multimodal Universal Information Extraction

Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts

Unified Vision and Language Prompt Learning

MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts

Conditional Prompt Tuning for Multimodal Fusion

Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models

Rethinking the constraints of multimodal fusion: case study in Weakly-Supervised Audio-Visual Video Parsing

MePT: Multi-Representation Guided Prompt Tuning for Vision-Language Model

Progressive Multi-modal Conditional Prompt Tuning

Different Data, Different Modalities! Reinforced Data Splitting for Effective Multimodal Information Extraction from Social Media Posts.

Information Screening whilst Exploiting! Multimodal Relation Extraction with Feature Denoising and Multimodal Topic Modeling

Multi-view Feature Extraction Via Tunable Prompts is Enough for Image Manipulation Localization

Exploiting multi-modal interactions: a unified framework

Multimodal Relation Extraction via a Mixture of Hierarchical Visual Context Learners