Abstract:There has been a long-standing quest for a unified audio-visual-text model to enable various multimodal understanding tasks, which mimics the listening, seeing and reading process of human beings. Humans tends to represent knowledge using two separate systems: one for representing verbal (textual) information and one for representing non-verbal (visual and auditory) information. These two systems can operate independently but can also interact with each other. Motivated by this understanding of human cognition, in this paper, we introduce CoAVT -- a novel cognition-inspired Correlated Audio-Visual-Text pre-training model to connect the three modalities. It contains a joint audio-visual encoder that learns to encode audio-visual synchronization information together with the audio and visual content for non-verbal information, and a text encoder to handle textual input for verbal information. To bridge the gap between modalities, CoAVT employs a query encoder, which contains a set of learnable query embeddings, and extracts the most informative audiovisual features of the corresponding text. Additionally, to leverage the correspondences between audio and vision with language respectively, we also establish the audio-text and visual-text bi-modal alignments upon the foundational audiovisual-text tri-modal alignment to enhance the multimodal representation learning. Finally, we jointly optimize CoAVT model with three multimodal objectives: contrastive loss, matching loss and language modeling loss. Extensive experiments show that CoAVT can learn strong multimodal correlations and be generalized to various downstream tasks. CoAVT establishes new state-of-the-art performance on text-video retrieval task on AudioCaps for both zero-shot and fine-tuning settings, audio-visual event classification and audio-visual retrieval tasks on AudioSet and VGGSound.

Toward a Perceptive Pretraining Framework for Audio-Visual Video Parsing

DHHN: Dual Hierarchical Hybrid Network for Weakly-Supervised Audio-Visual Video Parsing

Cross-Modal learning for Audio-Visual Video Parsing

Investigating Modality Bias in Audio Visual Video Parsing

Revisit Weakly-Supervised Audio-Visual Video Parsing from the Language Perspective

Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised Audio-Visual Video Parsing

Distributed Audio-Visual Parsing Based on Multimodal Transformer and Deep Joint Source Channel Coding.

Multi-Level Signal Fusion for Enhanced Weakly-Supervised Audio-Visual Video Parsing

CoAVT: A Cognition-Inspired Unified Audio-Visual-Text Pre-Training Model for Multimodal Processing

Exploring Heterogeneous Clues for Weakly-Supervised Audio-Visual Video Parsing

CrossMAE: Cross Modality Masked Autoencoders for Region-Aware Audio-Visual Pretraining

Label-anticipated Event Disentanglement for Audio-Visual Video Parsing

Learning Explicit and Implicit Latent Common Spaces for Audio-Visual Cross-Modal Retrieval

How to Teach DNNs to Pay Attention to the Visual Modality in Speech Recognition

Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks

Advancing Weakly-Supervised Audio-Visual Video Parsing via Segment-wise Pseudo Labeling

Rethinking the constraints of multimodal fusion: case study in Weakly-Supervised Audio-Visual Video Parsing

Boosting Audio Visual Question Answering via Key Semantic-Aware Cues

CoLeaF: A Contrastive-Collaborative Learning Framework for Weakly Supervised Audio-Visual Video Parsing

Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video Parsing