Abstract:Audio-visual semantic segmentation (AVSS) aims to segment and classify sounding objects in videos with acoustic cues. However, most approaches operate on the close-set assumption and only identify pre-defined categories from training data, lacking the generalization ability to detect novel categories in practical applications. In this paper, we introduce a new task: open-vocabulary audio-visual semantic segmentation, extending AVSS task to open-world scenarios beyond the annotated label space. This is a more challenging task that requires recognizing all categories, even those that have never been seen nor heard during training. Moreover, we propose the first open-vocabulary AVSS framework, OV-AVSS, which mainly consists of two parts: 1) a universal sound source localization module to perform audio-visual fusion and locate all potential sounding objects and 2) an open-vocabulary classification module to predict categories with the help of the prior knowledge from large-scale pre-trained vision-language models. To properly evaluate the open-vocabulary AVSS, we split zero-shot training and testing subsets based on the AVSBench-semantic benchmark, namely AVSBench-OV. Extensive experiments demonstrate the strong segmentation and zero-shot generalization ability of our model on all categories. On the AVSBench-OV dataset, OV-AVSS achieves 55.43% mIoU on base categories and 29.14% mIoU on novel categories, exceeding the state-of-the-art zero-shot method by 41.88%/20.61% and open-vocabulary method by 10.2%/11.6%. The code is available at <a class="link-external link-https" href="https://github.com/ruohaoguo/ovavss" rel="external noopener nofollow">this https URL</a>.

MAVD: The First Open Large-Scale Mandarin Audio-Visual Dataset with Depth Information

Audio-Visual Speech Recognition in MISP2021 Challenge: Dataset Release and Deep Analysis

AudioVSR: Enhancing Video Speech Recognition with Audio Data

Cross-modal Mask Fusion and Modality-Balanced Audio-Visual Speech Recognition

AVA-AVD: Audio-Visual Speaker Diarization in the Wild

CN-CVS: A Mandarin Audio-Visual Dataset for Large Vocabulary Continuous Visual to Speech Synthesis

CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command Recognition

SAVEn-Vid: Synergistic Audio-Visual Integration for Enhanced Understanding in Long Video Context

M$^3$AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset

VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

MAViL: Masked Audio-Video Learners

M^3AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset

MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation

Cross-Domain Deep Visual Feature Generation for Mandarin Audio–Visual Speech Recognition

Robust Audio-visual Speech Recognition Using Bimodal Dfsmn with Multi-condition Training and Dropout Regularization.

AVQA: A Dataset for Audio-Visual Question Answering on Videos

Robust Audio-Visual Mandarin Speech Recognition Based on Adaptive Decision Fusion and Tone Features

XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception

Open-Vocabulary Audio-Visual Semantic Segmentation

OLKAVS: An Open Large-Scale Korean Audio-Visual Speech Dataset

Visual Information Assisted Mandarin Large Vocabulary Continuous Speech Recognition