Abstract:It is theoretically insufficient to construct a complete set of semantics in the real world using single-modality data. As a typical application of multi-modality perception, the audio-visual event localization task aims to match audio and visual components to identify the simultaneous events of interest. Although some recent methods have been proposed to deal with this task, they cannot handle the practical situation of temporal inconsistency that is widespread in the audio-visual scene. Inspired by the human system which automatically filters out event-unrelated information when performing multi-modality perception, we propose a discriminative cross-modality attention network to simulate such a process. Similar to human mechanism, our network can adaptively select "where" to attend, "when" to attend and "which" to attend for audio-visual event localization. In addition, to prevent our network from getting trivial solutions, a novel eigenvalue-based objective function is proposed to train the whole network to better fuse audio and visual signals, which can obtain discriminative and nonlinear multi-modality representation. In this way, even with large temporal inconsistency between audio and visual sequence, our network is able to adaptively select event-valuable information for audio-visual event localization. Furthermore, we systemically investigate three subtasks of audio-visual event localization, i.e., temporal localization, weakly-supervised spatial localization and cross-modality localization. The visualization results also help us better understand how our network works.

The Solution for Temporal Sound Localisation Task of ICCV 1st Perception Test Challenge 2023

Solution for Temporal Sound Localisation Task of ECCV Second Perception Test Challenge 2024

Specialty may be better: A decoupling multi-modal fusion network for Audio-visual event localization

The Solution for Temporal Action Localisation Task of Perception Test Challenge 2024

A research for sound event localization and detection based on local–global adaptive fusion and temporal importance network

Polyphonic sound event localization and detection based on Multiple Attention Fusion ResNet

Multimodal Fusion for Indoor Sound Source Localization.

Multimodal Fusion Method with Spatiotemporal Sequences and Relationship Learning for Valence-Arousal Estimation

Deep and CNN Fusion Method for Binaural Sound Source Localisation

Cross-Modal Attention Network for Temporal Inconsistent Audio-Visual Event Localization

Exploring Audio-Visual Information Fusion for Sound Event Localization and Detection In Low-Resource Realistic Scenarios

Continuous Emotion Recognition with Audio-visual Leader-follower Attentive Fusion

Temporal Fusion Network for Temporal Action Localization:Submission to ActivityNet Challenge 2020 (Task E)

Deep Audio-Visual Fusion Neural Network for Saliency Estimation.

Discriminative Cross-Modality Attention Network for Temporal Inconsistent Audio-Visual Event Localization

AUD-TGN: Advancing Action Unit Detection with Temporal Convolution and GPT-2 in Wild Audiovisual Contexts

Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder

Improving Visual Speech Enhancement Network by Learning Audio-visual Affinity with Multi-head Attention

Team AcieLee: Technical Report for EPIC-SOUNDS Audio-Based Interaction Recognition Challenge 2023

Unified Audio-Visual Saliency Model for Omnidirectional Videos with Spatial Audio

Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation