Abstract:Multimodal analysis has recently drawn much interest in affective computing, since it can improve the overall accuracy of emotion recognition over isolated uni-modal approaches. The most effective techniques for multimodal emotion recognition efficiently leverage diverse and complimentary sources of information, such as facial, vocal, and physiological modalities, to provide comprehensive feature representations. In this paper, we focus on dimensional emotion recognition based on the fusion of facial and vocal modalities extracted from videos, where complex spatiotemporal relationships may be captured. Most of the existing fusion techniques rely on recurrent networks or conventional attention mechanisms that do not effectively leverage the complimentary nature of audio-visual (A-V) modalities. We introduce a cross-attentional fusion approach to extract the salient features across A-V modalities, allowing for accurate prediction of continuous values of valence and arousal. Our new cross-attentional A-V fusion model efficiently leverages the inter-modal relationships. In particular, it computes cross-attention weights to focus on the more contributive features across individual modalities, and thereby combine contributive feature representations, which are then fed to fully connected layers for the prediction of valence and arousal. The effectiveness of the proposed approach is validated experimentally on videos from the RECOLA and Fatigue (private) data-sets. Results indicate that our cross-attentional A-V fusion model is a cost-effective approach that outperforms state-of-the-art fusion approaches. Code is available: \url{<a class="link-external link-https" href="https://github.com/praveena2j/Cross-Attentional-AV-Fusion" rel="external noopener nofollow">this https URL</a>}

Attention-Based Multimodal Fusion for Video Description

Attention-based Visual-Audio Fusion for Video Caption Generation.

Multimodal feature fusion based on object relation for video captioning

Fusion of Multi-Modal Features to Enhance Dense Video Caption

Coarse-to-fine dual-level attention for video-text cross modal retrieval

Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations

Integrating both Visual and Audio Cues for Enhanced Video Caption

Deep Hierarchical Attention Network for Video Description

Multimodal-enhanced hierarchical attention network for video captioning

Multi-attention mechanism for Chinese description of videos

Multimodal Semantic Attention Network for Video Captioning

A Multimodal Sentiment Analysis Approach Based on a Joint Chained Interactive Attention Mechanism

Multimodal Saliency and Fusion for Movie Summarization Based on Aural, Visual, and Textual Attention

A Video Description Model with Improved Attention Mechanism

Learning Multimodal Attention LSTM Networks for Video Captioning.

Cross Attentional Audio-Visual Fusion for Dimensional Emotion Recognition

Multimodal Attention Fusion for Target Speaker Extraction

Event-centric multi-modal fusion method for dense video captioning

Multimodal feature fusion for robust event detection in web videos

Two-Stream Video Classification with Cross-Modality Attention

Dynamic Multimodal Fusion in Video Search