Abstract:In the last few years, the multi-modal emotion recognition has become an important research issue in the affective computing community due to its wide range of applications that include mental disease diagnosis, human behavior understanding, human machine/robot interaction or autonomous driving systems. In this paper, we introduce a novel end-to-end multimodal emotion recognition methodology, based on audio and visual fusion designed to leverage the mutually complementary nature of features while maintaining the modality-specific information. The proposed method integrates spatial, channel and temporal attention mechanisms into a visual 3D convolutional neural network (3D-CNN) and temporal attention into an audio 2D convolutional neural network (2D-CNN) to capture the intra-modal features characteristics. Further, the inter-modal information is captured with the help of an audio-video (A-V) cross-attention fusion technique that effectively identifies salient relationships across the two modalities. Finally, by considering the semantic relations between the emotion categories, we design a novel classification loss based on an emotional metric constraint that guides the attention generation mechanisms. We demonstrate that by exploiting the relations between the emotion categories our method yields more discriminative embeddings, with more compact intra-class representations and increased inter-class separability. The experimental evaluation carried out on the RAVDESS ( The Ryerson Audio-Visual Database of Emotional Speech and Song ), and CREMA-D ( Crowd-sourced Emotional Multimodal Actors Dataset ) datasets validates the proposed methodology, which leads to average accuracy scores of 89.25% and 84.57%, respectively. In addition, when compared to state-of-the-art techniques, the proposed solution shows superior performances, with gains in accuracy ranging in the [1.72%, 11.25%] interval.

Multimodal Dimensional and Continuous Emotion Recognition in Dyadic Video Interactions.

Bridging Discrete and Continuous: A Multimodal Strategy for Complex Emotion Detection

Continuous Multimodal Emotion Prediction Based on Long Short Term Memory Recurrent Neural Network

Multimodal interaction enhanced representation learning for video emotion recognition

Multimodal Emotion Recognition by Combining Physiological Signals and Facial Expressions: a Preliminary Study.

Multimodal Utterance-level Affect Analysis using Visual, Audio and Text Features

Multi-scale Temporal Modeling for Dimensional Emotion Recognition in Video

Investigating Multisensory Integration in Emotion Recognition Through Bio-Inspired Computational Models

An Improved Multimodal Dimension Emotion Recognition Based on Different Fusion Methods

Multimodal emotion recognition using cross modal audio-video fusion with attention and deep metric learning

A multimodal shared network with a cross-modal distribution constraint for continuous emotion recognition

Mutilmodal Feature Extraction and Attention-based Fusion for Emotion Estimation in Videos

EffMulti: Efficiently Modeling Complex Multimodal Interactions for Emotion Analysis

A multimodal fusion-based deep learning framework combined with local-global contextual TCNs for continuous emotion recognition from videos

Multi-modal Continuous Dimensional Emotion Recognition Using Recurrent Neural Network and Self-Attention Mechanism

A Multimodal Sentiment Analysis Approach Based on a Joint Chained Interactive Attention Mechanism

Multimodal Prediction of Affective Dimensions and Depression in Human-Computer Interactions

Adversarial Domain Adaption for Multi-Cultural Dimensional Emotion Recognition in Dyadic Interactions

AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations

A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition

InterMulti:Multi-view Multimodal Interactions with Text-dominated Hierarchical High-order Fusion for Emotion Analysis