Abstract:Humans express their emotions in a variety of ways, which inspires research on multimodal fusion-based emotion recognition that utilizes different modalities to achieve information complementation. However, extracting deep emotional features from different modalities and fusing them remain a challenging task. It is essential to exploit the advantages of different extraction and fusion approaches to capture the emotional information contained within and across modalities. In this paper, we present a novel multimodal emotion recognition framework called multimodal emotion recognition based on cascaded multichannel and hierarchical fusion (CMC-HF), where visual, speech, and text signals are simultaneously utilized as multimodal inputs. First, three cascaded channels based on deep learning technology perform feature extraction for the three modalities separately to enhance deeper information extraction ability within each modality and improve recognition performance. Second, an improved hierarchical fusion module is introduced to promote intermodality interactions of three modalities and further improve recognition and classification accuracy. Finally, to validate the effectiveness of the designed CMC-HF model, some experiments are conducted to evaluate two benchmark datasets, IEMOCAP and CMU-MOSI. The results show that we achieved an almost 2%∼3.2% increase in accuracy of the four classes for the IEMOCAP dataset as well as an improvement of 0.9%∼2.5% in the average class accuracy for the CMU-MOSI dataset when compared to the existing state-of-the-art methods. The ablation experimental results indicate that the cascaded feature extraction method and the hierarchical fusion method make a significant contribution to multimodal emotion recognition, suggesting that the three modalities contain deeper information interactions of both intermodality and intramodality. Hence, the proposed model has better overall performance and achieves higher recognition efficiency and better robustness.

Multimodal Emotion Recognition Based on Feature Fusion.

Emotion Recognition in Videos via Fusing Multimodal Features.

Investigating Multisensory Integration in Emotion Recognition Through Bio-Inspired Computational Models

Multimodal emotion recognition from facial expression and speech based on feature fusion

Multimodal Emotion Recognition Based on Cascaded Multichannel and Hierarchical Fusion

Research on cross-modal emotion recognition based on multi-layer semantic fusion

Multimodal Emotion Recognition by Combining Physiological Signals and Facial Expressions: a Preliminary Study.

Multimodal Emotion Recognition Based on Facial Expressions, Speech, and Body Gestures

Multimodal Emotion Recognition Using Different Fusion Techniques

An Improved Multimodal Dimension Emotion Recognition Based on Different Fusion Methods

Emotion Recognition Model Based on Multimodal Decision Fusion

A multimodal emotion recognition model integrating speech, video and MoCAP

Multimodal Emotion Recognition by Extracting Common and Modality-Specific Information.

A Novel Dual-Modal Emotion Recognition Algorithm with Fusing Hybrid Features of Audio Signal and Speech Context

Multi-modal fusion network with complementarity and importance for emotion recognition

A snapshot research and implementation of multimodal information fusion for data-driven emotion recognition

Multimodal emotion recognition model via hybrid model with improved feature level fusion on facial and EEG feature set

Multimodal transformer augmented fusion for speech emotion recognition

Multimodal modelling of human emotion using sound, image and text fusion

A Three-stage multimodal emotion recognition network based on text low-rank fusion

Multimodal Emotion Recognition based on the Fusion of EEG Signals and Eye Movement Data