Abstract:Currently, research on emotion recognition has shown that multi-modal data fusion has advantages in improving the accuracy and robustness of human emotion recognition, outperforming single-modal methods. Despite the promising results of existing methods, significant challenges remain in effectively fusing data from multiple modalities to achieve superior performance. Firstly, existing works tend to focus on generating a joint representation by fusing multi-modal data, with fewer methods considering the specific characteristics of each modality. Secondly, most methods fail to fully capture the intricate correlations among multiple modalities, often resorting to simplistic combinations of latent features. To address these challenges, we propose a novel fusion network for multi-modal emotion recognition. This network enhances the efficacy of multi-modal fusion while preserving the distinct characteristics of each modality. Specifically, a dual-stream multi-scale feature encoding (MFE) is designed to extract emotional information from both electroencephalogram (EEG) and peripheral physiological signals (PPS) temporal slices. Subsequently, a cross-modal global–local feature fusion module (CGFFM) is proposed to integrate global and local information from multi-modal data and then assign different importance to each modality, which makes the fusion data tend to the more important modalities. Meanwhile, the transformer module is employed to further learn the modality-specific information. Moreover, we introduce the adaptive collaboration block (ACB), which optimally leverages both modality-specific and cross-modality relations for enhanced integration and feature representation. Following extensive experiments on the DEAP and DREAMER multimodal datasets, our model achieves state-of-the-art performance.

GraphMFT: A Graph Network Based Multimodal Fusion Technique for Emotion Recognition in Conversation

GraphMFT: A Graph Network based Multimodal Fusion Technique for Emotion Recognition in Conversation

GraphCFC: A Directed Graph Based Cross-Modal Feature Complementation Approach for Multimodal Conversational Emotion Recognition

MFDR: Multiple-stage Fusion and Dynamically Refined Network for Multimodal Emotion Recognition

Bi-stream graph learning based multimodal fusion for emotion recognition in conversation

GA2MIF: Graph and Attention Based Two-Stage Multi-Source Information Fusion for Conversational Emotion Detection

MM-DFN: Multimodal Dynamic Fusion Network for Emotion Recognition in Conversations

MLGAT: multi-layer graph attention networks for multimodal emotion recognition in conversations

Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition

Revisiting Multimodal Emotion Recognition in Conversation from the Perspective of Graph Spectrum

Efficient Long-distance Latent Relation-aware Graph Neural Network for Multi-modal Emotion Recognition in Conversations

MMDAG: Multimodal Directed Acyclic Graph Network for Emotion Recognition in Conversation

Multimodal Fusion via Hypergraph Autoencoder and Contrastive Learning for Emotion Recognition in Conversation

Synch-Graph: Multisensory Emotion Recognition Through Neural Synchrony Via Graph Convolutional Networks.

Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation

DGFN Multimodal Emotion Analysis Model Based on Dynamic Graph Fusion Network

MF-Net: a multimodal fusion network for emotion recognition based on multiple physiological signals

A Two-Stage Multimodal Emotion Recognition Model Based on Graph Contrastive Learning

SDR-GNN: Spectral Domain Reconstruction Graph Neural Network for Incomplete Multimodal Learning in Conversational Emotion Recognition