Tracing Intricate Cues in Dialogue: Joint Graph Structure and Sentiment Dynamics for Multimodal Emotion Recognition

Jiang Li,Xiaoping Wang,Zhigang Zeng

2024-07-31

Abstract:Multimodal emotion recognition in conversation (MERC) has garnered substantial research attention recently. Existing MERC methods face several challenges: (1) they fail to fully harness direct inter-modal cues, possibly leading to less-than-thorough cross-modal modeling; (2) they concurrently extract information from the same and different modalities at each network layer, potentially triggering conflicts from the fusion of multi-source data; (3) they lack the agility required to detect dynamic sentimental changes, perhaps resulting in inaccurate classification of utterances with abrupt sentiment shifts. To address these issues, a novel approach named GraphSmile is proposed for tracking intricate emotional cues in multimodal dialogues. GraphSmile comprises two key components, i.e., GSF and SDP modules. GSF ingeniously leverages graph structures to alternately assimilate inter-modal and intra-modal emotional dependencies layer by layer, adequately capturing cross-modal cues while effectively circumventing fusion conflicts. SDP is an auxiliary task to explicitly delineate the sentiment dynamics between utterances, promoting the model's ability to distinguish sentimental discrepancies. Furthermore, GraphSmile is effortlessly applied to multimodal sentiment analysis in conversation (MSAC), forging a unified multimodal affective model capable of executing MERC and MSAC tasks. Empirical results on multiple benchmarks demonstrate that GraphSmile can handle complex emotional and sentimental patterns, significantly outperforming baseline models.

Computation and Language

What problem does this paper attempt to address?

The paper aims to address several key issues in Multimodal Emotion Recognition in Conversations (MERC): 1. **Insufficient Cross-Modal Cues**: Existing MERC methods fail to fully utilize direct cross-modal cues, resulting in incomplete cross-modal modeling. 2. **Conflict in Multi-Source Data Fusion**: Extracting both intra-modal and inter-modal information simultaneously at each network layer may lead to conflicts during information fusion. 3. **Inadequate Detection of Emotional Dynamics**: Current methods lack the ability to detect emotional dynamics, leading to inaccurate classification when handling sudden emotional shifts. To tackle these issues, the authors propose a new method called GraphSmile, which addresses the problems through two core components: - **Graph Structure Fusion (GSF) Module**: This module uses a graph structure to alternately fuse cross-modal relational cues and intra-modal contextual cues layer by layer, avoiding conflicts caused by simultaneous aggregation of different data sources. - **Sentiment Dynamics Perception (SDP) Module**: As an auxiliary task, this module explicitly captures emotional dynamics in conversations, enhancing the model's ability to recognize emotional differences. Additionally, GraphSmile extends to the Multimodal Sentiment Analysis in Conversations (MSAC) task and achieves joint optimization of both MERC and MSAC tasks, ultimately forming a unified multimodal sentiment model. Experimental results show that GraphSmile significantly outperforms baseline models on multiple benchmark datasets.

Tracing Intricate Cues in Dialogue: Joint Graph Structure and Sentiment Dynamics for Multimodal Emotion Recognition

MFDR: Multiple-stage Fusion and Dynamically Refined Network for Multimodal Emotion Recognition

Multiplex graph aggregation and feature refinement for unsupervised incomplete multimodal emotion recognition

Conversational emotion recognition studies based on graph convolutional neural networks and a dependent syntactic analysis

Multimodal Fusion via Hypergraph Autoencoder and Contrastive Learning for Emotion Recognition in Conversation

Multiple Knowledge-Enhanced Interactive Graph Network for Multimodal Conversational Emotion Recognition

Revisiting Multimodal Emotion Recognition in Conversation from the Perspective of Graph Spectrum

GraphMFT: A Graph Network based Multimodal Fusion Technique for Emotion Recognition in Conversation

A Persona-Infused Cross-Task Graph Network for Multimodal Emotion Recognition with Emotion Shift Detection in Conversations

MMDAG: Multimodal Directed Acyclic Graph Network for Emotion Recognition in Conversation

Dynamic Graph Neural Ordinary Differential Equation Network for Multi-modal Emotion Recognition in Conversation

SDR-GNN: Spectral Domain Reconstruction Graph Neural Network for Incomplete Multimodal Learning in Conversational Emotion Recognition

Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation

Synch-Graph: Multisensory Emotion Recognition Through Neural Synchrony Via Graph Convolutional Networks.

Multi-Stage Graph Representation Learning for Dialogue-Level Speech Emotion Recognition

Dynamic Emotion-Dependent Network with Relational Subgraph Interaction for Multimodal Emotion Recognition

Dense Graph Convolutional with Joint Cross-Attention Network for Multimodal Emotion Recognition

A Multi-Level Alignment and Cross-Modal Unified Semantic Graph Refinement Network for Conversational Emotion Recognition

Multi-Scale Receptive Field Graph Model for Emotion Recognition in Conversations

GA2MIF: Graph and Attention Based Two-Stage Multi-Source Information Fusion for Conversational Emotion Detection