Abstract:In multimodal sentiment analysis, achieving effective fusion among text, acoustic, and visual modalities for enhanced sentiment prediction is a crucial research topic. Recent studies typically employ tensor-based or attention-based mechanisms for multimodal fusion. However, the former fails to achieve satisfactory prediction performance, and the latter complicates the computation of fusion between non-textual modalities. Therefore, this paper proposes the multimodal sentiment analysis model based on Adaptive Feature Normalization and Attention Gating mechanism (AdaFN-AG). Firstly, facing highly synchronized non-textual modalities, we design the Adaptive Feature Normalization (AdaFN) method, which focuses more on sentiment features interaction rather than timing features association. In AdaFN, acoustic and visual modality features achieve cross-modal interaction through normalization, inverse normalization, and mix-up operations, with weights utilized for adaptive strength regulation of the cross-modal interaction. Meanwhile, we design the Attention Gating mechanism that facilitates cross-modal interactions between textual and non-textual modalities through cross-attention and captures timing associations, while the gating module concurrently regulates the intensity of these interactions. Additionally, we employ self-attention to capture the intrinsic correlations within single-modal features. Subsequently, we conduct experiments on three benchmark datasets for multimodal sentiment analysis, with the results indicating that AdaFN-AG outperforms the baselines across the majority of evaluation metrics. Through research and experiments, we validate that AdaFN-AG not only enhances performance by adopting appropriate methods for different types of cross-modal interactions while conserving computational resources but also verifies the generalization capability of the AdaFN method.

NHFNET: A Non-Homogeneous Fusion Network for Multimodal Sentiment Analysis

Sentiment Analysis Using Deep Robust Complementary Fusion of Multi-Features and Multi-Modalities.

CTHFNet: contrastive translation and hierarchical fusion network for text–video–audio sentiment analysis

Heterogeneous Hierarchical Fusion Network for Multimodal Sentiment Analysis in Real-World Environments

TeFNA: Text-centered Fusion Network with crossmodal Attention for multimodal sentiment analysis

Multimodal Sentiment Analysis Based on Cross-Modal Attention and Gated Cyclic Hierarchical Fusion Networks

Feature Extraction Network with Attention Mechanism for Data Enhancement and Recombination Fusion for Multimodal Sentiment Analysis

Information Fusion in Attention Networks Using Adaptive and Multi-level Factorized Bilinear Pooling for Audio-visual Emotion Recognition

SKEAFN: Sentiment Knowledge Enhanced Attention Fusion Network for multimodal sentiment analysis

CMCI: A Robust Multimodal Fusion Method for Spiking Neural Networks

Tri-Modalities Fusion for Multimodal Sentiment Analysis

Multimodal Multi-loss Fusion Network for Sentiment Analysis

Adafn-Ag: Enhancing Multimodal Interaction with Adaptive Feature Normalization for Multimodal Sentiment Analysis

BAFN: Bi-Direction Attention Based Fusion Network for Multimodal Sentiment Analysis

Multimodal Sentiment Analysis in Realistic Environments Based on Cross-Modal Hierarchical Fusion Network

Multi-Channel Attentive Graph Convolutional Network with Sentiment Fusion for Multimodal Sentiment Analysis

Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis

Global Local Fusion Neural Network for Multimodal Sentiment Analysis

ModalNet: an aspect-level sentiment classification model by exploring multimodal data with fusion discriminant attentional network

Multimodal Language Analysis with Recurrent Multistage Fusion

MSFNet: modality smoothing fusion network for multimodal aspect-based sentiment analysis