Abstract:As society advances, an increasing number of individuals spend significant time interacting with computers daily. To enhance the human-computer interaction experience, it has become crucial to augment the computer's ability for emotion recognition. This capability holds excellent importance as machines become capable of responding to us in a more natural and contextually relevant manner, aligned with our current emotional states. Examples of such applications include caregiving and social robots. Accurate recognition of human emotions, followed by the ability to determine the most appropriate responses, can significantly enhance user experiences. The most commonly employed methods in emotion recognition include observing facial expressions, audio, and conversational content. The multi-modal emotion recognition lacks the explicit mapping relation between emotion state and audio and image features. This study proposes a fusion method for audio-visual emotion recognition. The audio and video data are preprocessed separately. The audio emotion features and visual expression features were then extracted using two distinct feature extractors. The audio emotion feature extractor, denoted as audio-net, employs a 2D CNN architecture capable of processing image-based Mel-spectrograms as input data. The facial expression feature extractor, visual-net, uses a 3D CNN architecture to process sequences of facial expression images. Fusing the visual and auditory features and enhancing feature correlation using the deep canonical correlation analysis (DCCA) method. This research uses the eNTERFACE05 dataset and reaches 89.13% accuracy in classifying emotions. The result shows that considering audio and facial features at the same time can the model better recognize the emotion people are having.

Multi Modal Facial Expression Recognition with Transformer-Based Fusion Networks and Dynamic Sampling

Emotion Recognition in Videos via Fusing Multimodal Features.

Multi-Label Multimodal Emotion Recognition With Transformer-Based Fusion and Emotion-Level Representation Learning

Multimodal transformer augmented fusion for speech emotion recognition

Transformer-Based Multimodal Emotional Perception for Dynamic Facial Expression Recognition in the Wild

Transformer-based Multimodal Information Fusion for Facial Expression Analysis

Multi-head attention fusion networks for multi-modal speech emotion recognition

Multimodal Transformer Fusion for Continuous Emotion Recognition

Audio-Visual Fusion Network Based on Conformer for Multimodal Emotion Recognition

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

Multi-modal Multi-label Facial Action Unit Detection with Transformer

Multimodal emotion recognition based on a fusion of audiovisual information with temporal dynamics

Visual Scene-Aware Hybrid and Multi-Modal Feature Aggregation for Facial Expression Recognition

Constructing multi-modal emotion recognition model based on convolutional neural network

Multi-Modal Fusion Emotion Recognition Method of Speech Expression Based on Deep Learning

Multi-Modal Emotion Recognition by Text, Speech and Video Using Pretrained Transformers

Multimodal Feature Extraction and Fusion for Emotional Reaction Intensity Estimation and Expression Classification in Videos with Transformers

Twin attention based multi-task convolutional bidirectional long short term memory for facial expression recognition

Multilevel Transformer For Multimodal Emotion Recognition

SMaTE: A Segment-Level Feature Mixing and Temporal Encoding Framework for Facial Expression Recognition

Bi-Modal Bi-Task Emotion Recognition Based on Transformer Architecture