Abstract:In this paper, we propose a new unsupervised domain adaptation (DA) method called layer-adapted implicit distribution alignment networks (LIDAN) to address the challenge of cross-corpus speech emotion recognition (SER). LIDAN extends our previous ICASSP work, deep implicit distribution alignment networks (DIDAN), whose key contribution lies in the introduction of a novel regularization term called implicit distribution alignment (IDA). This term allows DIDAN trained on source (training) speech samples to remain applicable to predicting emotion labels for target (testing) speech samples, regardless of corpus variance in cross-corpus SER. To further enhance this method, we extend IDA to layer-adapted IDA (LIDA), resulting in LIDAN. This layer-adpated extention consists of three modified IDA terms that consider emotion labels at different levels of granularity. These terms are strategically arranged within different fully connected layers in LIDAN, aligning with the increasing emotion-discriminative abilities with respect to the layer depth. This arrangement enables LIDAN to more effectively learn emotion-discriminative and corpus-invariant features for SER across various corpora compared to DIDAN. It is also worthy to mention that unlike most existing methods that rely on estimating statistical moments to describe pre-assumed explicit distributions, both IDA and LIDA take a different approach. They utilize an idea of target sample reconstruction to directly bridge the feature distribution gap without making assumptions about their distribution type. As a result, DIDAN and LIDAN can be viewed as implicit cross-corpus SER methods. To evaluate LIDAN, we conducted extensive cross-corpus SER experiments on EmoDB, eNTERFACE, and CASIA corpora. The experimental results demonstrate that LIDAN surpasses recent state-of-the-art explicit unsupervised DA methods in tackling cross-corpus SER tasks.

Unsupervised Cross-Lingual Speech Emotion Recognition Using DomainAdversarial Neural Network

Cross lingual speech emotion recognition via triple attentive asymmetric convolutional neural network

Cross-Corpus Speech Emotion Recognition Based on Hybrid Neural Networks

Unsupervised Cross-Corpus Speech Emotion Recognition Using Domain-Adaptive Subspace Learning

Speech Emotion Recognition Based on Meta-Transfer Learning with Domain Adaption

Domain adversarial learning for emotion recognition

Cross-Corpus Speech Emotion Recognition Based on Deep Domain-Adaptive Convolutional Neural Network

Speech Emotion Recognition Based on Convolutional Neural Network with Attention-Based Bidirectional Long Short-Term Memory Network and Multi-Task Learning

Cross-Corpus Speech Emotion Recognition Based on Domain-Adaptive Least-Squares Regression.

Speaker-Independent Speech Emotion Recognition Based On Cnn-Blstm And Multiple Svms

Domain adaptive dual-relaxation regression for speech emotion recognition

Domain-Invariant Feature Learning for Cross Corpus Speech Emotion Recognition

Semi-supervised cross-lingual speech emotion recognition

Multi-scale Discrepancy Adversarial Network for Crosscorpus Speech Emotion Recognition

Domain-Adversarial Autoencoder with Attention Based Feature Level Fusion for Speech Emotion Recognition.

Context-Dependent Domain Adversarial Neural Network for Multimodal Emotion Recognition

Layer-Adapted Implicit Distribution Alignment Networks for Cross-Corpus Speech Emotion Recognition

Hierarchical Distribution Adaptation for Unsupervised Cross-corpus Speech Emotion Recognition

Cross-corpus Speech Emotion Recognition Using Subspace Learning and Domain Adaption

EMOTION CONTROLLABLE SPEECH SYNTHESIS USING EMOTION-UNLABELED DATASET WITH THE ASSISTANCE OF CROSS-DOMAIN SPEECH EMOTION RECOGNITION