Abstract:In our previous work, we proposed a feature compensation approach using high-order vector Taylor series (VTS) approximation for noisy speech recognition. In this paper, we report new progress on making it more powerful and practical in real applications. First, mixtures of densities are used to enhance the distortion models of both additive noise and convolutional distortion. New formulations for maximum likelihood (ML) estimation of distortion model parameters, and minimum mean squared error (MMSE) estimation of clean speech are derived and presented. Second, we improve the feature compensation in both efficiency and accuracy by applying higher order information of VTS approximation only to the noisy speech mean parameters, and a temporal smoothing operation for the posterior probability of Gaussian mixture components in clean speech estimation. Finally, we design a procedure to perform irrelevant variability normalization (IVN) based joint training of a reference Gaussian mixture model (GMM) for feature compensation and hidden Markov models (HMMs) for acoustic modeling using VTS-based feature compensation. The effectiveness of our proposed approach is confirmed by experiments on Aurora3 benchmark database for a real-world in-vehicle connected digits recognition task. Compared with ETSI advanced front-end, our approach achieves significant recognition accuracy improvement across three “training-testing” conditions for four languages.

Weighting Observation Vectors for Robust Speech Recognition in Noisy Environments.

Noise Robust Speaker Recognition Based on Adaptive Frame Weighting in GMM for i-Vector Extraction.

Noise Robust Speech Recognition Using Multi-Channel Based Channel Selection And ChannelWeighting.

VTS-based Robust Speech Recognition

Autoregressive Model-Based Robust Speech Recognition in Additive Noise Environment

Weighted Cluster-Range Loss and Criticality-Enhancement Loss for Speaker Recognition

Robust speech recognition in noisy backgrounds based on Teager energy operator and auditory process

speech and noise dual-stream spectrogram refine network with speech distortion loss for robust speech recognition

Robust Speech Recognition Method Based on Discriminative Learning of Environmental Features

Robust MMSE-FW-LAASR Scheme at Low SNRs

Noise Estimation Using Mean Square Cross Prediction Error for Speech Enhancement

Stereo Hidden Markov Modeling for Noise Robust Speech Recognition

Wavoice: A mmWave-assisted Noise-resistant Speech Recognition SystemJust Accepted

Residual Noise Compensation For Robust Speech Recognition In Nonstationary Noise

A New Observation Model in the Logarithmic Mel Power Spectral Domain for the Automatic Recognition of Noisy Reverberant Speech

Statistical Thresholding for Robust ASR

Flooring the observation probability for robust ASR in impulsive noise

Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition

An Improved VTS Feature Compensation Using Mixture Models of Distortion and IVN Training for Noisy Speech Recognition

Compensation of Speech Enhancement Distortion for Robust Speech Recognition