Abstract:Asynchronization issue caused by different types of modalities is one of the major problems in audio visual speech recognition (AVSR) research. However, most AVSR systems merely rely on up sampling of video or down sampling of audio to align audio and visual features, assuming that the feature sequences are aligned frame-by-frame. These pre-processing steps oversimplify the asynchrony relation between acoustic signal and lip motion, lacking flexibility and impairing the performance of the system. Although there are systems modeling the asynchrony between the modalities, sometimes they fail to align speech and video precisely over some even all noisy conditions. In this paper, we propose a mutual feature alignment method for AVSR which can make full use of cross modility information to address the asynchronization issue by introducing Mutual Iterative Attention (MIA) mechanism. Our method can automatically learn an alignment in a mutual way by performing mutual attention iteratively between the audio and visual features, relying on the modified encoder structure of Transformer. Experimental results show that our proposed method obtains absolute improvements up to 20.42% over the audio modality alone depending upon the signal-to-noise-ratio (SNR) level. Better recognition performance can also be achieved comparing with the traditional feature concatenation method under both clean and noisy conditions. It is expectable that our proposed mutual feature alignment method can be easily generalized to other multimodal tasks with semantically correlated information.

A Robust Visual Feature Extraction Based BTSM-LDA for Audio-Visual Speech Recognition

Cross-modal Mask Fusion and Modality-Balanced Audio-Visual Speech Recognition

Multi-stream Asynchrony Modeling for Audio-Visual Speech Recognition

AudioVSR: Enhancing Video Speech Recognition with Audio Data

Audio Visual Speech Recognition Based on Multi-Stream DBN Models with Articulatory Features

Robust Audio-visual Speech Recognition Using Bimodal Dfsmn with Multi-condition Training and Dropout Regularization.

Audio-Visual Speech Separation with Visual Features Enhanced by Adversarial Training

Lip Graph Assisted Audio-Visual Speech Recognition Using Bidirectional Synchronous Fusion.

DBN based models for audio-visual speech analysis and recognition

Deep Audio-visual System for Closed-set Word-level Speech Recognition

Auxiliary Multimodal LSTM for Audio-visual Speech Recognition and Lipreading

Robust Audio-Visual Speech Recognition Based on Hybrid Fusion

Exploring Deep Learning for Joint Audio-Visual Lip Biometrics

A Probabilistic Principal Component Analysis Based Hidden Markov Model For Audio-Visual Speech Recognition

How to Teach DNNs to Pay Attention to the Visual Modality in Speech Recognition

Audio-visual Speech Recognition Integrating 3D Lip Information Obtained from the Kinect

Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection

Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition

Robust Audio-Visual Mandarin Speech Recognition Based on Adaptive Decision Fusion and Tone Features

Mutual Alignment between Audiovisual Features for End-to-End Audiovisual Speech Recognition