Abstract:Audio-Visual Speech Recognition (AVSR) is a promising approach to improving the accuracy and robustness of speech recognition systems with the assistance of visual cues in challenging acoustic environments. In this paper, we present a novel audio-visual speech recognition architecture with unified cross-modal attention. Our approach concatenates the sequences temporally from different modalities and encodes the fused sequence in the unified feature space using a shared Conformer encoder. We then explicitly model additive noise and potential out-of-sync samples during training, and propose an auxiliary asynchronization-aware loss to improve the system performance on out-of-sync data. To enhance the efficacy of unified cross-modal attention, a manual attention alignment strategy is designed and applied to the model, bringing additional gains in both recognition accuracy and computation cost. As demonstrated by experiments on the large-scale audio-visual LRS3 dataset, our proposed approach reduces the word error rate (WER) by relatively 50 compared to the audio-only single-modal ASR system under noisy conditions, and relatively 25 compared to the previous audio-visual ASR baseline. The proposed audio-visual ASR system also shows superior robustness in more challenging conditions, such as audio-only data, visual corruption, audio-visual misalignment, and multi-talker interference. Moreover, the proposed Unified Cross-Modal Attention model exhibits a more general ability in multi-modality fusion, allowing for easy integration of additional modalities into the model with this framework to achieve a more accurate, robust, and safer multi-modal system.

Deep Multimodal Learning for Audio-Visual Speech Recognition

Audio-Visual Speech Enhancement with Deep Multi-modality Fusion

Cross-modal Mask Fusion and Modality-Balanced Audio-Visual Speech Recognition

For end-to-end audio-visual speech recognition

How to Teach DNNs to Pay Attention to the Visual Modality in Speech Recognition

Deep Temporal Architecture for Audiovisual Speech Recognition

Deep Audio-visual System for Closed-set Word-level Speech Recognition

Audio Visual Speech Recognition with Multimodal Recurrent Neural Networks

Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder

End-to-End Audiovisual Fusion with LSTMs

Unified Cross-Modal Attention: Robust Audio-Visual Speech Recognition and Beyond

Modality Attention for End-to-end Audio-visual Speech Recognition.

MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition

Learning Contextually Fused Audio-visual Representations for Audio-visual Speech Recognition

Multi-level Fusion of Audio and Visual Features for Speaker Identification

CATNet: Cross-modal fusion for audio-visual speech recognition

A Multi-View Approach To Audio-Visual Speaker Verification

Robust Audio-Visual Speech Recognition Based on Hybrid Fusion

Audio-Visual Speaker Verification via Joint Cross-Attention

Multimodal Learning of Audio-Visual Speech Recognition with Liquid State Machine.

Auxiliary Multimodal LSTM for Audio-visual Speech Recognition and Lipreading