Abstract:In the field of human-computer interaction, accurate identification of talking objects can help robots to accomplish subsequent tasks such as decision-making or recommendation; therefore, object determination is of great interest as a pre-requisite task. Whether it is named entity recognition (NER) in natural language processing (NLP) work or object detection (OD) task in the computer vision (CV) field, the essence is to achieve object recognition. Currently, multimodal approaches are widely used in basic image recognition and natural language processing tasks. This multimodal architecture can perform entity recognition tasks more accurately, but when faced with short texts and images containing more noise, we find that there is still room for optimization in the image-text-based multimodal named entity recognition (MNER) architecture. In this study, we propose a new multi-level multimodal named entity recognition architecture, which is a network capable of extracting useful visual information for boosting semantic understanding and subsequently improving entity identification efficacy. Specifically, we first performed image and text encoding separately and then built a symmetric neural network architecture based on Transformer for multimodal feature fusion. We utilized a gating mechanism to filter visual information that is significantly related to the textual content, in order to enhance text understanding and achieve semantic disambiguation. Furthermore, we incorporated character-level vector encoding to reduce text noise. Finally, we employed Conditional Random Fields for label classification task. Experiments on the Twitter dataset show that our model works to increase the accuracy of the MNER task.

Flat Multi-modal Interaction Transformer for Named Entity Recognition.

MAFN: Multi-Level Attention Fusion Network for Multimodal Named Entity Recognition

Improving Multimodal Named Entity Recognition Via Entity Span Detection with Unified Multimodal Transformer

MLNet: a multi-level multimodal named entity recognition architecture

CAT-MNER: Multimodal Named Entity Recognition with Knowledge-Refined Cross-Modal Attention

Multi-modal Graph Fusion for Named Entity Recognition with Targeted Visual Guidance

A Token-wise Graph-based Framework for Multimodal Named Entity Recognition

Multimodal Named Entity Recognition with Bottleneck Fusion and Contrastive Learning.

A Multi-Task Framework Based on Decomposition for Multimodal Named Entity Recognition

Multi-task Transformer with Relation-attention and Type-attention for Named Entity Recognition

Chinese NER Using Multi-View Transformer

Text-Image Scene Graph Fusion for Multi-Modal Named Entity Recognition

Dynamic Graph Construction Framework for Multimodal Named Entity Recognition in Social Media

Multi-task Multi-attention Transformer for Generative Named Entity Recognition

MGICL: Multi-Grained Interaction Contrastive Learning for Multimodal Named Entity Recognition

MAF - A General Matching and Alignment Framework for Multimodal Named Entity Recognition.

MFE-transformer: Adaptive English text named entity recognition method based on multi-feature extraction and transformer

Fine-Grained Multimodal Named Entity Recognition and Grounding with a Generative Framework

Entity-level Interaction Via Heterogeneous Graph for Multimodal Named Entity Recognition.

Multimodal Named Entity Recognition Model Based on Cross-modal Feature Enhancement Mechanism

ITA: Image-Text Alignments for Multi-Modal Named Entity Recognition