Abstract:Image-text bidirectional retrieval is a significant task within cross-modal learning field. The main issue lies on the jointly embedding learning and accurately measuring image-text matching score. Most prior works make use of either intra-modality methods performing within two separate modalities or inter-modality ones combining two modalities tightly. However, intra-modality methods remain ambiguous when learning visual context due to the existence of redundant messages. And inter-modality methods increase the complexity of retrieval because of unifying two modalities closely when learning modal features. In this research, we propose an eclectic Visual Context Learning based on Textual knowledge Network (VCLTN), which transfers textual knowledge to visual modality for context learning and decreases the discrepancy of information capacity between two modalities. Specifically, VCLTN merges label semantics into corresponding regional features and employs those labels as intermediaries between images and texts for better modal alignment. Contextual knowledge of those labels learned within textual modality is utilized to guide the visual context learning. Besides, considering the homogeneity within each modality, global features are merged into regional features for assisting in the context learning. In order to alleviate the imbalance of information capacity between images and texts, entities together with relations inside the given caption are extracted and an auxiliary caption is sampled for attaching supplementary messages to textual modality. Experiments performed on Flickr30K and MS-COCO reveal that our model VCLTN achieves best results compared with the state-of-the-art methods.

VELDA: Relating an Image Tweet’s Text and Images

Training A Small Emotional Vision Language Model for Visual Art Comprehension

Leveraging Auxiliary Text for Deep Recognition of Unseen Visual Relationships

Predicting Viewer Affective Comments Based on Image Content in Social Media

Understanding and Classifying Image Tweets.

Visual Emotion Analysis Via Affective Semantic Concept Discovery

VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning

Text-Image De-Contextualization Detection Using Vision-Language Models

Visual Spatial Description: Controlled Spatial-Oriented Image-to-Text Generation

Stimuli-Aware Visual Emotion Analysis

Image-text Retrieval via Preserving Main Semantics of Vision

VISTA: A Visual and Textual Attention Dataset for Interpreting Multimodal Models

Learning the Visualness of Text Using Large Vision-Language Models

Visual-Textual Sentiment Analysis Enhanced by Hierarchical Cross-Modality Interaction

VLEU: a Method for Automatic Evaluation for Generalizability of Text-to-Image Models

Visual context learning based on textual knowledge for image-text retrieval

Visual Sentiment Analysis Using Deep Learning Models with Social Media Data

A Circular-Structured Representation for Visual Emotion Distribution Learning

Deep Visual Semantic Embedding with Text Data Augmentation and Word Embedding Initialization

Visual sentiment analysis based on image caption and adjective–noun–pair description

Beyond Text: Frozen Large Language Models in Visual Signal Comprehension