Abstract:Multimedia contents are of predominance in the modern Web era. Recent years have witnessed growing research interests in multimedia recommendation, which aims to predict whether a user will interact with an item with multimodal contents. Most previous studies focus on modeling user-item interactions with multimodal features included as side information. However, this scheme is not well-designed for multimedia recommendation. First, only collaborative item-item relationships are implicitly modeled through high-order item-user-item co-occurrences. Considering that items are associated with rich contents in multiple modalities, we argue that the latent semantic item-item structures underlying these multimodal contents could be beneficial for learning better item representations and assist the recommender models to comprehensively discover candidate items. Second, although previous studies consider multiple modalities, their ways of fusing multiple modalities by linear combination or concatenation is insufficient to fully capture content information of items and item relationships. To address these deficiencies, we propose a latent structure MIning with ContRastive mOdality fusion model, which we term MICRO for brevity. To be specific, we devise a novel modality-aware structure learning module, which learns item-item relationships for each modality. Based on the learned modality-aware latent item relationships, we perform graph convolutions to explicitly inject item affinities into modality-aware item representations. Additionally, we design a novel multimodal contrastive framework to facilitate item-level multimodal fusion by mining both modality-shared and modality-specific information. Finally, the item representations are plugged into existing collaborative filtering methods to make accurate recommendation. Extensive experiments on three real-world datasets demonstrate the superiority of our method over state-of-arts and rationalize the design choice of our work.

Extracting Multimedia Semantics Based On Independent Modality Discovering And Fusion

An Unsupervised Video Summarization Method Based on Multimodal Representation.

Optimal Multimodal Fusion for Multimedia Data Analysis

Understanding Multimedia Document Semantics for Cross-Media Retrieval

Multi-modal Deep Analysis for Multimedia

Improving Web-Based Learning: Automatic Annotation of Multimedia Semantics and Cross-Media Indexing

An Integrated Statistical Model for Multimedia Evidence Combination.

Learning Explicit and Implicit Latent Common Spaces for Audio-Visual Cross-Modal Retrieval

Video Semantic Concept Detection Using Multi-Modality Subspace Correlation Propagation

Current Research Status and Prospects on Multimedia Content Understanding

A Statistics-Based Method For Video Semantic Analysis

Bi-Level Semantic Representation Analysis for Multimedia Event Detection

Crossmedia retrieval by learning rich semantic embeddings of multimedia

Interpretation on Multi-modal Visual Fusion

News Video Retrieval By Learning Multimodal Semantic Information

Manifold Learning Based Cross-media Retrieval: A Solution to Media Object Complementary Nature

Heterogeneous multimedia data semantics mining using content and location context.

Exploiting Concept Association to Boost Multimedia Semantic Concept Detection

Latent Structure Mining With Contrastive Modality Fusion for Multimedia Recommendation

Harmonizing Hierarchical Manifolds for Multimedia Document Semantics Understanding and Cross-Media Retrieval

Bridging the Semantic Gap via Functional Brain Imaging