Abstract:Video summarization facilitates rapid browsing and efficient video indexing in many video browsing website applications, such as sport video highlights, dynamic video cover. In these applications, it is most important to generate user video summaries that capture interesting video content that users prefer. While many existing methods generate video summaries based on low-level features, this paper first proposes to mine large-scale Flickr images and find "interest" and "non-interest" images from Flickr for the same query to learn what is of interest to users. Unlike existing pairwise ranking-based methods for video summarization, we then propose an improved triplet deep ranking model that is easier to converge to learn the relationship between "interest" and "non-interest" Flickr images, and exploit what visual content of the original video is indeed preferred by users. In the training process, triplets (interest image p+, interest image p '+, non-interest image p '') are selected as input to train a model with three parallel deep convolutional networks. In the video summarization process, an efficient entropy-based video segmentation method is proposed for dividing the original video into segments and the visual interest scores of the segments are estimated using the trained ranking network for summarization (SumNet). Then, an optimal subset of the segments is selected to create a summary capturing interesting visual content. We evaluate and compare our method with several state-of-the-art methods, experimental results show that our method achieves an improvement over the best baseline method by 9.6% in terms of mean Average Precision (mAP) accuracy.

User-Ranking Video Summarization with Multi-Stage Spatio-Temporal Representation.

Learning User Interest with Improved Triplet Deep Ranking and Web-Image Priors for Topic-Related Video Summarization.

An Unsupervised Video Summarization Method Based on Multimodal Representation.

Creating Memorable Video Summaries That Satisfy the User's Intention for Taking the Videos.

A GAN Based Video Summarization Method with Representation Loss

Video Summarization through Reinforcement Learning with a 3D Spatio-Temporal U-Net

Spatiotemporal Two-Stream LSTM Network for Unsupervised Video Summarization

Multiple Pairwise Ranking Networks for Personalized Video Summarization

Learning Multiscale Hierarchical Attention for Video Summarization

From Coarse to Fine: Hierarchical Structure-aware Video Summarization

Deep Semantic and Attentive Network for Unsupervised Video Summarization

Video Summarization with Long Short-term Memory

Category Driven Deep Recurrent Neural Network for Video Summarization

TTH-RNN: Tensor-Train Hierarchical Recurrent Neural Network for Video Summarization

DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video Summarization

A Hierarchical Spatial–Temporal Cross-Attention Scheme for Video Summarization Using Contrastive Learning

Unsupervised Video Summarization via Multi-source Features

Multi-View Video Summarization

Unsupervised Video Summarization with a Convolutional Attentive Adversarial Network

Video Summarization by Learning Deep Side Semantic Embedding

Personalized Video Summarization by Multimodal Video Understanding