Abstract:Summary TRECVID Multimedia Event Detection offers an interesting but very challenging task in detecting high- level complex events (Figure 1) in user-generated videos. In this paper, we will present an overview and comparative analysis of our results, which achieved top performance among all 45 submissions in TRECVID 2010. Our aim is to answer the following questions. What kind of feature is more effective for multimedia event detection? Are features from different feature modalities (e.g., audio and visual) complementary for event detection? Can we benefit from generic concept detection of background scenes, human actions, and audio concepts? Are sequence matching and event-specific object detectors critical? Our findings indicate that spatial-temporal feature is very effective for event detection, and it's also very complementary to other features such as static SIFT and audio features. As a result, our baseline run combining these three features already achieves very impressive results, with a mean minimal normalized cost (MNC) of 0.586. Incorporating the generic concept detectors using a graph diffusion algorithm provides marginal gains (mean MNC 0.579). Sequence matching with Earth Mover's Distance (EMD) further improves the results (mean MNC 0.565). The event-specific detector (batter), however, didn't prove useful from our current re-ranking tests. We conclude that it is important to combine strong complementary features from multiple modalities for multimedia event detection, and cross-frame matching is helpful in coping with temporal order variation. Leveraging contextual concept detectors and foreground activities remains a very attractive direction requiring further research.

Robust Spatial-Temporal Deep Model for Multimedia Event Detection.

Multimedia Event Detection Via Deep Spatial-Temporal Neural Networks

Multilevel Spatial-Temporal Feature Aggregation for Video Object Detection

Complex Event Detection Via Attention-Based Video Representation and Classification

Searching Persuasively: Joint Event Detection And Evidence Recounting With Limited Supervision

Combining Multi-Representation for Multimedia Event Detection Using Co-Training

Multimedia Event Detection and Recounting

Resource Constrained Multimedia Event Detection

Bi-Level Semantic Representation Analysis for Multimedia Event Detection

Multimodal Sparse Coding for Event Detection

Spatio-temporal Deep Residual Network with Hierarchical Attentions for Video Event Recognition

Multimedia Event Detection Using A Classifier-Specific Intermediate Representation

Columbia-UCF TRECVID2010 Multimedia Event Detection: Combining Multiple Modalities, Contextual Concepts, and Temporal Matching.

Bidirectional Multirate Reconstruction for Temporal Modeling in Videos

Efficient Early Event Detector for Streaming Sequence.

Reliable Shot Identification for Complex Event Detection Via Visual-Semantic Embedding.

IBM Research and Columbia University TRECVID-2011 Multimedia Event Detection (MED) System

Informedia@TRECVID 2013.

Event-Based Video Retrieval Using Audio

IBM Research and Columbia University TRECVID-2012 Multimedia Event Detection (MED), Multimedia Event Recounting (MER), and Semantic Indexing (SIN) Systems.

An Efficient Multi-Feature SVM Solver for Complex Event Detection