Abstract:Given only video-level action categorical labels during training, weakly-supervised temporal action localization (WS-TAL) learns to detect action instances and locates their temporal boundaries in untrimmed videos. Compared to its fully supervised counterpart, WS-TAL is more cost-effective in data labeling and thus favorable in practical applications. However, the coarse video-level supervision inevitably incurs ambiguities in action localization, especially in untrimmed videos containing multiple action instances. To overcome this challenge, we observe that significant temporal contrasts among video snippets, e.g., caused by temporal discontinuities and sudden changes, often occur around true action boundaries. This motivates us to introduce a Contrast-based Localization EvaluAtioN Network (CleanNet), whose core is a new temporal action proposal evaluator, which provides fine-grained pseudo supervision by leveraging the temporal contrasts among snippet-level classification predictions. As a result, the uncertainty in locating action instances can be resolved via evaluating their temporal contrast scores. Moreover, the new action localization module is an integral part of CleanNet which enables end-to-end training. This is in contrast to many existing WS-TAL methods where action localization is merely a post-processing step. Besides, we also explore the usage of temporal contrast on temporal action proposal (TAP) generation task, which we believe is the first attempt with the weak supervision setting. Experiments on the THUMOS14, ActivityNet v1.2 and v1.3 datasets validate the efficacy of our method against existing state-of-the-art WS-TAL algorithms.

Exploiting Human Pose for Weakly-Supervised Temporal Action Localization

Weakly-Supervised Action Localization by Hierarchically-structured Latent Attention Modeling

Cascaded Pyramid Mining Network for Weakly Supervised Temporal Action Localization

Realigning Confidence with Temporal Saliency Information for Point-Level Weakly-Supervised Temporal Action Localization

Adaptive Mutual Supervision for Weakly-Supervised Temporal Action Localization

Weakly Supervised Temporal Action Localization through Contrast based Evaluation Networks

Modeling Sub-Actions for Weakly Supervised Temporal Action Localization

Point-Level Temporal Action Localization: Bridging Fully-supervised Proposals to Weakly-supervised Losses

Weakly Supervised Graph Convolutional Neural Network for Human Action Localization

Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal Action Localization

Learning Reliable Dense Pseudo-Labels for Point-Level Weakly-Supervised Action Localization

Weakly Supervised Temporal Action Localization via Representative Snippet Knowledge Propagation

SAPS: Self-Attentive Pathway Search for weakly-supervised action localization with background-action augmentation

Multi-modal Prompting for Low-Shot Temporal Action Localization

Weakly-Supervised Temporal Action Localization with Multi-Head Cross-Modal Attention

Weakly-Supervised Temporal Action Localization Based on Attention Regularization

Completeness Modeling and Context Separation for Weakly Supervised Temporal Action Localization

PcmNet: Position-sensitive Context Modeling Network for Temporal Action Localization

Weakly Supervised Temporal Action Localization Using Deep Metric Learning

An Approach to Pose-Based Action Recognition

ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal Action Localization