Abstract:During recent years, deep convolutional neural networks have demonstrated dominant performance in human activity recognition (HAR) using wearable sensors. However, they often come at high computational cost when fueled with fixed-length sliding window. This article primarily aims to accelerate activity inference from a novel perspective of reducing temporal redundancy in sensor data. Inspired by the fact that not all time intervals within a window are activity-relevant, we formulate the activity prediction problem as a dynamic inference process by continuously attending to a sequence of small activity-discriminative intervals, which are selected from an original window by progressively predicting the discriminative importance of each interval with an interpretable interval proposal network. The dynamic process can adaptively decide when to halt for each individual sample, which considerably avoids excessive computation by letting “easy” activity exit as early as possible while progressively focusing on small salient intervals for “hard” activity. Given a limited budget, the accuracy-cost tradeoff can be flexibly and precisely controlled via tuning confidence thresholds online without requiring to be retrained from scratch—a practical requirement in real-world HAR applications. Extensive experiments on several standard benchmarks including University of California-Irvine-Human Activity Recognition (UCI-HAR), wireless sensor data mining (WISDM), University of Southern California-Human Activity Dataset (USC-HAD), and Weakly Labeled dataset demonstrate that our dynamic inference process significantly outperforms previous static methods according to theoretical and practical computational efficiency.

Cost-Sensitive top-down/bottom-up inference for multiscale activity recognition

Learning Visual Context for Group Activity Recognition.

Spatio-Temporal Dynamic Inference Network for Group Activity Recognition

Detecting Group Activities with Multi-Camera Context

Dynamic Inference via Localizing Semantic Intervals in Sensor Data for Budget-Tunable Activity Recognition

Activity recognition through multi-scale motion detail analysis.

M&M: Recognizing Multiple Co-evolving Activities from Multi-source Videos

Contextual Multi-Scale Region Convolutional 3D Network for Activity Detection

Hierarchical Multi-View Aggregation Network for Sensor-Based Human Activity Recognition.

Monte Carlo Tree Search for Scheduling Activity Recognition

Skeleton-based Group Activity Recognition via Spatial-Temporal Panoramic Graph

Actor-Multi-Scale Context Bidirectional Higher Order Interactive Relation Network for Spatial-Temporal Action Localization.

MCMNET: Multi-Scale Context Modeling Network for Temporal Action Detection

Human Activity Recognition based on Dynamic Spatio-Temporal Relations

Fast Low-parameter Video Activity Localization in Collaborative Learning Environments

A Hierarchical Spatio-Temporal Model for Human Activity Recognition.

3D Human Activity Recognition with Reconfigurable Convolutional Neural Networks

A Scalable Approach to Activity Recognition based on Object Use

Improved Actor Relation Graph based Group Activity Recognition

Dual-AI: Dual-path Actor Interaction Learning for Group Activity Recognition

MUP: Multi-granularity Unified Perception for Panoramic Activity Recognition