Abstract:Gradient compression is a promising approach to alleviating the communication bottleneck in data parallel deep neural network (DNN) training by significantly reducing the data volume of gradients for synchronization. While gradient compression is being actively adopted by the industry (e.g., Facebook and AWS), our study reveals that there are two critical but often overlooked challenges: 1) inefficient coordination between compression and communication during gradient synchronization incurs substantial overheads, and 2) developing, optimizing, and integrating gradient compression algorithms into DNN systems imposes heavy burdens on DNN practitioners, and ad-hoc compression implementations often yield surprisingly poor system performance. In this paper, we propose a compression-aware gradient synchronization architecture, CaSync, which relies on flexible composition of basic computing and communication primitives. It is general and compatible with any gradient compression algorithms and gradient synchronization strategies and enables high-performance computation-communication pipelining. We further introduce a gradient compression toolkit, CompLL, to enable efficient development and automated integration of on-GPU compression algorithms into DNN systems with little programming burden. Lastly, we build a compression-aware DNN training framework HiPress with CaSync and CompLL. HiPress is open-sourced and runs on mainstream DNN systems such as MXNet, TensorFlow, and PyTorch. Evaluation via a 16-node cluster with 128 NVIDIA V100 GPUs and a 100 Gbps network shows that HiPress improves the training speed over current compression-enabled systems (e.g., BytePS-onebit, Ring-DGC and PyTorch-PowerSGD) by 9.8%-69.5% across six popular DNN models.

An Efficient Bandwidth-Adaptive Gradient Compression Algorithm for Distributed Training of Deep Neural Networks

Compressed Communication for Distributed Training: Adaptive Methods and System

Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training.

Sparse Gradient Compression For Distributed Sgd

An Efficient Statistical-based Gradient Compression Technique for Distributed Training Systems

DAGC: Data-Aware Adaptive Gradient Compression.

Near-Lossless Gradient Compression for Data-Parallel Distributed DNN Training

AC-SGD: Adaptively Compressed SGD for Communication-Efficient Distributed Learning

GraVAC: Adaptive Compression for Communication-Efficient Distributed DL Training

Evaluation and Optimization of Gradient Compression for Distributed Deep Learning

Accordion: Adaptive Gradient Communication via Critical Learning Regime Identification

Adaptive Compression for Communication-Efficient Distributed Training

A Novel Adaptive Gradient Compression Scheme: Reducing the Communication Overhead for Distributed Deep Learning in the Internet of Things

DAGC: Data-Volume-Aware Adaptive Sparsification Gradient Compression for Distributed Machine Learning in Mobile Computing

L-GreCo: Layerwise-Adaptive Gradient Compression for Efficient and Accurate Deep Learning

A Generic, High-Performance, Compression-Aware Framework for Data Parallel DNN Training

Data-Aware Gradient Compression for FL in Communication-Constrained Mobile Computing

SK-Gradient: Efficient Communication for Distributed Machine Learning with Data Sketch.

Peering Beyond the Gradient Veil with Distributed Auto Differentiation

Communication-Compressed Adaptive Gradient Method for Distributed Nonconvex Optimization

Adaptive Batchsize Selection and Gradient Compression for Wireless Federated Learning