Abstract:Quantizing a floating-point neural network to its fixed-point representation is crucial for Learned Image Compression (LIC) because it improves decoding consistency for interoperability and reduces space-time complexity for implementation. Existing solutions often have to retrain the network for model quantization, which is time-consuming and impractical to some extent. This work suggests using Post-Training Quantization (PTQ) to process pretrained, off-the-shelf LIC models. We theoretically prove that minimizing quantization-induced mean square error (MSE) of model parameters (e.g., weight, bias, and activation) in PTQ is sub-optimal for compression tasks and thus develop a novel Rate-Distortion (R-D) Optimized PTQ (RDO-PTQ) to best retain the compression performance. Given a LIC model, RDO-PTQ layer-wisely determines the quantization parameters to transform the original floating-point parameters in 32-bit precision (FP32) to fixed-point ones at 8-bit precision (INT8), for which a tiny calibration image set is compressed in optimization to minimize R-D loss. Experiments reveal the outstanding efficiency of the proposed method on different LICs, showing the closest coding performance to their floating-point counterparts. Our method is a lightweight and plug-and-play approach without retraining model parameters but just adjusting quantization parameters, which is attractive to practitioners. Such an RDO-PTQ is a task-oriented PTQ scheme, which is then extended to quantize popular super-resolution and image classification models with negligible performance loss, further evidencing the generalization of our methodology. Related materials will be released at <a class="link-external link-https" href="https://njuvision.github.io/RDO-PTQ" rel="external noopener nofollow">this https URL</a>.

Improving the Post-Training Neural Network Quantization by Prepositive Feature Quantization

Hessian-based Mixed-Precision Quantization with Transition Aware Training for Neural Networks

Bit-shrinking: Limiting Instantaneous Sharpness for Improving Post-training Quantization

Pse: Mixed Quantization Framework of Neural Networks for Efficient Deployment

Optimization-based Post-training Quantization with Bit-split and Stitching

PTQ-SO: A Scale Optimization-based Approach for Post-training Quantization of Edge Computing

Solving Oscillation Problem in Post-Training Quantization Through a Theoretical Perspective

Hybrid Post-Training Quantization for Super-Resolution Neural Network Compression

PD-Quant: Post-Training Quantization Based on Prediction Difference Metric

COMQ: A Backpropagation-Free Algorithm for Post-Training Quantization

PTMQ: Post-training Multi-Bit Quantization of Neural Networks

Improving Neural Network Efficiency Via Post-training Quantization with Adaptive Floating-Point

UWC: Unit-wise Calibration Towards Rapid Network Compression

Regularized Training Framework for Combining Pruning and Quantization to Compress Neural Networks

Mixed-Precision Quantized Neural Network with Progressively Decreasing Bitwidth For Image Classification and Object Detection.

BRECQ: Pushing the Limit of Post-Training Quantization by Block Reconstruction

RAPQ: Rescuing Accuracy for Power-of-Two Low-bit Post-training Quantization

Rate-Distortion Optimized Post-Training Quantization for Learned Image Compression

Post-Training Quantization for Re-parameterization via Coarse & Fine Weight Splitting

PTQ-SL: Exploring the Sub-layerwise Post-training Quantization

Attention Round for post-training quantization