Abstract:This work introduces Variational Diffusion Distillation (VDD), a novel method that distills denoising diffusion policies into Mixtures of Experts (MoE) through variational inference. Diffusion Models are the current state-of-the-art in generative modeling due to their exceptional ability to accurately learn and represent complex, multi-modal distributions. This ability allows Diffusion Models to replicate the inherent diversity in human behavior, making them the preferred models in behavior learning such as Learning from Human Demonstrations (LfD). However, diffusion models come with some drawbacks, including the intractability of likelihoods and long inference times due to their iterative sampling process. The inference times, in particular, pose a significant challenge to real-time applications such as robot control. In contrast, MoEs effectively address the aforementioned issues while retaining the ability to represent complex distributions but are notoriously difficult to train. VDD is the first method that distills pre-trained diffusion models into MoE models, and hence, combines the expressiveness of Diffusion Models with the benefits of Mixture Models. Specifically, VDD leverages a decompositional upper bound of the variational objective that allows the training of each expert separately, resulting in a robust optimization scheme for MoEs. VDD demonstrates across nine complex behavior learning tasks, that it is able to: i) accurately distill complex distributions learned by the diffusion model, ii) outperform existing state-of-the-art distillation methods, and iii) surpass conventional methods for training MoE.

Denoising Diffusion Variational Inference: Diffusion Models as Expressive Variational Posteriors

Denoising Diffusion Variational Inference: Diffusion Models as Expressive Variational Posteriors

A Variational Perspective on Solving Inverse Problems with Diffusion Models

Diffusion Prior-Based Amortized Variational Inference for Noisy Inverse Problems

DiffEnc: Variational Diffusion with a Learned Encoder

Diffusion Priors In Variational Autoencoders

Variational Distillation of Diffusion Policies into Mixture of Experts

Interpreting and Improving Diffusion Models from an Optimization Perspective

Unified Directly Denoising for Both Variance Preserving and Variance Exploding Diffusion Models

From Denoising Diffusions to Denoising Markov Models

Variational Autoencoding Molecular Graphs with Denoising Diffusion Probabilistic Model

Diffusion Priors for Variational Likelihood Estimation and Image Denoising

Sparse Inducing Points in Deep Gaussian Processes: Enhancing Modeling with Denoising Diffusion Variational Inference

Diffusion models for probabilistic programming

Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision

Denoising diffusion probabilistic models are optimally adaptive to unknown low dimensionality

Variational Diffusion Auto-encoder: Latent Space Extraction from Pre-trained Diffusion Models

Variational Diffusion Posterior Sampling with Midpoint Guidance

DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from Low-Dimensional Latents

Denoising Lévy Probabilistic Models