Abstract:Machine learning models traditionally assume that training and test data are independently and identically distributed. However, in real-world applications, the test distribution often differs from training. This problem, known as out-of-distribution (OOD) generalization, challenges conventional models. Invariant Risk Minimization (IRM) emerges as a solution that aims to identify invariant features across different environments to enhance OOD robustness. However, IRM's complexity, particularly its bi-level optimization, has led to the development of various approximate methods. Our study investigates these approximate IRM techniques, using the consistency and variance of calibration across environments as metrics to measure the invariance aimed for by IRM. Calibration, which measures the reliability of model prediction, serves as an indicator of whether models effectively capture environment-invariant features by showing how uniformly over-confident the model remains across varied environments. Through a comparative analysis of datasets with distributional shifts, we observe that Information Bottleneck-based IRM achieves consistent calibration across different environments. This observation suggests that information compression techniques, such as IB, are potentially effective in achieving model invariance. Furthermore, our empirical evidence indicates that models exhibiting consistent calibration across environments are also well-calibrated. This demonstrates that invariance and cross-environment calibration are empirically equivalent. Additionally, we underscore the necessity for a systematic approach to evaluating OOD generalization. This approach should move beyond traditional metrics, such as accuracy and F1 scores, which fail to account for the model's degree of over-confidence, and instead focus on the nuanced interplay between accuracy, calibration, and model invariance.

Calibrated ensembles can mitigate accuracy tradeoffs under distribution shift

Adaptive Calibrator Ensemble for Model Calibration under Distribution Shift

Deep Discriminative to Kernel Density Graph for In- and Out-of-distribution Calibrated Inference

MaxEnt Loss: Constrained Maximum Entropy for Calibration under Out-of-Distribution Shift

Towards Calibrated Robust Fine-Tuning of Vision-Language Models

Improving self-training under distribution shifts via anchored confidence with theoretical guarantees

On the Benefits of Over-parameterization for Out-of-Distribution Generalization

Set Learning for Accurate and Calibrated Models

Learning Calibrated Uncertainties for Domain Shift: a Distributionally Robust Learning Approach

Towards Understanding Variants of Invariant Risk Minimization through the Lens of Calibration

Accuracy on the Line: On the Strong Correlation Between Out-of-Distribution and In-Distribution Generalization

Self-Calibrated Tuning of Vision-Language Models for Out-of-Distribution Detection

Bridging Multicalibration and Out-of-distribution Generalization Beyond Covariate Shift

Combine and Conquer: A Meta-Analysis on Data Shift and Out-of-Distribution Detection

Exploring Covariate and Concept Shift for Detection and Calibration of Out-of-Distribution Data

Calibrating Bayesian Learning via Regularization, Confidence Minimization, and Selective Inference

An Empirical Study of Pre-trained Model Selection for Out-of-Distribution Generalization and Calibration

Calibration by Distribution Matching: Trainable Kernel Calibration Metrics

Accuracy on the wrong line: On the pitfalls of noisy data for out-of-distribution generalisation

Deep Distributionally Robust Learning for Calibrated Uncertainties under Domain Shift

Out of Distribution Detection via Neural Network Anchoring