Robust estimation of loss‐based measures of model performance under covariate shift
Samantha Morrison,Constantine Gatsonis,Issa J. Dahabreh,Bing Li,Jon A. Steingrimsson
DOI: https://doi.org/10.1002/cjs.11815
2024-07-14
Canadian Journal of Statistics
Abstract:We present methods for estimating loss‐based measures of the performance of a prediction model in a target population that differs from the source population in which the model was developed, in settings where outcome and covariate data are available from the source population but only covariate data are available on a simple random sample from the target population. Prior work adjusting for differences between the two populations has used various weighting estimators with inverse odds or density ratio weights. Here, we develop more robust estimators for the target population risk (expected loss) that can be used with data‐adaptive (e.g., machine learning‐based) estimation of nuisance parameters. We examine the large‐sample properties of the estimators and evaluate finite‐sample performance in simulations. Last, we apply the methods to data from lung cancer screening using nationally representative data from the National Health and Nutrition Examination Survey (NHANES) and extend our methods to account for the complex survey design of the NHANES. Résumé Dans cette étude, les auteurs présentent des méthodes visant à estimer les mesures de performance basées sur la fonction de perte d'un modèle prédictif, lorsque la population cible diffère de la population source. Le contexte considéré est celui où seules les données de covariables sont disponibles sur un échantillon aléatoire simple de la population cible, tandis que les données de réponse et covariables le sont pour la population source. Contrairement aux approches antérieures qui ajustent les différences entre les populations en utilisant des estimateurs de pondération avec des poids de rapports de cotes inverses ou de rapports de densité, cette étude propose des estimateurs robustes du risque (perte moyenne) dans la population cible. Ces estimateurs peuvent être associés à des techniques d'estimation adaptatives aux données, telles que l'apprentissage statistique, pour les paramètres nuisibles. Les propriétés asymptotiques des estimateurs proposés sont étudiées théoriquement, et leur comportement à taille finie est évalué par simulations. L'application empirique porte sur des données de dépistage du cancer du poumon issues de l'enquête "National Health and Nutrition Examination Survey" (NHANES), représentative de la population américaine. De plus, une extension permettant de tenir compte du plan de sondage complexe du NHANES est proposée.
statistics & probability