Debiased lasso after sample splitting for estimation and inference in high‐dimensional generalized linear models

Omar Vazquez,Bin Nan
DOI: https://doi.org/10.1002/cjs.11827
2024-08-23
Canadian Journal of Statistics
Abstract:We consider random sample splitting for estimation and inference in high‐dimensional generalized linear models (GLMs), where we first apply the lasso to select a submodel using one subsample and then apply the debiased lasso to fit the selected model using the remaining subsample. We show that a sample splitting procedure based on the debiased lasso yields asymptotically normal estimates under mild conditions and that multiple splitting can address the loss of efficiency. Our simulation results indicate that using the debiased lasso instead of the standard maximum likelihood method in the estimation stage can vastly reduce the bias and variance of the resulting estimates. Furthermore, our multiple splitting debiased lasso method has better numerical performance than some existing methods for high‐dimensional GLMs proposed in the recent literature. We illustrate the proposed multiple splitting method with an analysis of the smoking data of the Mid‐South Tobacco Case–Control Study. Résumé Les auteurs de cet article examinent le découpage aléatoire des échantillons pour l'estimation et l'inférence dans les modèles linéaires généralisés en haute dimension. Dans un premier temps, ils appliquent le lasso pour sélectionner un sous‐modèle à l'aide d'un sous‐échantillon, puis utilisent le lasso débiaisé pour ajuster le modèle sélectionné avec le sous‐échantillon restant. Ils démontrent que cette procédure produit des estimations asymptotiquement normales sous des conditions modérées et que le découpage multiple peut pallier la perte d'efficacité. Des simulations révèlent que le lasso débiaisé réduit significativement le biais et la variance des estimations par rapport à la méthode du maximum de vraisemblance standard. De plus, la méthode de découpage multiple avec lasso débiaisé surpasse numériquement certaines approches récentes pour les modèles linéaires généralisés en haute dimension. Enfin, la méthode proposée est illustrée par une analyse des données sur le tabagisme de l'étude cas‐témoins du Mid‐South Tobacco.
statistics & probability
What problem does this paper attempt to address?