Bayesian Model Selection via Composite Likelihood for High‐dimensional Data Integration

Guanlin Zhang,Yuehua Wu,Xin Gao
DOI: https://doi.org/10.1002/cjs.11800
2024-01-07
Canadian Journal of Statistics
Abstract:We consider data integration problems where correlated data are collected from multiple platforms. Within each platform, there are linear relationships between the responses and a collection of predictors. We extend the linear models to include random errors coming from a much wider family of sub‐Gaussian and subexponential distributions. The goal is to select important predictors across multiple platforms, where the number of predictors and the number of observations both increase to infinity. We combine the marginal densities of the responses obtained from different platforms to form a composite likelihood and propose a model selection criterion based on Bayesian composite posterior probabilities. Under some regularity conditions, we prove that the model selection criterion is consistent to recover the union support of the predictors with divergent true model size. Résumé Dans cette étude, la problématique de l'intégration de données corrélées collectées à partir de diverses plateformes est minutieusement examinée. Au sein de chaque plateforme, des relations linéaires sont identifiées entre les variables de réponse et un ensemble spécifique de prédicteurs. Pour enrichir l'analyse, les modèles linéaires sont généralisés afin d'inclure des composantes d'erreur aléatoire issues d'une famille élargie de lois, telles que les distributions sous‐gaussiennes et sous‐exponentielles. L'objectif principal de l'étude est l'identification de prédicteurs pertinents à travers plusieurs plateformes, une tâche rendue plus complexe par l'augmentation indéfinie du nombre de prédicteurs et du volume d'observations. À cet effet, les auteurs de ce travail combinent les densités marginales des variables réponses provenant de différentes plateformes pour former une fonction de vraisemblance composite. Sur cette base, ils proposent un critère de sélection de modèle en s'appuyant sur des probabilités a posteriori composites dans un contexte bayésien. Enfin, sous des conditions de régularité spécifiques, les auteurs démontrent que leur critère de sélection de modèle est convergent et permet de récupérer le support d'union des prédicteurs, même en présence d'une divergence dans la taille du modèle véritable.
statistics & probability
What problem does this paper attempt to address?