Efficient multiple change point detection for high‐dimensional generalized linear models
Xianru Wang,Bin Liu,Xinsheng Zhang,Yufeng Liu,for the Alzheimer's Disease Neuroimaging Initiative
DOI: https://doi.org/10.1002/cjs.11721
2022-09-17
Canadian Journal of Statistics
Abstract:Change point detection for high‐dimensional data is an important yet challenging problem for many applications. In this article, we consider multiple change point detection in the context of high‐dimensional generalized linear models, allowing the covariate dimension p to grow exponentially with the sample size n. The model considered is general and flexible in the sense that it covers various specific models as special cases. It can automatically account for the underlying data generation mechanism without specifying any prior knowledge about the number of change points. Based on dynamic programming and binary segmentation techniques, two algorithms are proposed to detect multiple change points, allowing the number of change points to grow with n. To further improve the computational efficiency, a more efficient algorithm designed for the case of a single change point is proposed. We present theoretical properties of our proposed algorithms, including estimation consistency for the number and locations of change points as well as consistency and asymptotic distributions for the underlying regression coefficients. Finally, extensive simulation studies and application to the Alzheimer's Disease Neuroimaging Initiative data further demonstrate the competitive performance of our proposed methods. Résumé La détection de points de rupture dans des données en hautes dimensions est un problème important mais comporte des défis majeurs pour de nombreuses applications. Dans cet article, nous considérons la détection de points de changement multiples dans le contexte de modèles linéaires généralisés (GLM) de grande dimension et dans lesquels la dimension des covariables p croît de façon exponentielle avec la taille de l'échantillon n. Le modèle étudié est assez général et flexible pour permettre de couvrir différents modèles particuliers. Il peut tenir compte du mécanisme de génération de données sous‐jacent de façon automatique et sans connaissance préalable du nombre de points de changement. En utilisant des techniques de programmation dynamique et de segmentation binaire, nous proposons deux algorithmes de détection de points de rupture multiples dont le nombre croît avec n. Pour une efficacité computationnelle accrue, un algorithme plus efficace conçu pour le cas d'un seul point de changement est proposé. Nous établissons les propriétés théoriques des algorithmes proposés, y compris la convergence de l'estimation du nombre et de la localisation des points de changement, ainsi que la convergence des coefficients du modèle de régression sous‐jacent. Enfin, nous établissons la performance des méthodes proposées sur des échantillons finis par une vaste étude de simulation et les utilisons pour analyser un jeu de données réelles provenant de l'initiative d'imagerie médicale pour la maladie d'Alzheimer (ADNI).