A review of statistical methods in imaging genetics
Farouk S. Nathoo,Linglong Kong,Hongtu Zhu,for the Alzheimer's Disease Neuroimaging Initiative,
DOI: https://doi.org/10.1002/cjs.11487
2019-02-25
Canadian Journal of Statistics
Abstract:<p>With the rapid growth of modern technology, many biomedical studies are being conducted to collect massive datasets with volumes of multi‐modality imaging, genetic, neurocognitive and clinical information from increasingly large cohorts. Simultaneously extracting and integrating rich and diverse heterogeneous information in neuroimaging and/or genomics from these big datasets could transform our understanding of how genetic variants impact brain structure and function, cognitive function and brain‐related disease risk across the lifespan. Such understanding is critical for diagnosis, prevention and treatment of numerous complex brain‐related disorders (e.g., schizophrenia and Alzheimer's disease). However, the development of analytical methods for the joint analysis of both high‐dimensional imaging phenotypes and high‐dimensional genetic data, a big data squared (BD<sup>2</sup>) problem, presents major computational and theoretical challenges for existing analytical methods. Besides the high‐dimensional nature of BD<sup>2</sup>, various neuroimaging measures often exhibit strong spatial smoothness and dependence and genetic markers may have a natural dependence structure arising from linkage disequilibrium. We review some recent developments of various statistical techniques for imaging genetics, including massive univariate and voxel‐wise approaches, reduced rank regression, mixture models and group sparse multi‐task regression. By doing so, we hope that this review may encourage others in the statistical community to enter into this new and exciting field of research. <i>The Canadian Journal of Statistics</i> 47: 108–131; 2019 © 2019 Statistical Society of CanadaAvec l'évolution rapide de la technologie, de nombreuses études biomédicales collectent des jeux de données massifs comportant un volume d'images multi‐modales et des informations cliniques, génétiques et neurocognitives sur des cohortes de plus en plus grandes. Réussir à en extraire puis à intégrer simultanément des informations riches et hétérogènes en génomique ou en imagerie cérébrale pourrait transformer notre compréhension des conséquences de la génétique sur les structures du cerveau et ses fonctions, cognitives ou autres, ainsi que sur les maladies cérébrales affectant les individus au cours de leur vie. Cette compréhension est cruciale pour le diagnostic, la prévention et le traitement de nombreux troubles cérébraux complexes (comme la schizophrénie et la maladie d'Alzheimer). L'analyse conjointe de phénotypes mesurés par l'imagerie en haute dimension avec des données génétiques également en haute dimension mène à un problème de mégadonnées au carré (MD<sup>2</sup>), présentant des défis computationnels et théoriques. Au‐delà de la haute dimension de données MD<sup>2</sup>, les mesures d'imagerie médicale comportent souvent une dépendance spatiale et une apparence lisse, puis les marqueurs génétiques peuvent posséder une structure de dépendance naturelle émergeant du déséquilibre des liens. Les auteurs décrivent le développement récent de plusieurs techniques statistiques pour l'imagerie en génétique, notamment les approches univariée massive et par voxel, la régression de rang réduit, les modèles de mélange, et la régression multi‐tâches pour groupes épars. Ils souhaitent ainsi encourager d'autres membres de la communauté statistique à contribuer à cet excitant nouveau champ de recherche. <i>La revue canadienne de statistique</i> 47: 108–131; 2019 © 2019 Société statistique du Canada</p>