Expression‐based machine learning models for predicting plant tissue identity
Sourabh Palande,Jeremy Arsenault,Patricia Basurto‐Lozada,Andrew Bleich,Brianna N. I. Brown,Sophia F. Buysse,Noelle A. Connors,Sikta Das Adhikari,Kara C. Dobson,Francisco Xavier Guerra‐Castillo,Maria F. Guerrero‐Carrillo,Sophia Harlow,Héctor Herrera‐Orozco,Asia T. Hightower,Paulo Izquierdo,MacKenzie Jacobs,Nicholas A. Johnson,Wendy Leuenberger,Alessandro Lopez‐Hernandez,Alicia Luckie‐Duque,Camila Martínez‐Avila,Eddy J. Mendoza‐Galindo,David Cruz Plancarte,Jenny M. Schuster,Harry Shomer,Sidney C. Sitar,Anne K. Steensma,Joanne Elise Thomson,Damián Villaseñor‐Amador,Robin Waterman,Brandon M. Webster,Madison Whyte,Sofía Zorilla‐Azcué,Beronda L. Montgomery,Aman Y. Husbands,Arjun Krishnan,Sarah Percival,Elizabeth Munch,Robert VanBuren,Daniel H. Chitwood,Alejandra Rougon‐Cardoso
DOI: https://doi.org/10.1002/aps3.11621
2024-10-21
Applications in Plant Sciences
Abstract:Premise The selection of Arabidopsis as a model organism played a pivotal role in advancing genomic science. The competing frameworks to select an agricultural‐ or ecological‐based model species were rejected, in favor of building knowledge in a species that would facilitate genome‐enabled research. Methods Here, we examine the ability of models based on Arabidopsis gene expression data to predict tissue identity in other flowering plants. Comparing different machine learning algorithms, models trained and tested on Arabidopsis data achieved near perfect precision and recall values, whereas when tissue identity is predicted across the flowering plants using models trained on Arabidopsis data, precision values range from 0.69 to 0.74 and recall from 0.54 to 0.64. Results The identity of belowground tissue can be predicted more accurately than other tissue types, and the ability to predict tissue identity is not correlated with phylogenetic distance from Arabidopsis. k‐nearest neighbors is the most successful algorithm, suggesting that gene expression signatures, rather than marker genes, are more valuable to create models for tissue and cell type prediction in plants. Discussion Our data‐driven results highlight that the assertion that knowledge from Arabidopsis is translatable to other plants is not always true. Considering the current landscape of abundant sequencing data, we should reevaluate the scientific emphasis on Arabidopsis and prioritize plant diversity. Resumen Premisa La selección de Arabidopsis como organismo modelo desempeñó un papel fundamental en el avance de la ciencia genómica. Se descartaron los marcos de referencia que proponían seleccionar una especie modelo basada en criterios agrícolas o ecológicos, en favor de profundizar en el conocimiento de en una especie que promueve la investigación enfocada en el genoma. Métodos Aquí, examinamos la capacidad de los modelos basados en datos de expresión génica de Arabidopsis para predecir la identidad del tejido en otras plantas con flores. Comparando diferentes algoritmos de aprendizaje automático, los modelos entrenados y probados con datos de Arabidopsis alcanzaron valores de precisión y recuperación casi perfectos. De manera contrastante, cuando se predice la identidad del tejido en todas las plantas con flores utilizando modelos entrenados con datos de Arabidopsis, los valores de precisión oscilan entre 0,69 y 0,74 y los de recuperación entre 0,54 y 0,64. Resultados La identidad del tejido subterráneo puede predecirse con mayor exactitud que otros tipos de tejido, y la capacidad de predecir la identidad del tejido no está correlacionada con la distancia filogenética de Arabidopsis. El algoritmo k‐nearest neighbors es el más exitoso y sugiere que las firmas de expresión génica, más que los genes marcadores, son más valiosas para crear modelos en plantas de predicción de tejidos y de tipos celulares. Discusión Nuestros resultados sustentados en datos demuestran que no siempre se cumple la afirmación de que el conocimiento de Arabidopsis es traducible a otras plantas. Teniendo en cuenta el panorama actual de abundantes datos de secuenciación, deberíamos reevaluar el énfasis científico en Arabidopsis y priorizar la diversidad vegetal.
plant sciences