Aprendizaje automático en la genética de la enfermedad de Alzheimer.
Resumen
Los enfoques estadísticos tradicionales han avanzado nuestra comprensión de la genética de las enfermedades complejas, pero se limitan a modelos aditivos lineales. Aquí aplicamos el aprendizaje automático (ML) a datos genómicos de 41 686 individuos del mayor consorcio europeo sobre la enfermedad de Alzheimer (EA) para investigar la eficacia de varios algoritmos de ML en la replicación de hallazgos conocidos, el descubrimiento de nuevos loci y la predicción de individuos en riesgo.
Utilizamos máquinas de refuerzo de gradientes (GBM), redes neuronales (NN) basadas en vías biológicas y modelos de reducción de dimensionalidad multifactorial basada en modelos (MB- MDR). Los enfoques de ML capturaron con éxito todas las variantes genéticas significativas de todo el genoma identificadas en el conjunto de entrenamiento y el 22 % de las asociaciones de metaanálisis más amplios.
Destacan seis nuevos loci que se replican en un conjunto de datos externo, incluidas variantes que se mapean a ARHGAP25, LY6H, COG7, SOD1 y ZNF597. Además, identifican una nueva asociación en AP4E1, lo que refina el panorama genético del locus SPPL2A conocido. Nuestros resultados demuestran que los métodos de aprendizaje automático pueden alcanzar un rendimiento predictivo comparable al de los enfoques clásicos en epidemiología genética y tienen el potencial de descubrir nuevos loci que siguen sin ser detectados por los GWAS tradicionales.
Estos conocimientos proporcionan una vía complementaria para avanzar en la comprensión de la genética de la EA.
Más información:
