Introducción
Los recientes avances en genómica han reforzado nuestra capacidad para profundizar en las etiologías complejas de diversas enfermedades. Entre ellos, los estudios de asociación del genoma completo (GWAS, por sus siglas en inglés) son un ejemplo de los enfoques que impulsan estos avances y han mejorado enormemente nuestra comprensión de los factores genéticos que sustentan muchos rasgos y enfermedades complejos importantes. Sin embargo, esta investigación aún enfrenta muchas limitaciones que exigen soluciones innovadoras para liberar todo su potencial. Muchos de estos problemas surgen de la capacidad insuficiente de los métodos de modelado actuales para capturar el grado completo de complejidad biológica subyacente. El número de variantes genéticas es enorme y sus efectos individuales suelen ser pequeños y específicos del contexto. El mapeo completo de los mecanismos que traducen la variación genética en fenotipos requiere una fina integración del análisis genético con otros tipos de conocimiento y dominios «ómicos». Por su naturaleza, estas aspiraciones se alinean estrechamente con los problemas que se encuentran y resuelven actualmente en otros dominios de uso intensivo de datos, tanto en otras áreas de la biología como en un ámbito más amplio. En esta revisión, describiremos sinergias y soluciones prometedoras de los avances recientes en el análisis de DL y explicaremos sus posibles aplicaciones en la investigación biomédica.
Los amplios conjuntos de datos ofrecen información sobre los mecanismos moleculares que subyacen a diversas enfermedades y crean nuevas oportunidades para el modelado predictivo en la medicina de precisión, en particular en el ámbito de la predicción de la eficacia de los fármacos. Sin embargo, la complejidad y el volumen de los datos ómicos plantean desafíos importantes a la hora de extraer información significativa y descifrar el contexto biológico esencial. En el ámbito de la genómica de alto rendimiento, al igual que en otros dominios ómicos, los avances tecnológicos han traído consigo tanto los desafíos típicos asociados con la sobreabundancia de datos como también problemas únicos, como los que surgen de las particularidades metodológicas de los análisis de grupos de estudio. La interpretación significativa de dichos datos es complicada, ya que la mayoría de las estrategias de elaboración de perfiles contemporáneas capturan una visión aparentemente extensa pero funcionalmente estrecha de todo el sistema biológico. A continuación se describen brevemente algunos de los desafíos clave que afectan actualmente a la investigación genómica en el contexto de estos temas generales.
Una crítica que se recibe con frecuencia al enfoque GWAS es su enfoque en variantes genéticas comunes con efectos modestos que a menudo no explican una parte significativa de la contribución genética a los rasgos complejos [ 1 ]. Este problema surge debido a la presencia de variantes raras con contribuciones muy grandes, efectos epistáticos complejos e interacciones entre los genes y el medio ambiente. Incluso una vez que un estudio GWAS ha llevado a la identificación de variantes potencialmente relevantes, sigue siendo esencial determinar sus consecuencias funcionales y causalidad, lo que a menudo puede ser complicado y requerir experimentos específicos adicionales [ 2 ]. La tarea de distinguir las variantes causales de otros marcadores en bloques de desequilibrio de ligamiento y comprender sus efectos mecanicistas en los fenotipos observables requiere algún tipo de información adicional. Por lo tanto, este tipo de investigación se beneficiará en gran medida de la integración confiable y automatizada de la genómica funcional [ 3 ], la epigenómica [ 4 ] y la transcriptómica [ 5 ].
Intentar explicar procesos naturales cada vez más complejos requiere inevitablemente modelos de una complejidad comparable. Esto requiere el uso de algoritmos avanzados para automatizar la construcción de modelos y el proceso de ajuste, lo que da como resultado modelos de «caja negra» que, aunque son muy precisos, generalmente carecen de interpretabilidad humana. El aumento de la complejidad puede, en última instancia, limitar la utilidad de estos métodos para el descubrimiento biológico (ya que puede oscurecer pistas sobre mecanismos potenciales) y socavar la confianza en dichas herramientas para aplicaciones clínicas, un ejemplo son las puntuaciones de riesgo poligénico para enfermedades complejas [ 6 ]. Además, muchos estudios genéticos tienen que lidiar con cantidades subóptimamente pequeñas de muestras, especialmente en el caso de enfermedades raras, variantes con efectos sutiles o aquellas confinadas a subgrupos específicos de población. La inteligencia artificial (IA) y las técnicas de ML [ 7 , 8 ] ofrecen múltiples estrategias nuevas para abordar estas limitaciones y, lo que es más importante, mejorar nuestra capacidad para integrar el conocimiento y los datos en múltiples capas de organización biológica.
Los algoritmos de ML abarcan una amplia gama de métodos computacionales que permiten a las computadoras construir modelos predictivos que conducen a información procesable. En genómica médica, las técnicas de ML han encontrado diversas aplicaciones, que incluyen, entre otras, la clasificación predictiva de enfermedades, el descubrimiento de biomarcadores, la predicción de la respuesta a medicamentos y la identificación de variantes genéticas causantes de enfermedades. Las técnicas clásicas de ML, como Random Forest [ 9 ], Support Vector Machines [ 10 ] y la regresión logística [ 11 ], han sido fundamentales en el análisis de datos ómicos. Estos métodos se destacan en el manejo de datos de alta dimensión y han demostrado éxito en varios esfuerzos de investigación genómica. Para una encuesta integral sobre las aplicaciones típicas de las técnicas de ML estándar en la investigación biomédica, se remite a los lectores a los artículos de revisión existentes [ 12 , 13 , 14 , 15 , 16 , 17 ]. Sin embargo, a medida que aumentan las dimensiones y las capas de datos, también lo hacen las limitaciones de estos métodos clásicos. Un inconveniente importante es su falta de sensibilidad a las relaciones que se esconden detrás de los datos, por ejemplo, los genes, que suelen ser cruciales en la ómica, porque en su mayoría provienen de datos “tabulares”, donde las variables se representan de forma independiente entre sí. Aprovechar las posibles relaciones de los genes o elementos puede ofrecer una gran cantidad de información, como describimos en detalle a continuación.
La aparición del aprendizaje automático ha revolucionado el campo de la IA y ha transformado el panorama del análisis de datos. Esta capacidad del aprendizaje automático para aprender representaciones jerárquicas a partir de datos sin procesar ha demostrado ser inestimable para el modelado predictivo, capturando dependencias intrincadas dentro de los conjuntos de datos, incluso cuando se trata de datos ruidosos y de alta dimensión. Un avance particularmente importante en el área del aprendizaje automático es la creación de nuevos métodos para tratar con tamaños de muestra pequeños, una preocupación recurrente en la elaboración de perfiles genéticos de poblaciones pequeñas y enfermedades raras. Si bien la aplicación ideal del aprendizaje automático tiene como objetivo facilitar el aprendizaje de la representación integral de las estructuras subyacentes dentro de los datos ómicos, surgen desafíos prácticos cuando hay muy pocas muestras disponibles. En ciertas aplicaciones, esto puede incluso obstaculizar el aprendizaje de la representación adecuada y complicar el procesamiento directo de los datos ómicos dentro de los marcos de aprendizaje automático. Esta importante limitación se puede mitigar utilizando una técnica llamada aprendizaje por transferencia. A diferencia de los modelos estadísticos clásicos, las redes neuronales se ajustan secuencialmente, lo que significa que se pueden actualizar continuamente con nuevos datos. Esto abre la posibilidad de «preentrenar» un modelo en un conjunto de datos grande, pero débil o parcialmente relevante y luego finalizar el entrenamiento en uno más valioso pero más pequeño. Para los patrones que persisten entre los dos conjuntos de datos habrá un beneficio del acceso a todas las observaciones combinadas, mientras que los patrones irrelevantes simplemente se sobrescribirán con nuevos datos. El aprendizaje por transferencia puede facilitar la reutilización del conocimiento de conjuntos de datos más grandes para mejorar sustancialmente la precisión en cohortes más pequeñas. En principio, los modelos preentrenados inicializados en datos genéticos a gran escala pueden reespecializarse para nuevas tareas, lo que reduce la necesidad de recopilación de datos y al mismo tiempo mejora el rendimiento. El potencial y las limitaciones de esta estrategia se discuten en detalle en esta revisión y sus beneficios se demuestran con varios ejemplos [ 18 , 19 , 20 , 21 , 22 , 23 , 24 ].
Los modelos DL ofrecen una amplia gama de capacidades de análisis adicionales que pueden mejorar muchos tipos de análisis biomédicos de alto rendimiento. En primer lugar, las redes neuronales artificiales pueden identificar fácilmente grandes cantidades de interacciones y modelar efectos no lineales, al mismo tiempo que ofrecen una regularización muy eficaz para mitigar el riesgo de sobreajuste [ 25 ]. En segundo lugar, las redes neuronales modernas pueden utilizar tamaños de entrada muy grandes, incorporar métodos para la imputación de valores faltantes [ 26 ] y acomodar tipos muy diversos de información estructurada. Todas estas capacidades ofrecen formas adicionales de aumentar la potencia para detectar SNP raros, epistasis y modelar con mayor precisión la gama completa de posibles patrones de asociación. Los modelos DL pueden analizar e integrar conjuntamente fuentes de datos heterogéneos, lo que permite una visión más completa de las contribuciones genéticas y algunos métodos introducidos recientemente ofrecen formas de integrar diferentes tipos de datos ómicos dentro del mismo modelo y realizar inferencias entre ellos simultáneamente. Cabe destacar la familia de enfoques DeepInsight [ 18 , 19 , 20 , 21 ], donde varios estudios han demostrado un análisis transómico exitoso que incluía la variación somática del cáncer como uno de los tipos de entrada. Como este tipo de datos es similar a la variación de la línea germinal, se pueden utilizar estrategias potencialmente similares en el futuro para mejorar la anotación funcional y causal de los SNP.
Por último, el uso creciente de la IA en todas las áreas de la vida ha puesto de relieve la necesidad de que dichos sistemas se vuelvan más transparentes e interpretables. Este problema es un foco de creciente interés de investigación y la IA explicable (XAI) ahora está surgiendo como su propia subdisciplina dentro de la investigación de la IA. Como la gran mayoría de este trabajo se realizó con modelos basados en DL, la mayoría de estos métodos se pueden utilizar fácilmente con la mayoría de las arquitecturas típicas de redes neuronales. Técnicas como la atención y la atribución basada en gradientes pueden, en principio, ayudar a comprender la contribución de los factores biológicos individuales al riesgo de enfermedad y la respuesta a los medicamentos, lo que hace que los resultados sean más interpretables para biólogos y médicos. Para demostrar estos beneficios potenciales, esta revisión utilizará el método DeepFeature como un ejemplo ilustrativo, que implementa un enfoque de atribución basado en gradientes para descubrir posibles mecanismos involucrados en la eficacia de los medicamentos contra el cáncer [ 20 , 21 ].
Aquí nos centramos más en las CNN de inspiración biológica [ 27 ], que son una de las arquitecturas fundamentales ampliamente utilizadas en el dominio de la visión por computadora, y su adopción ha llevado a mejoras sin precedentes en el rendimiento. Las CNN bidimensionales (2D) son herramientas ampliamente utilizadas, particularmente para el análisis de datos de imágenes, ya que extraen características espaciales jerárquicamente, comenzando con datos de imágenes sin procesar, pasando por la detección de bordes, etc., y finalmente para la predicción de objetos. Si bien las CNN 2D han prosperado tradicionalmente en el análisis de imágenes, recientemente ha surgido un interés en su aplicación al análisis de datos ómicos. Los investigadores han contemplado la posibilidad de aprovechar la potencia de las CNN 2D para el análisis de datos tabulares u ómicos, lo que requiere la revelación de información latente (a veces llamamos «espacial») inherente entre los genes (o elementos) dentro de una muestra (o vector de características) [ 28 , 29 , 30 , 31 ]. [ 32 ] subrayaron la importancia de DL incluyendo CNN en tareas predictivas como determinar la especificidad de secuencia de proteínas de unión de ADN y ARN y señalar regiones cis-reguladoras, entre otras aplicaciones. En particular, las CNN y las redes neuronales recurrentes se han convertido en las arquitecturas de elección para modelar estos elementos reguladores con patrones de secuencia, lo que ilustra la amplia utilidad de DL en genómica. Talukder et al. exploran más a fondo las complejidades de los métodos de interpretación de redes neuronales profundas (DNN), particularmente sus aplicaciones en genómica y epigenómica [ 33 ]. Esta amplitud de aplicación también se extiende a la biología sintética, enfatizando su promesa en el mejoramiento de plantas y animales [ 34 ]. No obstante, las revisiones existentes no han abordado ampliamente cómo manejar de manera efectiva datos tabulares como datos ómicos sin patrones explícitos convirtiéndolos en representaciones adecuadas para CNN.
Con la aparición de técnicas de conversión como DeepInsight [ 18 ], se ha producido un avance revolucionario: la conversión de datos tabulares, como los datos ómicos, en representaciones similares a imágenes. Esta conversión transformadora ahora permite el aprovechamiento eficaz de las CNN para el análisis. DeepInsight, una técnica pionera, revoluciona el preprocesamiento de datos al incorporar información latente entre genes o elementos dentro de un vector de características. Esta reinvención de los datos organiza los elementos que comparten características similares en vecinos próximos, mientras que los elementos distantes siguen siendo distintos. Este contexto espacial genera un entorno rico para que las CNN funcionen no solo de manera factible sino también perspicaz. A diferencia de las técnicas de ML tradicionales, que manejan variables de forma independiente y a veces eligen las representativas, esta nueva técnica reúne variables similares cercanas y las trata como un grupo, lo que refleja la estructura detrás de los datos ómicos.
Para aclarar más, cuando los datos biológicos se transforman en un formato de imagen, las relaciones latentes entre entidades biológicas, como los genes, se codifican como proximidades espaciales dentro de la imagen. Posteriormente, el uso de una CNN con estas imágenes permite una reducción sustancial en el número de parámetros del modelo. Esta reducción se logra mediante el diseño arquitectónico de capas convolucionales, que son expertas en identificar oportunidades para compartir parámetros entre entradas apropiadas, específicamente en casos caracterizados por correlaciones lineales parciales o incluso no lineales entre características. Dada la prevalencia de tales correlaciones en datos biológicos, los modelos resultantes suelen tener mejores capacidades de generalización, al tiempo que preservan la capacidad innata de las redes neuronales para descubrir y modelar características más complejas si y cuando sea necesario. Además, estas imágenes facilitan la interpretación de los resultados al mostrar explícitamente la relación potencial entre las entidades biológicas que el modelo considera importantes, como se explicará en detalle más adelante.
Una ventaja adicional notable es la capacidad de utilizar el aprendizaje por transferencia, lo que elimina la necesidad de crear redes desde cero. Este atributo permite un aprendizaje integral en un espectro diverso de datos ómicos, lo que abre nuevas vías para un análisis integral. A través del aprendizaje por transferencia, los modelos se pueden inicializar con pesos de un modelo preentrenado [ 35 ], desarrollado típicamente utilizando conjuntos de datos de imágenes extensos y diversos como ImageNet. Estos modelos preentrenados ya han aprendido patrones esenciales de millones de imágenes naturales, capturando jerárquicamente características universales que son sorprendentemente efectivas cuando se reutilizan para tareas distintas, incluso en dominios aparentemente no relacionados como la genómica. Este enfoque permite a los investigadores capitalizar el conocimiento fundamental integrado en estos modelos preentrenados, reduciendo drásticamente el esfuerzo computacional y el tiempo requerido para el entrenamiento, y a menudo mejorando el rendimiento.
El uso del aprendizaje por transferencia con modelos entrenados previamente ofrece una ventaja única para el análisis de datos ómicos [ 18 , 19 ]. Los conjuntos de datos genómicos, a diferencia de los conjuntos de datos de imágenes disponibles públicamente, suelen tener un tamaño limitado. Aprovechar el patrón aprendido por los modelos a partir de grandes conjuntos de datos de imágenes mediante el aprendizaje por transferencia puede proporcionar una base sólida, que permite a los investigadores ajustar estos modelos para las particularidades de los datos ómicos, sin la necesidad de grandes conjuntos de entrenamiento. Además, el aprendizaje por transferencia permite la extracción de patrones intrincados y matizados de los datos ómicos que podrían pasarse por alto o ser inalcanzables al comenzar el entrenamiento del modelo desde cero. La destreza del aprendizaje por transferencia mediante CNN se muestra vívidamente en varias aplicaciones más allá del procesamiento de imágenes, lo que demuestra su potencial para revolucionar el análisis de datos en todos los campos [ 18 , 22 , 36 , 37 ].
La adaptabilidad de DeepInsight es evidente a través de sus aplicaciones en varios dominios, incluido su papel fundamental en la conformación del modelo ganador (‘Hungry for gold’) de la competencia de Kaggle.com [ 19 , 20 , 22 , 23 , 38 , 39 , 40 , 41 , 42 , 43 , 44 , 45 , 46 ]. Para una exploración en profundidad, los curiosos pueden adentrarse en un compendio integral de métodos de conversión de imágenes y sus aplicaciones, como lo explican Ye y Wang [ 47 ]. Esta progresión transformadora en la transformación y el análisis de datos significa un paso trascendental hacia adelante no solo para desentrañar los intrincados matices arraigados en los datos tabulares, sino también para mejorar sus capacidades de modelado predictivo. La representación esquemática del proceso de conversión de tabla a imagen para usar CNN se ilustra en la Fig. 1 .
Desafíos en el avance de las aplicaciones de CNN en el análisis ómico
Si bien la combinación de conversión de tablas a imágenes con redes neuronales convolucionales para el análisis ómico ha impulsado avances significativos, aún queda un panorama de desafíos y problemas por resolver, entre ellos:
- 1.Interpretabilidad: Los modelos DL, incluidas las CNN, suelen considerarse como «cajas negras» debido a sus arquitecturas complejas. La capacidad de comprender los genes o elementos específicos que influyen en las decisiones de un modelo es fundamental para dilucidar los mecanismos biológicos, como las vías. Aunque se han introducido técnicas como DeepFeature [ 20 ], que aprovecha los mapas de activación de clases (CAM) [ 48 ], el desafío sigue abierto y requiere el desarrollo de modelos para interpretar las características aprendidas para obtener conocimientos más profundos.
- 2.Heterogeneidad de los datos: los datos ómicos son intrínsecamente heterogéneos y abarcan diversos tipos de información biológica, como la expresión génica, la metilación y la mutación. Adaptar varios tipos de datos ómicos y, al mismo tiempo, preservar cada estructura latente plantea un desafío.
- 3.Escalabilidad y tamaño de los datos: los modelos de aprendizaje automático, incluidas las redes neuronales convolucionales, exigen cantidades sustanciales de datos para una generalización eficaz. Sin embargo, los conjuntos de datos ómicos, especialmente los asociados con enfermedades raras o afecciones específicas, pueden tener tamaños de muestra limitados. Superar las limitaciones de los conjuntos de datos de pequeña escala y garantizar la solidez del modelo son consideraciones vitales.
- 4.Sobreajuste: Se sabe que los métodos tradicionales de aprendizaje automático, en particular cuando se trata de datos ómicos de alta dimensión, son susceptibles al sobreajuste. Esto llevó a comprender que la complejidad del modelo debe gestionarse con cuidado para evitar dicho sobreajuste. Sin embargo, los avances teóricos recientes están desafiando esta visión, en particular en el ámbito del aprendizaje automático. Específicamente, los algoritmos de aprendizaje automático poseen características de regularización intrínsecas dentro de su proceso de aprendizaje de propagación hacia atrás. Curiosamente, estas características pueden reducir el riesgo de sobreajuste a medida que la red escala; al contrario de lo que se podría esperar, agregar más nodos o capas puede hacer que el modelo sea más robusto. Esto cambia radicalmente nuestra comprensión tradicional de las estadísticas clásicas y el aprendizaje automático, donde una mayor complejidad del modelo generalmente exacerba el sobreajuste. Por lo tanto, si bien la importancia de equilibrar la complejidad, la capacidad y los datos del modelo sigue siendo válida, estos nuevos conocimientos sugieren que las consideraciones para lograr este equilibrio en el contexto de las redes neuronales profundas pueden ser fundamentalmente diferentes.
- 5.Ajuste de hiperparámetros: los modelos de aprendizaje automático comprenden múltiples hiperparámetros que influyen en su rendimiento. Identificar el conjunto óptimo de hiperparámetros para conjuntos de datos ómicos específicos puede requerir mucho tiempo y experiencia. Las técnicas de optimización bayesiana ofrecen vías para explorar hiperparámetros óptimos.
- 6.Recursos computacionales: el entrenamiento de modelos de aprendizaje a distancia, especialmente las redes neuronales convolucionales, puede agotar los recursos computacionales. Para los investigadores con recursos limitados, optimizar el proceso de entrenamiento y explorar técnicas como el aprendizaje por transferencia se vuelve crucial.
- 7.Relevancia biológica: si bien los modelos convierten los datos ómicos en representaciones similares a imágenes, es fundamental preservar la relevancia biológica de estas representaciones. Validar la significatividad de los datos transformados en términos de captar los mecanismos biológicos subyacentes sigue siendo un desafío.
- 8.Generalización: garantizar la generalización de un modelo en diferentes condiciones experimentales, plataformas y contextos biológicos exige atención. Si bien los esfuerzos recientes han integrado datos de células individuales de diferentes plataformas para la identificación de células en el contexto de la conversión de tablas a imágenes con la aplicación CNN [ 21 ], se justifica una mayor investigación en esta dirección.
- 9.Integración con el conocimiento del dominio: la incorporación de conocimientos específicos del dominio en el proceso de entrenamiento del modelo mejora la interpretabilidad y la relevancia de los resultados. El desarrollo de métodos para integrar sin problemas el conocimiento biológico previo con el análisis basado en CNN es prometedor.
- 10.Evaluación comparativa y comparación: una evaluación comparativa rigurosa con métodos establecidos y comparaciones entre conjuntos de datos son vitales para evaluar el verdadero potencial de un modelo.
En la figura 2 se muestra un resumen de estos problemas . Para abordar estos desafíos multifacéticos se necesita una colaboración interdisciplinaria entre expertos en aprendizaje automático, investigadores en bioinformática y biólogos. Esta colaboración es fundamental para avanzar en la integración de modelos de conversión de tablas a imágenes con redes neuronales convolucionales, lo que impulsa los horizontes del análisis y la interpretación de datos ómicos.
DeepInsight y DeepFeature: una nueva peculiaridad en el análisis de datos ómicos
La aplicación del aprendizaje automático a la genómica se ha producido principalmente en el ámbito del análisis de datos tabulares (similares a tablas, incluidos los vectoriales). Sin embargo, con la aparición de nuevas metodologías, ahora podemos superar la brecha entre el análisis de datos tabulares y de imágenes, mejorando la extracción de información significativa de los conjuntos de datos ómicos.
DeepInsight: transformación de datos tabulares en formato similar a imágenes y uso de CNN preentrenada
A la vanguardia de este enfoque de transformación se encuentra DeepInsight [ 18 ], una metodología diseñada para convertir datos tabulares (incluidos los datos ómicos) en representaciones similares a imágenes que reflejan la estructura latente detrás de los datos. La Figura 3 proporciona una ilustración del proceso de DeepInsight. Brevemente, un vector de características, , que contiene expresiones o elementos genéticos se transforma en una matriz de características a través de una transformación . La ubicación de las características individuales dentro de esta matriz depende de sus similitudes, como se muestra en la Figura 3a . Una vez que se determinan las ubicaciones de las características, sus valores de expresión o elementos se asignan a estas posiciones. El proceso de transformación consta de varios pasos clave, como se muestra en la Figura 3b :xMT
- 1.Colocar los genes o elementos en las coordenadas cartesianas utilizando métodos múltiples como t-SNE, UMAP o kernel PCA.
- 2.Utilizando el algoritmo de envoltura convexa para encontrar el rectángulo más pequeño que encapsula la distribución de características, seguido de una rotación para alinear con los ejes horizontal y vertical.
- 3.Conversión de las coordenadas cartesianas a un marco de píxeles.
- 4.Asignar los valores de los elementos o la expresión genética a sus posiciones correspondientes dentro de este marco de píxeles.
En este proceso de conversión, la similitud entre genes u otros factores de interés se representa por la cercanía relativa de sus posiciones espaciales. Esta codificación asegura que los elementos con características similares se posicionen próximos entre sí, mientras que aquellos que son diferentes se posicionen distantes. Esta transformación produce una representación de imagen equivalente al vector de características original, como se muestra en la Fig. 3c . Estas imágenes generadas sirven como entrada para las CNN en el modelado predictivo posterior, como se representa en la Fig. 3d . Otras mejoras ampliadas en este paradigma, como agregar la técnica de desenfoque a DeepInsight [ 49 ], fusión con filtrado de Gabor [ 50 ], con autoencoders [ 24 ], alineando características en diferentes capas (para evitar promediar) [ 38 , 46 ], transformando a un marco de píxeles fijos [ 45 ] y modelo de representación multifacética [ 51 ]. El DeepInsight original se ha perfeccionado aún más y Gokhale y su equipo lo adaptaron por primera vez para su integración con Vision Transformers (ViT), lo que supone un importante avance en este campo [ 24 ].
Las representaciones similares a imágenes resultantes son ideales para el análisis mediante redes neuronales convolucionales. Además, como se mencionó anteriormente, DeepInsight facilita el uso de modelos de redes neuronales convolucionales previamente entrenados, que históricamente han sobresalido en el análisis de imágenes. El beneficio de este enfoque es doble: no solo aprovecha las sólidas capacidades de las arquitecturas de redes neuronales convolucionales preexistentes, sino que también ofrece información acelerada al eliminar la necesidad de entrenar los modelos desde cero.
Para evaluar el rendimiento de DeepInsight, se examinaron varios escenarios, como se detalla en [ 18 ], incluida la predicción del tipo de cáncer, en la que el método brindó un rendimiento mejorado en relación con varios otros métodos de ML. En un estudio posterior, DeepInsight-3D [ 19 ] se comparó con múltiples arquitecturas de redes neuronales (feed forward, autoencoder, ANNF), pipeline de bosque aleatorio optimizado (AutoBorutaRF), clasificador basado en máquina de vectores de soporte y tres pipelines recientes de predicción de respuesta a fármacos (modelo de Gelleher et al., MOLI y Super.FELT). DeepInsight-3D mostró una mejora del 7-29% en el rendimiento, medido por el modelo AUC-ROC, en todos estos métodos.
DeepFeature: extracción de características con CAM
DeepFeature [ 20 ] complementa las capacidades analíticas introducidas por DeepInsight. Mientras que DeepInsight se centra en la transformación de datos, DeepFeature apunta al desafío de la interpretabilidad, particularmente en el contexto de los modelos DL. Utilizando CAMs [ 48 ], DeepFeature extrae y resalta las características fundamentales que influyen en las decisiones de un modelo, por ejemplo, la predicción. En genómica, esto se traduce en la identificación de genes o elementos clave que son cruciales para determinar resultados fenotípicos específicos o la manifestación de enfermedades. La Figura 4 ilustra la secuencia de la metodología DeepFeature. Un vector de entrada de datos tabulares se presenta en la parte superior izquierda, lo que lleva a las características o genes seleccionados que se muestran en la parte inferior derecha.
Las implicaciones biológicas son profundas, especialmente cuando se analizan los tipos de cáncer como se describió anteriormente. Al transformar los datos ómicos de varias muestras de cáncer en formatos similares a imágenes, los investigadores pueden usar las CNN para discernir patrones y diferencias que podrían ser difíciles de detectar en el análisis tabular tradicional. Las capacidades de extracción de características de DeepFeature enriquecen aún más este análisis. Al resaltar genes o elementos de importancia dentro de las CNN a través de técnicas de visualización como CAM, los investigadores pueden obtener conocimientos más profundos sobre los mecanismos moleculares que impulsan los diferentes tipos de cáncer. Cuando se aplica a la tarea de identificación del tipo de cáncer descrita anteriormente, podría extraer muchos más genes/vías relacionadas con el cáncer conocidos que los modelos estadísticos tradicionales o los métodos de ML como la regresión logística penalizada, y también podría descubrir nuevas vías para la clasificación de diferentes tipos de cáncer. Estos conocimientos tienen el potencial de dilucidar las vías que se activan o suprimen en formas específicas de cáncer, allanando el camino para estrategias terapéuticas específicas y medicina personalizada.
En resumen, la innovadora transformación de datos ómicos en imágenes ofrece un cambio de paradigma en el análisis ómico. Mediante la transformación avanzada de datos y la extracción de características, estas metodologías proporcionan una lente más refinada para explorar el complejo mundo de la genómica, en particular para comprender las complejidades de diversas enfermedades como el cáncer. Es decir, estas metodologías pueden realizar «descubrimientos científicos» a partir de «big data».
DeepInsight-3D
Para abordar la cuestión de la modalidad de datos heterogéneos en los análisis multiómicos, como se mencionó anteriormente, hemos conceptualizado y desarrollado DeepInsight-3D [ 19 ], una extensión del DeepInsight original, diseñado específicamente para análisis multiómicos.
Ampliación de DeepInsight para análisis multiómicos
DeepInsight, diseñado originalmente para transformar datos ómicos tabulares en representaciones similares a imágenes, allanó el camino para aprovechar la destreza computacional de las CNN preentrenadas para la genómica. DeepInsight-3D lleva esto a un nivel superior. Al adaptarse a datos multiómicos, integra información de diferentes tipos ómicos en un espacio tridimensional (3D) unificado. Esta representación 3D captura las interacciones sinérgicas entre diferentes tipos de datos ómicos, lo que facilita una comprensión holística y ofrece un contexto más rico para el análisis. La Figura 5 proporciona una representación gráfica del modelo DeepInsight-3D. Los datos multiómicos se muestran en el lado izquierdo, y culminan en la selección de genes después del bloque Element Decoder (en la parte inferior central de la Figura 5 ).
Aplicación a la predicción de la respuesta a fármacos contra el cáncer
Los recientes avances en los campos de la IA, especialmente el ML y el DL, han demostrado un potencial notable en el modelado predictivo de la respuesta a los fármacos en diversas enfermedades, incluido el cáncer. La aplicabilidad de estas técnicas computacionales varía desde la caracterización numérica de moléculas para algoritmos de ML [ 52 ] hasta la evaluación de la generalización de los modelos de respuesta a fármacos [ 53 ]. En particular, se han empleado métodos de DL complejos para predecir las respuestas a los fármacos en líneas celulares cancerosas, aunque aún existen desafíos como el sobreajuste a conjuntos de datos limitados [ 54 ]. Estos métodos computacionales ofrecen vías para opciones de tratamiento más precisas e individualizadas, lo que proporciona un impacto significativo en la medicina de precisión y la atención médica [ 55 ].
Una de las aplicaciones de DeepInsight-3D se encuentra en el campo de la oncología, específicamente para la predicción de la respuesta a los fármacos contra el cáncer. Aunque los datos limitados sobre la respuesta a los fármacos causan problemas de estabilidad en el modelo, este concepto es un paso adelante en el manejo de datos multimodales. Al representar datos multiómicos en 3D, DeepInsight-3D puede capturar las interacciones complejas de los genes. Cuando se combina con datos específicos de pacientes, esta herramienta ofrece predicciones sobre cómo un tumor podría responder a un fármaco contra el cáncer específico. Este tipo de predicción tiene el potencial de revolucionar la medicina al guiar las decisiones terapéuticas basadas en perfiles de pacientes individuales.
En el artículo DeepInsight-3D, se introdujeron datos multiómicos de mutaciones genéticas, expresión genética y alteraciones del número de copias para crear el modelo de predicción de la eficacia de los fármacos. El mapeo de los puntos de datos se determinó a partir de los datos de expresión por DeepInsight y se posicionaron las mutaciones y las alteraciones del número de copias en las posiciones de los genes, con diferentes colores según sus niveles. Las líneas celulares Cancer Cell Line Encyclopedia (CCLE) y Genomics of Drug Sensitivity in Cancer (GDSC) acompañadas de la eficacia de los fármacos, y los conjuntos de datos de Cancer Genome Atlas (TCGA) y xenografts derivados de pacientes (PDX) se utilizaron para aprender y probar la CNN, respectivamente. Como resultado, mostró una precisión del 72 %, que superó a otros métodos basados en el aprendizaje profundo en más del 7 %. Esto demostró claramente el poder del esquema de transformación de DeepInsight.
Selección de características con DeepFeature y análisis de rutas
Representar y predecir no es suficiente; comprender el porqué y el cómo de estas predicciones es primordial, especialmente en un entorno clínico. DeepFeature, utilizado en conjunto con DeepInsight-3D, extrae características cruciales mediante CAM, destacando regiones específicas en la representación 3D que influyen significativamente en las predicciones. Esta selección de características es crucial no solo para la interpretación del modelo, sino también para guiar las investigaciones biológicas posteriores.
Para ampliar nuestra comprensión, el análisis de las vías, posterior a la extracción de DeepFeature, descifra el significado biológico de estas características influyentes. Por ejemplo, en el contexto de la respuesta a los fármacos contra el cáncer, la identificación de las vías asociadas con la resistencia o sensibilidad a los fármacos puede arrojar luz sobre posibles dianas moleculares y estrategias terapéuticas. DeepInsight-3D ha identificado muchas vías que se sabe que están implicadas en múltiples respuestas a los fármacos: STAT3, PI3K/AKT, JAK/STAT, Rho GTPasa, degradación y reciclaje de proteínas, estructura extracelular y adhesión celular, y podría encontrar nuevas vías: metabolismo del triptófano X y endocitosis dependiente de clatrina. Dicho esto, la estabilidad es un problema con DeepInsight-3D y la escala limitada de datos puede dar lugar a predicciones incorrectas. Por lo tanto, se deben tener en cuenta estas consideraciones al estimar el modelo. Sin embargo, la integración exitosa de la multiómica a través de DeepInsight-3D, combinada con las capacidades de extracción de características de DeepFeature, es prometedora para una gran variedad de aplicaciones, desde el desarrollo de fármacos hasta la terapia personalizada.
visión profunda de sc
Desentrañando el paisaje celular con mayor precisión: aplicación a datos de scRNA-seq para la identificación de tipos de células
La secuenciación de ARN de células individuales (scRNA-seq) ha abierto nuevas fronteras en la comprensión de la heterogeneidad celular, revelando información que a menudo queda oculta en la secuenciación masiva de ARN. Sin embargo, el desafío radica en el procesamiento y la interpretación de los datos de alta dimensión producidos. Al ingresar un perfil de expresión génica para una sola célula a partir de scRNA-seq, la tarea de anotación del tipo de célula identifica el tipo de célula del que proviene el perfil. Los métodos tradicionales de anotación del tipo de célula se basan en el etiquetado manual de los resultados de agrupamiento no supervisado. Este proceso requiere el análisis de los resultados de expresión de genes marcadores específicos. Sin embargo, los genes marcadores disponibles son limitados y se superponen, especialmente para subtipos de células similares. La selección e interpretación subjetiva de las listas de genes marcadores también descuidan las complejas interrelaciones entre los genes, lo que impide aún más una anotación precisa. Aquí es donde entra en juego scDeepInsight [ 21 ], que aprovecha las fortalezas de DeepInsight y las amplía con medidas de control de calidad y normalización de lotes para atender específicamente las complejidades del análisis de células individuales. La Figura 6 presenta una descripción general de scDeepInsight en el lado izquierdo. En el lado derecho, la figura contrasta la anotación de células real con la anotación de células predicha por scDeepInsight.
A la izquierda, el flujo de trabajo de scDeepInsight progresa desde la introducción del identificador molecular hasta la generación de anotaciones celulares.
Después de procesar un conjunto de datos de referencia y los datos de consulta, se traducen en imágenes 2D, que se utilizan para entrenar el modelo CNN. Cabe destacar que solo los datos de referencia entrenan el modelo, mientras que el conjunto de consulta se clasifica. Para futuros conjuntos de consultas, el modelo existente se puede aplicar directamente sin un nuevo entrenamiento. A la derecha, una visualización UMAP de un conjunto de datos de consulta muestra los tipos de células etiquetados del estudio inicial, en contraste con un UMAP coloreado por las predicciones de scDeepInsight. (De Jia et al. [ 21 ] bajo licencia creative commons).
scDeepInsight revoluciona la anotación de tipos de células al aplicar la metodología de transformación de tabla a imagen a los datos de scRNA-seq. Esta representación transformada, combinada con la fuerza analítica de las CNN, facilita la identificación precisa y robusta de los tipos de células. En lugar de depender únicamente de marcadores conocidos, el modelo aprovecha todo el perfil transcriptómico de las células individuales, lo que ofrece una clasificación más completa. Esto se logra entrenando scDeepInsight en un conjunto de datos de referencia e identificando los tipos de células para los conjuntos de datos de consulta. La mejora del rendimiento observada fue de más del 7 % en comparación con otros métodos de la competencia.
Descubriendo nuevos tipos de células
Una de las facetas más prometedoras de scDeepInsight es su potencial para descubrir tipos de células poco comunes o no descubiertos anteriormente. Al transformar los datos de scRNA-seq en un panorama visual, se destacan los grupos que podrían pasarse por alto o fusionarse en los análisis tradicionales. Estos grupos únicos representan posibles nuevos tipos de células o estados de transición, lo que mejora nuestra comprensión de la biología de los tejidos, los procesos de desarrollo y los mecanismos de las enfermedades.
Identificación de genes marcadores
Los genes marcadores desempeñan un papel fundamental en la identificación de los tipos de células, ya que ofrecen información biológica sobre la función y la naturaleza de las distintas poblaciones celulares. Además de la clasificación, scDeepInsight también ayuda a identificar estos genes marcadores. Al aplicar ingeniería inversa a la representación en forma de imagen y vincularla con los datos genómicos, se pueden identificar genes que se expresan de forma específica en tipos de células específicos. Esto no solo consolida la identificación, sino que también proporciona una base para ensayos funcionales, orientación terapéutica y otras investigaciones biológicas.
En esencia, scDeepInsight amplifica el poder de la secuenciación de ARN de células individuales, brindando herramientas no solo para la identificación sino también para el descubrimiento. A medida que el mundo de la genómica avanza hacia una mayor resolución, herramientas como scDeepInsight serán fundamentales para garantizar que aprovechemos al máximo el potencial de los datos, lo que hará avanzar tanto la ciencia como la medicina
Conclusiones y perspectivas futuras
A medida que los límites de la genómica continúan expandiéndose, nuestras estrategias analíticas deben evolucionar al mismo tiempo. DeepInsight y sus derivados representan un salto monumental en esta progresión. Fusionan los mundos del análisis de datos basados en imágenes con los datos ómicos, lo que facilita interpretaciones matizadas que antes eran difíciles de lograr:
- 1.Redefiniendo la interpretación de datos ómicos: La transformación de datos ómicos en representaciones similares a imágenes a través de DeepInsight o tecnología similar ha ampliado sin duda nuestras capacidades analíticas y nuestra solidez al capturar estructuras y coherencias latentes detrás de los datos, por ejemplo, los datos ómicos. Su adaptabilidad, como se ve en su fusión con diversas metodologías, resalta el potencial dinámico de la técnica.
- 2.Integración multiómica holística: la aparición de modelos integradores pone de relieve la creciente necesidad de enfoques más integrales en el campo de la genómica. Dado que la dependencia de datos ómicos únicos puede llegar a ser limitada, en el futuro podríamos ver una mayor dependencia de herramientas como DeepInsight y sus derivados, por ejemplo, DeepInsight-3D, para proporcionar una perspectiva holística de los sistemas biológicos. Sus aplicaciones, especialmente en campos como la predicción de la respuesta a fármacos contra el cáncer, subrayan su posible relevancia clínica.
- 3.Descifrando la heterogeneidad celular: los análisis de células individuales, impulsados por herramientas como scDeepInsight, han transformado nuestra comprensión de los paisajes celulares. El descubrimiento de nuevos tipos de células y genes marcadores subraya su potencial para contribuir enormemente a la biología celular.Si bien la fusión de la conversión de tablas a imágenes con CNN para el análisis ómico ha impulsado avances significativos, aún existe un panorama de desafíos que requieren solución:
- 4.Interpretabilidad y relevancia biológica: la naturaleza de “caja negra” de los modelos de aprendizaje automático, incluidas las redes neuronales convolucionales, ha llevado al surgimiento de técnicas como las CAM y DeepFeature. Si bien estas herramientas son prometedoras, garantizar la interpretabilidad y preservar la relevancia biológica de las representaciones de datos son desafíos primordiales.
- 5.Desafíos de los datos, complejidad del modelo y sobreajuste: los datos ómicos son intrínsecamente heterogéneos y abarcan información como datos genómicos, epigenómicos, transcriptómicos, proteómicos y metabolómicos. La adaptación de estos diversos tipos de datos y el manejo de problemas de escalabilidad, tamaño y sobreajuste de los datos son preocupaciones importantes. Lograr un equilibrio entre la complejidad del modelo, la capacidad y los datos disponibles es esencial para evitar el sobreajuste, especialmente cuando se trabaja con datos ómicos de alta dimensión.
- 6.Desafíos técnicos: Es necesario abordar cuestiones como el ajuste de hiperparámetros, las limitaciones de recursos computacionales y la generalización del modelo en diferentes condiciones y plataformas.
- 7.Integración y evaluación comparativa: incorporar conocimientos específicos del dominio en el entrenamiento del modelo y realizar una evaluación comparativa rigurosa frente a métodos establecidos es crucial para evaluar el verdadero potencial de un modelo.
- 8.Horizontes futuros: La confluencia de la DL y la biología, tal como se manifiesta en estas metodologías, probablemente se intensificará en los próximos años. Podemos imaginar un futuro en el que la transformación y el análisis de datos ómicos en tiempo real se conviertan en estándar en los entornos clínicos, agilizando las decisiones diagnósticas y terapéuticas. Además, se prevé la aparición de modelos aún más robustos, adaptables a una amplia gama de tipos de datos ómicos.
- 9.Hacia una medicina personalizada: la culminación de estos avances apunta a personalizar las intervenciones médicas para cada individuo. Aprovechando los conocimientos de los conversores de imágenes tabulares y las redes neuronales convolucionales entrenadas en grandes conjuntos de datos, nos acercamos a la realización de una medicina verdaderamente personalizada. Ya sea que se trate de respuestas a medicamentos, descubrimiento de mecanismos moleculares o identificación de nuevos estados celulares, estas herramientas son prometedoras para diseñar tratamientos adaptados al mapa genético de cada individuo.
Los desafíos, como los que se enumeran arriba, subrayan la importancia de la colaboración interdisciplinaria entre expertos en aprendizaje automático, profesionales de la bioinformática, biólogos, investigadores médicos y médicos, y pacientes. Estas colaboraciones serán fundamentales para el avance de los modelos de aprendizaje automático y la ampliación de los horizontes del análisis de datos ómicos.
En conclusión, ahora que nos encontramos en el umbral de esta revolución analítica en genómica, es imperativo adoptar estas nuevas metodologías. Su potencial para revolucionar nuestra comprensión de la biología, combinado con sus profundas implicaciones clínicas, consolida su papel como instrumentos indispensables en nuestro esfuerzo por descifrar las complejidades de la vida.