Ir al contenido principal

Exai Bio & Databricks: Cómo acelerar la biopsia líquida impulsada por IA para la detección temprana del cáncer

exaibio

Published: January 27, 2026

Salud y ciencias biológicas9 min de leitura

Summary

  • Avances de la IA generativa en la detección del cáncer: Exai Bio desarrolló Exai-1 y Orion, dos modelos de IA generativa que analizan el ARN libre circulante para mejorar significativamente la eliminación de ruido de la señal y la detección temprana del cáncer, logrando un 94 % de sensibilidad para el cáncer de pulmón.
  • Impulsado por la infraestructura de Databricks: estos avances aprovechan la arquitectura Lakehouse de Databricks y el ecosistema de MLOps (incluidas las tablas Delta y MLflow) para unificar grandes conjuntos de datos genómicos, administrar clústeres de computación escalables y garantizar un entrenamiento de modelos reproducible.
  • I+D acelerada y aumento de datos: la plataforma permite el uso de datos sintéticos para superar la escasez de muestras y agiliza la colaboración, lo que permite al equipo de Exai producir siete publicaciones en conferencias que demuestran la eficacia en múltiples tipos de cáncer en solo 18 meses.

Las biopsias líquidas permiten la detección y el seguimiento no invasivos del cáncer mediante el análisis de biomarcadores de cáncer en la sangre, pero las señales pueden ser escasas y ruidosas. Exai Bio ha sido pionera en la biopsia líquida impulsada por IA utilizando nuevos biomarcadores de ARN pequeño. En un trabajo reciente, Exai-1 y Orion, dos nuevos modelos de IA generativa para el ARN libre de células, logran avances significativos en la eliminación del ruido de la señal y la detección temprana del cáncer. Estos avances fueron posibles gracias a la arquitectura lakehouse y la infraestructura de IA en la nube de Databricks. Al unificar grandes conjuntos de datos genómicos y proporcionar herramientas de ML gestionadas (MLflow, Workflows, clústeres escalables), Databricks permite a los investigadores de Exai entrenar grandes modelos multimodales con miles de muestras de pacientes. En este esfuerzo conjunto, destacamos los avances técnicos de Exai Bio y mostramos cómo el ecosistema lakehouse y MLOps de Databricks acelera la IA biomédica de vanguardia.

Modelos fundacionales multimodales para la biopsia líquida

La investigación más reciente de Exai Bio presenta grandes modelos generativos adaptados a los datos de las biopsias líquidas. Estos modelos integran información de secuencias, abundancia molecular y metadatos enriquecidos para aprender representaciones de alta calidad de los ARN asociados al cáncer.

  • Exai-1 (Modelo fundacional de cfRNA): un autoencoder variacional basado en transformers que une las incrustaciones de secuencias de ARN con los perfiles de abundancia de ARN libre circulante (cfRNA). Exai-1 está preentrenado en conjuntos de datos masivos (más de 306 mil millones de tokens de secuencia de 13 014 muestras de sangre), lo que permite aprender una estructura latente biológicamente significativa de la expresión de cfRNA. Al aprovechar tanto los datos de secuencia (a través de incrustaciones del modelo de lenguaje RNA-FM) como los de expresión, Exai-1 “mejora la fidelidad de la señal, reduce el ruido técnico y mejora la detección de enfermedades mediante la generación de perfiles de cfRNA sintéticos”. En la práctica, Exai-1 puede eliminar el ruido de las mediciones dispersas de cfRNA e incluso aumentar los conjuntos de datos: los clasificadores entrenados en los perfiles reconstruidos de Exai-1 superan sistemáticamente a los entrenados en datos crudos. Este enfoque de aprendizaje por transferencia generativo crea eficazmente un modelo fundacional para cualquier tarea de diagnóstico basada en cfRNA, p. ej., utilizando las mismas incrustaciones preentrenadas para detectar otros cánceres o nuevos biomarcadores.
     
  • Orion (Clasificador generativo de oncRNA): un autoencoder variacional (VAE) especializado para ARN no codificantes huérfanos (oncRNA) circulantes, que son pequeños ARN secretados por los tumores. Orion tiene una arquitectura de VAE gemelo: toma como entrada un vector de recuento de oncRNA asociados al cáncer y un vector de ARN de control (p. ej., ARN de mantenimiento endógenos). Cada entrada alimenta a un codificador independiente; sus salidas permiten entrenar un clasificador robusto y reconstruir la distribución subyacente de oncRNA. Es importante destacar que el entrenamiento de Orion incluye pérdidas contrastivas y de clasificación: una pérdida de margen de triplete agrupa las muestras con el mismo fenotipo (cáncer frente a control) y separa los fenotipos diferentes, eliminando los efectos de lote y las variaciones técnicas. La incrustación aprendida es utilizada luego por un clasificador posterior para predecir la presencia de cáncer. En una cohorte de 1050 pacientes con cáncer de pulmón y controles, Orion alcanzó un 94 % de sensibilidad con un 87 % de especificidad para la detección de NSCLC en todas las etapas, superando a los métodos estándar en aproximadamente un 30 % en los datos de prueba. Este modelo generativo y semisupervisado elimina automáticamente el ruido de las señales de cfRNA y produce una huella digital compacta y específica del cáncer, lo que permite una detección temprana más precisa que los análisis anteriores.
     
Arquitectura del modelo Orion de Exai Bio para la biopsia líquida

Figura 1: Arquitectura del modelo Orion de Exai Bio para biopsias líquidas. Imagen de Karimzadeh et al., Nat Commun.

En conjunto, estos modelos forman un marco de IA escalable para la biopsia líquida. Exai-1 proporciona un "modelo de lenguaje" de cfRNA de propósito general que puede generar perfiles de ARN realistas y potenciar los clasificadores posteriores. Orion ajusta este enfoque al problema específico de la detección del cáncer de pulmón. En ambos casos, los modelos se generalizan a través de diferentes condiciones: Exai-1 “facilita la traducción entre biofluidos y la compatibilidad de ensayos” al desenredar las señales biológicas verdaderas de los factores de confusión. El resultado es una nueva generación de herramientas de IA que pueden extraer sutiles patrones de biomarcadores de cfRNA para la detección temprana del cáncer y el descubrimiento de biomarcadores.

Plataforma de IA e inteligencia de datos de Databricks: la infraestructura habilitadora

Estos avances en IA están impulsados por la plataforma unificada de análisis de datos de Databricks. Las capacidades clave incluyen:

  • Almacenamiento unificado en Lakehouse (Delta): Almacenamos todos los metadatos (información de muestras, datos de laboratorio y de experimentos) en tablas de Databricks Delta. Este único lakehouse evita los silos de datos y permite el análisis en tiempo real. Como señala la solución de Databricks para el sector de la salud, el lakehouse “reúne datos de pacientes, de investigación y operativos a gran escala” y elimina los silos heredados, lo que hace que los datos genómicos y clínicos se puedan consultar al instante. Por ejemplo, las más de 13 000 muestras de sangre de Exai (en suero y plasma) y los más de 10 000 conjuntos de datos previos de small-RNA-seq están registrados en tablas Delta, que se pueden filtrar y unir rápidamente para el entrenamiento de modelos.
     
  • Computación y clústeres escalables: los clústeres nativos de la nube de Databricks permiten a los investigadores iniciar instancias de GPU o de alta memoria sin un gran esfuerzo de DevOps. Databricks nos permite avanzar rápidamente. La administración de clústeres es intuitiva, y características como la terminación automática y los paneles de costos mantienen los presupuestos bajo control. Este escalamiento bajo demanda permitió la optimización y el entrenamiento de Exai-1 y Orion en cientos de núcleos de CPU/GPU. Databricks Workflows (antes Jobs) organiza la “computación”: los investigadores pueden lanzar canalizaciones de ETL y entrenamiento de varias etapas con dependencias definidas, paralelizando tareas sin escribir un código de orquestación complejo.
     
  • MLflow para MLOps: Cada ejecución de experimento (hiperparámetros, datasets, métricas, artefactos) se rastrea en MLflow, que está estrechamente integrado en Databricks. Databricks proporciona toda la configuración del entorno de MLflow, como el servidor de seguimiento, y lo pone a disposición sin necesidad de configuración. El seguimiento de experimentos y el registro de modelos de MLflow garantizan la reproducibilidad y la colaboración. Con MLflow administrado, el registro de métricas y artefactos de decenas de modelos hizo realmente posible realizar estudios de ablación y optimizar características que mejoran diferentes aspectos del rendimiento del modelo.
     
  • Entornos reproducibles: Databricks Container Services y los repositorios basados en Git (con CI/CD) bloquean las dependencias de software para cada canalización. Esto ha sido crucial para el stack de investigación de Exai Bio (que incluye herramientas de bioinformática personalizadas), ya que garantiza que todos los miembros del equipo ejecuten los modelos en entornos idénticos. En resumen, Databricks proporciona una plataforma de MLOps llave en mano: ingesta de datos con Spark, seguimiento de experimentos con MLflow, orquestación con Jobs/Workflows y computación elástica con escalamiento automático.

Impacto en la detección del cáncer y el descubrimiento de biomarcadores

Los avances científicos y de ingeniería combinados tienen implicaciones importantes:

  • Detección temprana mejorada: al amplificar la señal de cáncer del cfRNA frente al fondo de moléculas de ARN en la sangre, nuestros modelos de IA pueden detectar el cáncer en sus primeras etapas. La eliminación de ruido de Exai-1 produce señales más claras incluso en muestras de sangre de pequeño volumen, mientras que la incrustación generativa de Orion logra una alta sensibilidad (94 %) para el cáncer de pulmón en etapa temprana. Estas mejoras podrían traducirse en pruebas de detección más fiables (p. ej., análisis de sangre anuales) que detecten los tumores en etapas curables.
     
  • Nuevos conocimientos sobre biomarcadores: los modelos aprenden de los datos de ARN crudos, lo que reduce los sesgos de los paneles dirigidos. Por ejemplo, Orion identificó cientos de nuevos oncRNA a partir de datos de TCGA y de tejidos, y luego validó su importancia en la sangre. El espacio latente de Exai-1 combina información sobre la secuencia, la estructura y la abundancia del ARN, lo que podría resaltar biomarcadores que antes se pasaban por alto. Es importante destacar que el paradigma de aprendizaje por transferencia nos permite incorporar nuevos descubrimientos rápidamente (p. ej., intercambiando nuevos tokens de secuencia) y hacer un ajuste fino en la plataforma unificada.
     
  • Aumento de datos generativo – Exai-1 puede simular perfiles de cfRNA realistas muestreando desde su decodificador. Estos datos sintéticos potencian el entrenamiento de los clasificadores, como lo demuestran los AUC más altos al usar reconstrucciones de Exai-1. En la práctica, esto significa que las firmas de cánceres raros se pueden aprender de forma más sólida a pesar de la escasez de muestras reales. En otras palabras, el modelo fundacional mitiga la escasez de datos, un factor crítico ya que “la detección de cánceres raros… requiere modelos fundacionales y datos de entrenamiento sustanciales”.
     
  • Colaboración de investigación escalable: al basarse en Databricks, el equipo multidisciplinario de Exai (biólogos, bioinformáticos, bioestadísticos, científicos de ML e ingenieros de datos) puede colaborar sin problemas. Los científicos de datos ejecutan PyTorch y Spark de forma paralela; los bioestadísticos consultan cohortes con R; los biólogos registran nuevas muestras procesadas, y los informes/paneles se actualizan automáticamente. Este rápido ciclo de retroalimentación ha permitido al equipo de Exai mostrar las aplicaciones de su sistema de IA y biopsia líquida en múltiples tipos de cáncer, lo que ha dado lugar a siete publicaciones en conferencias en 18 meses. Esto ejemplifica cómo la infraestructura de IA de nivel empresarial acelera la I+D en ciencias biológicas.

Mirando hacia el futuro

La colaboración entre Exai Bio y Databricks demuestra cómo los modelos de IA de vanguardia y la arquitectura moderna en la nube amplían juntos las fronteras del diagnóstico del cáncer. Los modelos de IA generativa y fundacionales de Exai Bio (Exai-1 y Orion) demuestran que el aprendizaje generativo profundo puede extraer potentes señales de las biopsias líquidas. Detrás de estos avances se encuentra Lakehouse de Databricks, que unifica datos biomédicos heterogéneos, y sus herramientas de ML administradas (MLflow, Workflows, Pipelines), que hacen que la experimentación a gran escala sea práctica y reproducible. De cara al futuro, seguiremos refinando nuestros modelos y canalizaciones. Juntos, Exai Bio y Databricks están sentando las bases para una oncología de precisión impulsada por IA que sea escalable y con impacto clínico.

Fuentes: Exai Bio et al., “Un modelo de lenguaje de cfRNA multimodal para biopsia líquida” (Nature Machine Intelligence, 2025); Exai Bio et al., Nature Commun. (2024) “Modelos de IA generativa profunda que analizan los ARN no codificantes huérfanos circulantes...”; documentación y blogs de Databricks.

 

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.

¿Qué sigue?

De-identifying Medical Images Cost-Effectively with Vision Language Models on Databricks

Saúde e ciências da vida

November 4, 2025/6 min de leitura

Desidentificando imagens médicas com bom custo-benefício com modelos de linguagem de visão no Databricks

databricks x nvidia industry solutions

Saúde e ciências da vida

December 1, 2025/5 min de leitura

Databricks e NVIDIA: impulsionando a próxima geração de AI para as indústrias