Passa al contenuto principale

Exai Bio & Databricks: come accelerare la biopsia liquida basata sull'AI per la diagnosi precoce del cancro

exaibio

Published: January 27, 2026

Sanità e bioscienze8 min de leitura

Summary

  • Progressi dell'AI generativa nel rilevamento del cancro: Exai Bio ha sviluppato Exai-1 e Orion, due modelli di AI generativa che analizzano l'RNA libero circolante per migliorare significativamente l'eliminazione del rumore del segnale e il rilevamento precoce del cancro, raggiungendo il 94% di sensibilità per il cancro al polmone.
  • Basato sull'infrastruttura Databricks: questi progressi sfruttano l'architettura lakehouse e l'ecosistema MLOps di Databricks (incluse le tabelle MLflow e Delta) per unificare grandi set di dati genomici, gestire cluster di compute scalabili e garantire un addestramento riproducibile dei modelli.
  • R&S accelerata e Data Augmentation: la piattaforma consente l'uso di dati sintetici per superare la scarsità di campioni e semplifica la collaborazione, permettendo al team di Exai di produrre sette pubblicazioni per conferenze che dimostrano l'efficacia su più tipi di cancro in soli 18 mesi.

Le biopsie liquide consentono lo screening e il monitoraggio non invasivo del cancro analizzando i biomarcatori tumorali nel sangue, ma i segnali possono essere sparsi e rumorosi. Exai Bio è stata pioniera della biopsia liquida basata sull'IA utilizzando nuovi biomarcatori a RNA di piccole dimensioni. In un lavoro recente, Exai-1 e Orion, due nuove IA generative per l'RNA libero circolante (cell-free RNA), hanno ottenuto risultati rivoluzionari nel denoising del segnale e nella diagnosi precoce del cancro. Questi progressi sono stati resi possibili dall'architettura lakehouse e dall'infrastruttura di IA cloud di Databricks. Unificando grandi set di dati genomici e fornendo strumenti di ML gestiti (MLflow, flussi di lavoro, cluster scalabili), Databricks consente ai ricercatori di Exai di addestrare grandi modelli multimodali su migliaia di campioni di pazienti. In questo lavoro congiunto, mettiamo in evidenza i progressi tecnici di Exai Bio e mostriamo come l'ecosistema lakehouse e MLOps di Databricks acceleri l'IA biomedica all'avanguardia.

Modelli Foundation multimodali per la biopsia liquida

La ricerca più recente di Exai Bio introduce grandi modelli generativi personalizzati per i dati della biopsia liquida. Questi modelli integrano informazioni sulla sequenza, abbondanza molecolare e metadati ricchi per apprendere rappresentazioni di alta qualità degli RNA associati al cancro.

  • Exai-1 (Foundation Model per cfRNA): un autoencoder variazionale basato su transformer che unisce gli embedding di sequenze di RNA con i profili di abbondanza dell'RNA libero circolante (cfRNA). Exai-1 è preaddestrato su enormi set di dati (oltre 306 miliardi di token di sequenza da 13.014 campioni di sangue) e apprende una struttura latente biologicamente significativa dell'espressione del cfRNA. Sfruttando sia i dati di sequenza (tramite gli embedding del modello linguistico RNA-FM) che i dati di espressione, Exai-1 "migliora la fedeltà del segnale, riduce il rumore tecnico e migliora il rilevamento delle malattie generando profili di cfRNA sintetici". In pratica, Exai-1 può eliminare il rumore dalle misurazioni sparse di cfRNA e persino aumentare i set di dati: i classificatori addestrati sui profili ricostruiti di Exai-1 superano costantemente le prestazioni di quelli addestrati su dati grezzi. Questo approccio generativo di transfer learning crea di fatto un foundation model per qualsiasi attività diagnostica basata su cfRNA, ad esempio utilizzando gli stessi embedding preaddestrati per rilevare altri tipi di cancro o nuovi biomarcatori.
     
  • Orion (Classificatore generativo di oncRNA): un autoencoder variazionale (VAE) specializzato per gli RNA orfani non codificanti (oncRNA) circolanti, che sono piccoli RNA secreti dai tumori. Orion ha un'architettura VAE gemella: prende in input un vettore di conteggio di oncRNA associati al cancro e un vettore di RNA di controllo (ad es. RNA housekeeping endogeni). Ciascun input alimenta un codificatore separato; i loro output consentono di addestrare un classificatore robusto e di ricostruire la distribuzione sottostante degli oncRNA. È importante notare che l'addestramento di Orion include perdite (loss) contrastive e di classificazione: una loss a margine di tripletta avvicina i campioni con lo stesso fenotipo (cancro vs. controllo) e allontana i fenotipi diversi, rimuovendo gli effetti batch e le variazioni tecniche. L'embedding appreso viene quindi utilizzato da un classificatore downstream per prevedere la presenza del cancro. Su una coorte di 1.050 pazienti affetti da cancro al polmone e controlli, Orion ha raggiunto una sensibilità del 94% con una specificità dell'87% per il rilevamento del NSCLC in tutti gli stadi, superando i metodi standard di circa il 30% sui dati di hold-out. Questo modello generativo e semi-supervisionato elimina automaticamente il rumore dai segnali di cfRNA e produce un'impronta compatta specifica per il cancro, consentendo un rilevamento precoce più accurato rispetto ai test precedenti.
     
Architettura del modello Orion di Exai Bio per la biopsia liquida

Figura 1: Architettura del modello Orion di Exai Bio per la biopsia liquida. Immagine da Karimzadeh et al., Nat Commun.

Insieme, questi modelli formano un framework di IA scalabile per la biopsia liquida. Exai-1 fornisce un "modello linguistico" per cfRNA per uso generico in grado di generare profili di RNA realistici e potenziare i classificatori downstream. Orion affina questo approccio per il problema specifico dello screening del cancro ai polmoni. In entrambi i casi, i modelli generalizzano a diverse condizioni: Exai-1 "facilita la traduzione tra biofluidi e la compatibilità dei test" separando i segnali biologici reali dai fattori confondenti. Il risultato è una nuova generazione di strumenti di IA in grado di estrarre sottili pattern di biomarcatori cfRNA per la diagnosi precoce del cancro e la scoperta di biomarcatori.

Piattaforma di Data Intelligence e IA di Databricks: l'infrastruttura abilitante

Queste innovazioni nel campo dell'AI sono alimentate dalla piattaforma di analitiche dei dati unificata di Databricks. Le funzionalità principali includono:

  • Archiviazione unificata Lakehouse (Delta): memorizziamo tutti i metadati (informazioni sui campioni, dati di laboratorio e degli esperimenti) nelle tabelle Delta di Databricks. Questo singolo lakehouse previene i silos di dati e consente l'analisi in tempo reale. Come osserva la soluzione sanitaria di Databricks, il lakehouse "riunisce su larga Scale i dati dei pazienti, della ricerca e operativi" ed elimina i silos legacy, rendendo i dati genomici e clinici immediatamente interrogabili. Ad esempio, gli oltre 13.000 campioni di sangue di Exai (in siero e plasma) e gli oltre 10.000 set di dati small-RNA-seq precedenti sono tutti registrati in tabelle Delta, che possono essere rapidamente filtrate e unite per l'addestramento dei modelli.
     
  • Scalable Compute & Clusters: i cluster nativo per il cloud di Databricks consentono ai ricercatori di avviare istanze GPU o ad alta memoria senza un grande sforzo DevOps. Databricks ci permette di muoverci velocemente. La gestione dei cluster è intuitiva e funzionalità come la terminazione automatica e i dashboard dei costi tengono sotto controllo i budget. Questa scalabilità on-demand ha consentito l'ottimizzazione e l'addestramento di Exai-1 e Orion su centinaia di core CPU/GPU. I Databricks Workflows (precedentemente noti come Jobs) organizzano il "compute": i ricercatori possono lanciare pipeline ETL e di addestramento a più fasi con dipendenze definite, parallelizzando le attività senza scrivere codice di orchestrazione complesso.
     
  • MLflow per MLOps: ogni esecuzione di un esperimento (iperparametri, set di dati, metriche, artefatti) viene tracciata in MLflow, che è strettamente integrato in Databricks. Databricks fornisce tutta la configurazione dell'ambiente MLflow, come il tracking server, e la rende disponibile senza alcuna impostazione. Il tracciamento degli esperimenti e il registro dei modelli di MLflow garantiscono la riproducibilità e la collaborazione. Con MLflow gestito, la registrazione di metriche e artefatti da decine di modelli ha reso davvero possibile eseguire studi di ablazione e ottimizzare le funzionalità che migliorano diversi aspetti delle prestazioni del modello.
     
  • Ambienti riproducibili: i Databricks Container Services e i Repos basati su Git (con CI/CD) bloccano le dipendenze software per ogni pipeline. Ciò è stato fondamentale per lo stack di ricerca di Exai Bio (inclusi gli strumenti di bioinformatica personalizzati), garantendo che ogni membro del team esegua i modelli in ambienti identici. In breve, Databricks fornisce una piattaforma MLOps chiavi in mano: acquisizione dei dati con Spark, tracciamento degli esperimenti con MLflow, orchestrazione con Jobs/flussi di lavoro e elastic compute con scalabilità automatica.

Impatto sul rilevamento del cancro e sulla scoperta di biomarcatori

I progressi scientifici e di ingegneria combinati hanno implicazioni importanti:

  • Diagnosi precoce migliorata – Amplificando il segnale tumorale del cfRNA rispetto allo sfondo delle molecole di RNA nel sangue, i nostri modelli di IA possono rilevare il cancro nelle fasi iniziali. Il denoising di Exai-1 produce segnali più chiari anche in campioni di sangue di piccolo volume, mentre l'embedding generativo di Orion raggiunge un'elevata sensibilità (94%) per il cancro ai polmoni in stadio precoce. Tali miglioramenti potrebbero tradursi in test di screening più affidabili (ad es. esami del sangue annuali) che individuano i tumori in stadi curabili.
     
  • Nuove conoscenze sui biomarcatori – I modelli apprendono dai dati grezzi di RNA, riducendo i bias dei pannelli mirati. Ad esempio, Orion ha identificato centinaia di nuovi oncRNA da dati TCGA e tissutali, per poi convalidarne l'importanza nel sangue. Lo spazio latente di Exai-1 combina informazioni sulla sequenza, la struttura e l'abbondanza dell'RNA, il che potrebbe evidenziare biomarcatori precedentemente trascurati. È importante sottolineare che il paradigma del transfer learning ci consente di integrare rapidamente nuove scoperte (ad esempio, sostituendo nuovi token di sequenza) e di effettuare il fine-tuning sulla piattaforma unificata.
     
  • Aumento generativo dei dati – Exai-1 può simulare profili cfRNA realistici campionando dal suo decoder. Questi dati sintetici potenziano l'addestramento del classificatore, come dimostrato da valori AUC più elevati quando si utilizzano le ricostruzioni di Exai-1. In pratica, ciò significa che le firme tumorali rare possono essere apprese in modo più robusto nonostante la scarsità di campioni reali. In altre parole, il modello di base attenua la scarsità dei dati, un fattore critico poiché "la diagnosi di tumori rari... richiede modelli di base e una notevole quantità di dati di addestramento".
     
  • Collaborazione scalabile nella ricerca – Basandosi su Databricks, il team multidisciplinare di Exai (biologi, bioinformatici, biostatistici, scienziati di ML e Data Engineer) può collaborare senza problemi. I Data scientists eseguono PyTorch e Spark fianco a fianco; i biostatistici queryano le coorti con R; i biologi loggano i nuovi campioni elaborati e i report/le dashboard refreshano automaticamente. Questo rapido ciclo di feedback ha permesso al team di Exai di mostrare le applicazioni della biopsia liquida e del sistema di AI in diversi tipi di cancro, portando a sette pubblicazioni in conferenze in 18 mesi. Ciò esemplifica come un'infrastruttura di AI di livello enterprise acceleri la R&S nel campo delle scienze della vita.

Sguardo al futuro

La collaborazione tra Exai Bio e Databricks mostra come i modelli di IA all'avanguardia e una moderna architettura cloud spingano insieme le frontiere della diagnostica del cancro. I modelli Foundation e di IA generativa di Exai Bio (Exai-1 e Orion) dimostrano che l'apprendimento generativo profondo (deep generative learning) può estrarre segnali potenti dalle biopsie liquide. Alla base di questi progressi c'è il Lakehouse di Databricks, che unifica dati biomedici eterogenei, e i suoi strumenti di ML gestiti (MLflow, flussi di lavoro, Pipelines) che rendono la sperimentazione su larga scala pratica e riproducibile. Guardando al futuro, continueremo a perfezionare i nostri modelli e le nostre pipeline. Insieme, Exai Bio e Databricks stanno gettando le basi per un'oncologia di precisione basata sull'IA che sia scalabile e di impatto clinico.

Fonti: Exai Bio et al., "Un modello linguistico cfRNA multimodale per la biopsia liquida" (Nature Machine Intelligence, 2025); Exai Bio et al.Nature Commun. (2024) "Modelli di IA generativa profonda che analizzano gli RNA orfani non codificanti circolanti..."; Documentazione e blog di Databricks.

 

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Non perdere mai un post di Databricks

Iscriviti al nostro blog e ricevi gli ultimi post direttamente nella tua casella di posta elettronica.

Cosa succederà adesso?

De-identifying Medical Images Cost-Effectively with Vision Language Models on Databricks

Saúde e ciências da vida

November 4, 2025/6 min de leitura

Desidentificando imagens médicas com bom custo-benefício com modelos de linguagem de visão no Databricks

databricks x nvidia industry solutions

Saúde e ciências da vida

December 1, 2025/5 min de leitura

Databricks e NVIDIA: impulsionando a próxima geração de AI para as indústrias