25 marzo 2026

Il percorso di Tevogen Bio per ottimizzare le terapie salvavita

Accelerare la scoperta di farmaci con dati e IA

L'innovazione: Tevogen Bio sta sfruttando la sua piattaforma ExacTcell e i modelli AI proprietari PredicTcell per modernizzare e automatizzare il processo di scoperta di farmaci, tradizionalmente lento e costoso 3 miliardi di dollari.
La sfida: Per superare il "collo di bottiglia" dei test manuali di laboratorio umido e dei silos di dati multi-terabyte, Tevogen ha collaborato con Microsoft e Databricks per costruire una piattaforma dati massiccia e governata su architettura lakehouse.
I risultati: Elaborando 16 miliardi di punti dati, Tevogen ha compresso un ciclo di ricerca di 50 giorni in sole 24 ore, ottenendo un richiamo del 93–97% nel suo modello alpha per fornire terapie più veloci e convenienti.

Accelerare il processo decennale di scoperta di farmaci

Lo sviluppo di farmaci costa oltre 3 miliardi di dollari e richiede un investimento di 10-12 anni per portare un prodotto sul mercato. Questi fattori contribuiscono direttamente ai problemi associati all'accessibilità e al costo di un dato prodotto.

Tevogen Bio ha creato la piattaforma brevettata ExacTcell per determinare i bersagli contro qualsiasi malattia virale, oncologica o neurologica per una singola restrizione HLA al fine di affrontare questi problemi. La selezione iniziale del bersaglio per il suo trial di proof-of-concept su un singolo candidato virale, SARS-COV2, è stata eseguita tramite metodi manuali. Il prodotto a singola restrizione HLA, pur essendo in grado di trattare la maggior parte della popolazione, ha richiesto un impegno significativo in termini di tempo e risorse, impiegando da 18 a 24 mesi per essere testato e confermato tramite scienza di laboratorio umido.

Per soddisfare la dichiarazione di missione di Tevogen di fornire cure più veloci, economiche e accessibili, Tevogen.AI ha collaborato con Microsoft e Databricks per ottimizzare la comprensione scientifica delle loro piattaforme principali, mirando al contempo a semplificare e accelerare la loro pipeline verso indicazioni aggiuntive.

L'obiettivo era quello di ingerire e creare una libreria di sequenze proteiche attraverso uno spettro di malattie per consentire a scienziati e ricercatori di trasformare un processo che una volta richiedeva mesi in una questione di giorni e successivamente ore.

Inoltre, questo set di dati verrà utilizzato per addestrare i modelli algoritmici fondamentali brevettati da Tevogen.AI, supportati dalla scienza proprietaria di Tevogen Bio. Il team esecutivo di Tevogen ha anche posto la sfida di curare un set di dati di proteine note per addestrare il modello algoritmico a prevedere peptidi immunologicamente attivi utilizzando metodi di machine learning.

Il collo di bottiglia: Gestione di set di dati multi-terabyte

Per curare questo set di dati, il team ha affrontato una sfida unica in cui è stato necessario procurarsi e organizzare un set di dati su scala multi-terabyte con le caratteristiche pertinenti per facilitare l'addestramento algoritmico. Ciò ha presentato due problemi principali:

Creazione di pipeline di dati per procurarsi e organizzare rapidamente informazioni pertinenti con pulizia e filtraggio multilivello, e
Conversione di un processo progettato per essere eseguito in serie, in parallelo.

È qui che Databricks si è dimostrato un partner fondamentale.

Architettura di un moderno Data Lakehouse con Databricks

Abbiamo selezionato la Databricks Platform come base dei nostri sforzi di modernizzazione. Sfruttando la potenza della Medallion Architecture e di Unity Catalog, abbiamo architettato numerose pipeline per archiviare attentamente i dati nei livelli bronze, silver e gold, mantenendo al contempo una rigorosa governance e un controllo degli accessi granulare.

Sfruttando la potenza del calcolo distribuito insieme alla struttura più pulita, siamo stati in grado di ridurre il tempo impiegato dai processi da 50 giorni a 24 ore. La Medallion Architecture è servita anche come base per lo sviluppo di vari modelli di machine learning (ML).

Grazie agli esperti del loro team di Professional Services, con un ringraziamento personale a Vibhor Nigam e Mohamad Abafoul, Tevogen.AI è stata in grado di elaborare su larga scala e accumulare un set di dati comprendente 24 milioni di proteine che sono state poi raffinate e ordinate per derivare 16 miliardi di punti dati e circa 700 milioni di peptidi unici dai livelli Bronze a Silver della Medallion Architecture. Inoltre, siamo stati in grado di curare circa 37 milioni di articoli di esperti incrociati.

Dai dati all'IA: Addestramento del modello PredicTcell

Chiunque abbia lavorato in bioinformatica capisce che non è un'impresa da poco da realizzare in pochi mesi. Mentre questo processo si svolgeva, il team è stato in grado di lavorare in parallelo, creando un framework MLOps per consentire l'addestramento automatico, l'inferenza, il monitoraggio e la conservazione. Al completamento della fase iniziale dell'impegno, il team è stato in grado di fornire la versione alpha del modello PredicTcell addestrato su metodi XGBoost tradizionali e modelli ESM, fornendo infine un richiamo del 93-97% e un'accuratezza del 38-43%.

Inoltre, l'espansione dei set di dati ha permesso al team scientifico di Tevogen di ottenere e fornire nuove intuizioni sul ciclo di addestramento del modello, affinando così i metodi di addestramento attraverso ogni iterazione. Continuiamo ad aggiungere funzionalità aggiuntive al nostro set di addestramento, come la rapida valutazione di articoli di esperti con integrazione RAG utilizzando Agent Bricks accoppiata a proprietà biochimiche.

Uno sguardo al futuro: Sbloccare il Santo Graal della medicina

Mentre l'addestramento prende il via per la versione Beta del modello PredicTcell e iniziamo il lavoro sulla versione alpha del nostro modello AdapTcell, Tevogen.AI è in una posizione unica per creare modelli predittivi all'avanguardia per l'affinità di legame peptide-proteina con crescente accuratezza, una chiave per sbloccare il santo graal della medicina.

Con i loro modelli proprietari, Tevogen.AI è fiduciosa di poter raggiungere il loro obiettivo finale di prevedere il peptide legante per qualsiasi proteina, nuova o diversa, con un altissimo grado di accuratezza.

“Aggiungere determinismo a un flusso di lavoro probabilistico è la chiave per sbloccare il successo. Bilanciare il processo di tentativi ed errori in vivo/in silico è qualcosa su cui ogni azienda biotech dovrebbe concentrarsi per lo sviluppo di farmaci”, ha affermato Mittul Mehta, CIO – Tevogen e Head – Tevogen.AI.

“Sono estremamente soddisfatto della nostra relazione con Databricks e Microsoft, poiché ognuno porta le migliori capacità sul tavolo per consentirci di innovare continuamente e raggiungere l'obiettivo di Tevogen di fornire terapie convenienti e accessibili per ampie popolazioni di pazienti. Non vedo l'ora di continuare a lavorare con entrambi questi eccellenti partner per innovare nell'IA per lo sviluppo di farmaci.”

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Ricevi gli ultimi articoli nella tua casella di posta

Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.

Visualizza tutti i blog