Lo sviluppo di farmaci costa oltre 3 miliardi di dollari e richiede un investimento di 10-12 anni per portare un prodotto sul mercato. Questi fattori contribuiscono direttamente ai problemi associati all'accessibilità e al costo di un dato prodotto.
Tevogen Bio ha creato la piattaforma brevettata ExacTcell per determinare i bersagli contro qualsiasi malattia virale, oncologica o neurologica per una singola restrizione HLA al fine di affrontare questi problemi. La selezione iniziale del bersaglio per il suo trial di proof-of-concept su un singolo candidato virale, SARS-COV2, è stata eseguita tramite metodi manuali. Il prodotto a singola restrizione HLA, pur essendo in grado di trattare la maggior parte della popolazione, ha richiesto un impegno significativo in termini di tempo e risorse, impiegando da 18 a 24 mesi per essere testato e confermato tramite scienza di laboratorio umido.
Per soddisfare la dichiarazione di missione di Tevogen di fornire cure più veloci, economiche e accessibili, Tevogen.AI ha collaborato con Microsoft e Databricks per ottimizzare la comprensione scientifica delle loro piattaforme principali, mirando al contempo a semplificare e accelerare la loro pipeline verso indicazioni aggiuntive.
L'obiettivo era quello di ingerire e creare una libreria di sequenze proteiche attraverso uno spettro di malattie per consentire a scienziati e ricercatori di trasformare un processo che una volta richiedeva mesi in una questione di giorni e successivamente ore.
Inoltre, questo set di dati verrà utilizzato per addestrare i modelli algoritmici fondamentali brevettati da Tevogen.AI, supportati dalla scienza proprietaria di Tevogen Bio. Il team esecutivo di Tevogen ha anche posto la sfida di curare un set di dati di proteine note per addestrare il modello algoritmico a prevedere peptidi immunologicamente attivi utilizzando metodi di machine learning.
Per curare questo set di dati, il team ha affrontato una sfida unica in cui è stato necessario procurarsi e organizzare un set di dati su scala multi-terabyte con le caratteristiche pertinenti per facilitare l'addestramento algoritmico. Ciò ha presentato due problemi principali:
È qui che Databricks si è dimostrato un partner fondamentale.
Abbiamo selezionato la Databricks Platform come base dei nostri sforzi di modernizzazione. Sfruttando la potenza della Medallion Architecture e di Unity Catalog, abbiamo architettato numerose pipeline per archiviare attentamente i dati nei livelli bronze, silver e gold, mantenendo al contempo una rigorosa governance e un controllo degli accessi granulare.
Sfruttando la potenza del calcolo distribuito insieme alla struttura più pulita, siamo stati in grado di ridurre il tempo impiegato dai processi da 50 giorni a 24 ore. La Medallion Architecture è servita anche come base per lo sviluppo di vari modelli di machine learning (ML).
Grazie agli esperti del loro team di Professional Services, con un ringraziamento personale a Vibhor Nigam e Mohamad Abafoul, Tevogen.AI è stata in grado di elaborare su larga scala e accumulare un set di dati comprendente 24 milioni di proteine che sono state poi raffinate e ordinate per derivare 16 miliardi di punti dati e circa 700 milioni di peptidi unici dai livelli Bronze a Silver della Medallion Architecture. Inoltre, siamo stati in grado di curare circa 37 milioni di articoli di esperti incrociati.
Chiunque abbia lavorato in bioinformatica capisce che non è un'impresa da poco da realizzare in pochi mesi. Mentre questo processo si svolgeva, il team è stato in grado di lavorare in parallelo, creando un framework MLOps per consentire l'addestramento automatico, l'inferenza, il monitoraggio e la conservazione. Al completamento della fase iniziale dell'impegno, il team è stato in grado di fornire la versione alpha del modello PredicTcell addestrato su metodi XGBoost tradizionali e modelli ESM, fornendo infine un richiamo del 93-97% e un'accuratezza del 38-43%.
Inoltre, l'espansione dei set di dati ha permesso al team scientifico di Tevogen di ottenere e fornire nuove intuizioni sul ciclo di addestramento del modello, affinando così i metodi di addestramento attraverso ogni iterazione. Continuiamo ad aggiungere funzionalità aggiuntive al nostro set di addestramento, come la rapida valutazione di articoli di esperti con integrazione RAG utilizzando Agent Bricks accoppiata a proprietà biochimiche.
Mentre l'addestramento prende il via per la versione Beta del modello PredicTcell e iniziamo il lavoro sulla versione alpha del nostro modello AdapTcell, Tevogen.AI è in una posizione unica per creare modelli predittivi all'avanguardia per l'affinità di legame peptide-proteina con crescente accuratezza, una chiave per sbloccare il santo graal della medicina.
Con i loro modelli proprietari, Tevogen.AI è fiduciosa di poter raggiungere il loro obiettivo finale di prevedere il peptide legante per qualsiasi proteina, nuova o diversa, con un altissimo grado di accuratezza.
“Aggiungere determinismo a un flusso di lavoro probabilistico è la chiave per sbloccare il successo. Bilanciare il processo di tentativi ed errori in vivo/in silico è qualcosa su cui ogni azienda biotech dovrebbe concentrarsi per lo sviluppo di farmaci”, ha affermato Mittul Mehta, CIO – Tevogen e Head – Tevogen.AI.
“Sono estremamente soddisfatto della nostra relazione con Databricks e Microsoft, poiché ognuno porta le migliori capacità sul tavolo per consentirci di innovare continuamente e raggiungere l'obiettivo di Tevogen di fornire terapie convenienti e accessibili per ampie popolazioni di pazienti. Non vedo l'ora di continuare a lavorare con entrambi questi eccellenti partner per innovare nell'IA per lo sviluppo di farmaci.”
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
