25 de março de 2026

A Jornada da Tevogen Bio para Otimizar Terapias que Salvam Vidas

Acelerando a descoberta de medicamentos com dados e IA

A Inovação: A Tevogen Bio está alavancando sua plataforma ExacTcell e os modelos proprietários de IA PredicTcell para modernizar e automatizar o processo tradicionalmente lento e de US$ 3 bilhões de descoberta de medicamentos.
O Desafio: Para superar o "gargalo" de testes manuais em laboratório e silos de dados de vários terabytes, a Tevogen fez parceria com a Microsoft e a Databricks para construir uma plataforma de dados massiva e governada em arquitetura lakehouse.
Os Resultados: Ao processar 16 bilhões de pontos de dados, a Tevogen comprimiu um ciclo de pesquisa de 50 dias em apenas 24 horas, alcançando 93–97% de recall em seu modelo alfa para fornecer terapias mais rápidas e acessíveis.

Acelerando o Processo de Descoberta de Medicamentos que Leva uma Década

O desenvolvimento de medicamentos custa mais de US$ 3 bilhões e exige um investimento de 10 a 12 anos para trazer um produto ao mercado. Isso contribui diretamente para problemas associados à acessibilidade e ao custo de um determinado produto.

A Tevogen Bio criou a plataforma patenteada ExacTcell para determinar alvos contra qualquer doença viral, oncológica ou neurológica para uma única restrição HLA, a fim de resolver esses problemas. A seleção inicial de alvos para seu teste de prova de conceito em um único candidato viral, SARS-COV2, foi realizada por métodos manuais. O produto de restrição HLA única, embora capaz de atender à maioria da população, exigiu um tempo e um compromisso de recursos significativos, levando de 18 a 24 meses para testar e confirmar por meio de ciência de laboratório.

Para cumprir a declaração de missão da Tevogen de fornecer cuidados mais rápidos, baratos e acessíveis, a Tevogen.AI fez parceria com a Microsoft e a Databricks para otimizar o entendimento científico de suas plataformas principais, ao mesmo tempo em que visa otimizar e acelerar seu pipeline para indicações adicionais.

A declaração do desafio foi ingerir e criar uma biblioteca de sequências de proteínas em um espectro de doenças para permitir que cientistas e pesquisadores transformassem um processo que antes levava meses em uma questão de dias e, subsequentemente, horas.

Além disso, este conjunto de dados será usado para treinar os modelos algorítmicos fundamentais patenteados da Tevogen.AI, apoiados pela ciência proprietária da Tevogen Bio. A equipe executiva da Tevogen também apresentou o desafio de curar um conjunto de dados de proteínas genéticas conhecidas para treinar o modelo algorítmico a prever peptídeos imunologicamente ativos usando métodos de machine learning.

O Gargalo: Manipulando Conjuntos de Dados de Vários Terabytes

Para curar este conjunto de dados, a equipe enfrentou um desafio único em que um conjunto de dados em escala de vários terabytes teve que ser adquirido e organizado com os recursos relevantes para facilitar o treinamento algorítmico. Isso apresentou dois problemas principais:

Criar pipelines de dados para adquirir e organizar rapidamente informações relevantes com limpeza e filtragem de vários níveis, e
Converter um processo projetado para ser executado em série, em paralelo.

É aqui que a Databricks provou ser um parceiro crítico.

Arquitetando um Modern Data Lakehouse com Databricks

Selecionamos a Plataforma Databricks como base de nossos esforços de modernização. Aproveitando o poder da Medallion Architecture e do Unity Catalog, arquitetamos vários pipelines para armazenar dados cuidadosamente em camadas bronze, prata e ouro, mantendo governança rigorosa e controle de acesso granular.

Aproveitando o poder da computação distribuída junto com a estrutura mais limpa, conseguimos reduzir o tempo dos processos de 50 dias para 24 horas. A arquitetura Medallion também serviu como base para o desenvolvimento de vários modelos de machine learning (ML).

Graças aos especialistas de sua equipe de Serviços Profissionais, com reconhecimento pessoal a Vibhor Nigam e Mohamad Abafoul, a Tevogen.AI conseguiu processar em escala e acumular um conjunto de dados compreendendo 24 milhões de proteínas que foram então refinadas e classificadas para derivar 16 bilhões de pontos de dados e ~700 milhões de peptídeos únicos das camadas Bronze para Silver da arquitetura Medallion. Além disso, conseguimos curar ~37 milhões de artigos de especialistas cruzados.

De Dados a IA: Treinando o Modelo PredicTcell

Qualquer pessoa que trabalhou em bioinformática entende que esta não é uma tarefa pequena a ser realizada em poucos meses. À medida que esse processo ocorria, a equipe conseguiu trabalhar em paralelo, criando um framework MLOps para permitir treinamento, inferência, monitoramento e retenção automáticos. Após a conclusão da fase inicial do engajamento, a equipe conseguiu entregar a versão alfa do modelo PredicTcell treinado em métodos tradicionais XGBoost e modelos ESM, entregando, em última análise, 93-97% de recall e 38-43% de precisão.

Além disso, a expansão dos conjuntos de dados permitiu que a equipe científica da Tevogen obtivesse e fornecesse novos insights sobre o ciclo de treinamento do modelo, refinando assim os métodos de treinamento a cada iteração. Continuamos a adicionar recursos adicionais ao nosso conjunto de treinamento, como a avaliação rápida de artigos de especialistas com integração RAG usando Agent Bricks, juntamente com propriedades bioquímicas.

Olhando para o Futuro: Desbloqueando o Santo Graal da Medicina

À medida que o treinamento é iniciado para a versão Beta do modelo PredicTcell e começamos o trabalho na versão alfa de nosso modelo AdapTcell, a Tevogen.AI está em uma posição única para criar modelos preditivos de ponta para afinidade de ligação peptídeo-proteína com precisão crescente, uma chave para desbloquear o santo graal da medicina.

Com seus modelos proprietários, a Tevogen.AI está confiante de que será capaz de atingir seu objetivo final de prever o peptídeo de ligação para qualquer proteína, nova ou não, com um grau muito alto de precisão.

“Adicionar determinismo a um fluxo de trabalho probabilístico é a chave para o sucesso. Equilibrar o processo de tentativa e erro in-vivo/in-silico é algo em que toda empresa de biotecnologia deve se concentrar para o desenvolvimento de medicamentos”, disse Mittul Mehta, CIO – Tevogen e Head – Tevogen.AI.

“Estou extremamente satisfeito com nosso relacionamento com a Databricks e a Microsoft, pois cada uma traz as melhores capacidades para a mesa para nos permitir inovar continuamente e alcançar o objetivo da Tevogen de fornecer terapias acessíveis e disponíveis para grandes populações de pacientes. Estou ansioso para continuar trabalhando com esses dois excelentes parceiros para inovar em IA para o desenvolvimento de medicamentos.”

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.

Ver todos os blogs