Publicado: 25 de março de 2026
por Mittul Mehta e Vibhor Nigam
O desenvolvimento de medicamentos custa mais de US$ 3 bilhões e exige um investimento de 10 a 12 anos para trazer um produto ao mercado. Isso contribui diretamente para problemas associados à acessibilidade e ao custo de um determinado produto.
A Tevogen Bio criou a plataforma patenteada ExacTcell para determinar alvos contra qualquer doença viral, oncológica ou neurológica para uma única restrição HLA, a fim de resolver esses problemas. A seleção inicial de alvos para seu teste de prova de conceito em um único candidato viral, SARS-COV2, foi realizada por métodos manuais. O produto de restrição HLA única, embora capaz de atender à maioria da população, exigiu um tempo e um compromisso de recursos significativos, levando de 18 a 24 meses para testar e confirmar por meio de ciência de laboratório.
Para cumprir a declaração de missão da Tevogen de fornecer cuidados mais rápidos, baratos e acessíveis, a Tevogen.AI fez parceria com a Microsoft e a Databricks para otimizar o entendimento científico de suas plataformas principais, ao mesmo tempo em que visa otimizar e acelerar seu pipeline para indicações adicionais.
A declaração do desafio foi ingerir e criar uma biblioteca de sequências de proteínas em um espectro de doenças para permitir que cientistas e pesquisadores transformassem um processo que antes levava meses em uma questão de dias e, subsequentemente, horas.
Além disso, este conjunto de dados será usado para treinar os modelos algorítmicos fundamentais patenteados da Tevogen.AI, apoiados pela ciência proprietária da Tevogen Bio. A equipe executiva da Tevogen também apresentou o desafio de curar um conjunto de dados de proteínas genéticas conhecidas para treinar o modelo algorítmico a prever peptídeos imunologicamente ativos usando métodos de machine learning.
Para curar este conjunto de dados, a equipe enfrentou um desafio único em que um conjunto de dados em escala de vários terabytes teve que ser adquirido e organizado com os recursos relevantes para facilitar o treinamento algorítmico. Isso apresentou dois problemas principais:
É aqui que a Databricks provou ser um parceiro crítico.
Selecionamos a Plataforma Databricks como base de nossos esforços de modernização. Aproveitando o poder da Medallion Architecture e do Unity Catalog, arquitetamos vários pipelines para armazenar dados cuidadosamente em camadas bronze, prata e ouro, mantendo governança rigorosa e controle de acesso granular.
Aproveitando o poder da computação distribuída junto com a estrutura mais limpa, conseguimos reduzir o tempo dos processos de 50 dias para 24 horas. A arquitetura Medallion também serviu como base para o desenvolvimento de vários modelos de machine learning (ML).
Graças aos especialistas de sua equipe de Serviços Profissionais, com reconhecimento pessoal a Vibhor Nigam e Mohamad Abafoul, a Tevogen.AI conseguiu processar em escala e acumular um conjunto de dados compreendendo 24 milhões de proteínas que foram então refinadas e classificadas para derivar 16 bilhões de pontos de dados e ~700 milhões de peptídeos únicos das camadas Bronze para Silver da arquitetura Medallion. Além disso, conseguimos curar ~37 milhões de artigos de especialistas cruzados.
Qualquer pessoa que trabalhou em bioinformática entende que esta não é uma tarefa pequena a ser realizada em poucos meses. À medida que esse processo ocorria, a equipe conseguiu trabalhar em paralelo, criando um framework MLOps para permitir treinamento, inferência, monitoramento e retenção automáticos. Após a conclusão da fase inicial do engajamento, a equipe conseguiu entregar a versão alfa do modelo PredicTcell treinado em métodos tradicionais XGBoost e modelos ESM, entregando, em última análise, 93-97% de recall e 38-43% de precisão.
Além disso, a expansão dos conjuntos de dados permitiu que a equipe científica da Tevogen obtivesse e fornecesse novos insights sobre o ciclo de treinamento do modelo, refinando assim os métodos de treinamento a cada iteração. Continuamos a adicionar recursos adicionais ao nosso conjunto de treinamento, como a avaliação rápida de artigos de especialistas com integração RAG usando Agent Bricks, juntamente com propriedades bioquímicas.
À medida que o treinamento é iniciado para a versão Beta do modelo PredicTcell e começamos o trabalho na versão alfa de nosso modelo AdapTcell, a Tevogen.AI está em uma posição única para criar modelos preditivos de ponta para afinidade de ligação peptídeo-proteína com precisão crescente, uma chave para desbloquear o santo graal da medicina.
Com seus modelos proprietários, a Tevogen.AI está confiante de que será capaz de atingir seu objetivo final de prever o peptídeo de ligação para qualquer proteína, nova ou não, com um grau muito alto de precisão.
“Adicionar determinismo a um fluxo de trabalho probabilístico é a chave para o sucesso. Equilibrar o processo de tentativa e erro in-vivo/in-silico é algo em que toda empresa de biotecnologia deve se concentrar para o desenvolvimento de medicamentos”, disse Mittul Mehta, CIO – Tevogen e Head – Tevogen.AI.
“Estou extremamente satisfeito com nosso relacionamento com a Databricks e a Microsoft, pois cada uma traz as melhores capacidades para a mesa para nos permitir inovar continuamente e alcançar o objetivo da Tevogen de fornecer terapias acessíveis e disponíveis para grandes populações de pacientes. Estou ansioso para continuar trabalhando com esses dois excelentes parceiros para inovar em IA para o desenvolvimento de medicamentos.”
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
