Publicado: 25 de marzo de 2026
por Mittul Mehta y Vibhor Nigam
El desarrollo de fármacos cuesta más de 3.000 millones de dólares y requiere una inversión de 10 a 12 años para lanzar un producto al mercado. Esto contribuye directamente a los problemas de accesibilidad y coste de un producto determinado.
Tevogen Bio creó la plataforma patentada ExacTcell para determinar objetivos contra cualquier enfermedad viral, oncológica o neurológica dada para una única restricción HLA para abordar estos problemas. La selección inicial de objetivos para su prueba de concepto en un único candidato viral, SARS-COV2, se realizó mediante métodos manuales. El producto de restricción HLA única, aunque capaz de abordar a la mayoría de la población, requirió un compromiso significativo de tiempo y recursos, tardando entre 18 y 24 meses en probarse y confirmarse mediante ciencia de laboratorio húmedo.
Para cumplir con la declaración de misión de Tevogen de proporcionar atención más rápida, barata y accesible, Tevogen.AI se asoció con Microsoft y Databricks para optimizar la comprensión científica de sus plataformas principales, al tiempo que se enfoca en optimizar y acelerar su canal hacia indicaciones adicionales.
El planteamiento del desafío fue ingerir y crear una biblioteca de secuencias de proteínas en un espectro de enfermedades para permitir a científicos e investigadores transformar un proceso que antes llevaba meses en cuestión de días y, posteriormente, horas.
Además, este conjunto de datos se utilizará para entrenar los modelos algorítmicos fundamentales patentados de Tevogen.AI respaldados por la ciencia propietaria de Tevogen Bio. El equipo ejecutivo de Tevogen también planteó el desafío de curar un conjunto de datos de proteínas genéticas conocidas para entrenar el modelo algorítmico para predecir péptidos inmunológicamente activos utilizando métodos de machine learning.
Para curar este conjunto de datos, el equipo se enfrentó a un desafío único en el que se tuvo que adquirir y organizar un conjunto de datos a escala de varios terabytes con las características relevantes para facilitar el entrenamiento algorítmico. Esto presentó dos problemas importantes:
Aquí es donde Databricks demostró ser un socio fundamental.
Seleccionamos la Plataforma Databricks como base de nuestros esfuerzos de modernización. Aprovechando el poder de la Arquitectura Medallion y Unity Catalog, diseñamos numerosas canalizaciones para almacenar datos cuidadosamente en capas de bronce, plata y oro, manteniendo una gobernanza estricta y un control de acceso detallado.
Aprovechando el poder de la computación distribuida junto con la estructura más limpia, pudimos reducir el tiempo empleado por los procesos de 50 días a 24 horas. La arquitectura Medallion también sirvió como base para el desarrollo de varios modelos de machine learning (ML).
Gracias a los expertos de su equipo de Servicios Profesionales, con reconocimiento personal a Vibhor Nigam y Mohamad Abafoul, Tevogen.AI pudo procesar a escala y acumular un conjunto de datos que comprende 24 millones de proteínas que luego se refinaron y clasificaron para derivar 16.000 millones de puntos de datos y ~700 millones de péptidos únicos desde las capas de Bronce a Plata de la arquitectura Medallion. Además, hemos podido curar ~37 millones de artículos de expertos cruzados.
Cualquiera que haya trabajado en bioinformática entiende que esta no es una tarea fácil de realizar en cuestión de meses. A medida que este proceso tuvo lugar, el equipo pudo trabajar en paralelo, creando un marco MLOps para permitir el entrenamiento automático, la inferencia, el monitoreo y la retención. Al finalizar la fase inicial del compromiso, el equipo pudo entregar la versión alfa del modelo PredicTcell entrenado con métodos XGBoost tradicionales y modelos ESM, entregando finalmente un recall del 93-97% y una precisión del 38-43%.
Además, la expansión de los conjuntos de datos permitió al equipo científico de Tevogen obtener y proporcionar nuevas perspectivas sobre el ciclo de entrenamiento del modelo, refinando así los métodos de entrenamiento en cada iteración. Continuamos agregando características adicionales a nuestro conjunto de entrenamiento, como la evaluación rápida de artículos de expertos con integración RAG utilizando Agent Bricks junto con propiedades bioquímicas.
A medida que comienza el entrenamiento para la versión Beta del modelo PredicTcell y comenzamos el trabajo en la versión alfa de nuestro modelo AdapTcell, Tevogen.AI está en una posición única para crear modelos predictivos de última generación para la afinidad de unión de péptidos a proteínas con una precisión creciente, clave para desbloquear el santo grial de la medicina.
Con sus modelos propietarios, Tevogen.AI confía en que podrá lograr su objetivo final de predecir el péptido de unión para cualquier proteína, nueva o de otro tipo, con un grado de precisión muy alto.
“Agregar determinismo a un flujo de trabajo probabilístico es la clave para desbloquear el éxito. Equilibrar el proceso de prueba y error in-vivo/in-silico es algo en lo que cada empresa de biotecnología debería centrarse para el desarrollo de fármacos”, dijo Mittul Mehta, CIO – Tevogen y Director – Tevogen.AI.
“Estoy extremadamente satisfecho con nuestra relación con Databricks y Microsoft, ya que cada uno aporta las mejores capacidades para permitirnos innovar continuamente y alcanzar el objetivo de Tevogen de proporcionar terapias asequibles y accesibles para grandes poblaciones de pacientes. Espero seguir trabajando con estos dos excelentes socios para innovar en IA para el desarrollo de fármacos.”
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
