25 mars 2026

Le parcours de Tevogen Bio pour rationaliser les thérapies vitales

Accélérer la découverte de médicaments avec les données et l'IA

L'innovation : Tevogen Bio exploite sa plateforme ExacTcell et ses modèles IA propriétaires PredicTcell pour moderniser et automatiser le processus de découverte de médicaments, traditionnellement lent et coûteux (3 milliards de dollars).
Le défi : Pour surmonter le « goulot d'étranglement » des tests manuels en laboratoire et des silos de données de plusieurs téraoctets, Tevogen s'est associé à Microsoft et Databricks pour construire une plateforme de données massive et gouvernée sur une architecture lakehouse.
Les résultats : En traitant 16 milliards de points de données, Tevogen a compressé un cycle de recherche de 50 jours en seulement 24 heures, atteignant un rappel de 93 à 97 % dans son modèle alpha pour fournir des thérapies plus rapides et plus abordables.

Accélérer le processus de découverte de médicaments qui dure une décennie

Le développement de médicaments coûte plus de 3 milliards de dollars et nécessite un investissement de 10 à 12 ans pour commercialiser un produit. Ces éléments contribuent directement aux problèmes d'accessibilité et de coût d'un produit donné.

Tevogen Bio a créé la plateforme brevetée ExacTcell pour déterminer des cibles contre toute maladie virale, oncologique ou neurologique donnée pour une seule restriction HLA afin de résoudre ces problèmes. La sélection initiale de la cible pour son essai de preuve de concept sur un seul candidat viral, le SARS-COV2, a été effectuée par des méthodes manuelles. Le produit à restriction HLA unique, bien qu'capable de traiter la majorité de la population, a nécessité un engagement important en temps et en ressources, prenant entre 18 et 24 mois pour être testé et confirmé par la science en laboratoire.

Pour répondre à la déclaration de mission de Tevogen, qui est de fournir des soins plus rapides, moins chers et plus accessibles, Tevogen.AI s'est associé à Microsoft et Databricks pour optimiser la compréhension scientifique de leurs plateformes principales, tout en visant à rationaliser et à accélérer leur pipeline vers des indications supplémentaires.

L'énoncé du défi était d'ingérer et de créer une bibliothèque de séquences protéiques couvrant un éventail de maladies pour permettre aux scientifiques et aux chercheurs de transformer un processus qui prenait autrefois des mois en une affaire de jours, puis d'heures.

De plus, cet ensemble de données sera utilisé pour entraîner les modèles algorithmiques fondamentaux brevetés de Tevogen.AI, soutenus par la science propriétaire de Tevogen Bio. L'équipe de direction de Tevogen a également relevé le défi de créer un ensemble de données de protéines génétiques connues pour entraîner le modèle algorithmique à prédire des peptides immunologiquement actifs à l'aide de méthodes d'apprentissage automatique.

Le goulot d'étranglement : la gestion d'ensembles de données de plusieurs téraoctets

Pour créer cet ensemble de données, l'équipe a été confrontée à un défi unique où un ensemble de données à l'échelle de plusieurs téraoctets a dû être acquis et organisé avec les caractéristiques pertinentes pour faciliter l'entraînement algorithmique. Cela a présenté deux problèmes majeurs :

Créer des pipelines de données pour acquérir et organiser rapidement les informations pertinentes avec un nettoyage et un filtrage à plusieurs niveaux, et
Convertir un processus conçu pour s'exécuter séquentiellement en parallèle.

C'est là que Databricks s'est avéré être un partenaire essentiel.

Architecture d'un Lakehouse de données moderne avec Databricks

Nous avons sélectionné la plateforme Databricks comme base de nos efforts de modernisation. En tirant parti de la puissance de l'architecture Medallion et de l'Unity Catalog, nous avons conçu de nombreux pipelines pour stocker soigneusement les données dans les couches bronze, argent et or tout en maintenant une gouvernance stricte et un contrôle d'accès granulaire.

En tirant parti de la puissance du calcul distribué ainsi que de la structure plus propre, nous avons pu réduire le temps nécessaire aux processus de 50 jours à 24 heures. L'architecture Medallion a également servi de base au développement de divers modèles d'apprentissage automatique (ML).

Grâce aux experts de leur équipe de services professionnels, avec une mention personnelle à Vibhor Nigam et Mohamad Abafoul, Tevogen.AI a pu effectuer un traitement à grande échelle et amasser un ensemble de données comprenant 24 millions de protéines qui ont ensuite été affinées et triées pour dériver 16 milliards de points de données et environ 700 millions de peptides uniques des couches Bronze à Argent de l'architecture Medallion. De plus, nous avons pu collecter environ 37 millions d'articles d'experts recoupés.

Des données à l'IA : entraînement du modèle PredicTcell

Quiconque a travaillé en bioinformatique comprend que ce n'est pas une mince affaire à réaliser en quelques mois. Au fur et à mesure que ce processus se déroulait, l'équipe a pu travailler en parallèle, créant un framework MLOps pour permettre l'entraînement, l'inférence, la surveillance et la rétention automatiques. À l'issue de la phase initiale de l'engagement, l'équipe a pu livrer la version alpha du modèle PredicTcell entraînée sur des méthodes XGBoost traditionnelles et des modèles ESM, offrant finalement un rappel de 93 à 97 % et une précision de 38 à 43 %.

De plus, l'expansion des ensembles de données a permis à l'équipe scientifique de Tevogen d'acquérir et de fournir de nouvelles perspectives sur le cycle d'entraînement du modèle, affinant ainsi les méthodes d'entraînement à chaque itération. Nous continuons d'ajouter des fonctionnalités supplémentaires à notre ensemble d'entraînement, telles que l'évaluation rapide d'articles d'experts avec intégration RAG utilisant Agent Bricks couplée à des propriétés biochimiques.

Perspectives : débloquer le Saint Graal de la médecine

Alors que l'entraînement démarre pour la version Beta du modèle PredicTcell et que nous commençons le travail sur la version alpha de notre modèle AdapTcell, Tevogen.AI est idéalement positionné pour créer des modèles prédictifs de pointe pour l'affinité de liaison peptide-protéine avec une précision croissante, une clé pour débloquer le Saint Graal de la médecine.

Avec ses modèles propriétaires, Tevogen.AI est convaincu qu'il sera capable d'atteindre son objectif ultime de prédire le peptide de liaison pour toute protéine, nouvelle ou autre, avec un très haut degré de précision.

« Ajouter du déterminisme à un flux de travail probabiliste est la clé du succès. Équilibrer le processus d'essais et erreurs in vivo/in silico est quelque chose sur lequel chaque entreprise de biotechnologie devrait se concentrer pour le développement de médicaments », a déclaré Mittul Mehta, CIO – Tevogen et Head – Tevogen.AI.

« Je suis extrêmement satisfait de notre relation avec Databricks et Microsoft, car chacun apporte les meilleures capacités pour nous permettre d'innover en continu et d'atteindre l'objectif de Tevogen de fournir des thérapies abordables et accessibles à de larges populations de patients. Je suis impatient de continuer à travailler avec ces deux excellents partenaires pour innover dans l'IA pour le développement de médicaments. »

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs