Le développement de médicaments coûte plus de 3 milliards de dollars et nécessite un investissement de 10 à 12 ans pour commercialiser un produit. Ces éléments contribuent directement aux problèmes d'accessibilité et de coût d'un produit donné.
Tevogen Bio a créé la plateforme brevetée ExacTcell pour déterminer des cibles contre toute maladie virale, oncologique ou neurologique donnée pour une seule restriction HLA afin de résoudre ces problèmes. La sélection initiale de la cible pour son essai de preuve de concept sur un seul candidat viral, le SARS-COV2, a été effectuée par des méthodes manuelles. Le produit à restriction HLA unique, bien qu'capable de traiter la majorité de la population, a nécessité un engagement important en temps et en ressources, prenant entre 18 et 24 mois pour être testé et confirmé par la science en laboratoire.
Pour répondre à la déclaration de mission de Tevogen, qui est de fournir des soins plus rapides, moins chers et plus accessibles, Tevogen.AI s'est associé à Microsoft et Databricks pour optimiser la compréhension scientifique de leurs plateformes principales, tout en visant à rationaliser et à accélérer leur pipeline vers des indications supplémentaires.
L'énoncé du défi était d'ingérer et de créer une bibliothèque de séquences protéiques couvrant un éventail de maladies pour permettre aux scientifiques et aux chercheurs de transformer un processus qui prenait autrefois des mois en une affaire de jours, puis d'heures.
De plus, cet ensemble de données sera utilisé pour entraîner les modèles algorithmiques fondamentaux brevetés de Tevogen.AI, soutenus par la science propriétaire de Tevogen Bio. L'équipe de direction de Tevogen a également relevé le défi de créer un ensemble de données de protéines génétiques connues pour entraîner le modèle algorithmique à prédire des peptides immunologiquement actifs à l'aide de méthodes d'apprentissage automatique.
Pour créer cet ensemble de données, l'équipe a été confrontée à un défi unique où un ensemble de données à l'échelle de plusieurs téraoctets a dû être acquis et organisé avec les caractéristiques pertinentes pour faciliter l'entraînement algorithmique. Cela a présenté deux problèmes majeurs :
C'est là que Databricks s'est avéré être un partenaire essentiel.
Nous avons sélectionné la plateforme Databricks comme base de nos efforts de modernisation. En tirant parti de la puissance de l'architecture Medallion et de l'Unity Catalog, nous avons conçu de nombreux pipelines pour stocker soigneusement les données dans les couches bronze, argent et or tout en maintenant une gouvernance stricte et un contrôle d'accès granulaire.
En tirant parti de la puissance du calcul distribué ainsi que de la structure plus propre, nous avons pu réduire le temps nécessaire aux processus de 50 jours à 24 heures. L'architecture Medallion a également servi de base au développement de divers modèles d'apprentissage automatique (ML).
Grâce aux experts de leur équipe de services professionnels, avec une mention personnelle à Vibhor Nigam et Mohamad Abafoul, Tevogen.AI a pu effectuer un traitement à grande échelle et amasser un ensemble de données comprenant 24 millions de protéines qui ont ensuite été affinées et triées pour dériver 16 milliards de points de données et environ 700 millions de peptides uniques des couches Bronze à Argent de l'architecture Medallion. De plus, nous avons pu collecter environ 37 millions d'articles d'experts recoupés.
Quiconque a travaillé en bioinformatique comprend que ce n'est pas une mince affaire à réaliser en quelques mois. Au fur et à mesure que ce processus se déroulait, l'équipe a pu travailler en parallèle, créant un framework MLOps pour permettre l'entraînement, l'inférence, la surveillance et la rétention automatiques. À l'issue de la phase initiale de l'engagement, l'équipe a pu livrer la version alpha du modèle PredicTcell entraînée sur des méthodes XGBoost traditionnelles et des modèles ESM, offrant finalement un rappel de 93 à 97 % et une précision de 38 à 43 %.
De plus, l'expansion des ensembles de données a permis à l'équipe scientifique de Tevogen d'acquérir et de fournir de nouvelles perspectives sur le cycle d'entraînement du modèle, affinant ainsi les méthodes d'entraînement à chaque itération. Nous continuons d'ajouter des fonctionnalités supplémentaires à notre ensemble d'entraînement, telles que l'évaluation rapide d'articles d'experts avec intégration RAG utilisant Agent Bricks couplée à des propriétés biochimiques.
Alors que l'entraînement démarre pour la version Beta du modèle PredicTcell et que nous commençons le travail sur la version alpha de notre modèle AdapTcell, Tevogen.AI est idéalement positionné pour créer des modèles prédictifs de pointe pour l'affinité de liaison peptide-protéine avec une précision croissante, une clé pour débloquer le Saint Graal de la médecine.
Avec ses modèles propriétaires, Tevogen.AI est convaincu qu'il sera capable d'atteindre son objectif ultime de prédire le peptide de liaison pour toute protéine, nouvelle ou autre, avec un très haut degré de précision.
« Ajouter du déterminisme à un flux de travail probabiliste est la clé du succès. Équilibrer le processus d'essais et erreurs in vivo/in silico est quelque chose sur lequel chaque entreprise de biotechnologie devrait se concentrer pour le développement de médicaments », a déclaré Mittul Mehta, CIO – Tevogen et Head – Tevogen.AI.
« Je suis extrêmement satisfait de notre relation avec Databricks et Microsoft, car chacun apporte les meilleures capacités pour nous permettre d'innover en continu et d'atteindre l'objectif de Tevogen de fournir des thérapies abordables et accessibles à de larges populations de patients. Je suis impatient de continuer à travailler avec ces deux excellents partenaires pour innover dans l'IA pour le développement de médicaments. »
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
