Veröffentlicht: 25. März 2026
von Mittul Mehta und Vibhor Nigam
Die Arzneimittelentwicklung kostet über 3 Milliarden US-Dollar und erfordert eine Investition von 10-12 Jahren, um ein Produkt auf den Markt zu bringen. Dies trägt direkt zu Problemen bei der Zugänglichkeit und den Kosten eines bestimmten Produkts bei.
Tevogen Bio entwickelte die patentierte ExacTcell-Plattform, um Ziele gegen jede gegebene virale, onkologische oder neurologische Krankheit für eine einzelne HLA-Restriktion zu bestimmen und diese Probleme anzugehen. Die anfängliche Zielauswahl für seine Proof-of-Concept-Studie zu einem einzelnen viralen Kandidaten, SARS-COV2, erfolgte manuell. Das einzelne HLA-restriktierte Produkt, obwohl es einen Großteil der Bevölkerung ansprechen kann, erforderte einen erheblichen Zeit- und Ressourcenaufwand und dauerte 18-24 Monate, um durch Nasslaborwissenschaften getestet und bestätigt zu werden.
Um die Mission von Tevogen zu erfüllen, schnellere, günstigere und zugänglichere Versorgung anzubieten, hat Tevogen.AI eine Partnerschaft mit Microsoft und Databricks geschlossen, um deren wissenschaftliches Verständnis der Kernplattformen zu optimieren und gleichzeitig die Pipeline für zusätzliche Indikationen zu optimieren und zu beschleunigen.
Die Herausforderung bestand darin, eine Bibliothek von Proteinsequenzen über ein Spektrum von Krankheiten hinweg zu erfassen und zu erstellen, damit Wissenschaftler und Forscher einen Prozess, der einst Monate dauerte, in eine Angelegenheit von Tagen und anschließend Stunden verwandeln können.
Darüber hinaus wird dieser Datensatz verwendet, um die patentierten grundlegenden algorithmischen Modelle von Tevogen.AI zu trainieren, die auf der proprietären Wissenschaft von Tevogen Bio basieren. Das Führungsteam von Tevogen stellte auch die Herausforderung, einen Datensatz bekannter genetischer Proteine zu kuratieren, um das algorithmische Modell zu trainieren, immunologisch aktive Peptide mithilfe von Machine-Learning-Methoden vorherzusagen.
Zur Kuratierung dieses Datensatzes stand das Team vor einer einzigartigen Herausforderung, bei der ein Datensatz im Multi-Terabyte-Bereich beschafft und mit den relevanten Merkmalen organisiert werden musste, um das algorithmische Training zu erleichtern. Dies stellte zwei Hauptprobleme dar:
Hier erwies sich Databricks als kritischer Partner.
Wir haben die Databricks-Plattform als Basis für unsere Modernisierungsbemühungen ausgewählt. Unter Ausnutzung der Leistung der Medallion-Architektur und des Unity Catalog haben wir zahlreiche Pipelines entwickelt, um Daten sorgfältig in Bronze-, Silber- und Gold-Schichten zu speichern und dabei strenge Governance und feingranulare Zugriffskontrolle beizubehalten.
Durch die Nutzung der Leistung verteilter Rechenleistung und der saubereren Struktur konnten wir die Zeitdauer von Prozessen von 50 Tagen auf 24 Stunden reduzieren. Die Medallion-Architektur diente auch als Grundlage für die Entwicklung verschiedener Machine-Learning-Modelle (ML).
Dank der Experten aus ihrem Professional Services Team, mit persönlicher Anerkennung an Vibhor Nigam und Mohamad Abafoul, konnte Tevogen.AI die Verarbeitung im großen Maßstab durchführen und einen Datensatz von 24 Millionen Proteinen zusammenstellen, die dann verfeinert und sortiert wurden, um 16 Milliarden Datenpunkte und ca. 700 Millionen eindeutige Peptide von den Bronze- bis zu den Silber-Schichten der Medallion-Architektur abzuleiten. Darüber hinaus konnten wir ca. 37 Millionen übergreifend abgeglichene Expertenartikel kuratieren.
Jeder, der in der Bioinformatik gearbeitet hat, versteht, dass dies keine Kleinigkeit ist, die innerhalb weniger Monate erledigt werden kann. Während dieses Prozesses konnte das Team parallel arbeiten und ein MLOps-Framework erstellen, das automatisches Training, Inferenz, Überwachung und Speicherung ermöglicht. Nach Abschluss der ersten Phase der Zusammenarbeit konnte das Team die Alpha-Version des PredicTcell-Modells liefern, das über traditionelle XGBoost-Methoden und ESM-Modelle trainiert wurde und letztendlich eine Recall-Rate von 93–97 % und eine Genauigkeit von 38–43 % erzielte.
Darüber hinaus ermöglichte die Erweiterung der Datensätze dem wissenschaftlichen Team von Tevogen, neue Erkenntnisse über den Modelltrainingszyklus zu gewinnen und bereitzustellen, wodurch die Trainingsmethoden bei jeder Iteration verfeinert wurden. Wir fügen unserem Trainingsdatensatz weiterhin zusätzliche Features hinzu, wie z. B. die schnelle Bewertung von Expertenartikeln mit RAG-Integration unter Verwendung von Agent Bricks in Verbindung mit biochemischen Eigenschaften.
Während das Training für die Beta-Version des PredicTcell-Modells beginnt und wir mit der Arbeit an der Alpha-Version unseres AdapTcell-Modells beginnen, ist Tevogen.AI einzigartig positioniert, um hochmoderne prädiktive Modelle für die Bindungsaffinität von Peptid zu Protein mit zunehmender Genauigkeit zu erstellen, was der Schlüssel zur Entschlüsselung des Heiligen Grals der Medizin ist.
Mit ihren proprietären Modellen ist Tevogen.AI zuversichtlich, dass sie ihr Endziel erreichen werden, das Bindungspeptid für jedes Protein, ob neu oder anderweitig, mit sehr hoher Genauigkeit vorherzusagen.
„Die Hinzufügung von Determinismus zu einem probabilistischen Workflow ist der Schlüssel zum Erfolg. Das Ausbalancieren des In-vivo/In-silico-Trial-and-Error-Prozesses ist etwas, worauf sich jedes Biotech-Unternehmen bei der Arzneimittelentwicklung konzentrieren sollte“, sagte Mittul Mehta, CIO – Tevogen und Head – Tevogen.AI.
„Ich bin äußerst zufrieden mit unserer Beziehung zu Databricks und Microsoft, da beide die besten Fähigkeiten einbringen, um uns kontinuierlich zu innovieren und Tevogens Ziel zu erreichen, erschwingliche und zugängliche Therapien für große Patientengruppen anzubieten. Ich freue mich darauf, weiterhin mit diesen beiden exzellenten Partnern zusammenzuarbeiten, um KI für die Arzneimittelentwicklung zu entwickeln.“
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
