25. März 2026

Tevogen Bios Weg zur Optimierung lebensrettender Therapien

Beschleunigung der Arzneimittelentdeckung mit Daten und KI

Die Innovation: Tevogen Bio nutzt seine ExacTcell-Plattform und proprietäre PredicTcell KI-Modelle, um den traditionell langsamen und 3 Milliarden US-Dollar teuren Prozess der Arzneimittelentdeckung zu modernisieren und zu automatisieren.
Die Herausforderung: Um den „Engpass“ des manuellen Nasslabor-Testens und der Multi-Terabyte-Datensilos zu überwinden, hat Tevogen eine Partnerschaft mit Microsoft und Databricks geschlossen, um eine massive, verwaltete Datenplattform auf Lakehouse-Architektur aufzubauen.
Die Ergebnisse: Durch die Verarbeitung von 16 Milliarden Datenpunkten hat Tevogen einen 50-tägigen Forschungszyklus auf nur 24 Stunden komprimiert und eine Recall-Rate von 93–97 % in seinem Alpha-Modell erzielt, um schnellere und erschwinglichere Therapien zu liefern.

Beschleunigung des jahrzehntelangen Prozesses der Arzneimittelentdeckung

Die Arzneimittelentwicklung kostet über 3 Milliarden US-Dollar und erfordert eine Investition von 10-12 Jahren, um ein Produkt auf den Markt zu bringen. Dies trägt direkt zu Problemen bei der Zugänglichkeit und den Kosten eines bestimmten Produkts bei.

Tevogen Bio entwickelte die patentierte ExacTcell-Plattform, um Ziele gegen jede gegebene virale, onkologische oder neurologische Krankheit für eine einzelne HLA-Restriktion zu bestimmen und diese Probleme anzugehen. Die anfängliche Zielauswahl für seine Proof-of-Concept-Studie zu einem einzelnen viralen Kandidaten, SARS-COV2, erfolgte manuell. Das einzelne HLA-restriktierte Produkt, obwohl es einen Großteil der Bevölkerung ansprechen kann, erforderte einen erheblichen Zeit- und Ressourcenaufwand und dauerte 18-24 Monate, um durch Nasslaborwissenschaften getestet und bestätigt zu werden.

Um die Mission von Tevogen zu erfüllen, schnellere, günstigere und zugänglichere Versorgung anzubieten, hat Tevogen.AI eine Partnerschaft mit Microsoft und Databricks geschlossen, um deren wissenschaftliches Verständnis der Kernplattformen zu optimieren und gleichzeitig die Pipeline für zusätzliche Indikationen zu optimieren und zu beschleunigen.

Die Herausforderung bestand darin, eine Bibliothek von Proteinsequenzen über ein Spektrum von Krankheiten hinweg zu erfassen und zu erstellen, damit Wissenschaftler und Forscher einen Prozess, der einst Monate dauerte, in eine Angelegenheit von Tagen und anschließend Stunden verwandeln können.

Darüber hinaus wird dieser Datensatz verwendet, um die patentierten grundlegenden algorithmischen Modelle von Tevogen.AI zu trainieren, die auf der proprietären Wissenschaft von Tevogen Bio basieren. Das Führungsteam von Tevogen stellte auch die Herausforderung, einen Datensatz bekannter genetischer Proteine zu kuratieren, um das algorithmische Modell zu trainieren, immunologisch aktive Peptide mithilfe von Machine-Learning-Methoden vorherzusagen.

Der Engpass: Aufbereitung von Multi-Terabyte-Datensätzen

Zur Kuratierung dieses Datensatzes stand das Team vor einer einzigartigen Herausforderung, bei der ein Datensatz im Multi-Terabyte-Bereich beschafft und mit den relevanten Merkmalen organisiert werden musste, um das algorithmische Training zu erleichtern. Dies stellte zwei Hauptprobleme dar:

Erstellung von Datenpipelines zur schnellen Beschaffung und Organisation relevanter Informationen mit mehrstufiger Bereinigung und Filterung, und
Umwandlung eines für die serielle Ausführung konzipierten Prozesses in eine parallele Ausführung.

Hier erwies sich Databricks als kritischer Partner.

Architektur eines modernen Data Lakehouse mit Databricks

Wir haben die Databricks-Plattform als Basis für unsere Modernisierungsbemühungen ausgewählt. Unter Ausnutzung der Leistung der Medallion-Architektur und des Unity Catalog haben wir zahlreiche Pipelines entwickelt, um Daten sorgfältig in Bronze-, Silber- und Gold-Schichten zu speichern und dabei strenge Governance und feingranulare Zugriffskontrolle beizubehalten.

Durch die Nutzung der Leistung verteilter Rechenleistung und der saubereren Struktur konnten wir die Zeitdauer von Prozessen von 50 Tagen auf 24 Stunden reduzieren. Die Medallion-Architektur diente auch als Grundlage für die Entwicklung verschiedener Machine-Learning-Modelle (ML).

Dank der Experten aus ihrem Professional Services Team, mit persönlicher Anerkennung an Vibhor Nigam und Mohamad Abafoul, konnte Tevogen.AI die Verarbeitung im großen Maßstab durchführen und einen Datensatz von 24 Millionen Proteinen zusammenstellen, die dann verfeinert und sortiert wurden, um 16 Milliarden Datenpunkte und ca. 700 Millionen eindeutige Peptide von den Bronze- bis zu den Silber-Schichten der Medallion-Architektur abzuleiten. Darüber hinaus konnten wir ca. 37 Millionen übergreifend abgeglichene Expertenartikel kuratieren.

Von Daten zu KI: Training des PredicTcell-Modells

Jeder, der in der Bioinformatik gearbeitet hat, versteht, dass dies keine Kleinigkeit ist, die innerhalb weniger Monate erledigt werden kann. Während dieses Prozesses konnte das Team parallel arbeiten und ein MLOps-Framework erstellen, das automatisches Training, Inferenz, Überwachung und Speicherung ermöglicht. Nach Abschluss der ersten Phase der Zusammenarbeit konnte das Team die Alpha-Version des PredicTcell-Modells liefern, das über traditionelle XGBoost-Methoden und ESM-Modelle trainiert wurde und letztendlich eine Recall-Rate von 93–97 % und eine Genauigkeit von 38–43 % erzielte.

Darüber hinaus ermöglichte die Erweiterung der Datensätze dem wissenschaftlichen Team von Tevogen, neue Erkenntnisse über den Modelltrainingszyklus zu gewinnen und bereitzustellen, wodurch die Trainingsmethoden bei jeder Iteration verfeinert wurden. Wir fügen unserem Trainingsdatensatz weiterhin zusätzliche Features hinzu, wie z. B. die schnelle Bewertung von Expertenartikeln mit RAG-Integration unter Verwendung von Agent Bricks in Verbindung mit biochemischen Eigenschaften.

Ausblick: Entschlüsselung des Heiligen Grals der Medizin

Während das Training für die Beta-Version des PredicTcell-Modells beginnt und wir mit der Arbeit an der Alpha-Version unseres AdapTcell-Modells beginnen, ist Tevogen.AI einzigartig positioniert, um hochmoderne prädiktive Modelle für die Bindungsaffinität von Peptid zu Protein mit zunehmender Genauigkeit zu erstellen, was der Schlüssel zur Entschlüsselung des Heiligen Grals der Medizin ist.

Mit ihren proprietären Modellen ist Tevogen.AI zuversichtlich, dass sie ihr Endziel erreichen werden, das Bindungspeptid für jedes Protein, ob neu oder anderweitig, mit sehr hoher Genauigkeit vorherzusagen.

„Die Hinzufügung von Determinismus zu einem probabilistischen Workflow ist der Schlüssel zum Erfolg. Das Ausbalancieren des In-vivo/In-silico-Trial-and-Error-Prozesses ist etwas, worauf sich jedes Biotech-Unternehmen bei der Arzneimittelentwicklung konzentrieren sollte“, sagte Mittul Mehta, CIO – Tevogen und Head – Tevogen.AI.

„Ich bin äußerst zufrieden mit unserer Beziehung zu Databricks und Microsoft, da beide die besten Fähigkeiten einbringen, um uns kontinuierlich zu innovieren und Tevogens Ziel zu erreichen, erschwingliche und zugängliche Therapien für große Patientengruppen anzubieten. Ich freue mich darauf, weiterhin mit diesen beiden exzellenten Partnern zusammenzuarbeiten, um KI für die Arzneimittelentwicklung zu entwickeln.“

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Alle Blogs anzeigen