Flüssigbiopsien ermöglichen ein nicht-invasives Krebsscreening und Monitoring durch die Analyse von Krebs-Biomarkern im Blut, die Signale können jedoch spärlich und verrauscht sein. Exai Bio hat Pionierarbeit für die KI-gesteuerte Flüssigbiopsie unter Verwendung neuartiger kleiner RNA-Biomarker geleistet. In einer kürzlich durchgeführten Arbeit erzielen Exai-1 und Orion – zwei neue generative KI-Modelle für zellfreie RNA – Durchbrüche bei der Signalentstörung und der Krebsfrüherkennung. Diese Fortschritte wurden durch die Lakehouse-Architektur und die Cloud-KI-Infrastruktur von Databricks ermöglicht. Durch die Vereinheitlichung großer genomischer Datensätze und die Bereitstellung von verwalteten ML-Tools (MLflow, Workflows, skalierbare Cluster) ermöglicht Databricks den Forschern von Exai, große multimodale Modelle an Tausenden von Patientenproben zu trainieren. In diesem gemeinsamen Projekt beleuchten wir die technischen Durchbrüche von Exai Bio und zeigen, wie das Lakehouse- und MLOps-Ökosystem von Databricks die Entwicklung hochmoderner biomedizinischer KI beschleunigt.
Multimodale Basismodelle für die Flüssigbiopsie
Die neueste Forschung von Exai Bio stellt große generative Modelle vor, die auf Flüssigbiopsie-Daten zugeschnitten sind. Diese Modelle integrieren Sequenzinformationen, molekulare Abundanz und umfangreiche Metadaten, um hochwertige Repräsentationen von krebsassoziierten RNAs zu lernen.
- Exai-1 (cfRNA Foundation Model): Ein transformatorbasierter variationeller Autoencoder, der RNA-Sequenz-Embeddings mit Häufigkeitsprofilen von zellfreier RNA (cfRNA) kombiniert. Exai-1 ist auf riesigen Datensätzen vortrainiert – über 306 Milliarden Sequenz- Token aus 13.014 Blutproben – und erlernt dabei eine biologisch aussagekräftige latente Struktur der cfRNA-Expression. Durch die Nutzung von sowohl Sequenzdaten (über Embeddings aus dem RNA-FM-Sprachmodell) als auch Expressionsdaten ist Exai-1 in der Lage, "die Signaltreue zu verbessern, technisches Rauschen zureduzieren und die Krankheitserkennung durch die Erzeugung synthetischer cfRNA-Profile zu verbessern". In der Praxis kann Exai-1 spärliche cfRNA-Messungen entrauschen und Datensätze sogar erweitern: Klassifikatoren, die auf den von Exai-1 rekonstruierten Profilen trainiert wurden, übertreffen durchweg jene, die auf Rohdaten trainiert wurden. Dieser generative Transfer-Learning-Ansatz schafft ein effektives Foundation Model für jede cfRNA-basierte diagnostische Task – z. B. durch die Verwendung derselben vortrainierten Embeddings zur Erkennung anderer Krebsarten oder neuer Biomarker.
- Orion (OncRNA Generative Classifier): Ein spezialisierter variationeller Autoencoder (VAE) für zirkulierende orphan non-coding RNAs (oncRNAs), bei denen es sich um kleine, von Tumoren abgesonderte RNAs handelt. Orion verfügt über eine Twin-VAE-Architektur: Als Eingabe verwendet es einen Zählvektor von krebsassoziierten oncRNAs und einen Vektor von Kontroll-RNAs (z. B. endogene Housekeeping-RNAs). Jede Eingabe speist einen separaten Encoder; ihre Ausgaben ermöglichen das Training eines robusten Klassifikators und die Rekonstruktion der zugrunde liegenden oncRNA-Verteilung. Wichtig ist, dass das Training von Orion kontrastive und Klassifikationsverluste umfasst: Ein Triplet Margin Loss zieht Proben mit demselben Phänotyp (Krebs vs. Kontrolle) zusammen und stößt unterschiedliche Phänotypen ab, wodurch Batch-Effekte und technische Variationen beseitigt werden. Das gelernte Embedding wird dann von einem nachgeschalteten Klassifikator verwendet, um das Vorhandensein von Krebs vorherzusagen. In einer Kohorte von 1.050 Lungenkrebspatienten und Kontrollpersonen erreichte Orion eine Sensitivität von 94 % bei einer Spezifität von 87 % für die NSCLC-Erkennung über alle Stadien hinweg und übertraf damit die Standardmethoden bei zurückgehaltenen Daten um ca. 30 %. Dieses generative, teilüberwachte Modell entrauscht automatisch cfRNA-Signale und erzeugt einen kompakten krebsspezifischen Fingerabdruck, der eine genauere Früherkennung als frühere Assays ermöglicht.

Abbildung 1: Architektur des Orion-Modells von Exai Bio für die Flüssigbiopsie. Bild aus Karimzadeh et al., Nat Commun.
Zusammen bilden diese Modelle ein skalierbares KI-Framework für die Flüssigbiopsie. Exai-1 stellt ein allgemeines cfRNA-„Sprachmodell“ bereit, das realistische RNA-Profile generieren und die Leistung nachgeschalteter Klassifikatoren verbessern kann. Orion verfeinert diesen Ansatz für das spezifische Problem des Lungenkrebsscreenings. In beiden Fällen generalisieren die Modelle über verschiedene Bedingungen hinweg – Exai-1 „erleichtert die biofluidübergreifende Translation und die Assay-Kompatibilität“, indem es echte biologische Signale von Störfaktoren (Konfoundern) entflechtet. Das Ergebnis ist eine neue Generation von KI-Tools, die subtile cfRNA-Biomarker-Muster für die Krebsfrüherkennung und die Entdeckung von Biomarkern extrahieren können.
Databricks Data-Intelligence- und KI-Plattform: Die ermöglichende Infrastruktur
Diese KI-Durchbrüche werden durch die einheitliche Datenanalyseplattform von Databricks ermöglicht. Zu den wichtigsten Funktionen gehören:
- Einheitlicher Lakehouse (Delta)-Speicher: Wir speichern alle Metadaten (Probeninformationen, Labor- und Versuchsdaten) in Databricks-Delta-Tabellen. Dieses einzelne Lakehouse verhindert Datensilos und ermöglicht Echtzeitanalysen. Wie die Gesundheitslösung von Databricks feststellt, führt das Lakehouse „Patienten-, Forschungs- und Betriebsdaten in großem Umfang zusammen“ und beseitigt veraltete Silos, wodurch genomische und klinische Daten sofort abfragbar werden. Zum Beispiel sind die mehr als 13.000 Blutproben von Exai (in Serum und Plasma) und über 10.000 frühere small-RNA-seq-Datensätze alle in Delta-Tabellen registriert, die für das Modelltraining schnell gefiltert und zusammengefügt werden können.
- Skalierbare compute & Cluster: Mit den cloudnativen Clustern von Databricks können Forscher GPU- oder speicherintensive Instanzen hochfahren, ohne großen DevOps-Aufwand zu betreiben. Mit Databricks können wir schnell agieren. Die Clusterverwaltung ist intuitiv und Features wie die automatische Beendigung und Kosten-Dashboards halten die Budgets unter Kontrolle. Diese bedarfsgerechte Skalierung ermöglichte die Optimierung und das Training von Exai-1 und Orion auf Hunderten von CPU-Kernen/GPUs. Databricks Workflows (ehemals Jobs) organisieren die „compute“: Forscher können mehrstufige ETL- und Trainings-Pipelines mit definierten Abhängigkeiten starten und Tasks parallelisieren, ohne komplexen Orchestrierungs-Code schreiben zu müssen.
- MLflow für MLOps: Jede Experimentausführung (Hyperparameter, Datensätze, Metriken, Artefakte) wird in MLflow nachverfolgt, das eng in Databricks integriert ist. Databricks stellt die gesamte MLflow-Umgebungseinrichtung, wie z. B. den Tracking-Server, bereit und macht sie ohne Konfiguration verfügbar. Das Experiment-Tracking und die Modellregistrierung von MLflow gewährleisten Reproduzierbarkeit und Zusammenarbeit. Mit verwaltetem MLflow wurde es durch das Protokollieren von Metriken und Artefakten von Dutzenden von Modellen erst wirklich möglich, Ablationsstudien durchzuführen und Features zu optimieren, die verschiedene Aspekte der Modell-Performance verbessern.
- Reproduzierbare Umgebungen: Databricks Container Services und Git-basierte Repos (mit CI/CD) legen die Softwareabhängigkeiten für jede Pipeline fest. Dies war für den Research-Stack von Exai Bio (einschließlich benutzerdefinierter Bioinformatik-Tools) von entscheidender Bedeutung, um sicherzustellen, dass jedes Teammitglied Modelle in identischen Umgebungen ausführt. Kurz gesagt, Databricks bietet eine schlüsselfertige MLOps-Plattform: Datenaufnahme mit Spark, Experiment-Tracking mit MLflow, Orchestrierung mit Jobs/Workflows und elastische Rechenleistung mit automatischer Skalierung.
Auswirkungen auf die Krebsentdeckung und die Entdeckung von Biomarkern
Die kombinierten wissenschaftlichen und Engineering-Fortschritte haben weitreichende Auswirkungen:
- Verbesserte Früherkennung – Durch die Verstärkung des cfRNA-Krebssignals vor dem Hintergrund von Blut-RNA-Molekülen können unsere KI-Modelle Krebs in frühen Stadien erkennen. Die Signalentstörung von Exai-1 liefert selbst bei Blutproben mit geringem Volumen klarere Signale, während das generative Embedding von Orion eine hohe Sensitivität (94 %) für Lungenkrebs im Frühstadium erreicht. Solche Verbesserungen könnten zu zuverlässigeren Screening-Tests (z. B. jährliche Bluttests) führen, mit denen Tumore in heilbaren Stadien erkannt werden.
- Neue Einblicke in Biomarker – Die Modelle lernen aus rohen RNA-Daten, wodurch die Biases gezielter Panels reduziert werden. Zum Beispiel identifizierte Orion Hunderte von neuen oncRNAs aus TCGA- und Gewebedaten und validierte dann deren Bedeutung im Blut. Der latente Raum von Exai-1 kombiniert Informationen zu RNA-Sequenz, -Struktur und -Abundanz, was bisher übersehene Biomarker hervorheben könnte. Wichtig ist, dass das Transfer-Learning-Paradigma es uns ermöglicht, neue Entdeckungen schnell zu integrieren (z. B. durch den Austausch neuer Sequenz-Token) und auf der einheitlichen Plattform eine Feinabstimmung vorzunehmen.
- Generative Datenerweiterung – Exai-1 kann durch Sampling aus seinem Decoder realistische cfRNA-Profile simulieren. Diese synthetischen Daten verbessern das Training von Klassifikatoren, was sich in höheren AUC-Werten bei der Verwendung von Exai-1-Rekonstruktionen zeigt. In der Praxis bedeutet dies, dass seltene Krebssignaturen trotz einer begrenzten Anzahl realer Proben robuster gelernt werden können. Mit anderen Worten: Das Basismodell mildert die Datenknappheit – ein kritischer Faktor, da „die Erkennung seltener Krebsarten... Basismodelle und umfangreiche Trainingsdaten erfordert“.
- Skalierbare Forschungskooperation – Durch die Nutzung von Databricks kann das multidisziplinäre Team von Exai (Biologen, Bioinformatiker, Biostatistiker, ML-Wissenschaftler und Dateningenieure) nahtlos zusammenarbeiten. Data scientists führen PyTorch und Spark parallel aus, Biostatistiker fragen Kohorten mit R ab, Biologen protokollieren neue verarbeitete Proben und Berichte/Dashboards werden automatisch aktualisiert. Diese schnelle Feedbackschleife hat es dem Exai-Team ermöglicht, die Anwendungen ihrer Flüssigbiopsie und ihres KI-Systems bei mehreren Krebsarten zu präsentieren, was in 18 Monaten zu sieben Konferenzveröffentlichungen führte. Dies ist ein Beispiel dafür, wie eine KI-Infrastruktur auf Unternehmensebene die F&E im Bereich Life Sciences beschleunigt.
Ausblick
Die Zusammenarbeit zwischen Exai Bio und Databricks zeigt, wie hochmoderne KI-Modelle und eine moderne Cloud-Architektur gemeinsam die Grenzen der Krebsdiagnostik erweitern. Die Basis- und generativen KI-Modelle von Exai Bio (Exai-1 und Orion) zeigen, dass tiefes generatives Lernen starke Signale aus Flüssigbiopsien extrahieren kann. Diesen Fortschritten zugrunde liegt das Lakehouse von Databricks, das heterogene biomedizinische Daten vereinheitlicht, sowie die verwalteten ML-Tools (MLflow, Workflows, Pipelines), die groß angelegte Experimente praktisch und reproduzierbar machen. Mit Blick auf die Zukunft werden wir unsere Modelle und Pipelines weiter verfeinern. Gemeinsam legen Exai Bio und Databricks den Grundstein für eine KI-gestützte Präzisionsonkologie, die sowohl skalierbar als auch klinisch wirksam ist.
Quellen: Exai Bio et al., „A multi-modal cfRNA language model for liquid biopsy“ (Nature Machine Intelligence, 2025); Exai Bio et al., Nature Commun. (2024) „Deep generative AI models analyzing circulating orphan non-coding RNAs…“; Databricks-Dokumentation und -Blogs.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag