Veröffentlicht: February 4, 2026
von Ram GoliundMay Merkle-Tan
Die Arzneimittelentwicklung ist bekanntermaßen langsam und teuer. Der durchschnittliche Lebenszyklus von Forschung und Entwicklung (F&E) erstreckt sich über 10–15 Jahre, wobei ein erheblicher Teil der Kandidaten in klinischen Studien scheitert. Ein wesentlicher Engpass bestand darin, die richtigen Zielproteine frühzeitig im Prozess zu identifizieren.
Proteine sind die "Arbeitsmoleküle" lebender Organismen – sie katalysieren Reaktionen, transportieren Moleküle und dienen als Zielmoleküle für die meisten modernen Medikamente. Die Fähigkeit, Proteine schnell zu klassifizieren, ihre Eigenschaften zu verstehen und wenig erforschte Kandidaten zu identifizieren, könnte den Entdeckungsprozess drastisch beschleunigen (z. B. Wozniak et al., 2024, Nature Chemical Biology).
Genau hier wird die Konvergenz von Data Engineering, maschinellem Lernen (ML) und generativer KI transformativ. Tatsächlich können Sie diese gesamte Pipeline auf einer einzigen Plattform erstellen – der Databricks Data Intelligence Platform.
Unser KI-Driven Drug Discovery Solution Accelerator demonstriert einen End-to-End-Workflow anhand von vier Schlüsselprozessen:
Gehen wir die einzelnen Phasen durch:
Biologische Rohdaten liegen selten in einem sauberen, analysebereiten Format vor. Unsere Quelldaten liegen als FASTA -Dateien vor – ein Standardformat zur Darstellung von Proteinsequenzen, das etwa so aussieht:
Für das ungeschulte Auge sind diese Sequenzdaten nahezu unmöglich zu interpretieren – eine dichte Zeichenfolge aus Einbuchstaben-Aminosäurecodes. Doch am Ende dieser Pipeline können Forschende dieselben Daten in natürlicher Sprache abfragen, indem sie Fragen stellen wie „Zeig mir wenig erforschte Membranproteine beim Menschen mit hoher Klassifizierungssicherheit“, und erhalten im Gegenzug handlungsorientierte Erkenntnisse.
Mithilfe von deklarativen Lakeflow-Pipelines erstellen wir eine Medallion-Architektur, die diese Daten schrittweise verfeinert:
Das Ergebnis: Saubere, verwaltete Proteindaten im Unity Catalog, bereit für nachgelagertes ML und Analysen. Entscheidend ist, dass die Datenherkunft, die sich über diese Phase hinaus auf die anderen Phasen (unten hervorgehoben) erstreckt, einen unglaublichen Wert für die wissenschaftliche Reproduzierbarkeit bietet.
Bei der Wirkstoffentdeckung sind nicht alle Proteine gleichwertig. Membrantransportproteine – also solche, die in Zellmembranen eingebettet sind – sind besonders wichtige Zielstrukturen für Medikamente, da sie steuern, was in die Zellen ein- und austritt.
Wir nutzen ProtBERT-BFD, ein BERT-basiertes Protein-Sprachmodell vom Rostlab, das speziell für die Klassifizierung von Membranproteinen feinabgestimmt wurde. Dieses Modell behandelt Aminosäuresequenzen wie Sprache und lernt kontextuelle Beziehungen zwischen Resten, um die Proteinfunktion vorherzusagen.
Das Modell gibt eine Klassifizierung (als Membran oder löslich) zusammen mit einem Konfidenzwert aus, die wir zur nachgelagerten Filterung und Analyse in den Unity Catalog zurückschreiben.
Die Klassifizierung sagt uns, was ein Protein ist. Aber Forscher müssen wissen, warum es wichtig ist– was sind die neuesten Forschungsergebnisse? Wo gibt es Lücken? Ist dies ein wenig erforschtes Wirkstoffziel?
Hier kommen LLMs ins Spiel. Durch die Nutzung der Foundational Model API von Databricks sowie der Endpunkte für externe Modelle erstellen wir registrierte AI Functions, die Proteindatensätze mit Forschungskontext anreichern.
Wir führen alles in einem KI/BI-Dashboard mit aktiviertem Genie Space zusammen.
Forschende können jetzt:
Das Dashboard fragt dieselben verwalteten Tabellen in Unity Catalog ab, wobei KI-Funktionen eine bedarfsgerechte (oder stapelverarbeitete) Anreicherung bereitstellen.
Was diese Lösung so überzeugend macht, liegt nicht an einer einzelnen Komponente – sondern daran, dass alles auf einer einzigen Plattform läuft:
| Fähigkeit | Databricks-Feature |
|---|---|
| Datenaufnahme & ETL | Lakeflow Declarative Pipelines |
| Data Governance | Unity Catalog |
| ML-Inferenz | GPU Compute |
| LLM-Integration | FMAPI + Externe Modelle + AI Functions |
| Analysen | Databricks SQL |
| Exploration | KI/BI-Dashboards + KI/BI Genie Space |
Entscheidend ist, dass es keine Datenbewegung zwischen den Systemen gibt. Keine separate MLOps-Infrastruktur. Keine getrennten BI-Tools. Die Proteinsequenz, die in die Pipeline gelangt, durchläuft Transformation, Klassifizierung und Anreicherung und ist am Ende in natürlicher Sprache abfragbar – und das alles in derselben kontrollierten Umgebung.
Der vollständige Lösungsbeschleuniger ist auf GitHub verfügbar:
github.com/databricks-industry-solutions/ai-driven-drug-discovery
Dieser Accelerator zeigt, was alles möglich ist. Im Produktivbetrieb könnten Sie es erweitern, um:
Die Grundlage ist vorhanden. Die Plattform ist vereinheitlicht. Die einzige Grenze ist die Wissenschaft, die Sie beschleunigen möchten. Warum noch warten?
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Saúde e ciências da vida
December 1, 2025/5 min de leitura
Mosaic Research
December 1, 2025/18 min de leitura