von Priyanka Mehta und Shaunak Sen
Die Virtue Foundation ist eine gemeinnützige Organisation, die sich auf die globale Gesundheitsversorgung konzentriert und einen effizienten Marktplatz für globale philanthropische Gesundheitsversorgung schafft. Bis heute haben sie über 50.000 Patienten versorgt, mit einem besonderen Schwerpunkt auf Ghana und der Mongolei. Das Rückgrat dieses Marktplatzes ist die Kuratierung von globalen Daten zu Gesundheitseinrichtungen über VF Match, eine Plattform, die medizinisches Fachpersonal mit ehrenamtlichen Tätigkeiten in 72 Ländern mit niedrigem und niedrigem mittlerem Einkommen verbindet. Databricks for Good arbeitet seit 2024 eng mit der Virtue Foundation zusammen, um KI einzusetzen, Daten aus diesen Ländern zu aggregieren und sie nutzbar zu machen.
Ein erster Proof of Concept zeigte, dass LLMs strukturierte Informationen aus unterschiedlichen Webdatenquellen extrahieren können, um eine Karte der Gesundheitsinfrastruktur und vor allem der Lücken in der Versorgung in unterversorgten Gebieten zu erstellen. Die Skalierung dieser Funktionalität und die Überführung in die Produktion stellten jedoch viele Herausforderungen dar. Seit dieser ersten Iteration haben wir eine auf Databricks basierende Plattform entwickelt, die den POC in ein produktionsreifes System verwandelt hat, das Daten von Tausenden von Gesundheitseinrichtungen und Non-Profit-Organisationen weltweit aggregiert.
In diesem Artikel beschreiben wir, wie wir unsere bisherige Arbeit verbessert haben, um die Virtue Foundation weiter zu befähigen, ihre Gemeinschaft von medizinischen Freiwilligen mit kritischen Bedürfnissen in diesen Ländern abzugleichen.
Der Kern von VF Match ist der Foundational Data Refresh (FDR): ein umfassender Datensatz von Gesundheitseinrichtungen und Non-Profit-Organisationen, der von Grund auf aus verschiedenen webbasierten Quellen aufgebaut wird. Wir nehmen systematisch Daten aus 72 Ländern mit niedrigem und niedrigem mittlerem Einkommen weltweit auf und aktualisieren sie.
Zwei ergänzende Datenquellen treiben diesen Refresh an:
Das Herzstück von FDR ist eine Informationsextraktionspipeline, die von den GPT-Modellen von OpenAI angetrieben wird. Die Verarbeitung von mehr als 25 Millionen Webseiten durch LLMs mit Produktionsgarantien erforderte ein Umdenken bei traditionellen LLM-Inferenzpipelines. Anstatt eine One-Shot-Extraktion zu versuchen, zerlegt unsere Pipeline die Aufgabe in gezielte Schritte: Klassifizierung der medizinischen Relevanz, Identifizierung des Organisationstyps (entweder eine medizinische Einrichtung oder eine NGO) und Extraktion von Fachgebieten, Ausrüstung und Verfahren.
Abb. 1: Wichtige Schritte des Foundational Data Refresh (FDR).">Dieser Ansatz reduziert den Token-Verbrauch drastisch und konzentriert jede Modell-Injektion auf eine enge, hochpräzise Aufgabe. Databricks und Apache Spark werden verwendet, um die gesammelten Daten effizient zu orchestrieren und zu parallelisieren, Workloads über Tausende von Exekutoren zu verteilen und LLM-Inferenz mit hohem Durchsatz zu ermöglichen.
Eine Reihe kritischer Funktionen machen diese Pipeline skalierbar und produktionsreif:
Diese Garantien werden durch Lakeflow Jobs durchgesetzt, die mehr als 15 voneinander abhängige Aufgaben mit bedingter Verzweigung, paralleler Ausführung und intelligenten Wiederholungsrichtlinien orchestrieren. Das Ergebnis ist ein System, das Daten von Gesundheitseinrichtungen im großen Maßstab mit der Präzision von medizinischen Experten verarbeitet.
Sobald die Daten von Einrichtungen und Non-Profit-Organisationen mithilfe eines LLM gesammelt und extrahiert wurden, entsteht eine klassische Herausforderung: Entity Resolution. Dieselbe Einrichtung kann in mehreren Datenquellen mit Namensvariationen, inkonsistenten Adressen oder fehlenden Kontaktdaten erscheinen. Traditionelle Deduplizierung scheitert in diesen Szenarien aufgrund unsauberer Daten, daher verwenden wir Splink, ein Open-Source-Framework für probabilistische Record Linkage. Anhand der in unserem IE-Schritt gesammelten Informationen bewertet Splink übereinstimmende Paare durch gewichtete Vergleiche über Felder wie Telefonnummer, Straßenadresse und mehr. Das Ergebnis ist ein einheitlicher Schlüssel pro Einrichtung, der sicherstellt, dass Endbenutzer einen autoritativen Datensatz für jede medizinische Einrichtung und NGO sehen.
Abb. 2: Beispiel-Regelsatz für Entity Resolution mittels Splink.">Die Durchführung von probabilistischen Abgleichen für Tausende von Gesundheitseinrichtungen und Non-Profit-Organisationen deckte klassische Leistungsengpässe auf, die bei Terabyte-Skalierung auftreten. Der Kern des Record Linkage ist der paarweise Vergleich, der von Natur aus verzerrte Workloads erzeugt: Häufige Vergleiche erzeugen massive Partitionen, während die meisten anderen viel kleiner bleiben. Frühe Läufe machten dies schmerzlich deutlich, mit einer Spark-Partition, die 30 Minuten lief, während die Median-Partition in 52 Sekunden abgeschlossen war – ein Lehrbuchfall von „Stragglern“ (dem „Fluch des letzten Reducers“), die die Job-Leistung beeinträchtigen. Die Aktivierung von Photon, der vektorisierten Abfrage-Engine von Databricks, reduzierte die schlimmsten Datenpartitionen von 30 Minuten auf etwa 2 Minuten: eine 15-fache Verbesserung.
Mit Blick auf die Zukunft haben wir einen Prototyp eines Agenten entwickelt, der es Experten ermöglicht, Daten mithilfe natürlicher Sprache zu analysieren. Wir verwenden eine Multi-Agenten-Architektur, die in LangGraph aufgebaut ist, und nutzen Databricks Model Serving, Vector Search und Genie.
Abb. 3: VF Agent: Prozessflussdiagramm">Wie im obigen Diagramm dargestellt, wandelt der Medical Specialty Extractor die Sprache des Benutzers in standardisierte medizinische Terminologie um, die dann an den Multi-Agent Supervisor weitergeleitet wird. Je nach Absicht und Komplexität der Abfrage wird sie entweder an den Vector Search Agent (Einrichtungsfindung und -suche) oder an den Genie Agent (analytische Abfragen gegen strukturierte Daten) weitergeleitet.
Gesundheitsexperten können nun schneller aktuelle Möglichkeiten entdecken, Übereinstimmungen mit ihren medizinischen Fachgebieten finden und auf globale Daten zu Tausenden von Einrichtungen weltweit zugreifen. Die Reise der Virtue Foundation vom Proof of Concept zur Produktion zeigt, was möglich ist, wenn fortschrittliche KI-Systeme mit einer einheitlichen Datenplattform kombiniert werden.
Das Endergebnis ist eine globale Sicht auf die Gesundheitsinfrastruktur – die aufzeigt, wo medizinische Freiwillige am dringendsten benötigt werden.
Wenn Sie mehr über dieses Projekt erfahren möchten, sehen Sie sich bitte an:
- Databricks x Virtue Foundation Project Overview - YouTube
- UN Bloomberg Interview (YouTube) - ca. Minute 38:00
- Video-Testimonial: Bright Initiative x Virtue Foundation x Databricks
Lesen Sie mehr über einige unserer anderen Databricks for Good-Projekte unten:
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.