Das beste Data Where-house gibt es auf Databricks mit vollständiger Geodaten-Unterstützung.
von Kent Marten
Im Golf von Florida braut sich ein Hurrikan zusammen. Als Versicherer müssen Sie sofort wichtige Fragen für das Unternehmen beantworten: Identifizieren Sie die Policen innerhalb der prognostizierten Sturmpfade, den gesamten versicherten Risikowert, die am stärksten betroffenen Landkreise und welche Rückversicherungspartner benachrichtigt werden müssen.
Vor nicht allzu langer Zeit bedeutete die Beantwortung dieser räumlichen Fragen das Zusammenflicken mehrerer Systeme: eine Geodatenbank für die Überschneidungen, ein Warehouse für die Policendaten und ein Visualisierungstool zur Kartierung der Ergebnisse für Analysten und Underwriter. Vielleicht haben Sie die Policendaten sogar in einem externen System repliziert. Jedes zusätzliche System erhöht das Risiko, und jede Datenkopie fragmentiert die Governance.
Heute können räumliche Analysen auf einer einzigen Plattform stattfinden. Spatial SQL ist ab sofort allgemein verfügbar (GA). Databricks ist ein Geospatial Lakehouse. Die Ära, in der eine Geodatenbank an ein Warehouse und dieses wiederum an ein Kartierungstool angeflanscht wurde, ist vorbei. Speichern Sie Daten als Geometry in Iceberg oder Delta, führen Sie räumliche Abfragen im großen Stil aus, rufen Sie über 90 räumliche Funktionen auf, teilen Sie Daten über Delta Sharing und erkunden Sie sie in Genie, während Unity Catalog die Governance übernimmt.
Databricks-Kunden schätzen den Mehrwert, den die Plattform bietet:
Mit Spatial SQL können wir ETL-Workloads vereinfachen, performante Abfragen sicherstellen und komplexe Geospatial-Architekturen durch die Nutzung völlig offener Datentypen mit Delta Lake konsolidieren. Wir konnten 70 % schnellere Abfragen verzeichnen und gleichzeitig Analysefunktionen freischalten, die zuvor nicht möglich waren. S&P Global Energy bietet Kunden einen umfassenden Überblick über die globalen Energie- und Rohstoffmärkte, was langfristig nachhaltigen Wert schafft. — Hubert Boguski, Software Engineer II, S&P Global Energy
Unter dem Zeitdruck eines herannahenden Hurrikans zählt jede Sekunde. Aus diesem Grund haben wir die Out-of-the-box-Performance von räumlichen Joins und ST_-Funktionen seit der Public Preview kontinuierlich verbessert. Um die neuesten Optimierungen zu messen, haben wir einen umfassenden Benchmark mit SpatialBench durchgeführt. Über SpatialBench hinweg verbesserten sich 8 der 12 Abfragen seit der Public Preview, mit Steigerungen von 20 % bis zum 15-Fachen.
Für boolesche Mengenoperationen (ST_Intersection, ST_Difference, ST_Union) haben wir verbesserte Algorithmen eingeführt. Diese Funktionen helfen bei der Beantwortung von Fragen wie: „Welche Teile meiner Grundstücke liegen innerhalb des prognostizierten Hurrikanpfads?“ und „Wie hoch ist die kombinierte Abdeckung aller unserer Mobilfunkmasten in diesem Gebiet?“ Databricks ist jetzt im Durchschnitt doppelt so schnell bei der Arbeit mit Flächendatensätzen unter Verwendung dieser Operatoren im Vergleich zu den Vorgängerversionen. Es sind keine Code änderungen erforderlich – Ihre bestehenden Abfragen sind einfach schneller geworden.
Dies sind die räumlichen Operationen, die die Effizienz für Databricks-Kunden wie Top Chrono steigern, die auf Premium-Kurier- und Last-Mile-Zustelldienste spezialisiert sind.
Databricks Spatial SQL hat unsere Abhängigkeit von Bibliotheken von Drittanbietern ersetzt, die mühsam zu warten waren und SQL-UDFs für grundlegende Operationen erforderten. Heute nutzen wir ST_Transform, um Fahrten für präzise Entfernungen in Lambert 93 (Frankreich) zu projizieren, ST_Within, um zu erkennen, wann Lieferungen in Kundenzonen eintreffen, ST_Union, um überschneidende Fahrerrouten zusammenzuführen, und vieles mehr. Databricks bietet das vollständige, hochperformante Spatial-Toolkit, das mit unserem Lieferbetrieb skaliert. — Maxime Delobelle, Lead Data Architect, Top Chrono
Bei räumlichen Fragen lassen sich die Ergebnisse oft am besten über Karten teilen. Im Rahmen der allgemeinen Verfügbarkeit (GA) von Spatial SQL rendert AI/BI nun Karten mithilfe von Geometry- oder Geography-Spalten. Keine benutzerdefinierten Anwendungen oder Kartierungstools von Drittanbietern mehr, um Ihre Geodaten zu visualisieren.
Wenn der Underwriter das Dashboard für das Hurrikan-Risiko öffnet, können die gefährdeten Policen, der Hurrikanpfad und historische Routen alle Teil der Visualisierung sein. Sie können nach Landkreis filtern, verschiedene prognostizierte Pfade vergleichen oder die Daten nach Belieben filtern.
Und der Underwriter muss dafür kein SQL schreiben. Genie Code kann das passende Dashboard mit einem einzigen Prompt erstellen.
Genie analysiert Geospatial-Spalten genauso wie jede andere Spalte. Sie können eingeben: „Zeige mir Policen in den Landkreisen Floridas in der Hurrikan-Prognose, bei denen der gesamte versicherte Wert über 1 Mio. $ liegt“, und Genie generiert die räumliche Abfrage, berücksichtigt die Zeilenfilter von Unity Catalog und kann bei Bedarf ein Dashboard mit Karten erstellen.
Risiko- und Expositionsdaten müssen teilbar sein. Rückversicherungspartner benötigen die Zessionsdateien auf Policenebene. Katastrophenschutzbehörden müssen Daten intern und extern austauschen. Jeder dieser Austauschvorgänge könnte eine benutzerdefinierte Datenextraktions-Pipeline erfordern.
Mit der GA von Spatial SQL werden Tabellen mit Geospalten nun von Delta Sharing unterstützt. Der Versicherer veröffentlicht ein einziges Delta Share, das die Policengrenzen enthält, und der Rückversicherungspartner des Underwriters liest direkt daraus – ohne Datenextraktion oder Schemaübersetzung. Der Zugriff wird durch Unity Catalog-Richtlinien geregelt und die Lineage wird nachverfolgt.
Die Offenheit von Databricks für Geodaten erstreckt sich nun auch auf das zugrunde liegende Tabellenformat. Mit Spatial SQL können Sie jetzt in verwaltete Iceberg-Tabellen schreiben und daraus lesen sowie aus extern geschriebenen Iceberg-Tabellen lesen. Die Unterstützung von Iceberg v3 auf Databricks ist bereits allgemein verfügbar (GA) und wurde nun auf die Unterstützung von Geospatial-Datentypen ausgeweitet. Das offene Lakehouse bedeutet Standards statt Datensilos.
Was heute allgemein verfügbar (GA) ist
Spatial SQL auf Databricks umfasst:
Hinweis: Geography bleibt in der Public Preview, bis es in allen gängigen räumlichen Funktionen vollständig unterstützt wird.
Die Databricks-Plattform unterstützt jetzt die Arbeit mit Geospatial-Datentypen in:
Dieser Blog beschreibt ein Szenario für eine Versicherungsgesellschaft, aber der Geospatial-Kontext ist in allen Branchen wichtig:
Die Geschichte des offenen Lakehouse endet nicht bei der Databricks-Plattform. Databricks steuert die Typen GEOMETRY und GEOGRAPHY zu Apache Spark 4.2 bei (geplant für Sommer 2026). Dieselben Geometrie- und Geografiedaten, die Sie heute auf Databricks abfragen, werden allen Nutzern der Spark-Community als erstklassige Typen zur Verfügung stehen.
Geben Sie dem Produktteam Ihr Feedback
Wenn Sie uns Ihre Wünsche für zusätzliche Kartenvisualisierungen, ST-Ausdrücke oder andere Geospatial-Funktionen mitteilen möchten, füllen Sie bitte diese kurze Feedback-Umfrage aus.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.