Il miglior Data Where-house è su Databricks con supporto geospaziale completo
di Kent Marten
Un uragano si sta formando nel Golfo della Florida. Come assicuratore, devi rispondere immediatamente ad alcune domande chiave per il business: identificare le polizze all'interno dei percorsi previsti per la tempesta, il valore totale assicurato a rischio, le contee più esposte e quali partner di riassicurazione devono essere notificati.
Non molto tempo fa, rispondere a queste domande spaziali significava unire più sistemi: un database spaziale per le intersezioni, un data warehouse per i dati delle polizze e uno strumento di visualizzazione per mappare i risultati da condividere con analisti e assicuratori. Potresti persino aver replicato i dati delle polizze all'interno di un sistema esterno. Ogni sistema aggiuntivo aumenta il rischio e ogni copia di dati frammenta la governance.
Oggi, il lavoro spaziale può essere svolto su un'unica piattaforma. Spatial SQL è ora disponibile a livello generale (GA). Databricks è un lakehouse geospaziale. L'era in cui si collegava un database spaziale a un data warehouse e poi a uno strumento di mappatura è finita. Memorizza i dati come Geometry in Iceberg o Delta, esegui query spaziali su scala, richiama oltre 90 funzioni spaziali, condividi tramite Delta Sharing ed esplora in Genie, mentre Unity Catalog gestisce la governance.
I clienti di Databricks apprezzano il valore offerto dalla piattaforma:
Spatial SQL ci consente di semplificare i carichi di lavoro ETL, garantire query performanti e semplificare architetture geospaziali complesse utilizzando tipi di dati completamente aperti con Delta Lake. Abbiamo riscontrato query più veloci del 70%, sbloccando al contempo funzionalità analitiche che prima non erano possibili. S&P Global Energy offre ai clienti una visione completa dei mercati globali dell'energia e delle materie prime, creando valore sostenibile a lungo termine. — Hubert Boguski, Software Engineer II, S&P Global Energy
Con la pressione del tempo causata da un uragano in avvicinamento, ogni secondo conta. Ecco perché abbiamo continuamente migliorato le prestazioni pronte all'uso dei join spaziali e delle funzioni ST_ fin dalla Public Preview. Per misurare gli ultimi miglioramenti, abbiamo eseguito un benchmark completo utilizzando SpatialBench. In tutto SpatialBench, 8 delle 12 query sono migliorate rispetto alla Public Preview, con incrementi che vanno dal 20% a 15 volte.
Per le operazioni booleane sugli insiemi (ST_Intersection, ST_Difference, ST_Union) abbiamo introdotto algoritmi migliorati. Queste funzioni possono aiutare a rispondere a domande come: "Quali parti dei miei terreni si trovano all'interno del percorso previsto dell'uragano?" e "Qual è la copertura combinata di tutti i nostri ripetitori in quest'area?" Databricks è ora 2 volte più veloce in media nel lavoro con dataset areali che utilizzano questi operatori rispetto alle versioni precedenti. Non è richiesta alcuna modifica al codice, le tue query esistenti sono semplicemente diventate più veloci.
Queste sono le operazioni spaziali che aumentano l'efficienza per i clienti Databricks come Top Chrono, specializzati in servizi di corriere premium e consegne dell'ultimo miglio.
Databricks Spatial SQL ha sostituito la nostra dipendenza da librerie di terze parti che erano difficili da mantenere e richiedevano UDF SQL per le operazioni di base. Oggi utilizziamo ST_Transform per proiettare i viaggi in Lambert 93 (Francia) per ottenere distanze precise, ST_Within per rilevare le consegne che entrano nelle zone dei clienti, ST_Union per unire i percorsi dei conducenti sovrapposti e altro ancora. Databricks fornisce il toolkit spaziale completo ad alte prestazioni che scala con le nostre operazioni di consegna. — Maxime Delobelle, Lead Data Architect, Top Chrono
Per le domande spaziali, spesso il modo migliore per condividere i risultati è tramite le mappe. Come parte della GA di Spatial SQL, AI/BI ora esegue il rendering delle mappe utilizzando colonne Geometry o Geography. Non sono più necessarie applicazioni personalizzate o strumenti di mappatura di terze parti per visualizzare i tuoi dati geografici.
Quando l'assicuratore apre il dashboard sull'esposizione all'uragano, le polizze a rischio, il percorso dell'uragano e le tracce storiche possono far parte della visualizzazione. Puoi filtrare per contea, confrontare diversi percorsi previsti o suddividere i dati come ritieni opportuno.
E l'assicuratore non deve scrivere SQL per arrivarci. Genie Code può generare il dashboard corretto con un singolo prompt.
Genie ragiona sulle colonne geospaziali nello stesso modo in cui ragiona su qualsiasi altra colonna. Puoi digitare "Mostrami le polizze nelle contee della Florida previste nel percorso dell'uragano, dove il valore totale assicurato è superiore a 1 milione di dollari" e Genie genererà la query spaziale, rispetterà i filtri di riga di Unity Catalog e potrà produrre un dashboard con mappe in base alle esigenze.
I dati sul rischio e sull'esposizione devono essere condivisibili. I partner di riassicurazione hanno bisogno dei file di cessione a livello di polizza. Le agenzie di gestione delle emergenze devono condividere i dati internamente ed esternamente. Ognuno di questi scambi potrebbe richiedere una pipeline personalizzata di estrazione dei dati.
Ora, con la GA di Spatial SQL, le tabelle con colonne geografiche sono supportate da Delta Sharing. L'assicuratore pubblica un singolo Delta Share che contiene i confini della polizza, il partner di riassicurazione dell'assicuratore legge direttamente da esso, senza estrazione di dati o traduzione di schemi. L'accesso è regolato dalle policy di Unity Catalog e la lineage viene tracciata.
L'apertura di Databricks per il geospaziale si estende ora al formato di tabella sottostante. Utilizzando Spatial SQL, ora puoi leggere e scrivere su tabelle Iceberg gestite e leggere da tabelle Iceberg scritte esternamente. Il supporto per Iceberg v3 su Databricks è già GA, ora esteso per supportare i tipi di dati geospaziali. Il lakehouse aperto significa standard anziché silos.
Cosa è disponibile in GA oggi
Spatial SQL su Databricks include:
Nota: Geography rimarrà in Public Preview fino a quando non sarà completamente supportato in tutte le funzioni spaziali comuni.
La piattaforma Databricks ora supporta l'uso di tipi di dati geospaziali in:
Questo blog descrive uno scenario per una compagnia assicurativa, ma il contesto geospaziale è importante in tutti i settori:
La storia del lakehouse aperto non si ferma alla piattaforma Databricks. Databricks sta contribuendo con i tipi GEOMETRY e GEOGRAPHY a Apache Spark 4.2 (previsto per l'estate 2026). Gli stessi tipi geometry e geography su cui esegui query oggi su Databricks saranno gli stessi tipi di prima classe disponibili per tutti gli utenti della community Spark.
Invia il tuo feedback al team di prodotto
Se desideri condividere le tue richieste per ulteriori funzionalità di visualizzazione delle mappe, espressioni ST o altre caratteristiche geospaziali, compila questo breve sondaggio di feedback.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.