O melhor Data Where-house está no Databricks com suporte geoespacial completo
por Kent Marten
Um furacão está se formando no Golfo da Flórida. Como seguradora, você precisa responder a perguntas cruciais para o negócio imediatamente: identificar as apólices dentro das trajetórias projetadas da tempestade, o valor total segurado em risco, os condados mais expostos e quais parceiros de resseguro precisam ser notificados.
Não faz muito tempo, responder a essas perguntas espaciais significava interligar vários sistemas: um banco de dados espacial para as interseções, um data warehouse para os dados das apólices e uma ferramenta de visualização para mapear os resultados e compartilhá-los com analistas e subscritores. Você pode até ter replicado os dados das apólices em um sistema externo. Cada sistema extra adiciona risco, e cada cópia de dados fragmenta a governança.
Hoje, o trabalho espacial pode ser feito em uma única plataforma. O Spatial SQL agora está em Disponibilidade Geral (GA). A Databricks é um lakehouse geoespacial. A era de acoplar um banco de dados espacial a um data warehouse e a uma ferramenta de mapeamento acabou. Armazene dados como Geometry no Iceberg ou Delta, execute consultas espaciais em escala, chame mais de 90 funções espaciais, compartilhe por meio do Delta Sharing e explore no Genie, enquanto o Unity Catalog cuida da governança.
Os clientes da Databricks adoram o valor que a plataforma entrega:
O Spatial SQL nos permite simplificar as cargas de trabalho de ETL, garantir consultas de alto desempenho e simplificar arquiteturas geoespaciais complexas usando tipos de dados totalmente abertos com o Delta Lake. Tivemos consultas 70% mais rápidas, ao mesmo tempo em que liberamos recursos analíticos que antes não eram possíveis. A S&P Global Energy capacita os clientes com uma visão abrangente dos mercados globais de energia e commodities que cria valor sustentável de longo prazo. — Hubert Boguski, Software Engineer II, S&P Global Energy
Com a urgência causada pela aproximação de um furacão, cada segundo conta. É por isso que melhoramos continuamente o desempenho pronto para uso de junções espaciais e funções ST_ desde a Public Preview. Para medir as melhorias mais recentes, executamos um benchmark abrangente usando o SpatialBench. No SpatialBench, 8 das 12 consultas melhoraram desde a Public Preview, com ganhos variando de 20% a 15X.
Para operações de conjunto booleano (ST_Intersection, ST_Difference, ST_Union), introduzimos algoritmos aprimorados. Essas funções podem ajudar a responder a perguntas como: "Quais partes dos meus lotes de terra estão dentro da trajetória projetada do furacão?" e "Qual é a cobertura combinada de todas as nossas torres de celular nesta área?" A Databricks agora é duas vezes mais rápida, em média, ao trabalhar com conjuntos de dados de área usando esses operadores em comparação com as versões anteriores. Nenhuma alteração de código é necessária, suas consultas existentes acabam de ficar mais rápidas.
Essas são as operações espaciais que impulsionam a eficiência para clientes da Databricks como a Top Chrono, especializada em serviços de Courier Premium e entrega de última milha (Last-Mile Delivery).
O Databricks Spatial SQL substituiu nossa dependência de bibliotecas de terceiros que eram difíceis de manter e exigiam UDFs de SQL para operações básicas. Hoje usamos ST_Transform para projetar viagens em Lambert 93 (França) para distâncias precisas, ST_Within to detect deliveries entering customer zones, ST_Union to merge overlapping driver routes, e muito mais. A Databricks fornece o kit de ferramentas espaciais completo e de alto desempenho que escala com nossa operação de entrega. — Maxime Delobelle, Lead Data Architect, Top Chrono
Para perguntas espaciais, geralmente a melhor maneira de compartilhar os resultados é por meio de mapas. Como parte do Spatial SQL GA, o AI/BI agora renderiza mapas usando colunas Geometry ou Geography. Chega de aplicativos personalizados ou ferramentas de mapeamento de terceiros para visualizar seus dados geográficos.
Quando o subscritor abre o painel de exposição a furacões, as apólices em risco, a trajetória do furacão e os registros históricos podem fazer parte do visual. Você pode filtrar por condado, comparar diferentes trajetórias previstas ou segmentar os dados como achar melhor.
E o subscritor não precisa escrever SQL para chegar lá. O Genie Code pode gerar o painel correto com um único prompt.
O Genie analisa colunas geoespaciais da mesma forma que analisa qualquer outra coluna. Você pode digitar "Mostre-me as apólices nos condados da Flórida na previsão do furacão, onde o valor total segurado é superior a US$ 1 milhão", e o Genie gera a consulta espacial, respeita os filtros de linha do Unity Catalog e pode produzir um painel com mapas conforme necessário.
Os dados de risco e exposição precisam ser compartilháveis. Os parceiros de resseguro precisam dos arquivos de cessão no nível da apólice. As agências de gerenciamento de emergência precisam compartilhar dados interna e externamente. Cada uma dessas trocas poderia exigir um pipeline personalizado de extração de dados.
Agora, com o Spatial SQL GA, tabelas com colunas geográficas são compatíveis com o Delta Sharing. A seguradora publica um único Delta Share que contém o limite da apólice, e o parceiro de resseguro do subscritor lê diretamente dele, sem extração de dados ou tradução de esquema. O acesso é governado pelas políticas do Unity Catalog e a linhagem é rastreada.
A abertura da Databricks para dados geográficos agora se estende ao formato de tabela subjacente. Usando o Spatial SQL, agora você pode ler e gravar em tabelas gerenciadas do Iceberg e ler de tabelas do Iceberg gravadas externamente. O suporte ao Iceberg v3 na Databricks já está em GA, agora estendido para oferecer suporte a tipos de dados geoespaciais. O lakehouse aberto significa padrões em vez de silos.
O que está em GA hoje
O Spatial SQL na Databricks inclui:
Nota: O Geography permanecerá em Public Preview até que seja totalmente compatível com as funções espaciais comuns.
A plataforma Databricks agora oferece suporte ao trabalho com tipos de dados geoespaciais em:
Este blog descreve um cenário para uma seguradora, mas o contexto geoespacial é importante em todos os domínios:
A história do lakehouse aberto não termina na plataforma Databricks. A Databricks está contribuindo com os tipos GEOMETRY e GEOGRAPHY para o Apache Spark 4.2 (previsto para o verão de 2026). Os mesmos tipos de geometria e geografia que você consulta hoje no Databricks serão os mesmos tipos de primeira classe disponíveis para todos os usuários da comunidade Spark.
Envie seu feedback para a equipe de produto
Se você quiser compartilhar suas solicitações de requisitos adicionais de visualização de mapa, expressões ST ou quaisquer recursos geoespaciais, preencha esta breve pesquisa de feedback.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.