Ir para o conteúdo principal
Produto

Geoespacial sem limites: SQL espacial em GA com mapas de AI/BI, Delta Sharing e Iceberg v3

O melhor Data Where-house está no Databricks com suporte geoespacial completo

por Kent Marten

  • O Spatial SQL agora está em Disponibilidade Geral (GA) no Databricks. Tipos de dados geoespaciais nativos, mais de 90 funções ST_* e Dashboards de AI/BI renderizam mapas nativamente usando geometria ou geografia.
  • Grandes melhorias de desempenho desde a Public Preview. Operações de conjunto booleanas (ST_Intersection, ST_Difference, ST_Union) estão 2x mais rápidas, e nossos resultados do SpatialBench mostram melhorias de desempenho de 20% a 15x.
  • O geoespacial se junta ao lakehouse aberto. O protocolo de compartilhamento aberto (Delta Sharing), os formatos de tabela abertos (Iceberg v3, Delta) e o mecanismo de código aberto (Apache Spark 4.2) oferecem suporte a colunas geo.

Um furacão está se formando no Golfo da Flórida. Como seguradora, você precisa responder a perguntas cruciais para o negócio imediatamente: identificar as apólices dentro das trajetórias projetadas da tempestade, o valor total segurado em risco, os condados mais expostos e quais parceiros de resseguro precisam ser notificados.

Não faz muito tempo, responder a essas perguntas espaciais significava interligar vários sistemas: um banco de dados espacial para as interseções, um data warehouse para os dados das apólices e uma ferramenta de visualização para mapear os resultados e compartilhá-los com analistas e subscritores. Você pode até ter replicado os dados das apólices em um sistema externo. Cada sistema extra adiciona risco, e cada cópia de dados fragmenta a governança.

Hoje, o trabalho espacial pode ser feito em uma única plataforma. O Spatial SQL agora está em Disponibilidade Geral (GA). A Databricks é um lakehouse geoespacial. A era de acoplar um banco de dados espacial a um data warehouse e a uma ferramenta de mapeamento acabou. Armazene dados como Geometry no Iceberg ou Delta, execute consultas espaciais em escala, chame mais de 90 funções espaciais, compartilhe por meio do Delta Sharing e explore no Genie, enquanto o Unity Catalog cuida da governança.

image3.png
Use o Genie para fazer perguntas em painéis de AI/BI, agora com suporte para mapas usando geometria personalizada.

Os clientes da Databricks adoram o valor que a plataforma entrega:

O Spatial SQL nos permite simplificar as cargas de trabalho de ETL, garantir consultas de alto desempenho e simplificar arquiteturas geoespaciais complexas usando tipos de dados totalmente abertos com o Delta Lake. Tivemos consultas 70% mais rápidas, ao mesmo tempo em que liberamos recursos analíticos que antes não eram possíveis. A S&P Global Energy capacita os clientes com uma visão abrangente dos mercados globais de energia e commodities que cria valor sustentável de longo prazo. — Hubert Boguski, Software Engineer II, S&P Global Energy

O Spatial SQL oferece desempenho de classe mundial

Com a urgência causada pela aproximação de um furacão, cada segundo conta. É por isso que melhoramos continuamente o desempenho pronto para uso de junções espaciais e funções ST_ desde a Public Preview. Para medir as melhorias mais recentes, executamos um benchmark abrangente usando o SpatialBench. No SpatialBench, 8 das 12 consultas melhoraram desde a Public Preview, com ganhos variando de 20% a 15X.

image1.png
Nota: O gráfico mostra apenas as consultas do SpatialBench que demonstraram melhoria de desempenho. Não houve alteração para as consultas: Q2, Q4, Q10 e Q12.

Para operações de conjunto booleano (ST_Intersection, ST_Difference, ST_Union), introduzimos algoritmos aprimorados. Essas funções podem ajudar a responder a perguntas como: "Quais partes dos meus lotes de terra estão dentro da trajetória projetada do furacão?" e "Qual é a cobertura combinada de todas as nossas torres de celular nesta área?" A Databricks agora é duas vezes mais rápida, em média, ao trabalhar com conjuntos de dados de área usando esses operadores em comparação com as versões anteriores. Nenhuma alteração de código é necessária, suas consultas existentes acabam de ficar mais rápidas.

Essas são as operações espaciais que impulsionam a eficiência para clientes da Databricks como a Top Chrono, especializada em serviços de Courier Premium e entrega de última milha (Last-Mile Delivery).

O Databricks Spatial SQL substituiu nossa dependência de bibliotecas de terceiros que eram difíceis de manter e exigiam UDFs de SQL para operações básicas. Hoje usamos ST_Transform para projetar viagens em Lambert 93 (França) para distâncias precisas, ST_Within to detect deliveries entering customer zones, ST_Union to merge overlapping driver routes, e muito mais. A Databricks fornece o kit de ferramentas espaciais completo e de alto desempenho que escala com nossa operação de entrega. — Maxime Delobelle, Lead Data Architect, Top Chrono

Os painéis de AI/BI agora oferecem suporte a mapas usando Geometry e Geography

Para perguntas espaciais, geralmente a melhor maneira de compartilhar os resultados é por meio de mapas. Como parte do Spatial SQL GA, o AI/BI agora renderiza mapas usando colunas Geometry ou Geography. Chega de aplicativos personalizados ou ferramentas de mapeamento de terceiros para visualizar seus dados geográficos.

Quando o subscritor abre o painel de exposição a furacões, as apólices em risco, a trajetória do furacão e os registros históricos podem fazer parte do visual. Você pode filtrar por condado, comparar diferentes trajetórias previstas ou segmentar os dados como achar melhor.

image4.gif
Segmente dados de mapas em painéis de AI/BI usando vários filtros.

E o subscritor não precisa escrever SQL para chegar lá. O Genie Code pode gerar o painel correto com um único prompt.

O Genie analisa colunas geoespaciais da mesma forma que analisa qualquer outra coluna. Você pode digitar "Mostre-me as apólices nos condados da Flórida na previsão do furacão, onde o valor total segurado é superior a US$ 1 milhão", e o Genie gera a consulta espacial, respeita os filtros de linha do Unity Catalog e pode produzir um painel com mapas conforme necessário.

Lakehouse aberto: Delta Sharing para dados geográficos e interoperabilidade com o Iceberg v3

Os dados de risco e exposição precisam ser compartilháveis. Os parceiros de resseguro precisam dos arquivos de cessão no nível da apólice. As agências de gerenciamento de emergência precisam compartilhar dados interna e externamente. Cada uma dessas trocas poderia exigir um pipeline personalizado de extração de dados.

Agora, com o Spatial SQL GA, tabelas com colunas geográficas são compatíveis com o Delta Sharing. A seguradora publica um único Delta Share que contém o limite da apólice, e o parceiro de resseguro do subscritor lê diretamente dele, sem extração de dados ou tradução de esquema. O acesso é governado pelas políticas do Unity Catalog e a linhagem é rastreada.

A abertura da Databricks para dados geográficos agora se estende ao formato de tabela subjacente. Usando o Spatial SQL, agora você pode ler e gravar em tabelas gerenciadas do Iceberg e ler de tabelas do Iceberg gravadas externamente. O suporte ao Iceberg v3 na Databricks já está em GA, agora estendido para oferecer suporte a tipos de dados geoespaciais. O lakehouse aberto significa padrões em vez de silos.

O que está em GA hoje

O Spatial SQL na Databricks inclui:

  • GEOMETRY data typesarmazene seus dados geoespaciais vetoriais em um tipo de coluna nativo. Os tipos de dados Geometry oferecerão o melhor desempenho de consulta espacial.

Nota: O Geography permanecerá em Public Preview até que seja totalmente compatível com as funções espaciais comuns.

  • Mais de 90 funções ST_*funções espaciais compatíveis com OGC com suporte para importação e exportação de formatos comuns (WKT, WKB, GeoJSON, EWKT, EWKB), medição, construção, predicados, transformações e muito mais.
  • Junções e operações espaciais de alto desempenhoO Databricks Spatial SQL oferece desempenho de classe mundial, com melhoria de 20% a 15x na maioria das consultas do SpatialBench desde a Public Preview.

A plataforma Databricks agora oferece suporte ao trabalho com tipos de dados geoespaciais em:

Este blog descreve um cenário para uma seguradora, mas o contexto geoespacial é importante em todos os domínios:

  • Equipes de marketing criam campanhas combinando dados demográficos, análise de área de influência e padrões de localização dos clientes
  • Operadoras de telecomunicações planejam a instalação e manutenção de torres analisando a densidade de assinantes, medições de cobertura e áreas subatendidas
  • Varejistas avaliam novos locais para lojas analisando a sobreposição de áreas de influência com locais existentes, áreas de captação demográfica e proximidade de concorrentes
  • Empresas de agricultura moderna prescrevem fertilização e irrigação em taxa variável analisando sensores de solo, zonas de cultivo e previsões meteorológicas
  • Empresas de energia e serviços públicos avaliam o potencial de locais para energia renovável combinando terreno, padrões climáticos e necessidades de infraestrutura

O que vem por aí para dados geoespaciais

A história do lakehouse aberto não termina na plataforma Databricks. A Databricks está contribuindo com os tipos GEOMETRY e GEOGRAPHY para o Apache Spark 4.2 (previsto para o verão de 2026). Os mesmos tipos de geometria e geografia que você consulta hoje no Databricks serão os mesmos tipos de primeira classe disponíveis para todos os usuários da comunidade Spark.

Envie seu feedback para a equipe de produto
Se você quiser compartilhar suas solicitações de requisitos adicionais de visualização de mapa, expressões ST ou quaisquer recursos geoespaciais, preencha esta breve pesquisa de feedback.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.