Revenir au contenu principal
Produit

Géospatial sans limites : SQL spatial en GA avec les cartes AI/BI, Delta Sharing et Iceberg v3

Le meilleur « Data Where-house » est sur Databricks avec une prise en charge géospatiale complète

par Kent Marten

  • Spatial SQL est désormais disponible de manière générale sur Databricks. Types de données géospatiales natifs, plus de 90 fonctions ST_*, les tableaux de bord AI/BI affichent les cartes de manière native à l'aide de la géométrie ou de la géographie.
  • Améliorations majeures des performances depuis la Public Preview. Les opérations sur les ensembles booléens (ST_Intersection, ST_Difference, ST_Union) sont 2 fois plus rapides, et nos résultats SpatialBench montrent des améliorations de performance allant de 20 % à 15x.
  • Le géospatial rejoint le lakehouse ouvert. Le protocole de partage ouvert (Delta Sharing), les formats de table ouverts (Iceberg v3, Delta) et le moteur open source (Apache Spark 4.2) prennent tous en charge les colonnes géospatiales.

Un ouragan se forme dans le golfe de Floride. En tant qu'assureur, vous devez immédiatement répondre à des questions clés pour l'entreprise : identifier les polices d'assurance situées sur la trajectoire prévue de la tempête, la valeur totale assurée à risque, les comtés les plus exposés et les partenaires de réassurance à informer.

Il n'y a pas si longtemps, répondre à ces questions spatiales impliquait d'assembler plusieurs systèmes : une base de données spatiale pour les intersections, un entrepôt pour les données de police d'assurance et un outil de visualisation cartographiant les résultats à partager avec les analystes et les souscripteurs. Vous auriez même pu répliquer les données de police dans un système externe. Chaque système supplémentaire ajoute du risque, et chaque copie de données fragmente la gouvernance.

Aujourd'hui, le travail spatial peut se faire sur une seule plateforme. Spatial SQL est désormais disponible de manière générale (GA). Databricks est un lakehouse géospatial. L'époque où l'on greffait une base de données spatiale sur un entrepôt, lui-même connecté à un outil de cartographie, est révolue. Stockez vos données sous forme de Geometry dans Iceberg ou Delta, exécutez des requêtes spatiales à grande échelle, appelez plus de 90 fonctions spatiales, partagez-les via Delta Sharing et explorez-les dans Genie, tandis que Unity Catalog gère la gouvernance.

image3.png
Utilisez Genie pour poser des questions dans les tableaux de bord AI/BI, désormais avec la prise en charge des cartes utilisant des géométries personnalisées.

Les clients de Databricks adorent la valeur apportée par la plateforme :

Spatial SQL nous permet de simplifier les charges de travail ETL, de garantir des requêtes performantes et de simplifier les architectures géospatiales complexes en utilisant des types de données entièrement ouverts avec Delta Lake. Nous avons constaté des requêtes 70 % plus rapides tout en débloquant des capacités d'analyse qui n'étaient pas possibles auparavant. S&P Global Energy offre à ses clients une vision complète des marchés mondiaux de l'énergie et des matières premières, créant ainsi une valeur durable à long terme. — Hubert Boguski, Software Engineer II, S&P Global Energy

Spatial SQL offre des performances de premier plan

Face à l'urgence provoquée par l'approche d'un ouragan, chaque seconde compte. C'est pourquoi nous avons continuellement amélioré les performances prêtes à l'emploi des jointures spatiales et des fonctions ST_ depuis la Public Preview. Pour mesurer ces dernières améliorations, nous avons exécuté un benchmark complet à l'aide de SpatialBench. Sur l'ensemble de SpatialBench, 8 des 12 requêtes se sont améliorées depuis la Public Preview, avec des gains allant de 20 % à 15X.

image1.png
Remarque : Le graphique ne présente que les requêtes SpatialBench ayant montré une amélioration des performances. Aucun changement n'a été constaté pour les requêtes : Q2, Q4, Q10 et Q12.

Pour les opérations sur les ensembles booléens (ST_Intersection, ST_Difference, ST_Union), nous avons introduit des algorithmes améliorés. Ces fonctions permettent de répondre à des questions telles que : « Quelles parties de mes parcelles de terrain se trouvent sur la trajectoire prévue de l'ouragan ? » et « Quelle est la couverture combinée de toutes nos antennes relais dans cette zone ? » Databricks est désormais 2 fois plus rapide en moyenne pour le traitement des ensembles de données surfaciques à l'aide de ces opérateurs par rapport aux versions précédentes. Aucun changement de code n'est requis, vos requêtes existantes sont simplement plus rapides.

Ce sont ces opérations spatiales qui optimisent l'efficacité des clients de Databricks comme Top Chrono, spécialisé dans les services de coursier premium et de livraison du dernier kilomètre.

Databricks Spatial SQL a remplacé notre dépendance à des bibliothèques tierces qui étaient difficiles à maintenir et nécessitaient des UDF SQL pour les opérations de base. Aujourd'hui, nous utilisons ST_Transform pour projeter les trajets en Lambert 93 (France) afin d'obtenir des distances précises, ST_Within pour détecter les livraisons entrant dans les zones clients, ST_Union pour fusionner les itinéraires de chauffeurs qui se chevauchent, et bien plus encore. Databricks fournit une boîte à outils spatiale complète et performante qui évolue au rythme de nos opérations de livraison. — Maxime Delobelle, Lead Data Architect, Top Chrono

Les tableaux de bord AI/BI prennent désormais en charge les cartes utilisant Geometry et Geography

Pour les questions spatiales, le meilleur moyen de partager les résultats est souvent d'utiliser des cartes. Dans le cadre de la GA de Spatial SQL, AI/BI affiche désormais des cartes à l'aide de colonnes Geometry ou Geography. Plus besoin d'applications personnalisées ou d'outils de cartographie tiers pour visualiser vos données géographiques.

Lorsque le souscripteur ouvre le tableau de bord d'exposition aux ouragans, les polices d'assurance à risque, la trajectoire de l'ouragan et les tracés historiques peuvent tous faire partie du visuel. Vous pouvez filtrer par comté, comparer différentes trajectoires prévues ou segmenter les données comme bon vous semble.

image4.gif
Segmentez les données cartographiques dans les tableaux de bord AI/BI à l'aide de plusieurs filtres.

Et le souscripteur n'a pas besoin d'écrire du SQL pour y parvenir. Genie peut générer le bon tableau de bord avec un simple prompt.

Genie raisonne sur les colonnes géospatiales de la même manière que sur n'importe quelle autre colonne. Vous pouvez saisir « Afficher les polices d'assurance dans les comtés de Floride concernés par les prévisions d'ouragan, où la valeur totale assurée est supérieure à 1 million de dollars », et Genie génère la requête spatiale, respecte les filtres de ligne de Unity Catalog et peut produire un tableau de bord avec des cartes selon les besoins.

Lakehouse ouvert : Delta Sharing pour la géo et l'interopérabilité Iceberg v3

Les données sur les risques et l'exposition doivent pouvoir être partagées. Les partenaires de réassurance ont besoin des fichiers de cession au niveau des polices. Les agences de gestion des urgences doivent partager des données en interne et en externe. Chacun de ces échanges pourrait nécessiter un pipeline d'extraction de données personnalisé.

Désormais, avec la GA de Spatial SQL, les tables contenant des colonnes géographiques sont prises en charge par Delta Sharing. L'assureur publie un seul Delta Share contenant les limites des polices d'assurance, et le partenaire de réassurance du souscripteur y accède directement, sans extraction de données ni traduction de schéma. L'accès est régi par les politiques de Unity Catalog et le lignage est suivi.

L'ouverture de Databricks pour la géo s'étend désormais au format de table sous-jacent. Grâce à Spatial SQL, vous pouvez désormais lire et écrire dans des tables Iceberg managées, et lire à partir de tables Iceberg écrites en externe. La prise en charge d'Iceberg v3 sur Databricks est déjà en GA, et s'étend désormais aux types de données géospatiales. Le lakehouse ouvert privilégie les standards plutôt que les silos.

Ce qui est disponible en GA aujourd'hui

Spatial SQL sur Databricks comprend :

  • GEOMETRY (types de données)stockez vos données géospatiales vectorielles dans un type de colonne natif. Les types de données Geometry offriront les meilleures performances pour les requêtes spatiales.

Remarque : Geography restera en Public Preview jusqu'à ce qu'il soit entièrement pris en charge par les fonctions spatiales courantes.

  • Plus de 90 fonctions ST_*fonctions spatiales conformes à l'OGC avec prise en charge de l'importation et de l'exportation de formats courants (WKT, WKB, GeoJSON, EWKT, EWKB), de la mesure, de la construction, des prédicats, des transformations, et plus encore.
  • Opérations et jointures spatiales haute performanceDatabricks Spatial SQL offre des performances de premier plan, avec une amélioration de 20 % à 15x sur la majorité des requêtes SpatialBench depuis la Public Preview.

La plateforme Databricks prend désormais en charge l'utilisation des types de données géospatiales dans :

Ce blog décrit un scénario pour une compagnie d'assurance, mais le contexte géospatial est important dans tous les domaines :

  • Les équipes marketing conçoivent des campagnes en combinant les données démographiques, l'analyse des zones de chalandise et les profils de localisation des clients
  • Les opérateurs de télécommunications planifient l'implantation et la maintenance des antennes en analysant la densité des abonnés, les mesures de couverture et les zones sous-desservies
  • Les détaillants évaluent les nouveaux emplacements de magasins en analysant le chevauchement des zones de chalandise avec les sites existants, les zones d'attraction démographique et la proximité des concurrents
  • Les entreprises agricoles modernes prescrivent une fertilisation et une irrigation à taux variable en analysant les capteurs de sol, les zones de culture et les prévisions météorologiques
  • Les entreprises du secteur de l'énergie et des services publics évaluent le potentiel des sites d'énergies renouvelables en combinant la topographie, les modèles météorologiques et les besoins en infrastructures

L'avenir du géospatial

L'histoire du lakehouse ouvert ne s'arrête pas à la plateforme Databricks. Databricks apporte sa contribution pour intégrer les types GEOMETRY et GEOGRAPHY à Apache Spark 4.2 (prévu pour l'été 2026). Les mêmes types de géométrie et de géographie que vous interrogez aujourd'hui sur Databricks seront disponibles en tant que types de premier ordre pour chaque utilisateur de la communauté Spark.

Partagez vos commentaires avec l'équipe Produit
Si vous souhaitez nous faire part de vos demandes concernant des fonctionnalités supplémentaires de visualisation cartographique, des expressions ST ou toute autre fonctionnalité géospatiale, veuillez remplir ce court formulaire de commentaires.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.