Le meilleur « Data Where-house » est sur Databricks avec une prise en charge géospatiale complète
par Kent Marten
Un ouragan se forme dans le golfe de Floride. En tant qu'assureur, vous devez immédiatement répondre à des questions clés pour l'entreprise : identifier les polices d'assurance situées sur la trajectoire prévue de la tempête, la valeur totale assurée à risque, les comtés les plus exposés et les partenaires de réassurance à informer.
Il n'y a pas si longtemps, répondre à ces questions spatiales impliquait d'assembler plusieurs systèmes : une base de données spatiale pour les intersections, un entrepôt pour les données de police d'assurance et un outil de visualisation cartographiant les résultats à partager avec les analystes et les souscripteurs. Vous auriez même pu répliquer les données de police dans un système externe. Chaque système supplémentaire ajoute du risque, et chaque copie de données fragmente la gouvernance.
Aujourd'hui, le travail spatial peut se faire sur une seule plateforme. Spatial SQL est désormais disponible de manière générale (GA). Databricks est un lakehouse géospatial. L'époque où l'on greffait une base de données spatiale sur un entrepôt, lui-même connecté à un outil de cartographie, est révolue. Stockez vos données sous forme de Geometry dans Iceberg ou Delta, exécutez des requêtes spatiales à grande échelle, appelez plus de 90 fonctions spatiales, partagez-les via Delta Sharing et explorez-les dans Genie, tandis que Unity Catalog gère la gouvernance.
Les clients de Databricks adorent la valeur apportée par la plateforme :
Spatial SQL nous permet de simplifier les charges de travail ETL, de garantir des requêtes performantes et de simplifier les architectures géospatiales complexes en utilisant des types de données entièrement ouverts avec Delta Lake. Nous avons constaté des requêtes 70 % plus rapides tout en débloquant des capacités d'analyse qui n'étaient pas possibles auparavant. S&P Global Energy offre à ses clients une vision complète des marchés mondiaux de l'énergie et des matières premières, créant ainsi une valeur durable à long terme. — Hubert Boguski, Software Engineer II, S&P Global Energy
Face à l'urgence provoquée par l'approche d'un ouragan, chaque seconde compte. C'est pourquoi nous avons continuellement amélioré les performances prêtes à l'emploi des jointures spatiales et des fonctions ST_ depuis la Public Preview. Pour mesurer ces dernières améliorations, nous avons exécuté un benchmark complet à l'aide de SpatialBench. Sur l'ensemble de SpatialBench, 8 des 12 requêtes se sont améliorées depuis la Public Preview, avec des gains allant de 20 % à 15X.
Pour les opérations sur les ensembles booléens (ST_Intersection, ST_Difference, ST_Union), nous avons introduit des algorithmes améliorés. Ces fonctions permettent de répondre à des questions telles que : « Quelles parties de mes parcelles de terrain se trouvent sur la trajectoire prévue de l'ouragan ? » et « Quelle est la couverture combinée de toutes nos antennes relais dans cette zone ? » Databricks est désormais 2 fois plus rapide en moyenne pour le traitement des ensembles de données surfaciques à l'aide de ces opérateurs par rapport aux versions précédentes. Aucun changement de code n'est requis, vos requêtes existantes sont simplement plus rapides.
Ce sont ces opérations spatiales qui optimisent l'efficacité des clients de Databricks comme Top Chrono, spécialisé dans les services de coursier premium et de livraison du dernier kilomètre.
Databricks Spatial SQL a remplacé notre dépendance à des bibliothèques tierces qui étaient difficiles à maintenir et nécessitaient des UDF SQL pour les opérations de base. Aujourd'hui, nous utilisons ST_Transform pour projeter les trajets en Lambert 93 (France) afin d'obtenir des distances précises, ST_Within pour détecter les livraisons entrant dans les zones clients, ST_Union pour fusionner les itinéraires de chauffeurs qui se chevauchent, et bien plus encore. Databricks fournit une boîte à outils spatiale complète et performante qui évolue au rythme de nos opérations de livraison. — Maxime Delobelle, Lead Data Architect, Top Chrono
Pour les questions spatiales, le meilleur moyen de partager les résultats est souvent d'utiliser des cartes. Dans le cadre de la GA de Spatial SQL, AI/BI affiche désormais des cartes à l'aide de colonnes Geometry ou Geography. Plus besoin d'applications personnalisées ou d'outils de cartographie tiers pour visualiser vos données géographiques.
Lorsque le souscripteur ouvre le tableau de bord d'exposition aux ouragans, les polices d'assurance à risque, la trajectoire de l'ouragan et les tracés historiques peuvent tous faire partie du visuel. Vous pouvez filtrer par comté, comparer différentes trajectoires prévues ou segmenter les données comme bon vous semble.
Et le souscripteur n'a pas besoin d'écrire du SQL pour y parvenir. Genie peut générer le bon tableau de bord avec un simple prompt.
Genie raisonne sur les colonnes géospatiales de la même manière que sur n'importe quelle autre colonne. Vous pouvez saisir « Afficher les polices d'assurance dans les comtés de Floride concernés par les prévisions d'ouragan, où la valeur totale assurée est supérieure à 1 million de dollars », et Genie génère la requête spatiale, respecte les filtres de ligne de Unity Catalog et peut produire un tableau de bord avec des cartes selon les besoins.
Les données sur les risques et l'exposition doivent pouvoir être partagées. Les partenaires de réassurance ont besoin des fichiers de cession au niveau des polices. Les agences de gestion des urgences doivent partager des données en interne et en externe. Chacun de ces échanges pourrait nécessiter un pipeline d'extraction de données personnalisé.
Désormais, avec la GA de Spatial SQL, les tables contenant des colonnes géographiques sont prises en charge par Delta Sharing. L'assureur publie un seul Delta Share contenant les limites des polices d'assurance, et le partenaire de réassurance du souscripteur y accède directement, sans extraction de données ni traduction de schéma. L'accès est régi par les politiques de Unity Catalog et le lignage est suivi.
L'ouverture de Databricks pour la géo s'étend désormais au format de table sous-jacent. Grâce à Spatial SQL, vous pouvez désormais lire et écrire dans des tables Iceberg managées, et lire à partir de tables Iceberg écrites en externe. La prise en charge d'Iceberg v3 sur Databricks est déjà en GA, et s'étend désormais aux types de données géospatiales. Le lakehouse ouvert privilégie les standards plutôt que les silos.
Ce qui est disponible en GA aujourd'hui
Spatial SQL sur Databricks comprend :
Remarque : Geography restera en Public Preview jusqu'à ce qu'il soit entièrement pris en charge par les fonctions spatiales courantes.
La plateforme Databricks prend désormais en charge l'utilisation des types de données géospatiales dans :
Ce blog décrit un scénario pour une compagnie d'assurance, mais le contexte géospatial est important dans tous les domaines :
L'histoire du lakehouse ouvert ne s'arrête pas à la plateforme Databricks. Databricks apporte sa contribution pour intégrer les types GEOMETRY et GEOGRAPHY à Apache Spark 4.2 (prévu pour l'été 2026). Les mêmes types de géométrie et de géographie que vous interrogez aujourd'hui sur Databricks seront disponibles en tant que types de premier ordre pour chaque utilisateur de la communauté Spark.
Partagez vos commentaires avec l'équipe Produit
Si vous souhaitez nous faire part de vos demandes concernant des fonctionnalités supplémentaires de visualisation cartographique, des expressions ST ou toute autre fonctionnalité géospatiale, veuillez remplir ce court formulaire de commentaires.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.