El mejor "Data Where-house" está en Databricks con soporte geoespacial completo
por Kent Marten
Un huracán se está formando en el golfo de Florida. Como aseguradora, debe responder de inmediato a preguntas clave para el negocio: identificar las pólizas dentro de las trayectorias proyectadas de la tormenta, el valor total asegurado en riesgo, los condados más expuestos y qué socios de reaseguro deben ser notificados.
No hace mucho, responder a estas preguntas espaciales significaba conectar múltiples sistemas: una base de datos espacial para las intersecciones, un almacén de datos para los datos de las pólizas y una herramienta de visualización para mapear los resultados y compartirlos con analistas y suscriptores. Es posible que incluso haya replicado los datos de las pólizas en un sistema externo. Cada sistema adicional añade riesgo, y cada copia de datos fragmenta la gobernanza.
Hoy en día, el trabajo espacial puede realizarse en una sola plataforma. Spatial SQL ya está disponible de forma general (GA). Databricks es un lakehouse geoespacial. La era de acoplar una base de datos espacial a un almacén de datos y a una herramienta de mapas ha terminado. Almacene datos como Geometry en Iceberg o Delta, ejecute consultas espaciales a escala, llame a más de 90 funciones espaciales, comparta a través de Delta Sharing y explore en Genie, mientras Unity Catalog se encarga de la gobernanza.
A los clientes de Databricks les encanta el valor que ofrece la plataforma:
Spatial SQL nos permite simplificar las cargas de trabajo de ETL, garantizar consultas de alto rendimiento y simplificar arquitecturas geoespaciales complejas utilizando tipos de datos completamente abiertos con Delta Lake. Vimos consultas un 70 % más rápidas al tiempo que desbloqueamos capacidades analíticas que antes no eran posibles. S&P Global Energy empodera a los clientes con una visión integral de los mercados globales de energía y materias primas que crea valor sostenible a largo plazo. — Hubert Boguski, Software Engineer II, S&P Global Energy
Con la presión del tiempo que causa la aproximación de un huracán, cada segundo cuenta. Es por eso que hemos mejorado continuamente el rendimiento listo para usar de los joins espaciales y las funciones ST_ desde la vista previa pública (Public Preview). Para medir las últimas mejoras, realizamos una evaluación comparativa integral utilizando SpatialBench. En todo SpatialBench, 8 de las 12 consultas mejoraron desde la vista previa pública, con ganancias que van desde el 20 % hasta 15 veces más rápidas.
Para las operaciones de conjuntos booleanos (ST_Intersection, ST_Difference, ST_Union) hemos introducido algoritmos mejorados. Estas funciones pueden ayudar a responder preguntas como: “¿Qué partes de mis parcelas de tierra se encuentran dentro de la trayectoria proyectada del huracán?” y “¿Cuál es la cobertura combinada de todas nuestras torres de telefonía móvil en esta área?”. Databricks es ahora el doble de rápido en promedio al trabajar con conjuntos de datos de área utilizando estos operadores en comparación con las versiones anteriores. No se requieren cambios de código, sus consultas existentes ahora son más rápidas.
Estas son las operaciones espaciales que impulsan la eficiencia para clientes de Databricks como Top Chrono, que se especializan en servicios de mensajería premium y entrega de última milla.
Spatial SQL de Databricks reemplazó nuestra dependencia de bibliotecas de terceros que eran difíciles de mantener y requerían UDF de SQL para operaciones básicas. Hoy utilizamos ST_Transform para proyectar viajes en Lambert 93 (Francia) para obtener distancias precisas, ST_Within para detectar entregas que ingresan a las zonas de los clientes, ST_Union para fusionar rutas de conductores superpuestas y más. Databricks proporciona el conjunto de herramientas espaciales completo y de alto rendimiento que escala con nuestra operación de entrega. — Maxime Delobelle, Lead Data Architect, Top Chrono
Para preguntas espaciales, a menudo la mejor manera de compartir los resultados es a través de mapas. Como parte de la disponibilidad general (GA) de Spatial SQL, AI/BI ahora representan mapas utilizando columnas de Geometry o Geography. Se acabaron las aplicaciones personalizadas o las herramientas de mapas de terceros para visualizar sus datos geográficos.
Cuando el suscriptor abre el panel de exposición a huracanes, las pólizas en riesgo, la trayectoria del huracán y los registros históricos pueden formar parte de la visualización. Puede filtrar por condado, comparar diferentes trayectorias pronosticadas o segmentar los datos como mejor le parezca.
Y el suscriptor no tiene que escribir SQL para lograrlo. Genie puede generar el panel adecuado con una sola instrucción (prompt).
Genie razona sobre las columnas geoespaciales de la misma manera que lo hace sobre cualquier otra columna. Puede escribir "Muéstrame las pólizas en los condados de Florida en el pronóstico de huracanes, donde el valor total asegurado sea superior a $1M", y Genie generará la consulta espacial, respetará los filtros de fila de Unity Catalog y podrá producir un panel con mapas según sea necesario.
Los datos de riesgo y exposición deben poder compartirse. Los socios de reaseguro necesitan los archivos de cesión a nivel de póliza. Las agencias de gestión de emergencias necesitan compartir datos de forma interna y externa. Cada uno de esos intercambios podría requerir una canalización de extracción de datos personalizada.
Ahora, con la disponibilidad general (GA) de Spatial SQL, las tablas con columnas geográficas son compatibles con Delta Sharing. La aseguradora publica un único Delta Share que contiene el límite de la póliza, y el socio de reaseguro del suscriptor lee directamente de él, sin extracción de datos ni traducción de esquemas. El acceso está regulado por las políticas de Unity Catalog y se realiza un seguimiento del linaje.
La apertura de Databricks para datos geográficos ahora se extiende al formato de tabla subyacente. Al usar Spatial SQL, ahora puede leer y escribir en tablas administradas de Iceberg, y leer desde tablas de Iceberg escritas externamente. El soporte de Iceberg v3 en Databricks ya está disponible de forma general (GA), y ahora se ha ampliado para admitir tipos de datos geoespaciales. El lakehouse abierto significa estándares en lugar de silos.
Qué está disponible de forma general (GA) hoy
Spatial SQL en Databricks incluye:
Nota: Geography permanecerá en vista previa pública (Public Preview) hasta que sea totalmente compatible con las funciones espaciales comunes.
La plataforma Databricks ahora admite el trabajo con tipos de datos geoespaciales en:
Este blog describe un escenario para una compañía de seguros, pero el contexto geoespacial es importante en todos los dominios:
La historia del lakehouse abierto no se detiene en la plataforma Databricks. Databricks está aportando los tipos GEOMETRY y GEOGRAPHY a Apache Spark 4.2 (previsto para el verano de 2026). La misma geometría y geografía que consulta hoy en Databricks serán los mismos tipos de primer nivel disponibles para todos los usuarios de la comunidad de Spark.
Comparta sus comentarios con el equipo de Producto
Si desea compartir sus solicitudes de requisitos adicionales de visualización de mapas, expresiones ST o cualquier función geoespacial, complete esta breve encuesta de comentarios.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.