Databricks SQL sigue evolucionando con nuevas funciones y mejoras de rendimiento diseñadas para que sea más simple, más rápido y más rentable. Basado en la arquitectura lakehouse dentro de la Databricks Data Intelligence Platform, más de 11,000 clientes confían en él para potenciar sus cargas de trabajo de datos.
En este blog, abordaremos las actualizaciones clave de los últimos tres meses, incluido nuestro reconocimiento en el Magic Quadrant™ de Gartner® de 2024 para sistemas de gestión de bases de datos en la nube, mejoras en AI/BI, experiencias inteligentes, administración y mucho más.
Databricks le da la bienvenida a BladeBridge, un proveedor consolidado de soluciones de migración impulsadas por IA para almacenes de datos empresariales. Juntos, Databricks y BladeBridge ayudarán a las empresas a acelerar el trabajo necesario para migrar los data warehouses heredados, como Oracle, SQL Server, Snowflake y Redshift, a Databricks SQL (DBSQL), el data warehouse creado sobre el lakehouse de Databricks, que define su categoría. BladeBridge proporcionará a los clientes una visión clara del alcance de la conversión, transpilación de código configurable, conversión impulsada por LLM y una validación sencilla de los sistemas migrados.
BladeBridge proporciona un enfoque mejorado con IA para migrar más de 20 data warehouses y herramientas de ETL heredados (entre ellos, Teradata, Oracle, Snowflake, SQL Server, Amazon Redshift, Azure Synapse Analytics y Hive) más de un 50 % más rápido que los enfoques tradicionales. Para obtener más información, lea el blog del anuncio.

Nos centramos en hacer que la experiencia del analista de SQL sea más intuitiva, eficiente y atractiva. Al incorporar la IA en todos nuestros productos, puede dedicar menos tiempo a las tareas repetitivas y más tiempo al trabajo de alto valor.
Desde el lanzamiento de AI/BI en otoño de 2024, hemos lanzado nuevas funciones en Genie y Dashboards, y hay más en camino. Las actualizaciones recientes de Dashboard incluyen lo siguiente:
Para Genie, hemos mejorado:
Profundice en las nuevas actualizaciones de AI/BI.
Mejoramos constantemente la experiencia de creación de SQL para ayudarte a trabajar de manera más eficiente. Una de las actualizaciones más importantes del último trimestre fue la compatibilidad de Git para las consultas, que facilita el control de versiones de su SQL y la integración con las canalizaciones de CI/CD.
*La compatibilidad con Git para consultas está disponible cuando se activa el nuevo editor de SQL.
También hemos añadido nuevas funciones para optimizar su flujo de trabajo:
Las optimizaciones predictivas utilizan la IA para administrar automáticamente el rendimiento de todas tus cargas de trabajo. Mejoramos y agregamos funciones constantemente en esta área para eliminar la necesidad de realizar ajustes manuales en toda la plataforma.
El data lakehouse utiliza dos tipos distintos de estadísticas: estadísticas de omisión de datos (también conocidas como estadísticas Delta) y estadísticas del optimizador de consultas. Las estadísticas de omisión de datos se recopilan automáticamente, pero a medida que los datos crecen y el uso se diversifica, determinar cuándo ejecutar el comando ANALYZE se vuelve complejo. También tienes que mantener activamente las estadísticas del optimizador de consultas.
Nos complace presentar la Public Preview restringida de la optimización predictiva para estadísticas. La optimización predictiva ya está disponible de forma general como un enfoque basado en la IA para optimizar los procesos de optimización. Actualmente, esta característica admite tareas esenciales de diseño y limpieza de datos, y los primeros comentarios de los usuarios destacan su eficacia para simplificar el mantenimiento rutinario de los datos. Con la incorporación de la gestión automática de estadísticas, la optimización predictiva aporta valor y simplifica las operaciones mediante los siguientes avances:
Utilizar estadísticas actualizadas mejora significativamente el rendimiento y el costo total de propiedad (TCO). El análisis comparativo de la ejecución de consultas con y sin estadísticas reveló un aumento promedio del rendimiento del 22 % en las cargas de trabajo observadas. Databricks aplica estas estadísticas para refinar los procesos de escaneo de datos y seleccionar el plan de ejecución de consultas más eficiente. Este enfoque es un ejemplo de las capacidades de la plataforma de inteligencia de datos para ofrecer un valor tangible a los usuarios.
Para obtener más información, lea este blog.
El motor de consultas se sigue optimizando para escalar los costos de computación de forma casi lineal con el volumen de datos. Nuestro objetivo es un rendimiento cada vez mejor en un mundo de concurrencia cada vez mayor, con una latencia cada vez menor.
Databricks SQL ha experimentado una notable mejora del rendimiento del 77 % desde su lanzamiento en 2022, lo que ofrece consultas de BI más rápidas, dashboards más receptivos y una exploración de datos más ágil. Solo en los últimos 5 meses del año, las cargas de trabajo de BI son un 14 % más rápidas, los trabajos de ETL se completan un 9 % más rápido y las cargas de trabajo de exploración han mejorado un 13 %. Además, lanzamos características de simultaneidad mejoradas y compresión avanzada en versión preliminar privada, lo que garantiza que ahorre tiempo y costos.
Por cuarto año consecutivo, Databricks ha sido nombrado Líder en el Magic Quadrant™ de Gartner® de 2024 para sistemas de gestión de bases de datos en la nube. Este año, hemos avanzado tanto en la Capacidad de Ejecución como en la Integridad de nuestra Visión. La evaluación abarcó la Plataforma de Inteligencia de Datos de Databricks en AWS, Google Cloud y Azure, junto con otros 19 proveedores.
Estamos ampliando las capacidades para ayudar a los administradores del espacio de trabajo a configurar y gestionar los almacenes de SQL, incluidas las tablas del sistema y un nuevo gráfico para solucionar problemas de rendimiento del almacén.
Para darte visibilidad de cómo tu organización utiliza Databricks, puedes usar los datos de facturación y costos en tus tablas de sistema. Para facilitar eso, ahora tenemos un panel de costos de AI/BI predefinido. El panel organiza tus datos de consumo utilizando las mejores prácticas de etiquetado y te ayuda a crear presupuestos para gestionar tus gastos a nivel de organización, unidad de negocio o proyecto. Luego, puedes configurar alertas de presupuesto para cuando excedas el presupuesto (y rastrear qué proyecto/carga de trabajo/usuario superó el gasto).
Para obtener más información, consulte este blog sobre gestión de costos.
Recomendamos las tablas del sistema para observar detalles esenciales sobre su cuenta de Databricks, incluida la información de costos, el acceso a los datos, el rendimiento de la carga de trabajo, etc. Específicamente, son tablas propiedad de Databricks a las que puede acceder desde varias superficies, normalmente con baja latencia.
La tabla del sistema de almacenes (tabla system.compute.warehouses) registra cuándo se crean, editan y eliminan los almacenes de SQL. Puede usar la tabla para supervisar los cambios en la configuración del almacén, incluidos el nombre del almacén, el tipo, el tamaño, el canal, las etiquetas, la detención automática y la configuración de escalado automático. Cada fila es una instantánea de las propiedades de un almacén de SQL en un momento específico. Se crea una nueva instantánea cuando cambian las propiedades. Para obtener más detalles, consulte la referencia de la tabla de sistema de almacenes. Esta característica está en versión preliminar pública.
La tabla del historial de consultas (system. query.history) incluye registros de consultas ejecutadas con almacenes de SQL o proceso sin servidor para notebooks y trabajos. La tabla consta de registros de toda la cuenta de todas las áreas de trabajo en la misma región desde la que se accede a la tabla. Esta característica está en versión preliminar pública.
Para obtener más detalles, consulte la referencia de la tabla del sistema de historial de consultas.
Un gráfico de recuento de consultas completadas (versión preliminar pública) ya está disponible en la UI de supervisión de SQL Warehouse. Este nuevo gráfico muestra el número de consultas finalizadas en una ventana de tiempo. El gráfico se puede utilizar junto con el gráfico de picos de consultas y clústeres en ejecución para visualizar los cambios en el rendimiento del almacén a medida que los clústeres se activan o desactivan en función del tráfico de su carga de trabajo y la configuración del almacén. Para obtener más información, consulte Supervisar un SQL Warehouse.
La disponibilidad y el cumplimiento se amplían para los warehouses de Databricks SQL Serverless.
Estas características para Databricks SQL forman parte de Databricks Data Intelligence Platform. Databricks SQL se beneficia de las capacidades de la plataforma de simplicidad, gobierno unificado y apertura de la arquitectura de lakehouse. A continuación, se presentan algunas funciones nuevas de la plataforma que benefician a Databricks SQL.
Crear aplicaciones empresariales globales implica manejar diversos idiomas y una entrada de datos incoherente. Las intercalaciones optimizan el procesamiento de datos al definir reglas para ordenar y comparar texto de forma que se respete el idioma y la distinción entre mayúsculas y minúsculas. Las intercalaciones hacen que las bases de datos reconozcan el idioma y el contexto, lo que garantiza que gestionen el texto como esperan los usuarios.
Estamos muy contentos de que las intercalaciones ya estén disponibles en versión preliminar pública con Databricks SQL. Lea el blog sobre intercalaciones para obtener más detalles.
Las vistas materializadas (MV) y las tablas de streaming (ST) ya están disponibles de forma general en Databricks SQL en AWS, Azure y GCP. Las tablas de streaming ofrecen una ingesta sencilla e incremental desde fuentes como el almacenamiento en la nube y los buses de mensajes con solo unas pocas líneas de SQL. Las vistas materializadas precalculan y actualizan de forma incremental los resultados de las consultas para que sus paneles y consultas puedan ejecutarse de forma mucho más rápida que antes. Juntas, te permiten crear canalizaciones de datos eficientes y escalables usando SQL, desde la ingesta hasta la transformación.
Para más información, lee la publicación del blog sobre el anuncio de MV y ST.
Introdujimos la sintaxis EVERY para programar las actualizaciones de MV y ST usando DDL. EVERY simplifica la programación basada en el tiempo, eliminando la necesidad de escribir expresiones CRON complejas. Para los usuarios que necesitan más flexibilidad, se seguirá admitiendo la programación con CRON.
Para obtener más información, lea la documentación de ALTER MATERIALIZED VIEW, ALTER STREAMING TABLE, CREATE MATERIALIZED VIEW y CREATE STREAMING TABLE.
Ahora puede usar time travel para consultar versiones anteriores de la tabla de streaming basadas en marcas de tiempo o versiones de la tabla (tal y como se registran en el registro de transacciones). Es posible que tenga que actualizar su tabla de streaming antes de usar las consultas de time travel.
Las consultas de viaje en el tiempo no se admiten para las vistas materializadas.
El historial de consultas y el perfil de consulta ahora cubren las consultas ejecutadas a través de una canalización DLT. Además, se han mejorado los insights de las consultas para las vistas materializadas (MV) y las tablas de streaming (ST) de Databricks SQL. Se puede acceder a estas consultas desde la página Historial de consultas junto con las consultas ejecutadas en SQL Warehouses y Serverless Compute. También se enumeran en el contexto de la UI de Pipeline, los Notebooks y el editor de SQL.
Esta característica está disponible en Vista Previa Pública. Para obtener más detalles, consulte Acceder al historial de consultas de las canalizaciones de Delta Live Table.
Los destinatarios de Databricks ahora pueden consultar vistas compartidas usando cualquier recurso de computación de Databricks. Anteriormente, si la cuenta de Azure Databricks de un destinatario difería de la del proveedor, los destinatarios solo podían consultar una vista compartida mediante un almacén de SQL sin servidor. Consulta Leer vistas compartidas.
El uso compartido de vistas ahora también se extiende a los conectores de uso compartido abierto. Consulta Leer datos compartidos mediante el uso compartido abierto de Delta Sharing (para destinatarios).
Esta funcionalidad ya está en versión preliminar pública.
Esperamos que disfrute de esta gran cantidad de innovaciones en Databricks SQL. Siempre puede consultar esta publicación de novedades de los tres meses anteriores. A continuación se muestra un inventario completo de los lanzamientos sobre los que hemos publicado en el blog durante el último trimestre:
Como siempre, seguimos trabajando para ofrecerle aún más características geniales. Esté atento a los seminarios web trimestrales sobre la hoja de ruta para saber qué se avecina para el almacenamiento de datos y AI/BI. Es un momento emocionante para trabajar con datos, y estamos encantados de asociarnos con arquitectos de datos, analistas, analistas de BI y otros para democratizar los datos y la IA dentro de sus organizaciones.
Este es un breve adelanto de las funciones en las que estamos trabajando. Ninguna de estas funciones tiene plazos confirmados todavía, así que aún no podemos compartir fechas. :-)
Los clientes de todos los tamaños pueden reducir significativamente los costos y disminuir los riesgos al modernizar su infraestructura de datos y abandonar las plataformas patentadas, costosas y aisladas que han definido la historia del almacenamiento de datos. Estamos trabajando para ampliar las herramientas gratuitas que te ayudarán a analizar lo que se necesitaría para migrar desde tu almacén de datos actual a Databricks SQL y a convertir tu código para aprovechar las nuevas características de Databricks SQL.
El rendimiento es fundamental al cargar paneles de inteligencia de negocios. Estamos mejorando la latencia de las consultas de BI cada trimestre para que pueda potenciar sus herramientas de BI favoritas, como Power BI, Tableau, Looker y Sigma, con Databricks SQL.
Estamos invirtiendo en más características y herramientas para ayudarlo a administrar y supervisar fácilmente su almacén. Esto incluye mejoras en la tabla del sistema, cambios a través de la UI y nuestras API.
Para obtener más información sobre Databricks SQL, visita nuestro sitio web o lee la documentación. También puedes consultar el recorrido del producto de Databricks SQL. Supongamos que quieres migrar tu almacén de datos existente a un almacén de datos serverless de alto rendimiento con una excelente experiencia de usuario y un menor costo total. En ese caso, Databricks SQL es la solución — pruébelo gratis.
Para participar en versiones preliminares privadas o públicas restringidas, póngase en contacto con su equipo de cuenta de Databricks.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Produto
June 12, 2024/11 min de leitura

