Ir al contenido principal
Producto

Consultas más rápidas y nuevas funcionalidades con el controlador JDBC de Databricks de código abierto

Conecte cualquier herramienta a Databricks, de forma fiable y sencilla, con el controlador JDBC de código abierto de Databricks

por Toussaint Webb, Gopal Lal y Kaitlin Baumgardner

  • Rendimiento: Recuperación de resultados grandes hasta un 30% más rápida en comparación con el controlador JDBC heredado de Databricks
  • Nuevas Capacidades: Soporte para nuevas características, como transacciones de múltiples sentencias, procedimientos almacenados, compatibilidad con Arrow con JDK16+, ejecución asíncrona, vistas de métricas de Unity Catalog, ingesta de volúmenes de UC basada en streams, tipos de datos complejos y tipos de datos Geoespaciales.
  • Conectividad de código abierto a prueba de futuro: Código abierto y propiedad total de Databricks, lo que permite correcciones más rápidas, transparencia del código, contribuciones de código externo e integración más estrecha de la plataforma.

Los flujos de trabajo modernos dependen de una conectividad rápida y fiable a los datos. Ya sea que esté actualizando paneles, analizando datos en hojas de cálculo o potenciando aplicaciones, la capa de conexión impacta directamente en el rendimiento y la experiencia del usuario.

Como parte de nuestros esfuerzos continuos para mejorar la conectividad con Databricks, nos complace compartir las mejoras en el controlador JDBC de código abierto de Databricks. Las versiones 3.x y superiores introducen mejoras significativas para socios y clientes en comparación con el controlador heredado 2.x:

  • Mejor rendimiento: Ofrece una recuperación de resultados grandes hasta un 30% más rápida en comparación con el controlador JDBC heredado.
  • Arquitectura mejorada: Permite nuevas funcionalidades como el soporte de Arrow para JDK 16+, la ejecución asíncrona de sentencias y la ingesta de volúmenes basada en streaming.
  • Nuevas funcionalidades SQL: Se añadió soporte para vistas de métricas de UC, procedimientos almacenados, transacciones de múltiples sentencias y etiquetas de consulta.
  • Observabilidad mejorada: La telemetría del cliente integrada captura la latencia de las consultas, los eventos de conexión y los errores, lo que permite un análisis más rápido de la causa raíz.
  • Conectividad preparada para el futuro: De código abierto y propiedad total de Databricks, lo que permite correcciones más rápidas, transparencia del código, contribuciones de código externas y una integración más estrecha con la plataforma.
Cuando Databricks lanzó su controlador JDBC OSS el año pasado, la migración fue fluida para nosotros. Pudimos mantener la compatibilidad retroactiva mientras obteníamos un acceso más rápido a nuevas funcionalidades, capacidades y correcciones. Eso nos ha ayudado a acortar el tiempo de comercialización y a ofrecer a los clientes un soporte más rápido para las nuevas innovaciones de Databricks, incluida la semántica empresarial de UC. —Jamie Davidson, Presidente y Cofundador, Omni

Mejor rendimiento donde más importa

Para muchas cargas de trabajo de BI y aplicaciones, la recuperación de grandes conjuntos de datos es el mayor cuello de botella de rendimiento. El controlador JDBC OSS mejora significativamente el rendimiento para estos escenarios.

Al devolver resultados de consulta grandes, el nuevo controlador ofrece un rendimiento hasta un 30% más rápido en comparación con el controlador JDBC heredado.

Estas mejoras son especialmente impactantes para las organizaciones que ejecutan análisis operativos o cargas de trabajo de informes de alto volumen en Databricks.

Arquitectura mejorada

El nuevo controlador JDBC de Databricks ha experimentado mejoras en su arquitectura subyacente.

  • Compatibilidad con Arrow para JDK 16+: Soporta la transferencia completa de datos basada en Arrow en JVM modernas sin soluciones alternativas, lo que permite a los clientes y socios mantener Arrow habilitado y beneficiarse de sus mejoras de rendimiento.
  • Interfaz de ejecución asíncrona: Extiende JDBC con una API asíncrona de primera clase, para que las aplicaciones puedan enviar consultas y seguir trabajando mientras se calculan los resultados, lo que permite arquitecturas más receptivas y una mejor utilización de los recursos.
  • Ingesta de volúmenes basada en streaming: Transmite datos en bloque directamente a los volúmenes de Databricks sin staging local, eliminando los cuellos de botella de E/S de disco y haciendo que los flujos de trabajo de ingesta grandes sean más rápidos y sencillos en aplicaciones, pipelines y herramientas ETL.
  • API de ejecución de sentencias: Se integra con la API de ejecución de sentencias de Databricks para permitir la ejecución programática directa de consultas con un control mejorado sobre el ciclo de vida de la ejecución, lo que facilita la creación de aplicaciones receptivas y la automatización de flujos de trabajo.

Capacidades SQL ampliadas para aplicaciones modernas

El nuevo controlador JDBC de Databricks también introduce nuevas funcionalidades que permiten flujos de trabajo más enriquecidos similares a bases de datos e integraciones más sofisticadas.

Las nuevas capacidades incluyen soporte para:

  • Procedimientos almacenados, lo que facilita la encapsulación de la lógica empresarial y la simplificación del desarrollo de aplicaciones
  • Transacciones de múltiples sentencias, lo que permite flujos de trabajo más complejos con garantías transaccionales
  • Vistas de métricas de Unity Catalog, lo que permite a los clientes interactuar sin problemas con su capa semántica en herramientas de terceros
  • Etiquetas de consulta, lo que permite a los usuarios etiquetar y rastrear consultas para mejorar la observabilidad, la atribución de costos y la gestión de cargas de trabajo
  • Tipo de datos geoespaciales, lo que permite el almacenamiento y análisis nativos de datos basados en la ubicación para obtener información y casos de uso espaciales más enriquecidos
  • Tipos de datos complejos, lo que permite el manejo nativo de mapas, matrices y estructuras con semántica familiar similar a Java para un modelado y procesamiento de datos más flexible

Estas funcionalidades ayudan a los equipos a crear mejores aplicaciones que aprovechan al máximo las últimas innovaciones en Databricks.

Mejor observabilidad

El nuevo controlador JDBC OSS de Databricks incluye telemetría de cliente integrada que captura la latencia de las consultas, métricas y errores en tiempo casi real, sin afectar el rendimiento de las consultas. Para clientes y socios, esto se traduce en tiempos de respuesta más rápidos en los casos de soporte, correcciones más precisas y un controlador que mejora mediblemente con el tiempo a medida que los patrones de uso del mundo real informan cada lanzamiento.

Una capa de conectividad más preparada para el futuro

Uno de los mayores beneficios a largo plazo de esta versión es que Databricks posee y mantiene la base de código del controlador JDBC. En comparación con el controlador JDBC heredado, esto significa:

  • Correcciones de errores más rápidas
  • Entrega más rápida de nuevas funcionalidades
  • Mayor alineación con las capacidades de la plataforma
  • Transparencia del código de código abierto y contribuciones de la comunidad

Esto se traduce en una capa de conectividad que evoluciona al mismo ritmo que la propia plataforma Databricks.

Primeros pasos

El controlador JDBC de código abierto de Databricks marca un importante paso adelante para la conectividad con Databricks. Con una arquitectura mejorada, un rendimiento más rápido, capacidades SQL ampliadas y una integración más profunda con la plataforma, puede crear experiencias de datos más fiables en Databricks.

Para ver la lista completa de actualizaciones recientes, revise las últimas notas de la versión, acceda al controlador a través de Maven, o pruebe el nuevo controladoren su entorno hoy mismo.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.