Ir para o conteúdo principal
Produto

Consultas Mais Rápidas e Novos Recursos com o Driver JDBC Open-Source Databricks

Conecte qualquer ferramenta ao Databricks, de forma confiável e fácil, com o driver JDBC de código aberto do Databricks

por Toussaint Webb, Gopal Lal e Kaitlin Baumgardner

  • Desempenho: Recuperação de grandes resultados até 30% mais rápida em comparação com o driver JDBC legado do Databricks
  • Novas Capacidades: Suporte para novos recursos, como transações com várias instruções, procedimentos armazenados, compatibilidade com Arrow com JDK16+, execução assíncrona, visualizações de métricas do Unity Catalog, ingestão de volume UC baseada em stream, tipos de dados complexos e tipos de dados geoespaciais.
  • Conectividade de Código Aberto à Prova de Futuro: Código aberto e totalmente de propriedade do Databricks, permitindo correções mais rápidas, transparência de código, contribuições de código externas e integração mais estreita da plataforma.

Fluxos de trabalho modernos dependem de conectividade rápida e confiável aos dados. Seja atualizando dashboards, analisando dados em planilhas ou impulsionando aplicativos, a camada de conexão impacta diretamente o desempenho e a experiência do usuário.

Como parte de nossos esforços contínuos para melhorar a conectividade com o Databricks, estamos entusiasmados em compartilhar melhorias no driver JDBC open-source Databricks. As versões 3.x e superiores introduzem melhorias significativas para parceiros e clientes em comparação com o driver legado 2.x:

  • Melhor desempenho: Oferece recuperação de resultados grandes até 30% mais rápida em comparação com o driver JDBC legado.
  • Arquitetura aprimorada: Habilita novos recursos como suporte Arrow para JDK 16+, execução assíncrona de instruções e ingestão de volume baseada em streaming.
  • Novos recursos SQL: Adicionado suporte para visualizações de métricas do UC, stored procedures, transações multi-instrução e tags de consulta.
  • Observabilidade aprimorada: Telemetria do cliente integrada captura latência de consulta, eventos de conexão e erros, permitindo uma análise mais rápida da causa raiz.
  • Conectividade preparada para o futuro: Open-source e totalmente de propriedade do Databricks, permitindo correções mais rápidas, transparência de código, contribuições externas de código e integração mais estreita com a plataforma.
Quando o Databricks lançou seu driver JDBC OSS no ano passado, a migração foi tranquila para nós. Conseguimos manter a compatibilidade com versões anteriores enquanto obtínhamos acesso mais rápido a novos recursos, capacidades e correções. Isso nos ajudou a reduzir o tempo de lançamento no mercado e a oferecer suporte mais rapidamente a novas inovações do Databricks, incluindo UC Business Semantics, aos clientes. —Jamie Davidson, Presidente e Co-fundador, Omni

Melhor desempenho onde mais importa

Para muitas cargas de trabalho de BI e aplicativos, a recuperação de grandes conjuntos de dados é o maior gargalo de desempenho. O driver JDBC OSS melhora significativamente o desempenho nesses cenários.

Ao retornar grandes resultados de consulta, o novo driver oferece até 30% de desempenho mais rápido em comparação com o driver JDBC legado.

Essas melhorias são especialmente impactantes para organizações que executam análises operacionais ou cargas de trabalho de relatórios de alto volume no Databricks.

Arquitetura Aprimorada

O novo driver JDBC Databricks teve melhorias em sua arquitetura subjacente.

  • Compatibilidade Arrow para JDK 16+: Suporta transferência completa de dados baseada em Arrow em JVMs modernas sem contornos, permitindo que clientes e parceiros mantenham o Arrow habilitado e se beneficiem de seus ganhos de desempenho.
  • Interface de execução assíncrona: Estende o JDBC com uma API assíncrona de primeira classe, para que os aplicativos possam enviar consultas e continuar trabalhando enquanto os resultados são computados, permitindo arquiteturas mais responsivas e melhor utilização de recursos.
  • Ingestão de Volume baseada em Streaming: Transmite dados em lote diretamente para Volumes Databricks sem staging local, removendo gargalos de E/S de disco e tornando fluxos de trabalho de ingestão grandes mais rápidos e fáceis em aplicativos, pipelines e ferramentas ETL.
  • API de Execução de Instruções: Integra-se com a API de Execução de Instruções do Databricks para permitir a execução programática direta de consultas com controle aprimorado sobre o ciclo de vida da execução, facilitando a criação de aplicativos responsivos e a automação de fluxos de trabalho.

Capacidades SQL Expandidas para Aplicativos Modernos

O novo driver JDBC Databricks também introduz novas funcionalidades que permitem fluxos de trabalho mais ricos, semelhantes a bancos de dados, e integrações mais sofisticadas.

Novas capacidades incluem suporte para:

  • Stored procedures, facilitando a encapsulação da lógica de negócios e simplificando o desenvolvimento de aplicativos
  • Transações multi-instrução, permitindo fluxos de trabalho mais complexos com garantias transacionais
  • Visualizações de métricas do Unity Catalog, permitindo que os clientes interajam perfeitamente com sua camada semântica em ferramentas de terceiros
  • Tags de Consulta, permitindo que os usuários rotulem e rastreiem consultas para melhor observabilidade, atribuição de custos e gerenciamento de cargas de trabalho
  • Tipo de dados geoespaciais, permitindo o armazenamento e análise nativos de dados baseados em localização para insights e casos de uso espaciais mais ricos
  • Tipos de dados complexos, permitindo o manuseio nativo de mapas, arrays e structs com semânticas semelhantes às do Java para modelagem e processamento de dados mais flexíveis

Esses recursos ajudam as equipes a criar aplicativos melhores que aproveitam ao máximo as últimas inovações no Databricks.

Melhor observabilidade

O novo driver JDBC OSS Databricks vem com telemetria de cliente integrada que captura latência de consulta, métricas e erros em tempo quase real, sem afetar o desempenho da consulta. Para clientes e parceiros, isso se traduz em tempos de resposta mais rápidos em casos de suporte, correções mais precisas e um driver que melhora mensuravelmente ao longo do tempo, à medida que os padrões de uso do mundo real informam cada lançamento.

Uma camada de conectividade mais preparada para o futuro

Um dos maiores benefícios de longo prazo desta versão é que o Databricks possui e mantém a base de código do driver JDBC. Em comparação com o driver JDBC legado, isso significa:

  • Correções de bugs mais rápidas
  • Entrega mais rápida de novos recursos
  • Maior alinhamento com os recursos da plataforma
  • Transparência do código open-source e contribuições da comunidade

Isso se traduz em uma camada de conectividade que evolui no mesmo ritmo da própria plataforma Databricks.

Primeiros passos

O driver JDBC Databricks open-source marca um passo importante para a conectividade com o Databricks. Com arquitetura aprimorada, desempenho mais rápido, recursos SQL expandidos e integração mais profunda com a plataforma, você pode criar experiências de dados mais confiáveis no Databricks.

Para ver a lista completa de atualizações recentes, revise as notas de lançamento mais recentes, acesse o driver através do Maven, ou experimente o novo driver em seu ambiente hoje mesmo.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.