Passa al contenuto principale
Prodotto

Query più veloci e nuove funzionalità con il driver JDBC Databricks open-source

Connetti qualsiasi strumento a Databricks, in modo affidabile e semplice, con il driver JDBC open-source Databricks

di Toussaint Webb, Gopal Lal e Kaitlin Baumgardner

  • Prestazioni: recupero di risultati di grandi dimensioni fino al 30% più veloce rispetto al driver JDBC Databricks legacy
  • Nuove funzionalità: supporto per nuove funzionalità, come transazioni multi-istruzione, stored procedure, compatibilità arrow con JDK16+, esecuzione asincrona, viste metriche Unity Catalog, ingestione di volumi UC basata su stream, tipi di dati complessi e tipi di dati geospaziali.
  • Connettività open-source a prova di futuro: open-source e interamente di proprietà di Databricks, che consente correzioni più rapide, trasparenza del codice, contributi di codice esterni e una più stretta integrazione della piattaforma.

I flussi di lavoro moderni dipendono da una connettività rapida e affidabile ai dati. Sia che tu stia aggiornando dashboard, analizzando dati in fogli di calcolo o alimentando applicazioni, il livello di connessione influisce direttamente sulle prestazioni e sull'esperienza utente.

Nell'ambito dei nostri continui sforzi per migliorare la connettività a Databricks, siamo entusiasti di condividere i miglioramenti al driver JDBC open-source Databricks. Le versioni 3.x e successive introducono miglioramenti significativi per partner e clienti rispetto al driver legacy 2.x:

  • Prestazioni migliori: Offre un recupero di risultati di grandi dimensioni fino al 30% più veloce rispetto al driver JDBC legacy.
  • Architettura migliorata: Abilita nuove funzionalità come il supporto Arrow per JDK 16+, l'esecuzione asincrona delle istruzioni e l'ingestione di volumi basata su streaming.
  • Nuove funzionalità SQL: Aggiunto il supporto per viste metriche UC, stored procedure, transazioni multi-istruzione e tag di query.
  • Osservabilità migliorata: La telemetria client integrata acquisisce latenza delle query, eventi di connessione ed errori, consentendo un'analisi più rapida della causa principale.
  • Connettività a prova di futuro: Open-source e interamente di proprietà di Databricks, consente correzioni più rapide, trasparenza del codice, contributi di codice esterni e una più stretta integrazione della piattaforma.
Quando Databricks ha rilasciato il suo driver JDBC OSS l'anno scorso, la migrazione è stata per noi senza intoppi. Siamo stati in grado di mantenere la compatibilità con le versioni precedenti ottenendo un accesso più rapido a nuove funzionalità, capacità e correzioni. Ciò ci ha aiutato a ridurre il time-to-market e a portare più rapidamente ai clienti il supporto per le nuove innovazioni di Databricks, inclusi i Business Semantics UC. —Jamie Davidson, President & Co-founder, Omni

Prestazioni migliori dove conta di più

Per molti carichi di lavoro BI e applicativi, il recupero di grandi set di dati rappresenta il maggiore collo di bottiglia prestazionale. Il driver JDBC OSS migliora significativamente le prestazioni per questi scenari.

Quando si restituiscono grandi risultati di query, il nuovo driver offre prestazioni fino al 30% più veloci rispetto al driver JDBC legacy.

Questi miglioramenti sono particolarmente significativi per le organizzazioni che eseguono analisi operative o carichi di lavoro di reporting ad alto volume su Databricks.

Architettura migliorata

Il nuovo driver JDBC Databricks ha visto miglioramenti nell'architettura sottostante.

  • Compatibilità Arrow per JDK 16+: Supporta il trasferimento completo dei dati basato su Arrow su JVM moderni senza workaround, consentendo a clienti e partner di mantenere Arrow abilitato e beneficiare dei suoi vantaggi prestazionali.
  • Interfaccia di esecuzione asincrona: Estende JDBC con un'API asincrona di prima classe, in modo che le applicazioni possano inviare query e continuare a lavorare mentre i risultati vengono elaborati, abilitando architetture più reattive e un migliore utilizzo delle risorse.
  • Ingestione di volumi basata su stream: Trasmette dati in blocco direttamente nei volumi Databricks senza staging locale, eliminando i colli di bottiglia I/O del disco e rendendo i flussi di lavoro di ingestione di grandi dimensioni più veloci e semplici tra app, pipeline e strumenti ETL.
  • API di esecuzione istruzioni: Si integra con l'API di esecuzione istruzioni di Databricks per abilitare l'esecuzione di query diretta e programmatica con un controllo migliorato sul ciclo di vita dell'esecuzione, semplificando la creazione di applicazioni reattive e l'automazione dei flussi di lavoro.

Capacità SQL espanse per applicazioni moderne

Il nuovo driver JDBC Databricks introduce anche nuove funzionalità che abilitano flussi di lavoro più ricchi in stile database e integrazioni più sofisticate.

Le nuove funzionalità includono il supporto per:

  • Stored procedure, che semplificano l'incapsulamento della logica di business e lo sviluppo di applicazioni
  • Transazioni multi-istruzione, che abilitano flussi di lavoro più complessi con garanzie transazionali
  • Viste metriche Unity Catalog, che consentono ai clienti di interagire senza problemi con il proprio livello semantico negli strumenti di terze parti
  • Tag di query, che consentono agli utenti di etichettare e monitorare le query per una migliore osservabilità, attribuzione dei costi e gestione dei carichi di lavoro
  • Tipo di dati geospaziali, che abilita l'archiviazione e l'analisi nativa dei dati basati sulla posizione per insight e casi d'uso spaziali più ricchi
  • Tipi di dati complessi, che abilitano la gestione nativa di mappe, array e struct con semantica familiare in stile Java per una modellazione e un'elaborazione dei dati più flessibili

Queste funzionalità aiutano i team a creare applicazioni migliori che sfruttano appieno le ultime innovazioni in Databricks.

Migliore osservabilità

Il nuovo driver JDBC OSS Databricks include telemetria client integrata che acquisisce in tempo quasi reale latenza delle query, metriche ed errori, senza influire sulle prestazioni delle query. Per clienti e partner, ciò si traduce in tempi di risposta più rapidi per i casi di supporto, correzioni più precise e un driver che migliora misurabilmente nel tempo poiché i modelli di utilizzo del mondo reale informano ogni rilascio.

Un livello di connettività più a prova di futuro

Uno dei maggiori vantaggi a lungo termine di questo rilascio è che Databricks possiede e mantiene il codice sorgente del driver JDBC. Rispetto al driver JDBC legacy, ciò significa:

  • Correzioni di bug più rapide
  • Rilascio più rapido di nuove funzionalità
  • Maggiore allineamento con le capacità della piattaforma
  • Trasparenza del codice open-source e contributi della community

Ciò si traduce in un livello di connettività che si evolve allo stesso ritmo della piattaforma Databricks stessa.

Iniziare

Il driver JDBC Databricks open-source segna un importante passo avanti per la connettività a Databricks. Con un'architettura migliorata, prestazioni più veloci, funzionalità SQL espanse e una più profonda integrazione della piattaforma, puoi creare esperienze dati più affidabili su Databricks.

Per vedere l'elenco completo degli aggiornamenti recenti, consulta le note di rilascio più recenti, accedi al driver tramite Maven, o prova il nuovo driver nel tuo ambiente oggi stesso.

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Ricevi gli ultimi articoli nella tua casella di posta

Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.