Revenir au contenu principal
Produit

Des requêtes plus rapides et de nouvelles capacités avec le pilote JDBC open source Databricks

Connectez n'importe quel outil à Databricks, de manière fiable et facile, avec le pilote JDBC open source Databricks

par Toussaint Webb, Gopal Lal et Kaitlin Baumgardner

  • Performances : Jusqu'à 30 % plus rapide pour la récupération de grands ensembles de résultats par rapport au pilote JDBC Databricks hérité
  • Nouvelles fonctionnalités : Prise en charge de nouvelles fonctionnalités, telles que les transactions multi-instructions, les procédures stockées, la compatibilité Arrow avec JDK16+, l'exécution asynchrone, les vues de métriques Unity Catalog, l'ingestion de volumes UC basée sur des flux, les types de données complexes et les types de données géospatiales.
  • Connectivité open source et pérenne : Open source et entièrement détenu par Databricks, permettant des corrections plus rapides, la transparence du code, les contributions de code externes et une intégration plus étroite de la plateforme.

Les workflows modernes dépendent d'une connectivité rapide et fiable aux données. Que vous actualisiez des tableaux de bord, analysiez des données dans des feuilles de calcul ou alimentiez des applications, la couche de connexion a un impact direct sur les performances et l'expérience utilisateur.

Dans le cadre de nos efforts continus pour améliorer la connectivité à Databricks, nous sommes ravis de partager les améliorations apportées au pilote JDBC open source Databricks. Les versions 3.x et supérieures introduisent des améliorations significatives pour les partenaires et les clients par rapport à l'ancien pilote 2.x :

  • Meilleures performances : Offre une récupération de résultats volumineux jusqu'à 30 % plus rapide que l'ancien pilote JDBC.
  • Architecture améliorée : Permet de nouvelles capacités telles que la prise en charge d'Arrow pour JDK 16+, l'exécution asynchrone d'instructions et l'ingestion de volumes basée sur le streaming.
  • Nouvelles fonctionnalités SQL : Prise en charge ajoutée des vues de métriques UC, des procédures stockées, des transactions multi-instructions et des balises de requête.
  • Observabilité améliorée : La télémétrie client intégrée capture la latence des requêtes, les événements de connexion et les erreurs, permettant une analyse plus rapide des causes profondes.
  • Connectivité à l'épreuve du temps : Open source et entièrement détenu par Databricks, permettant des corrections plus rapides, la transparence du code, des contributions de code externes et une intégration plus étroite de la plateforme.
Lorsque Databricks a publié son pilote JDBC OSS l'année dernière, la migration a été transparente pour nous. Nous avons pu maintenir la compatibilité ascendante tout en accédant plus rapidement aux nouvelles fonctionnalités, capacités et corrections. Cela nous a aidés à réduire le temps de mise sur le marché et à offrir plus rapidement à nos clients la prise en charge des nouvelles innovations Databricks, y compris UC Business Semantics. —Jamie Davidson, Président & Co-fondateur, Omni

De meilleures performances là où cela compte le plus

Pour de nombreuses charges de travail BI et applicatives, la récupération de grands ensembles de données est le principal goulot d'étranglement en termes de performances. Le pilote JDBC OSS améliore considérablement les performances pour ces scénarios.

Lors du renvoi de résultats de requêtes volumineux, le nouveau pilote offre des performances jusqu'à 30 % plus rapides par rapport à l' ancien pilote JDBC.

Ces améliorations sont particulièrement importantes pour les organisations exécutant des analyses opérationnelles ou des charges de travail de reporting à grand volume sur Databricks.

Architecture améliorée

Le nouveau pilote JDBC Databricks a bénéficié d'améliorations dans son architecture sous-jacente.

  • Compatibilité Arrow pour JDK 16+ : Prend en charge le transfert de données entièrement basé sur Arrow sur les JVM modernes sans contournements, permettant aux clients et partenaires de maintenir Arrow activé et de bénéficier de ses gains de performance.
  • Interface d'exécution asynchrone : Étend JDBC avec une API asynchrone de première classe, de sorte que les applications peuvent soumettre des requêtes et continuer à travailler pendant que les résultats sont calculés, permettant des architectures plus réactives et une meilleure utilisation des ressources.
  • Ingestion de volumes basée sur le streaming : Diffuse des données en masse directement dans les Volumes Databricks sans mise en scène locale, éliminant les goulots d'étranglement d'E/S disque et rendant les workflows d'ingestion volumineux plus rapides et plus faciles à travers les applications, les pipelines et les outils ETL.
  • API d'exécution d'instructions : S'intègre à l'API d'exécution d'instructions de Databricks pour permettre l'exécution directe et programmatique de requêtes avec un contrôle amélioré sur le cycle de vie de l'exécution, facilitant la création d'applications réactives et l'automatisation des workflows.

Capacités SQL étendues pour les applications modernes

Le nouveau pilote JDBC Databricks introduit également de nouvelles fonctionnalités qui permettent des workflows de type base de données plus riches et des intégrations plus sophistiquées.

Les nouvelles capacités incluent la prise en charge de :

  • Procédures stockées, facilitant l'encapsulation de la logique métier et la simplification du développement d'applications
  • Transactions multi-instructions, permettant des workflows plus complexes avec des garanties transactionnelles
  • Vues de métriques Unity Catalog, permettant aux clients d'interagir de manière transparente avec leur couche sémantique dans des outils tiers
  • Balises de requête, permettant aux utilisateurs d'étiqueter et de suivre les requêtes pour une meilleure observabilité, attribution des coûts et gestion des charges de travail
  • Type de données géospatiales, permettant le stockage et l'analyse natifs des données basées sur la localisation pour des informations spatiales et des cas d'utilisation plus riches
  • Types de données complexes, permettant la gestion native des cartes, des tableaux et des structs avec une sémantique de style Java familière pour une modélisation et un traitement des données plus flexibles

Ces fonctionnalités aident les équipes à créer de meilleures applications qui tirent pleinement parti des dernières innovations de Databricks.

Meilleure observabilité

Le nouveau pilote JDBC OSS Databricks est livré avec une télémétrie client intégrée qui capture la latence des requêtes, les métriques et les erreurs en temps quasi réel, sans affecter les performances des requêtes. Pour les clients et les partenaires, cela se traduit par un traitement plus rapide des cas de support, des corrections plus précises et un pilote qui s'améliore de manière mesurable au fil du temps, à mesure que les modèles d'utilisation réels informent chaque version.

Une couche de connectivité plus pérenne

L'un des plus grands avantages à long terme de cette version est que Databricks possède et maintient la base de code du pilote JDBC. Par rapport à l'ancien pilote JDBC, cela signifie :

  • Corrections de bugs plus rapides
  • Livraison plus rapide de nouvelles fonctionnalités
  • Meilleure adéquation avec les capacités de la plateforme
  • Transparence du code open source et contributions de la communauté

Cela se traduit par une couche de connectivité qui évolue au même rythme que la plateforme Databricks elle-même.

Pour commencer

Le pilote JDBC open source Databricks marque une avancée importante pour la connectivité à Databricks. Grâce à une architecture améliorée, des performances plus rapides, des capacités SQL étendues et une intégration plus poussée de la plateforme, vous pouvez créer des expériences de données plus fiables sur Databricks.

Pour consulter la liste complète des mises à jour récentes, examinez les dernières notes de version, accédez au pilote via Maven, ou essayez le nouveau pilote dans votre environnement dès aujourd'hui.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.