Databricks Labs

Les Databricks Labs sont des projets créés par le terrain pour aider les clients à placer leurs cas d'usage en production plus rapidement !

DQX

Vérification de la qualité des données simplifiée à grande échelle pour les charges de travail PySpark sur des DataFrames en streaming et standard.

Sources GitHub →

Documentation →

Kasal

Kasal est une solution interactive low-code pour créer et déployer des agents IA sur la plateforme Databricks.

Sources Github →

Documentation →

Lakebridge

Lakebridge est la plateforme de migration de Databricks, conçue pour offrir aux entreprises une solution complète de bout en bout pour moderniser les entrepôts de données hérités et les systèmes ETL. Lakebridge prend en charge un large éventail de plateformes sources — dont Teradata, Oracle, Snowflake, SQL Server, Informatica, et plus encore — et automatise chaque étape du processus de migration, de la découverte et de l’évaluation à la conversion du code, au déplacement des données et à la validation, garantissant une transition rapide et à faible risque pour les organisations qui souhaitent stimuler l’innovation et améliorer l’efficacité de leur environnement de données.

Sources GitHub →

Documentation →

Blog →

Autres projets

Databricks MCP

Une collection de serveurs MCP pour aider les agents AI à récupérer des données d’entreprise depuis Databricks et à automatiser des tâches de développement courantes sur Databricks.

Sources Github →

Application d'agent conversationnel

Application avec une interface de chat alimentée par les API Databricks Genie Conversation, conçue spécifiquement pour s’exécuter en tant que Databricks App.

Sources Github →

Application d'assistant conversationnel de connaissances

Exemple d’application de chatbot Databricks Knowledge Assistant.

Sources Github →

Application du registre des caractéristiques

L’application offre une interface simple d’utilisation pour explorer les fonctionnalités existantes dans Unity Catalog. De plus, les utilisateurs peuvent générer du code pour créer des spécifications de caractéristiques et des jeux d’entraînement, entraîner des modèles de machine learning, puis déployer ces caractéristiques sous forme de points de terminaison de diffusion de caractéristiques.

Sources Github →

Mosaic

Mosaic est un outil qui simplifie la mise en place de flux de données géospatiales évolutifs en réunissant des bibliothèques géospatiales open source populaires et Apache Spark™️. Mosaic fournit aussi un ensemble d’exemples et de bonnes pratiques pour des cas d’usage géospatiaux courants. Il fournit des API pour les expressions ST_ et GRID_, avec prise en charge de systèmes d'indexation de grille tels que H3 et British National Grid.

Sources GitHub →

Documentation →

Blog →

DLT-META

Cette solution facilite l’ingestion de données grâce à Delta Live Tables et aux métadonnées. Avec DLT-META, un seul ingénieur des données peut gérer facilement des milliers de tables. Plusieurs clients Databricks ont DLT-META en production pour traiter plus de 1 000 tables.

Sources GitHub →
En savoir plus →

Smolder

Smolder fournit une source de données Apache Spark™ SQL pour le chargement des données EHR (Electronic Health Records) à partir des formats de message HL7v2. En outre, Smolder fournit des fonctions d'aide qui peuvent être utilisées sur un DataFrame SQL Spark pour analyser le texte du message HL7 et pour extraire des segments, des champs et des sous-zones d'un message.

Sources Github →
En savoir plus →

Geoscan

Estimateur ML d'Apache Spark pour le clustering spatial de densité basé sur des Indices spatiaux hiérarchiques hexagonaux.

Sources GitHub →
En savoir plus →

Migrer

Outil pour aider les clients à migrer les artefacts entre les workspaces Databricks. Il permet aux clients d'exporter les configurations et les artefacts de code en tant que sauvegarde ou dans le cadre d'une migration vers un workspace différent.

Sources GitHub
En savoir plus: AWS | Azure

Générateur de données

Générez rapidement des données pertinentes pour vos projets. Le générateur de données Databricks peut être utilisé pour générer de grands ensembles de données simulées / synthétiques pour des tests ou encore pour des POC

Sources GitHub →
En savoir plus →

DeltaOMS

Collecte centralisée des journaux de transactions Delta pour l'analyse des métadonnées et des mesures opérationnelles de votre Lakehouse.

Sources GitHub →
En savoir plus →

Intégration de Splunk

Extension pour Splunk, une application qui permet aux utilisateurs de Splunk Enterprise et de Splunk Cloud de lancer des requêtes et d'exécuter des actions dans Databricks, telles que l'exécution de notebooks et de tâches.

Sources GitHub →
En savoir plus →

DiscoverX

DiscoverX automatise les tâches d’administration qui nécessitent d’examiner ou d’exécuter des actions sur un grand nombre de ressources Lakehouse.

Sources Github →

brickster

{brickster} est le kit R pour Databricks. Il comprend :

Adaptateurs pour les API Databricks (p. ex. db_cluster_list, db_volume_read)
Parcourez les ressources de l’espace de travail via le volet RStudio Connections (open_workspace())
Rend disponible le databricks-sql-connector via {reticulate} (documentation)
REPL interactif de Databricks

Code source sur GitHub →
Documentation →
Blog →

DBX

Cet outil simplifie le processus de lancement et de déploiement de tâches dans plusieurs environnements. Il permet également de packager votre projet et de le livrer à votre environnement Databricks en respectant les versions. Conçu d'abord par ILD, il est fait pour être utilisé activement à la fois à l'intérieur des pipelines CI / CD et dans le cadre de l'outillage local pour un prototypage rapide.

Sources GitHub →
Documentation →
Blog →

Tempo

L'objectif de ce projet est de fournir une API pour manipuler des séries chronologiques en plus d'Apache Spark. La fonctionnalité inclut l'utilisation de valeurs temporelles retardées, de statistiques glissantes (moyenne, somme, nombre, etc.), de jointures « depuis » (AS OF joints), de réduction de la fréquence d'échantillonnage et d'interpolation. Elle a été testé sur des TO de données historiques.

Sources GitHub →
Documentation →
Webinaire →

Plug-in PyLint

Ce plugin ajoute à PyLint des vérifications pour détecter les erreurs et problèmes courants dans le code Python, spécifiquement dans l’environnement Databricks.

Sources GitHub →
Documentation →

PyTester

PyTester est un moyen puissant de gérer la préparation et le nettoyage des tests en Python. Cette bibliothèque fournit un ensemble de fixtures pour vous aider à écrire des tests d’intégration pour Databricks.

Sources GitHub →
Documentation →

Connecteur Java Delta Sharing

Le connecteur Java suit le protocole Delta Sharing pour lire des tables partagées depuis un serveur Delta Sharing. Pour réduire davantage les coûts de sortie de données côté fournisseur de données, nous avons mis en place un cache persistant afin d’éviter les lectures inutiles.

Sources GitHub →

Documentation →

Surveillance

Analysez l'ensemble de vos tâches et clusters dans tous vos workspaces afin d'identifier rapidement les points sur lesquels vous pouvez apporter les principaux ajustements pour gagner en performance et faire des économies.

En savoir plus →

UCX

UCX est une boîte à outils permettant d’activer Unity Catalog (UC) dans votre espace de travail Databricks. UCX fournit des commandes et des flux de travail pour migrer des tables et des vues vers UC. UCX permet de réécrire des tableaux de bord, des jobs et des notebooks afin d’utiliser les ressources de données migrées dans UC. Et de nombreuses autres fonctionnalités.

Sources GitHub →

Documentation →

Blog →

Veuillez noter que tous les projets du compte https://github.com/databrickslabs ne sont fournis qu'à titre d'exemples, et ne sont pas officiellement pris en charge par Databricks dans le cadre d'accords de niveau de service (SLA). Ils sont fournis en l'état et nous ne donnons aucune garantie d'aucune sorte. Tout problème détecté lors de l'utilisation de ce projet doit être signalé en tant que problème GitHub dans le répertoire. Il sera alors examiné lorsque le planning le permettra, mais il n'existe aucun SLA formel pour l'assistance.