Databricks Labs
Les Databricks Labs sont des projets créés par le terrain pour aider les clients à placer leurs cas d'usage en production plus rapidement !
DQX
Vérification de la qualité des données simplifiée à grande échelle pour les charges de travail PySpark sur des DataFrames en streaming et standard.
Kasal
Kasal est une solution interactive low-code pour créer et déployer des agents IA sur la plateforme Databricks.
Lakebridge
Lakebridge est la plateforme de migration de Databricks, conçue pour offrir aux entreprises une solution complète de bout en bout pour moderniser les entrepôts de données hérités et les systèmes ETL. Lakebridge prend en charge un large éventail de plateformes sources — dont Teradata, Oracle, Snowflake, SQL Server, Informatica, et plus encore — et automatise chaque étape du processus de migration, de la découverte et de l’évaluation à la conversion du code, au déplacement des données et à la validation, garantissant une transition rapide et à faible risque pour les organisations qui souhaitent stimuler l’innovation et améliorer l’efficacité de leur environnement de données.
Autres projets
Databricks MCP
Une collection de serveurs MCP pour aider les agents AI à récupérer des données d’entreprise depuis Databricks et à automatiser des tâches de développement courantes sur Databricks.
Application d'agent conversationnel
Application avec une interface de chat alimentée par les API Databricks Genie Conversation, conçue spécifiquement pour s’exécuter en tant que Databricks App.
Application d'assistant conversationnel de connaissances
Exemple d’application de chatbot Databricks Knowledge Assistant.
Application du registre des caractéristiques
L’application offre une interface simple d’utilisation pour explorer les fonctionnalités existantes dans Unity Catalog. De plus, les utilisateurs peuvent générer du code pour créer des spécifications de caractéristiques et des jeux d’entraînement, entraîner des modèles de machine learning, puis déployer ces caractéristiques sous forme de points de terminaison de diffusion de caractéristiques.
Mosaic
Mosaic est un outil qui simplifie la mise en place de flux de données géospatiales évolutifs en réunissant des bibliothèques géospatiales open source populaires et Apache Spark™️. Mosaic fournit aussi un ensemble d’exemples et de bonnes pratiques pour des cas d’usage géospatiaux courants. Il fournit des API pour les expressions ST_ et GRID_, avec prise en charge de systèmes d'indexation de grille tels que H3 et British National Grid.
DLT-META
Cette solution facilite l’ingestion de données grâce à Delta Live Tables et aux métadonnées. Avec DLT-META, un seul ingénieur des données peut gérer facilement des milliers de tables. Plusieurs clients Databricks ont DLT-META en production pour traiter plus de 1 000 tables.
Smolder
Smolder fournit une source de données Apache Spark™ SQL pour le chargement des données EHR (Electronic Health Records) à partir des formats de message HL7v2. En outre, Smolder fournit des fonctions d'aide qui peuvent être utilisées sur un DataFrame SQL Spark pour analyser le texte du message HL7 et pour extraire des segments, des champs et des sous-zones d'un message.
Geoscan
Estimateur ML d'Apache Spark pour le clustering spatial de densité basé sur des Indices spatiaux hiérarchiques hexagonaux.
Migrer
Outil pour aider les clients à migrer les artefacts entre les workspaces Databricks. Il permet aux clients d'exporter les configurations et les artefacts de code en tant que sauvegarde ou dans le cadre d'une migration vers un workspace différent.
Sources GitHub
En savoir plus: AWS | Azure
Générateur de données
Générez rapidement des données pertinentes pour vos projets. Le générateur de données Databricks peut être utilisé pour générer de grands ensembles de données simulées / synthétiques pour des tests ou encore pour des POC
DeltaOMS
Collecte centralisée des journaux de transactions Delta pour l'analyse des métadonnées et des mesures opérationnelles de votre Lakehouse.
Intégration de Splunk
Extension pour Splunk, une application qui permet aux utilisateurs de Splunk Enterprise et de Splunk Cloud de lancer des requêtes et d'exécuter des actions dans Databricks, telles que l'exécution de notebooks et de tâches.
DiscoverX
DiscoverX automatise les tâches d’administration qui nécessitent d’examiner ou d’exécuter des actions sur un grand nombre de ressources Lakehouse.
brickster
{brickster} est le kit R pour Databricks. Il comprend :
- Adaptateurs pour les API Databricks (p. ex. db_cluster_list, db_volume_read)
- Parcourez les ressources de l’espace de travail via le volet RStudio Connections (open_workspace())
- Rend disponible le databricks-sql-connector via {reticulate} (documentation)
- REPL interactif de Databricks
DBX
Cet outil simplifie le processus de lancement et de déploiement de tâches dans plusieurs environnements. Il permet également de packager votre projet et de le livrer à votre environnement Databricks en respectant les versions. Conçu d'abord par ILD, il est fait pour être utilisé activement à la fois à l'intérieur des pipelines CI / CD et dans le cadre de l'outillage local pour un prototypage rapide.
Tempo
L'objectif de ce projet est de fournir une API pour manipuler des séries chronologiques en plus d'Apache Spark. La fonctionnalité inclut l'utilisation de valeurs temporelles retardées, de statistiques glissantes (moyenne, somme, nombre, etc.), de jointures « depuis » (AS OF joints), de réduction de la fréquence d'échantillonnage et d'interpolation. Elle a été testé sur des TO de données historiques.
Plug-in PyLint
Ce plugin ajoute à PyLint des vérifications pour détecter les erreurs et problèmes courants dans le code Python, spécifiquement dans l’environnement Databricks.
PyTester
PyTester est un moyen puissant de gérer la préparation et le nettoyage des tests en Python. Cette bibliothèque fournit un ensemble de fixtures pour vous aider à écrire des tests d’intégration pour Databricks.
Connecteur Java Delta Sharing
Le connecteur Java suit le protocole Delta Sharing pour lire des tables partagées depuis un serveur Delta Sharing. Pour réduire davantage les coûts de sortie de données côté fournisseur de données, nous avons mis en place un cache persistant afin d’éviter les lectures inutiles.
Surveillance
Analysez l'ensemble de vos tâches et clusters dans tous vos workspaces afin d'identifier rapidement les points sur lesquels vous pouvez apporter les principaux ajustements pour gagner en performance et faire des économies.
UCX
UCX est une boîte à outils permettant d’activer Unity Catalog (UC) dans votre espace de travail Databricks. UCX fournit des commandes et des flux de travail pour migrer des tables et des vues vers UC. UCX permet de réécrire des tableaux de bord, des jobs et des notebooks afin d’utiliser les ressources de données migrées dans UC. Et de nombreuses autres fonctionnalités.
Veuillez noter que tous les projets du compte https://github.com/databrickslabs ne sont fournis qu'à titre d'exemples, et ne sont pas officiellement pris en charge par Databricks dans le cadre d'accords de niveau de service (SLA). Ils sont fournis en l'état et nous ne donnons aucune garantie d'aucune sorte. Tout problème détecté lors de l'utilisation de ce projet doit être signalé en tant que problème GitHub dans le répertoire. Il sera alors examiné lorsque le planning le permettra, mais il n'existe aucun SLA formel pour l'assistance.