Revenir au contenu principal

Databricks Labs

Les Databricks Labs sont des projets créés par l'équipe de terrain pour aider les clients à mettre leurs cas d'utilisation en production plus rapidement !

UCX

DQX

Simplified Data Quality checking at Scale for PySpark Workloads on streaming and standard DataFrames.

GitHub Sources →

Documentation →

UCX

UCX

UCX is a toolkit for enabling Unity Catalog (UC) in your Databricks workspace. UCX provides commands and workflows for migrate tables and views to UC. UCX allows to rewrite dashboards, jobs and notebooks to use the migrated data assets in UC. And there are many more features.

GitHub Sources →

Documentation →

Blog →

Logo mosaïque

Mosaïque

Mosaic est un outil qui simplifie la mise en œuvre de pipelines de données géospatiales évolutifs en liant des bibliothèques géospatiales open source communes et Apache Spark™️. Mosaic fournit également une série d'exemples et de bonnes pratiques pour les cas d'utilisation géospatiale les plus courants. Il fournit des API pour les expressions ST_ et les expressions GRID_, prenant en charge les systèmes d'indexation de grille tels que H3 et British National Grid.

Sources GitHub →

Documentation →

Blog →

Autres projets

Surveillance

Analysez l'ensemble de vos tâches et clusters dans tous vos workspaces afin d'identifier rapidement les points sur lesquels vous pouvez apporter les principaux ajustements pour gagner en performance et faire des économies.

En savoir plus

Intégration de Splunk

Add-on pour Splunk, une application qui permet aux utilisateurs de Splunk Enterprise et Splunk Cloud de lancer des requêtes et d'exécuter des actions, telles que l'exécution de Notebook et Job, dans Databricks.

Sources Github →
En savoir plus →

Smolder

Smolder fournit une source de données Apache Spark™ SQL pour le chargement des données des DSE à partir des formats de message HL7v2 . En outre, Smolder fournit des fonctions d'aide qui peuvent être utilisées sur un DataFrame SQL Spark pour analyser le texte d'un message HL7 et pour extraire des segments, des champs et des sous-champs d'un message.

Sources Github →
En savoir plus →

Geoscan

Apache Spark ML Estimator for density-based spatial cluster based on Hexagonal Hierarchical Spatial Indices.

Sources Github →
En savoir plus →

Migrer

Outil pour aider les clients à migrer les artefacts entre les workspaces Databricks. Il permet aux clients d'exporter les configurations et les artefacts de code en tant que sauvegarde ou dans le cadre d'une migration vers un workspace différent.

Sources Github
En savoir plus : AWS | Azure

Générateur de données

Générez rapidement des données pertinentes pour vos projets. Le générateur de données Databricks peut être utilisé pour générer de grands ensembles de données simulées / synthétiques pour des tests ou encore pour des POC

Sources Github →
En savoir plus →

DeltaOMS

Collecte centralisée des journaux de transactions Delta pour l'analyse des métadonnées et des mesures opérationnelles de votre Lakehouse.

Sources Github →
En savoir plus →

DLT-META

Ce cadre facilite l'acquisition de données à l'aide de delta live table et de métadonnées. Avec DLT-META, un seul ingénieur de données peut facilement gérer des milliers de tables. Plusieurs clients de Databricks ont DLT-META en production pour traiter plus de 1000 tables.

Sources Github →
En savoir plus →

DLT-META

Ce cadre facilite l'acquisition de données à l'aide de delta live table et de métadonnées. Avec DLT-META, un seul ingénieur de données peut facilement gérer des milliers de tables. Plusieurs clients de Databricks ont DLT-META en production pour traiter plus de 1000 tables.

Sources Github →
En savoir plus →

DLT-META

Ce cadre facilite l'acquisition de données à l'aide de delta live table et de métadonnées. Avec DLT-META, un seul ingénieur de données peut facilement gérer des milliers de tables. Plusieurs clients de Databricks ont DLT-META en production pour traiter plus de 1000 tables.

Sources Github →
En savoir plus →

DBX

This tool simplifies jobs launch and deployment process across multiple environments. It also helps to package your project and deliver it to your Databricks environment in a versioned fashion. Designed in a CLI-first manner, it is built to be actively used both inside CI/CD pipelines and as a part of local tooling for fast prototyping.

Github Sources →
Documentation →
Blog →

DLT-META

Ce cadre facilite l'acquisition de données à l'aide de delta live table et de métadonnées. Avec DLT-META, un seul ingénieur de données peut facilement gérer des milliers de tables. Plusieurs clients de Databricks ont DLT-META en production pour traiter plus de 1000 tables.

Sources Github →
En savoir plus →

DLT-META

Ce cadre facilite l'acquisition de données à l'aide de delta live table et de métadonnées. Avec DLT-META, un seul ingénieur de données peut facilement gérer des milliers de tables. Plusieurs clients de Databricks ont DLT-META en production pour traiter plus de 1000 tables.

Sources Github →
En savoir plus →

DLT-META

Ce cadre facilite l'acquisition de données à l'aide de delta live table et de métadonnées. Avec DLT-META, un seul ingénieur de données peut facilement gérer des milliers de tables. Plusieurs clients de Databricks ont DLT-META en production pour traiter plus de 1000 tables.

Sources Github →
En savoir plus →

DLT-META

Ce cadre facilite l'acquisition de données à l'aide de delta live table et de métadonnées. Avec DLT-META, un seul ingénieur de données peut facilement gérer des milliers de tables. Plusieurs clients de Databricks ont DLT-META en production pour traiter plus de 1000 tables.

Sources Github →
En savoir plus →

Veuillez noter que tous les projets du site https://github.com/databrickslabs sont fournis à des fins d'exploration uniquement et ne sont pas officiellement pris en charge par Databricks dans le cadre d'accords de niveau de service (SLA). Elles sont fournies en l'état et nous ne donnons aucune garantie. Veuillez ne pas soumettre de ticket d'assistance pour tout problème lié à l'utilisation de ces projets. Tout problème découvert lors de l'utilisation de ce projet doit être classé en tant que GitHub Issues sur la Repo. Ils seront examinés lorsque le temps le permettra, mais il n'y a pas d'accords de niveau de service formels pour l'assistance.