Databricks Labs

Databricks Labs sind Projekte, die vom Außendienstteam erstellt wurden, um Kunden dabei zu helfen, ihre Anwendungsfälle schneller in die Produktion zu bringen!

DQX

Simplified Data Quality checking at Scale for PySpark Workloads on streaming and standard DataFrames.

UCX

UCX is a toolkit for enabling Unity Catalog (UC) in your Databricks workspace. UCX provides commands and workflows for migrate tables and views to UC. UCX allows to rewrite dashboards, jobs and notebooks to use the migrated data assets in UC. And there are many more features.

GitHub Sources →

Documentation →

Blog →

Mosaik

Mosaik ist ein Tool, das die Implementierung skalierbarer Geodaten-Pipelines vereinfacht, indem es gängige Open-Source-Geodatenbibliotheken und Apache Spark™️ miteinander verbindet. Mosaik bietet außerdem eine Reihe von Beispielen und Best Practices für gängige Geodaten-Anwendungsfälle. Es stellt APIs für ST_-Ausdrücke und GRID_-Ausdrücke bereit und unterstützt Rasterindexsysteme wie H3 und British National Grid.

GitHub-Quellen →

Dokumentation →

Blog →

Weitere Projekte

Overwatch

Analysieren Sie alle Jobs und Cluster in allen Workspaces, um schnell festzustellen, wo das größte Potenzial für Leistungssteigerungen und Kosteneinsparungen durch Anpassungen zu finden ist.

Mehr Informationen

Splunk-Integration

Add-on für Splunk, eine App, die es Splunk Enterprise- und Splunk Cloud-Benutzern ermöglicht, in Databricks Abfragen auszuführen und Aktionen wie das Ausführen Notebook und Jobauszuführen.

Github-Quellen →
Erfahren Sie mehr →

Smolder

Smolder bietet eine Apache Spark™ SQL-Datenquelle zum Laden von EHR-Daten aus HL7v2- Nachrichtenformaten. Darüber hinaus bietet Smolder Hilfsfunktionen, die auf einem Spark SQL DataFrame verwendet werden können, um HL7-Nachrichtentext zu analysieren und Segmente, Felder und Unterfelder aus einer Nachricht zu extrahieren.

Github-Quellen →
Erfahren Sie mehr →

Geoscan

Apache Spark ML Estimator für dichtebasierte räumliche cluster basierend auf hexagonalen hierarchischen räumlichen Indizes.

Github-Quellen →
Erfahren Sie mehr →

Migrate

Tool zur Unterstützung von Kunden bei der Migration von Artefakten zwischen Databricks-Workspaces. So können Kunden Konfigurationen und Code-Artefakte als Backup oder als Teil einer Migration zwischen verschiedenen Workspaces exportieren.

Github-Quellen
Erfahren Sie mehr: AWS | Azure

Data Generator

Erstellen Sie im Handumdrehen relevante Daten für Ihre Projekte. Mit dem Databricks-Datengenerator generieren Sie umfangreiche simulierte/synthetische Datenbestände für Tests, PoCs und weitere Einsatzzwecke.

Github-Quellen →
Erfahren Sie mehr →

DeltaOMS

Zentralisierte Sammlung von Delta-Transaktionsprotokollen für die Analyse von Metadaten und Betriebsmetriken in Ihrem Lakehouse

Github-Quellen →
Erfahren Sie mehr →

DLT-META

Dieses Framework erleichtert die Datenerfassung mithilfe von delta live table und Metadaten. Mit DLT-META kann ein einzelner Dateningenieur problemlos Tausende von Tabellen verwalten. Mehrere Databricks-Kunden haben DLT-META in der Produktion, um mehr als 1.000 Tabellen zu verarbeiten.

Github-Quellen →
Erfahren Sie mehr →

DLT-META

Github-Quellen →
Erfahren Sie mehr →

DLT-META

Github-Quellen →
Erfahren Sie mehr →

DBX

This tool simplifies jobs launch and deployment process across multiple environments. It also helps to package your project and deliver it to your Databricks environment in a versioned fashion. Designed in a CLI-first manner, it is built to be actively used both inside CI/CD pipelines and as a part of local tooling for fast prototyping.

Github Sources →
Documentation →
Blog →

Bitte beachten Sie, dass alle Projekte im https://github.com/databrickslabs Das Konto wird nur zu Ihrer Erkundung bereitgestellt und von Databricks nicht offiziell mit Service Level Agreements (SLAs) unterstützt. Sie werden wie besehen zur Verfügung gestellt und wir geben keinerlei Garantien jeglicher Art. Bitte reichen Sie kein Support-Ticket ein, das sich auf Probleme bezieht, die sich aus der Nutzung dieser Projekte ergeben. Alle durch die Nutzung dieses Projekts entdeckten Probleme sollten als GitHub-Probleme im Repo abgelegt werden. Sie werden im Rahmen der zeitlichen Möglichkeiten überprüft, es gibt jedoch keine formellen SLAs für den Support.