Direkt zum Hauptinhalt

Operationalisierung von Data Science mit Repos auf Databricks

prod-ds-repos-og2

Published: March 16, 2021

Produkt3 min Lesezeit

Bei den meisten Data-Science-Lösungen müssen sich Datenteams zwischen Flexibilität bei der Exploration und Starrheit in der Produktion entscheiden. Infolgedessen müssen Data Scientists ihre Arbeit oft an Engineering-Teams übergeben, die einen anderen Technologiestack verwenden, und ihre Arbeit im Wesentlichen in einer neuen Umgebung neu schreiben. Dies ist nicht nur kostspielig, sondern verzögert auch die Zeit, die benötigt wird, bis die Arbeit eines Data Scientists dem Unternehmen einen Mehrwert liefert.

Durch die Integration mit Git bieten Databricks Repos eine erstklassige Entwicklungsumgebung für Data Science und Data Engineering.

Der Data Science Workspace der nächsten Generation auf Databricks überwindet diese Kompromisse, um eine offene und einheitliche Erfahrung für moderne Datenteams zu bieten. Als Teil dieses Databricks Workspace freuen wir uns, die öffentliche Verfügbarkeit der neuen Repos-Funktion bekannt zu geben. Diese bietet eine Integration auf Repository-Ebene mit Git-Anbietern und ermöglicht es jedem Mitglied des Datenteams, Best Practices zu befolgen. Databricks Repos lassen sich in Ihr Entwickler-Toolkit integrieren und unterstützen eine Vielzahl von Git-Anbietern, darunter Github, Bitbucket, Gitlab und Microsoft Azure DevOps.

Durch die Integration mit Git bieten Databricks Repos eine erstklassige Entwicklungsumgebung für Data Science und Data Engineering. Sie können Standards für in Databricks entwickelten Code durchsetzen, z. B. Code-Reviews, Tests usw., bevor Sie Ihren Code in der Produktion bereitstellen. Entwickler finden in Repos vertraute Git-Funktionen, einschließlich der Möglichkeit, Remote-Git-Repos zu klonen (Abbildung 1), Branches zu verwalten, Remote-Änderungen zu pullen und ausstehende Änderungen visuell zu prüfen, bevor sie diese committen (Abbildung 2).

Erste Schritte mit Git Repos in Databricks Workspaces durch Hinzufügen eines Remote-Git-Repos
Abbildung 1: Geben Sie zum Start einfach die URL des Git-Repositorys an, das Sie klonen möchten.
Entwickler können an ihrem eigenen Entwicklungs-Branch arbeiten, Code committen und Änderungen pullen. Ausstehende Änderungen können vor dem Committen in der UI überprüft werden.
Abbildung 2: Entwickler können in ihrem eigenen Entwicklungs-Branch arbeiten, Code committen und Änderungen pullen. Ausstehende Änderungen können vor dem Committen in der UI eingesehen werden.

Mit der öffentlichen Einführung von Repos fügen wir Funktionen hinzu, die auch die anspruchsvollsten Anwendungsfälle in Unternehmen erfüllen:

  • Zulassungslisten ermöglichen es Admins, URL-Präfixe von Git-Repositorys zu konfigurieren, an die Benutzer Code committen können. Dies stellt sicher, dass Code nicht versehentlich an nicht zugelassene Repositorys gepusht werden kann.
  • Secret-Erkennung erkennt Secrets im Klartext in Ihrem Quellcode, bevor sie committet werden, und hilft Datenteams dabei, die Best Practices für die Verwendung von Secret-Managern zu befolgen.

Repos können auch in Ihre CI/CD-Pipelines integriert werden und ermöglichen es Datenteams, Code für Data Science und Machine Learning (ML) nahtlos von der Experimentierphase in die Produktion zu überführen. Mit der Repos-API (derzeit in der Private Preview verfügbar, wenden Sie sich für den Zugriff an Ihren Databricks-Ansprechpartner) können Sie Ihre Databricks Repos programmgesteuert auf die neueste Version eines Remote-Branch aktualisieren. Dadurch können Sie einfach CI/CD-Pipelines implementieren, z. B. den folgenden Best-Practice-Workflow:

  1. Entwicklung: Entwickler arbeiten an Feature-Branches in persönlichen Checkouts eines Remote-Repos in ihren Benutzerordnern.
  2. Überprüfung & Testen: Wenn ein Feature zur Überprüfung bereit ist und ein PR erstellt wird, kann Ihr CI/CD-System die Repos-API verwenden, um eine Testumgebung in Databricks automatisch mit den Änderungen auf dem Feature-Branch zu aktualisieren und dann eine Reihe von Tests auszuführen, um die Änderungen zu validieren.
  3. Produktion: Sobald alle Tests bestanden wurden und der PR genehmigt und gemerged wurde, kann Ihr CI/CD-System die Repos-API verwenden, um die Produktionsumgebung in Databricks mit den Änderungen zu aktualisieren. Ihre Produktions-Jobs werden nun mit dem neuesten Code ausgeführt.

Die Repos-Feature ist Teil des Next Generation Workspace und ermöglicht es Datenteams mit dieser öffentlichen Version, Best Practices einfach zu befolgen und den Weg von der Exploration bis zur Produktion zu beschleunigen.

Erste Schritte

Das Repos-Symbol wird für Databricks-Workspaces angezeigt, bei denen das Feature aktiviert ist.

Repos befindet sich in der Public Preview und kann für Databricks Workspaces aktiviert werden! Um Repos zu aktivieren, gehen Sie zum Admin Panel -> Advanced und klicken Sie auf die Schaltfläche „Aktivieren“ neben „Repos“. Erfahren Sie mehr in unserer Entwicklerdokumentation.

Verpassen Sie keinen Beitrag von Databricks

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Was kommt als Nächstes?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks