Bei den meisten Data-Science-Lösungen müssen sich Datenteams zwischen Flexibilität bei der Exploration und Starrheit in der Produktion entscheiden. Infolgedessen müssen Data Scientists ihre Arbeit oft an Engineering-Teams übergeben, die einen anderen Technologiestack verwenden, und ihre Arbeit im Wesentlichen in einer neuen Umgebung neu schreiben. Dies ist nicht nur kostspielig, sondern verzögert auch die Zeit, die benötigt wird, bis die Arbeit eines Data Scientists dem Unternehmen einen Mehrwert liefert.
Der Data Science Workspace der nächsten Generation auf Databricks überwindet diese Kompromisse, um eine offene und einheitliche Erfahrung für moderne Datenteams zu bieten. Als Teil dieses Databricks Workspace freuen wir uns, die öffentliche Verfügbarkeit der neuen Repos-Funktion bekannt zu geben. Diese bietet eine Integration auf Repository-Ebene mit Git-Anbietern und ermöglicht es jedem Mitglied des Datenteams, Best Practices zu befolgen. Databricks Repos lassen sich in Ihr Entwickler-Toolkit integrieren und unterstützen eine Vielzahl von Git-Anbietern, darunter Github, Bitbucket, Gitlab und Microsoft Azure DevOps.
Durch die Integration mit Git bieten Databricks Repos eine erstklassige Entwicklungsumgebung für Data Science und Data Engineering. Sie können Standards für in Databricks entwickelten Code durchsetzen, z. B. Code-Reviews, Tests usw., bevor Sie Ihren Code in der Produktion bereitstellen. Entwickler finden in Repos vertraute Git-Funktionen, einschließlich der Möglichkeit, Remote-Git-Repos zu klonen (Abbildung 1), Branches zu verwalten, Remote-Änderungen zu pullen und ausstehende Änderungen visuell zu prüfen, bevor sie diese committen (Abbildung 2).


Mit der öffentlichen Einführung von Repos fügen wir Funktionen hinzu, die auch die anspruchsvollsten Anwendungsfälle in Unternehmen erfüllen:
Repos können auch in Ihre CI/CD-Pipelines integriert werden und ermöglichen es Datenteams, Code für Data Science und Machine Learning (ML) nahtlos von der Experimentierphase in die Produktion zu überführen. Mit der Repos-API (derzeit in der Private Preview verfügbar, wenden Sie sich für den Zugriff an Ihren Databricks-Ansprechpartner) können Sie Ihre Databricks Repos programmgesteuert auf die neueste Version eines Remote-Branch aktualisieren. Dadurch können Sie einfach CI/CD-Pipelines implementieren, z. B. den folgenden Best-Practice-Workflow:
Die Repos-Feature ist Teil des Next Generation Workspace und ermöglicht es Datenteams mit dieser öffentlichen Version, Best Practices einfach zu befolgen und den Weg von der Exploration bis zur Produktion zu beschleunigen.

Repos befindet sich in der Public Preview und kann für Databricks Workspaces aktiviert werden! Um Repos zu aktivieren, gehen Sie zum Admin Panel -> Advanced und klicken Sie auf die Schaltfläche „Aktivieren“ neben „Repos“. Erfahren Sie mehr in unserer Entwicklerdokumentation.
Produto
June 12, 2024/11 min de leitura

