Revenir au contenu principal

Industrialisez la Data Science avec les Repos sur Databricks

prod-ds-repos-og2

Published: March 16, 2021

Produit4 min de leitura

La plupart des solutions de science des données obligent les équipes de données à choisir entre la flexibilité pour l'exploration et la rigidité pour la production. Par conséquent, les data scientists doivent souvent transmettre leur travail à des équipes de Data Engineering qui utilisent une pile de Technologie différente et qui réécrivent essentiellement leur travail dans un nouvel environnement. Ce processus est non seulement coûteux, mais il retarde aussi le moment où le travail d'un data scientist apporte de la valeur à l'entreprise.

En s'intégrant à Git, les Repos Databricks fournissent un environnement de développement d'excellence pour la Data Science et la Data Engineering.

L'Espace de travail de science des données de nouvelle génération sur Databricks gère ces compromis pour offrir une expérience ouverte et unifiée aux équipes de données modernes. Dans le cadre de ce Databricks Workspace, nous sommes ravis d'annoncer la disponibilité publique de la nouvelle fonctionnalité Repos, qui offre une intégration au niveau du repository avec les fournisseurs Git, permettant à tout membre de l'équipe de données de suivre les meilleures pratiques. Les Repos Databricks s'intègrent à votre boîte à outils de développeur en prenant en charge un large éventail de fournisseurs Git, notamment Github, Bitbucket, Gitlab et Microsoft Azure DevOps.

Grâce à l'intégration avec Git, les Repos Databricks fournissent un environnement de développement de premier ordre pour la Data Science et l'ingénierie des données. Vous pouvez appliquer des normes pour le code développé dans Databricks, telles que les révisions de code, les tests, etc., avant de déployer votre code en production. Les développeurs trouveront des fonctionnalités Git familières dans les Repos, notamment la possibilité de cloner des dépôts Git distants (Figure 1), de gérer les branches, de tirer les modifications distantes et d'inspecter visuellement les modifications en attente avant de les commiter (Figure 2).

Prise en main des Repos Git dans les espaces de travail Databricks en ajoutant un dépôt Git distant
Figure 1 : Pour commencer, il suffit de fournir l'URL du repository Git que vous souhaitez cloner.
Les développeurs peuvent travailler sur leur propre branche de développement, committer du code et récupérer les modifications. Les modifications en attente peuvent être examinées dans l'UI avant d'être commitées.
Figure 2 : Les développeurs peuvent travailler sur leur propre branche de développement, commiter du code et récupérer les modifications. Les modifications en attente peuvent être inspectées dans l'interface utilisateur avant leur commit.

Avec le lancement public de Repos, nous ajoutons des fonctionnalités pour répondre aux cas d'utilisation d'entreprise les plus exigeants :

  • Les listes d'autorisation permettent aux administrateurs de configurer les préfixes d'URL des dépôts Git vers lesquels les utilisateurs peuvent commiter du code. Cela garantit que le code ne peut pas être envoyé accidentellement vers des repositories non autorisés.
  • La détection des secrets identifie les secrets en texte clair dans votre code source avant qu'ils ne soient validés, aidant ainsi les équipes de données à suivre les bonnes pratiques d'utilisation des gestionnaires de secrets.

Les Repos peuvent également être intégrés à vos pipelines CI/CD et permettent aux équipes de données de faire passer le code de la Data Science et du machine learning (ML) de l'expérimentation à la production en toute fluidité. Avec l'API Repos (actuellement en préversion privée, contactez votre représentant Databricks pour y accéder), vous pouvez mettre à jour par programmation vos Repos Databricks vers la dernière version d'une branche distante. Cela vous permet de mettre en œuvre facilement des pipelines CI/CD, par exemple le workflow de bonnes pratiques suivant :

  1. Développement : Les développeurs travaillent sur des Branches de fonctionnalité sur des extractions personnelles d'un dépôt distant dans leurs dossiers utilisateur.
  2. Revue & Test : Lorsqu'une fonctionnalité est prête pour la revue et qu'une PR est créée, votre système CI/CD peut utiliser l'API Repos pour mettre à jour automatiquement un environnement de test dans Databricks avec les modifications sur la branch de fonctionnalité, puis exécuter un ensemble de tests pour valider les modifications.
  3. Production : Enfin, une fois que tous les tests ont été réussis et que la PR a été approuvée et fusionnée, votre système CI/CD peut utiliser l'API Repos pour mettre à jour l'environnement de production dans Databricks avec les modifications. Vos Jobs de production s'exécuteront désormais avec la dernière version du code.

La fonctionnalité Repos fait partie du Workspace de nouvelle génération et, avec cette version publique, permet aux équipes de données de suivre facilement les bonnes pratiques et d'accélérer le passage de l'exploration à la production.

Démarrer

L'icône Repos s'affichera pour les Workspaces Databricks qui disposent de cette fonctionnalité.

Les Repos sont en préversion publique et peuvent être activés pour les espaces de travail Databricks ! Pour activer les Repos, accédez au panneau d'administration -> Avancé et cliquez sur le bouton « Activer » à côté de « Repos ». En savoir plus dans notre documentation pour les développeurs.

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.

Et ensuite ?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks