La plupart des solutions de science des données obligent les équipes de données à choisir entre la flexibilité pour l'exploration et la rigidité pour la production. Par conséquent, les data scientists doivent souvent transmettre leur travail à des équipes de Data Engineering qui utilisent une pile de Technologie différente et qui réécrivent essentiellement leur travail dans un nouvel environnement. Ce processus est non seulement coûteux, mais il retarde aussi le moment où le travail d'un data scientist apporte de la valeur à l'entreprise.
L'Espace de travail de science des données de nouvelle génération sur Databricks gère ces compromis pour offrir une expérience ouverte et unifiée aux équipes de données modernes. Dans le cadre de ce Databricks Workspace, nous sommes ravis d'annoncer la disponibilité publique de la nouvelle fonctionnalité Repos, qui offre une intégration au niveau du repository avec les fournisseurs Git, permettant à tout membre de l'équipe de données de suivre les meilleures pratiques. Les Repos Databricks s'intègrent à votre boîte à outils de développeur en prenant en charge un large éventail de fournisseurs Git, notamment Github, Bitbucket, Gitlab et Microsoft Azure DevOps.
Grâce à l'intégration avec Git, les Repos Databricks fournissent un environnement de développement de premier ordre pour la Data Science et l'ingénierie des données. Vous pouvez appliquer des normes pour le code développé dans Databricks, telles que les révisions de code, les tests, etc., avant de déployer votre code en production. Les développeurs trouveront des fonctionnalités Git familières dans les Repos, notamment la possibilité de cloner des dépôts Git distants (Figure 1), de gérer les branches, de tirer les modifications distantes et d'inspecter visuellement les modifications en attente avant de les commiter (Figure 2).


Avec le lancement public de Repos, nous ajoutons des fonctionnalités pour répondre aux cas d'utilisation d'entreprise les plus exigeants :
Les Repos peuvent également être intégrés à vos pipelines CI/CD et permettent aux équipes de données de faire passer le code de la Data Science et du machine learning (ML) de l'expérimentation à la production en toute fluidité. Avec l'API Repos (actuellement en préversion privée, contactez votre représentant Databricks pour y accéder), vous pouvez mettre à jour par programmation vos Repos Databricks vers la dernière version d'une branche distante. Cela vous permet de mettre en œuvre facilement des pipelines CI/CD, par exemple le workflow de bonnes pratiques suivant :
La fonctionnalité Repos fait partie du Workspace de nouvelle génération et, avec cette version publique, permet aux équipes de données de suivre facilement les bonnes pratiques et d'accélérer le passage de l'exploration à la production.

Les Repos sont en préversion publique et peuvent être activés pour les espaces de travail Databricks ! Pour activer les Repos, accédez au panneau d'administration -> Avancé et cliquez sur le bouton « Activer » à côté de « Repos ». En savoir plus dans notre documentation pour les développeurs.
Produto
June 12, 2024/11 min de leitura

