A maioria das soluções de ciência de dados força as equipes de dados a escolher entre flexibilidade para exploração e rigidez para produção. Como resultado, os cientistas de dados geralmente precisam entregar seu trabalho para equipes de engenharia que usam uma pilha de tecnologia diferente e, essencialmente, reescrever seu trabalho em um novo ambiente. Isso não só é custoso, mas também atrasa o tempo que o trabalho de um cientista de dados leva para agregar valor ao negócio.
O Workspace de Ciência de Dados de última geração no Databricks lida com esses trade-offs para fornecer uma experiência aberta e unificada para equipes de dados modernas. Como parte deste Databricks Workspace, temos o prazer de anunciar a disponibilidade pública do novo recurso Repos, que oferece integração no nível do repositório com provedores Git, permitindo que qualquer membro da equipe de dados siga as melhores práticas. O Databricks Repos se integra ao seu kit de ferramentas de desenvolvedor com suporte para uma ampla variedade de provedores Git, incluindo Github, Bitbucket, Gitlab e Microsoft Azure DevOps.
Ao se integrarem com o Git, os Repos do Databricks fornecem o melhor ambiente de desenvolvimento da categoria para ciência de dados e engenharia de dados. Você pode aplicar padrões para o código desenvolvido no Databricks, como revisões de código, testes, etc., antes de implantar seu código em produção. Os desenvolvedores encontrarão funcionalidades familiares do Git nos Repos, incluindo a capacidade de clonar repositórios Git remotos (Figura 1), gerenciar branches, fazer pull de alterações remotas e inspecionar visualmente as alterações pendentes antes de fazer o commit delas (Figura 2).


Com o lançamento público do Repos, estamos adicionando funcionalidades para satisfazer os casos de uso corporativos mais exigentes:
Os Repos também podem ser integrados aos seus pipelines de CI/CD e permitem que as equipes de dados levem o código de ciência de dados e machine learning (ML) da experimentação para a produção de forma transparente. Com a API do Repos (atualmente em private preview, entre em contato com seu representante da Databricks para obter acesso), você pode atualizar programaticamente seus Databricks Repos para a versão mais recente de um branch remoto. Isso permite que você implemente facilmente pipelines de CI/CD, por exemplo, o seguinte fluxo de trabalho de melhores práticas:
O recurso Repos faz parte do Workspace de última geração e, com este lançamento público, permite que as equipes de dados sigam facilmente as melhores práticas e acelerem o caminho da exploração para a produção.

O Repos está em Public Preview e pode ser ativado para os Workspaces do Databricks! Para ativar o Repos, acesse o Painel de Administração -> Avançado e clique no botão “Ativar” ao lado de “Repos”. Saiba mais em nossa documentação para desenvolvedores.
Produto
12 de junho de 2024/11 min de leitura

