Ir para o conteúdo principal

Operacionalize a ciência de dados com Repos no Databricks

prod-ds-repos-og2

Publicado: 16 de março de 2021

Produto4 min de leitura

A maioria das soluções de ciência de dados força as equipes de dados a escolher entre flexibilidade para exploração e rigidez para produção. Como resultado, os cientistas de dados geralmente precisam entregar seu trabalho para equipes de engenharia que usam uma pilha de tecnologia diferente e, essencialmente, reescrever seu trabalho em um novo ambiente. Isso não só é custoso, mas também atrasa o tempo que o trabalho de um cientista de dados leva para agregar valor ao negócio.

Ao se integrarem ao Git, os Databricks Repos fornecem um ambiente de desenvolvedor de ponta para ciência de dados e engenharia de dados.

O Workspace de Ciência de Dados de última geração no Databricks lida com esses trade-offs para fornecer uma experiência aberta e unificada para equipes de dados modernas. Como parte deste Databricks Workspace, temos o prazer de anunciar a disponibilidade pública do novo recurso Repos, que oferece integração no nível do repositório com provedores Git, permitindo que qualquer membro da equipe de dados siga as melhores práticas. O Databricks Repos se integra ao seu kit de ferramentas de desenvolvedor com suporte para uma ampla variedade de provedores Git, incluindo Github, Bitbucket, Gitlab e Microsoft Azure DevOps.

Ao se integrarem com o Git, os Repos do Databricks fornecem o melhor ambiente de desenvolvimento da categoria para ciência de dados e engenharia de dados. Você pode aplicar padrões para o código desenvolvido no Databricks, como revisões de código, testes, etc., antes de implantar seu código em produção. Os desenvolvedores encontrarão funcionalidades familiares do Git nos Repos, incluindo a capacidade de clonar repositórios Git remotos (Figura 1), gerenciar branches, fazer pull de alterações remotas e inspecionar visualmente as alterações pendentes antes de fazer o commit delas (Figura 2).

Primeiros passos com Repos Git nos Workspaces do Databricks adicionando um repo Git remoto
Figura 1: Para começar, basta fornecer o URL do repositório Git que você deseja clonar
Os desenvolvedores podem trabalhar em seu próprio branch de desenvolvimento, fazer o commit do código e o pull das alterações. As alterações pendentes podem ser inspecionadas na UI antes de fazer o commit.
Figura 2: Os desenvolvedores podem trabalhar em seu próprio branch de desenvolvimento, fazer commit do código e pull das alterações. As alterações pendentes podem ser inspecionadas na UI antes de fazer o commit.
UM LÍDER 5X

Gartner®: Databricks, líder em banco de dados em nuvem

Com o lançamento público do Repos, estamos adicionando funcionalidades para satisfazer os casos de uso corporativos mais exigentes:

  • Listas de permissões permitem que os administradores configurem prefixos de URL de repositórios Git para os quais os usuários podem fazer commit de código. Isso garante que o código não possa ser enviado acidentalmente para repositórios não permitidos.
  • A Detecção de segredos identifica segredos em texto simples no seu código-fonte antes que o commit seja feito, ajudando as equipes de dados a seguir as melhores práticas de uso de gerenciadores de segredos.

Os Repos também podem ser integrados aos seus pipelines de CI/CD e permitem que as equipes de dados levem o código de ciência de dados e machine learning (ML) da experimentação para a produção de forma transparente. Com a API do Repos (atualmente em private preview, entre em contato com seu representante da Databricks para obter acesso), você pode atualizar programaticamente seus Databricks Repos para a versão mais recente de um branch remoto. Isso permite que você implemente facilmente pipelines de CI/CD, por exemplo, o seguinte fluxo de trabalho de melhores práticas:

  1. Desenvolvimento: os desenvolvedores trabalham em branches de recursos em checkouts pessoais de um repositório remoto em suas pastas de usuário.
  2. Revisão e testes: quando um recurso está pronto para revisão e um PR é criado, seu sistema de CI/CD pode usar a API de Repos para atualizar automaticamente um ambiente de teste no Databricks com as alterações no branch do recurso e, em seguida, executar um conjunto de testes para validar as alterações.
  3. Produção: por fim, assim que todos os testes tiverem passado e o PR for aprovado e merge, seu sistema de CI/CD poderá usar a API Repos para atualizar o ambiente de produção no Databricks com as alterações. Seus jobs de produção agora serão executados com o código mais recente.

O recurso Repos faz parte do Workspace de última geração e, com este lançamento público, permite que as equipes de dados sigam facilmente as melhores práticas e acelerem o caminho da exploração para a produção.

Comece agora

O ícone Repos será exibido para Workspaces do Databricks habilitados com o recurso.

O Repos está em Public Preview e pode ser ativado para os Workspaces do Databricks! Para ativar o Repos, acesse o Painel de Administração -> Avançado e clique no botão “Ativar” ao lado de “Repos”. Saiba mais em nossa documentação para desenvolvedores.

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada

O que vem a seguir?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

12 de junho de 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

31 de janeiro de 2025/3 min de leitura

DeepSeek R1 no Databricks