Melhores Práticas: Iniciando Workflows do Databricks Nativamente no Azure Data Factory

Os clientes do Azure Data Factory agora podem aproveitar ao máximo a Plataforma de Inteligência de Dados do Databricks usando os Fluxos de Trabalho do Databricks

Published: May 16, 2025

Parceiros6 min de leitura

por Leo Furlong e Prashanth Babu Velanati Venkata

Summary

Os clientes do Azure Data Factory agora podem acionar os Fluxos de Trabalho do Databricks usando a nova atividade nativa de Job do Databricks, desbloqueando uma integração mais profunda entre as duas plataformas. Esta melhor prática ajuda os clientes a aproveitar totalmente a Plataforma de Inteligência de Dados do Databricks, incluindo recursos avançados como Databricks SQL, DLT e publicação no Power BI. Ao migrar das atividades do Notebook para os Fluxos de Trabalho, os clientes podem melhorar o desempenho, reduzir custos e simplificar as operações em seus pipelines de dados e IA.

Azure Databricks é um serviço da Microsoft de primeira linha, integrado nativamente ao ecossistema Azure para unificar dados e IA com análises de alto desempenho e suporte profundo a ferramentas. Essa integração agora inclui uma atividade nativa de trabalho do Databricks no Azure Data Factory (ADF), tornando mais fácil do que nunca acionar fluxos de trabalho do Databricks diretamente dentro do ADF.

Esta nova atividade no ADF é uma prática recomendada imediata, e todos os usuários de ADF e Azure Databricks devem considerar a adoção deste padrão.

A nova atividade de trabalho do Databricks é muito simples de usar:

Em seu pipeline ADF, arraste a atividade Job Databricks para a tela
Na guia Azure Databricks, selecione um serviço vinculado ao Databricks para autenticação no espaço de trabalho do Azure Databricks
- Você pode se autenticar usando uma dessas opções:
  - um token PAT
  - a identidade gerenciada atribuída pelo sistema ADF, ou
  - uma identidade gerenciada atribuída ao usuário
- Embora o serviço vinculado exija que você configure um cluster, este cluster não é criado nem usado ao executar esta atividade. Ele é mantido para compatibilidade com outros tipos de atividades

atividade de trabalhos

3. Na aba de configurações, selecione um Fluxo de Trabalho do Databricks para executar na lista suspensa de Jobs (você só verá os Jobs aos quais seu principal autenticado tem acesso). Na seção Parâmetros do Job abaixo, configure os Parâmetros do Job (se houver) para enviar ao Fluxo de Trabalho do Databricks. Para saber mais sobre os Parâmetros do Job do Databricks, por favor, verifique os documentos.

Observe que o Job e os Parâmetros do Job podem ser configurados com conteúdo dinâmico

Parâmetros do job

É só isso. O ADF iniciará seu Fluxo de Trabalho Databricks e fornecerá o ID e URL da Execução do Job. O ADF então verificará a conclusão da Execução do Job. Leia mais abaixo para entender por que esse novo padrão é um clássico instantâneo.

gif pbi

Iniciar fluxos de trabalho do Databricks a partir do ADF permite que você obtenha mais desempenho do seu investimento no Azure Databricks

Usar o Azure Data Factory e o Azure Databricks juntos tem sido um padrão GA desde 2018, quando foi lançado com este post de blog. Desde então, a integração tem sido um padrão para os clientes Azure que têm seguido principalmente este padrão simples:

Use o ADF para transferir dados para o armazenamento Azure através de seus mais de 100 conectores, usando um tempo de execução de integração auto-hospedado para conexões privadas ou locais
Orquestre Notebooks Databricks através da atividade nativa de Notebook Databricks para implementar transformação de dados escalável no Databricks usando tabelas Delta Lake no ADLS

Embora este padrão tenha sido extremamente valioso ao longo do tempo, ele limitou os clientes aos seguintes modos de operação, que os privam do valor total do Databricks:

Usando computação All Purpose para executar Jobs para evitar tempos de lançamento do cluster -> enfrentando problemas de vizinho barulhento e pagando pela computação All Purpose para jobs automatizados
Aguardando o lançamento de clusters por execução de Notebook ao usar o cálculo de Jobs -> clusters clássicos são ativados por execução de notebook, incorrendo em tempo de lançamento do cluster para cada um, mesmo para um DAG de notebooks.
Gerenciando Pools para reduzir os tempos de lançamento do cluster de Jobs -> pools podem ser difíceis de gerenciar e muitas vezes levam a pagar por VMs que não estão sendo utilizadas
Usando um padrão de permissões excessivamente permissivo para integração entre ADF e Azure Databricks -> a integração requer administração de workspace OU a permissão de criação de cluster
Não há capacidade de usar novos recursos no Databricks como Databricks SQL, DLT, ou Serverless

Embora este padrão seja escalável e nativo do Azure Data Factory e Azure Databricks, as ferramentas e capacidades que oferece permaneceram as mesmas desde seu lançamento em 2018, mesmo que o Databricks tenha crescido e se destacado como a principal Plataforma de Inteligência de Dados em todas as nuvens.

O Azure Databricks vai além das análises tradicionais para entregar uma Plataforma de Inteligência de Dados unificada no Azure. Combina a arquitetura Lakehouse líder do setor com IA integrada e governança avançada para ajudar os clientes a desbloquear insights mais rapidamente, a um custo menor e com segurança de nível empresarial. As principais capacidades incluem:

OSS e padrões abertos
Um catálogo Lakehouse líder do setor através do Unity Catalog para proteger dados e IA em código, linguagens e computação dentro e fora do Azure Databricks
Desempenho e relação custo-benefício de primeira linha para ETL
Capacidades integradas para ML tradicional e GenAI, incluindo o ajuste fino de LLMs, usando modelos fundamentais (incluindo Claude Sonnet), construindo aplicações de Agentes e servindo modelos
DW de primeira classe no lakehouse com SQL Databricks
Publicação automatizada e integração com o Power BI através da funcionalidade Publicar para Power BI encontrada no Unity Catalog e Workflows

Com o lançamento da atividade nativa de trabalho do Databricks no Azure Data Factory, os clientes agora podem executar fluxos de trabalho do Databricks e passar parâmetros para as execuções de trabalhos. Este novo padrão não só resolve as restrições destacadas acima, mas também permite o uso das seguintes funcionalidades no Databricks que não estavam disponíveis anteriormente no ADF como:

Programando um DAG de Tarefas dentro do Databricks
Usando integrações SQL Databricks
Executando pipelines DLT
Usando a integração dbt com um Armazém SQL
Usando a reutilização do Cluster de Jobs Clássico para reduzir os tempos de lançamento do cluster
Usando Jobs Serverless compute
Funcionalidades padrão do Fluxo de Trabalho Databricks como Executar Como, Valores de Tarefa, Execuções Condicionais como If/Else e For Each, Tarefa AI/BI, Reparação de Execuções, Notificações/Alertas, integração Git, suporte DABs, linhagem integrada, enfileiramento e execuções simultâneas, e muito mais...

Acima de tudo, os clientes agora podem usar a atividade de trabalho do ADF Databricks para aproveitar o Publicar para Tarefas do Power BI em Fluxos de Trabalho do Databricks, que publicará automaticamente Modelos Semânticos para o Serviço Power BI a partir de esquemas no Catálogo Unity e acionará uma Importação se houver tabelas com modos de armazenamento usando Importação ou Dual (instruções de configuração documentação). Uma demonstração sobre Tarefas do Power BI em Fluxos de Trabalho do Databricks pode ser encontrada aqui. Para complementar isso, confira a Folha de Dicas de Melhores Práticas do Power BI no Databricks - um guia conciso e prático que ajuda as equipes a configurar e otimizar seus relatórios para desempenho, custo e experiência do usuário desde o início.

tarefa pbi

tarefa de publicar para pbi
A atividade Job Databricks no ADF é a Nova Melhor Prática

Usar a atividade de trabalho do Databricks no Azure Data Factory para iniciar fluxos de trabalho do Databricks é a nova melhor prática de integração ao usar as duas ferramentas. Os clientes podem começar imediatamente a usar este padrão paraaproveitar todas as capacidades da Plataforma de Inteligência de Dados do Databricks. Para os clientes que usam o ADF, o uso da atividade de trabalho do Databricks no ADF resultará em valor de negócio imediato e economia de custos. Os clientes com frameworks ETL que estão usando atividades de Notebook devem migrar seus frameworks para usar fluxos de trabalho do Databricks e a nova atividade de trabalho do Databricks no ADF e priorizar esta iniciativa em seu roadmap.