Pipeline CDC com Delta
Tipo de Demonstração
Tutorial do Produto
Duração
Individualizado
Conteúdo relacionado
O que você vai aprender
Esta demonstração destacará como implementar um fluxo de CDC (captura de dados alterados) com a API Spark e Delta Lake.
CDC geralmente é feito pela ingestão de alterações de um sistema externo (ERP, bancos de dados SQL) com ferramentas como Fivetran, Debezium, etc.
Nesta demonstração, mostraremos como recriar sua tabela consumindo informações do CDC.
Por fim, mostraremos como varrer programaticamente várias pastas de entrada e acionar N fluxos (um para cada tabela CDC).
Observe que o CDC é facilitado com o Delta Live Tables (DLT). Recomendamos que você experimente a demonstração DLT CDC!
Para instalar a demonstração, obtenha uma área de trabalho gratuita do Databricks e execute os dois comandos seguintes em um notebook Python
%pip instale dbdemos
import dbdemos
dbdemos.install('cdc-pipeline')
Dbdemos é uma biblioteca Python que instala demonstrações completas do Databricks em seus espaços de trabalho. Dbdemos carregará e iniciará notebooks, pipelines Delta Live Tables, clusters, painéis Databricks SQL, modelos de armazém ... Veja como usar dbdemos
Dbdemos é distribuído como um projeto do GitHub.
Para mais detalhes, por favor, veja o GitHub arquivo README.md e siga a documentação.
Dbdemos é fornecido como está. Veja a Licença e Aviso para mais informações.
Databricks não oferece suporte oficial para dbdemos e os ativos associados.
Para qualquer problema, por favor, abra um ticket e a equipe de demonstração dará uma olhada com o melhor esforço possível.