Pipeline de CDC con pipeline declarativo de Lakeflow Spark

Tipo de demo

Tutorial del producto

Duración

A tu propio ritmo

Social

Lo que aprenderás

Esta demostración destaca cómo Spark Declarative Pipeline simplifica la CDC (captura de datos modificados).

La CDC se realiza normalmente mediante la ingesta de cambios de sistemas externos (ERP, bases de datos SQL) con herramientas como Fivetran, Debezium, etc.

En esta demostración, le mostraremos cómo volver a crear su tabla consumiendo información de CDC.

También implementaremos una SCD2 (tabla de dimensión de cambio lento de tipo 2). Si bien esto puede ser particularmente difícil cuando los datos llegan fuera de orden, Declarative Pipeline lo hace increíblemente simple con solo una palabra clave.

Finalmente, le mostraremos cómo escanear mediante programación varias carpetas de entrada y activar N transmisiones (una para cada tabla de CDC), aprovechando la canalización declarativa con Python.

 

Para instalar el demo, obtén un espacio de trabajo gratuito de Databricks y ejecuta los dos comandos siguientes en un notebook de Python

Dbdemos es una biblioteca de Python que instala demos completas de Databricks en sus espacios de trabajo. Dbdemos cargará e iniciará notebooks, Pipelines declarativos, clústeres, paneles de Databricks SQL, modelos de warehouse… Consulte cómo usar dbdemos

 

Dbdemos se distribuye como un proyecto de GitHub.

Para más detalles, consulta en GitHub el archivo README.md y sigue la documentación.
Dbdemos se proporciona tal cual. Consulta la Licencia y el Aviso para obtener más información.
Databricks no ofrece soporte oficial para dbdemos ni para los recursos asociados.
Para cualquier problema, por favor, abra un ticket y el equipo de demostración lo revisará en la medida de lo posible.

 

Nota: Databricks Lakeflow unifica la ingeniería de datos con Lakeflow Connect, Lakeflow Spark Declarative Pipelines (antes conocidos como DLT) y Lakeflow Jobs (antes conocidos como Workflows).

Recomendado

<p><span>Introducción a la canalización declarativa de Spark en Lakeflow: Bicicletas</span></p>

Tutorial

Introducción a la canalización declarativa de Spark en Lakeflow: Bicicletas

<p>Unit Testing Lakeflow Spark Declarative Pipelines for Production-Grade Workflows</p>

Tutorial

Unit Testing Lakeflow Spark Declarative Pipelines for Production-Grade Workflows

<p>CDC Pipeline With Delta</p>

Tutorial

CDC Pipeline With Delta

Estos recursos se instalarán en estas demostraciones de Databricks:

orchestrate

¿Listo para empezar?