Skip to main content

Build Data Pipelines with Lakeflow Spark Declarative Pipelines - Spanish

Este curso presenta a los usuarios los conceptos y habilidades esenciales necesarios para crear canalizaciones de datos utilizando Lakeflow Spark Declarative Pipelines (SDP) en Databricks para la ingestión y el procesamiento incremental por lotes o en streaming a través de múltiples tablas de streaming y vistas materializadas. Diseñado para ingenieros de datos que se inician en Spark Declarative Pipelines, el curso ofrece una visión general completa de los componentes básicos, como el procesamiento incremental de datos, las tablas de streaming, las vistas materializadas y las vistas temporales, destacando sus propósitos específicos y sus diferencias.


Entre los temas tratados se incluyen:

- Desarrollo y depuración de canalizaciones ETL con el editor de múltiples archivos en Spark Declarative Pipelines utilizando SQL (con ejemplos de código Python).

- Cómo Spark Declarative Pipelines realiza un seguimiento de las dependencias de datos en una canalización a través del gráfico de la canalización.

- Configuración de los recursos informáticos de la canalización, los activos de datos, los modos de activación y otras opciones avanzadas.


A continuación, el curso presenta las expectativas de calidad de los datos en Spark Declarative Pipelines, guiando a los usuarios a través del proceso de integración de las expectativas en las canalizaciones para validar y garantizar la integridad de los datos. A continuación, los alumnos explorarán cómo poner en producción una canalización, incluidas las opciones de programación y la habilitación del registro de eventos de la canalización para supervisar su rendimiento y estado.


Por último, el curso trata cómo implementar la captura de datos modificados (CDC) utilizando la sintaxis AUTO CDC INTO dentro de Spark Declarative Pipelines para gestionar dimensiones que cambian lentamente (SCD tipo 1 y tipo 2), preparando a los usuarios para integrar CDC en sus propias canalizaciones.

Skill Level
Associate
Duration
4h
Prerequisites

⇾ Conocimientos básicos de la plataforma de inteligencia de datos Databricks, incluidos Databricks Workspaces, Apache Spark, Delta Lake, la arquitectura Medallion y Unity Catalog.

⇾ Experiencia en la ingesta de datos sin procesar en tablas Delta, incluido el uso de la función SQL read_files para cargar formatos como CSV, JSON, TXT y Parquet.

⇾ Competencia en la transformación de datos mediante SQL, incluido el uso de consultas de nivel intermedio y conocimientos básicos sobre uniones SQL.

Outline

Introducción a la ingeniería de datos en Databricks.

⇾ Ingeniería de datos en Databricks.

⇾ ¿Qué son las canalizaciones declarativas de Lakeflow Spark?

⇾ Configuración del curso y creación de una canalización.

⇾ Descripción general del proyecto del curso.


Fundamentos de las canalizaciones declarativas de Lakeflow Spark.

⇾ Descripción general de los tipos de conjuntos de datos.

⇾ Desarrollo simplificado de canalizaciones.

⇾ Configuración común de canalizaciones

⇾ Desarrollo de una canalización sencilla

⇾ Garantizar la calidad de los datos con expectativas


Creación de canalizaciones declarativas de Lakeflow Spark

⇾ Descripción general de las uniones de streaming

⇾ Implementación de una canalización en producción

⇾ Descripción general de la captura de datos modificados (CDC)

⇾ Captura de datos modificados con AUTO CDC INTO

⇾ Descripción general de funciones adicionales

Upcoming Public Classes

Date
Time
Language
Price
Dec 15
08 AM - 12 PM (America/Denver)
Spanish
$750.00

Public Class Registration

If your company has purchased success credits or has a learning subscription, please fill out the Training Request form. Otherwise, you can register below.

Private Class Request

If your company is interested in private training, please submit a request.

See all our registration options

Registration options

Databricks has a delivery method for wherever you are on your learning journey

Runtime

Self-Paced

Custom-fit learning paths for data, analytics, and AI roles and career paths through on-demand videos

Register now

Instructors

Instructor-Led

Public and private courses taught by expert instructors across half-day to two-day courses

Register now

Learning

Blended Learning

Self-paced and weekly instructor-led sessions for every style of learner to optimize course completion and knowledge retention. Go to Subscriptions Catalog tab to purchase

Purchase now

Scale

Skills@Scale

Comprehensive training offering for large scale customers that includes learning elements for every style of learning. Inquire with your account executive for details

Upcoming Public Classes

Data Engineer

DevOps Essentials for Data Engineering - Spanish

Ce cours explore les meilleures pratiques d’ingénierie logicielle et les principes DevOps, spécialement conçus pour les ingénieurs de données travaillant avec Databricks. Les participants construiront une base solide dans les sujets clés tels que la qualité du code, le contrôle de version, la documentation et les tests. Le cours met l’accent sur DevOps, couvrant les composants de base, les avantages et le rôle de l’intégration et de la livraison continues (CI/CD) dans l’optimisation des workflows de data engineering.

Vous apprendrez à appliquer les principes de modularité dans PySpark pour créer des composants réutilisables et structurer le code efficacement. L’expérience pratique comprend la conception et l’implémentation de tests unitaires pour les fonctions PySpark à l’aide du framework pytest, suivis de tests d’intégration pour les pipelines de données Databricks avec DLT et Workflows pour garantir la fiabilité.

Le cours couvre également les opérations essentielles Git au sein de Databricks, y compris l’utilisation des dossiers Databricks Git pour intégrer les pratiques d’intégration continue. Enfin, vous examinerez à haut niveau les différentes méthodes de déploiement des actifs Databricks, tels que les ensembles d’actifs REST API, CLI, SDK, et Databricks (DAB), ce qui vous permettra d’acquérir la connaissance des techniques de déploiement et de gestion de vos pipelines.

À la fin du cours, vous maîtriserez l’ingénierie logicielle et les meilleures pratiques DevOps, ce qui vous permettra de créer des solutions d'ingénierie des données évolutives, maintenables et efficaces.

Languages Available: English | 日本語 | Português BR | 한국어 | Español | française

Paid
4h
Lab
instructor-led
Associate
Data Engineer

Data Engineering with Databricks - Spanish

Este es un curso introductorio que sirve como punto de partida adecuado para aprender ingeniería de datos con Databricks. 

A continuación, describimos cada uno de los cuatro módulos de cuatro horas incluidos en este curso.

1. Data Ingestion with Lakeflow Connect

Este curso ofrece una introducción completa a Lakeflow Connect como solución escalable y simplificada para la ingestión de datos en Databricks desde diversas fuentes de datos. Comenzará explorando los diferentes tipos de conectores de Lakeflow Connect (estándar y gestionados), aprenderá diversas técnicas de ingestión, como por lotes, por lotes incrementales y en streaming, y luego repasará las principales ventajas de las tablas Delta y la arquitectura Medallion.

A partir de ahí, adquirirá habilidades prácticas para ingestar datos de forma eficiente desde el almacenamiento de objetos en la nube utilizando los conectores estándar de Lakeflow Connect con métodos como CREATE TABLE AS (CTAS), COPY INTO y Auto Loader, junto con las ventajas y consideraciones de cada enfoque. A continuación, aprenderá a añadir columnas de metadatos a sus tablas de nivel bronce durante la ingestión en la plataforma de inteligencia de datos Databricks. A continuación, trabajará con la columna de datos rescatados, que gestiona los registros que no coinciden con el esquema de su tabla bronce, incluidas las estrategias para gestionar estos datos rescatados.

El curso también presenta técnicas para la ingestión y el aplanamiento de datos JSON semiestructurados, así como la ingestión de datos de nivel empresarial utilizando los conectores gestionados de Lakeflow Connect.

Por último, los alumnos explorarán estrategias de ingestión alternativas, incluidas las operaciones MERGE INTO y el aprovechamiento del Databricks Marketplace, lo que les proporcionará los conocimientos básicos para respaldar la ingestión de datos de ingeniería moderna.

2. Deploy Workloads with Lakeflow Jobs

El curso Implementar cargas de trabajo con Lakeflow Jobs enseña cómo orquestar y automatizar los flujos de trabajo de datos, análisis e inteligencia artificial utilizando Lakeflow Jobs. Aprenderá a crear canalizaciones robustas y listas para la producción con una programación flexible, una orquestación avanzada y las mejores prácticas en materia de fiabilidad y eficiencia, todo ello integrado de forma nativa en la plataforma de inteligencia de datos Databricks. Se recomienda tener experiencia previa con Databricks, Python y SQL.

3. Build Data Pipelines with Lakeflow Declarative Pipelines

Este curso presenta a los usuarios los conceptos y habilidades esenciales necesarios para crear canalizaciones de datos utilizando Lakeflow Spark Declarative Pipelines (SDP) en Databricks para la ingestión y el procesamiento incremental por lotes o en streaming a través de múltiples tablas de streaming y vistas materializadas. Diseñado para ingenieros de datos que se inician en Spark Declarative Pipelines, el curso ofrece una visión general completa de los componentes básicos, como el procesamiento incremental de datos, las tablas de streaming, las vistas materializadas y las vistas temporales, destacando sus propósitos específicos y sus diferencias.

Entre los temas tratados se incluyen:

⇾ Desarrollo y depuración de canalizaciones ETL con el editor de múltiples archivos en Spark Declarative Pipelines utilizando SQL (con ejemplos de código Python).

⇾ Cómo Spark Declarative Pipelines realiza un seguimiento de las dependencias de datos en una canalización a través del gráfico de la canalización.

⇾ Configuración de los recursos informáticos de la canalización, los activos de datos, los modos de activación y otras opciones avanzadas.

A continuación, el curso presenta las expectativas de calidad de los datos en Spark Declarative Pipelines, guiando a los usuarios a través del proceso de integración de las expectativas en las canalizaciones para validar y garantizar la integridad de los datos. A continuación, los alumnos explorarán cómo poner en producción una canalización, incluidas las opciones de programación y la habilitación del registro de eventos de la canalización para supervisar su rendimiento y estado.

Por último, el curso trata cómo implementar la captura de datos modificados (CDC) utilizando la sintaxis AUTO CDC INTO dentro de Spark Declarative Pipelines para gestionar dimensiones que cambian lentamente (SCD tipo 1 y tipo 2), preparando a los usuarios para integrar CDC en sus propias canalizaciones.

4. Fundamentos de DevOps para la ingeniería de datos

Ce cours explore les meilleures pratiques d’ingénierie logicielle et les principes DevOps, spécialement conçus pour les ingénieurs de données travaillant avec Databricks. Les participants construiront une base solide dans les sujets clés tels que la qualité du code, le contrôle de version, la documentation et les tests. Le cours met l’accent sur DevOps, couvrant les composants de base, les avantages et le rôle de l’intégration et de la livraison continues (CI/CD) dans l’optimisation des workflows de data engineering.

Vous apprendrez à appliquer les principes de modularité dans PySpark pour créer des composants réutilisables et structurer le code efficacement. L’expérience pratique comprend la conception et l’implémentation de tests unitaires pour les fonctions PySpark à l’aide du framework pytest, suivis de tests d’intégration pour les pipelines de données Databricks avec DLT et Workflows pour garantir la fiabilité.

Le cours couvre également les opérations essentielles Git au sein de Databricks, y compris l’utilisation des dossiers Databricks Git pour intégrer les pratiques d’intégration continue. Enfin, vous examinerez à haut niveau les différentes méthodes de déploiement des actifs Databricks, tels que les ensembles d’actifs REST API, CLI, SDK, et Databricks (DAB), ce qui vous permettra d’acquérir la connaissance des techniques de déploiement et de gestion de vos pipelines.

À la fin du cours, vous maîtriserez l’ingénierie logicielle et les meilleures pratiques DevOps, ce qui vous permettra de créer des solutions d'ingénierie des données évolutives, maintenables et efficaces.

Languages Available: English | 日本語 | Português BR | 한국어 | Español

Paid
16h
Lab
instructor-led
Associate

Questions?

If you have any questions, please refer to our Frequently Asked Questions page.