Build Data Pipelines with Lakeflow Spark Declarative Pipelines - Spanish

Este curso presenta a los usuarios los conceptos y habilidades esenciales necesarios para crear canalizaciones de datos utilizando Lakeflow Spark Declarative Pipelines (SDP) en Databricks para la ingestión y el procesamiento incremental por lotes o en streaming a través de múltiples tablas de streaming y vistas materializadas. Diseñado para ingenieros de datos que se inician en Spark Declarative Pipelines, el curso ofrece una visión general completa de los componentes básicos, como el procesamiento incremental de datos, las tablas de streaming, las vistas materializadas y las vistas temporales, destacando sus propósitos específicos y sus diferencias.

Entre los temas tratados se incluyen:

- Desarrollo y depuración de canalizaciones ETL con el editor de múltiples archivos en Spark Declarative Pipelines utilizando SQL (con ejemplos de código Python).

- Cómo Spark Declarative Pipelines realiza un seguimiento de las dependencias de datos en una canalización a través del gráfico de la canalización.

- Configuración de los recursos informáticos de la canalización, los activos de datos, los modos de activación y otras opciones avanzadas.

A continuación, el curso presenta las expectativas de calidad de los datos en Spark Declarative Pipelines, guiando a los usuarios a través del proceso de integración de las expectativas en las canalizaciones para validar y garantizar la integridad de los datos. A continuación, los alumnos explorarán cómo poner en producción una canalización, incluidas las opciones de programación y la habilitación del registro de eventos de la canalización para supervisar su rendimiento y estado.

Por último, el curso trata cómo implementar la captura de datos modificados (CDC) utilizando la sintaxis AUTO CDC INTO dentro de Spark Declarative Pipelines para gestionar dimensiones que cambian lentamente (SCD tipo 1 y tipo 2), preparando a los usuarios para integrar CDC en sus propias canalizaciones.

Skill Level

Associate

Duration

Prerequisites

⇾ Conocimientos básicos de la plataforma de inteligencia de datos Databricks, incluidos Databricks Workspaces, Apache Spark, Delta Lake, la arquitectura Medallion y Unity Catalog.

⇾ Experiencia en la ingesta de datos sin procesar en tablas Delta, incluido el uso de la función SQL read_files para cargar formatos como CSV, JSON, TXT y Parquet.

⇾ Competencia en la transformación de datos mediante SQL, incluido el uso de consultas de nivel intermedio y conocimientos básicos sobre uniones SQL.

Outline

Introducción a la ingeniería de datos en Databricks.

⇾ Ingeniería de datos en Databricks.

⇾ ¿Qué son las canalizaciones declarativas de Lakeflow Spark?

⇾ Configuración del curso y creación de una canalización.

⇾ Descripción general del proyecto del curso.

Fundamentos de las canalizaciones declarativas de Lakeflow Spark.

⇾ Descripción general de los tipos de conjuntos de datos.

⇾ Desarrollo simplificado de canalizaciones.

⇾ Configuración común de canalizaciones

⇾ Desarrollo de una canalización sencilla

⇾ Garantizar la calidad de los datos con expectativas

Creación de canalizaciones declarativas de Lakeflow Spark

⇾ Descripción general de las uniones de streaming

⇾ Implementación de una canalización en producción

⇾ Descripción general de la captura de datos modificados (CDC)

⇾ Captura de datos modificados con AUTO CDC INTO

⇾ Descripción general de funciones adicionales

Inscripción a clases públicas

Si su empresa ha adquirido créditos de servicio (Success Credits) o cuenta con una suscripción de aprendizaje, por favor complete el formulario de Solicitud de Capacitación. De lo contrario, puede registrarse a continuación.

Registro de clientes Registro de socios

Solicitud de clase privada

Si su empresa está interesada en capacitación privada, envíe una solicitud.

Solicitar Entrenamiento Privado

Ver todas nuestras opciones de inscripción

Registration options

Databricks ofrece modalidades de aprendizaje para acompañarlo en todo su recorrido.

A tu propio ritmo

Rutas de aprendizaje personalizadas para roles y trayectorias profesionales de datos, analítica e IA, con videos a pedido.

Regístrese ahora

Instruido por expertos

Cursos públicos y privados impartidos por instructores expertos en sesiones de medio día o dos días.

Regístrese ahora

Aprendizaje combinado (Blended Learning)

Sesiones semanales dirigidas por un instructor, junto con opciones a tu propio ritmo, para todos los estilos de aprendizaje, optimizando la finalización y la retención del conocimiento. Visite la pestaña “Catálogo de suscripciones” para comprar.

Comprar ahora

Skills@Scale

Oferta de capacitación integral para clientes a gran escala que incluye elementos para todos los estilos de aprendizaje. Consulte con su ejecutivo de cuenta para obtener más detalles.

Próximas clases públicas

Data Analyst

SQL Analytics on Databricks - Spanish

En este curso, aprenderá cómo usar Databricks de manera efectiva para el análisis de datos, con un enfoque específico en Databricks SQL. Como analista de datos Databricks, sus responsabilidades incluirán encontrar datos relevantes, analizarlo para aplicaciones potenciales y transformarlo en formatos que proporcionen valiosas perspectivas comerciales.

También comprenderá su papel en la gestión de objetos de datos y cómo manipularlos dentro de la Plataforma de Inteligencia de Datos de Databricks, utilizando herramientas como Notebooks, SQL Editor y Databricks SQL.

Además, aprenderá sobre la importancia de Unity Catalog en la gestión de activos de datos y la plataforma en general. Finalmente, el curso proporcionará una descripción general de cómo Databricks facilita la optimización del rendimiento y le enseñará cómo acceder a Query Insights para comprender los procesos que ocurren detrás de escena al ejecutar análisis de SQL en Databricks.

Languages Available: English | 日本語 | Português BR | 한국어

AI/BI for Data Analysts - Spanish

En este curso, aprenderá a utilizar las funciones que Databricks ofrece para las necesidades de inteligencia empresarial: dashboards de IA/BI y Genie de IA/BI. Como analista de datos de Databricks, tendrá la tarea de crear dashboards de IA/BI y Genie de IA/BI dentro de la plataforma, administrar el acceso a estos activos por parte de las partes interesadas y otras partes necesarias, y mantener estos activos a medida que se editan, actualizan o desmantelan a lo largo de su vida útil. Este curso tiene como objetivo instruir a los participantes sobre cómo diseñar dashboards para obtener insights empresariales, compartirlos con colaboradores y partes interesadas, y mantener esos activos dentro de la plataforma. Los participantes también aprenderán cómo utilizar Genie de IA/BI para respaldar el análisis de autoservicio a través de la creación y el mantenimiento de estos entornos impulsados por Databricks Data Intelligence Engine.

DevOps Essentials for Data Engineering - Spanish

Este curso explora las mejores prácticas de ingeniería de software y los principios de DevOps, diseñados específicamente para ingenieros de datos que trabajan con Databricks. Los participantes construirán una base sólida en temas clave como la calidad del código, el control de versiones, la documentación y las pruebas. El curso enfatiza DevOps, cubriendo los componentes centrales, los beneficios y el papel de la integración y entrega continuas (CI/CD) en la optimización de Lakeflow jobs de ingeniería de datos.

Aprenderá cómo aplicar los principios de modularidad en PySpark para crear componentes reutilizables y estructurar código de manera eficiente. La experiencia práctica incluye el diseño e implementación de pruebas unitarias para funciones PySpark utilizando el framework pytest, seguidas de pruebas de integración para pipeline de datos de Databricks con SDP y Lakeflow Jobs para garantizar la confiabilidad.

El curso también cubre las operaciones esenciales de Git dentro de Databricks, incluido el uso de carpetas Databricks Git para integrar prácticas de integración continua. Por último, analizará varios métodos de implementación de activos de Databricks, como REST API, CLI, SDK, y Databricks Asset Bundles (DAB), lo que le proporcionará el conocimiento de las técnicas para implementar y administrar sus canalizaciones.

Al final del curso, dominará la ingeniería de software y las mejores prácticas DevOps, lo que le permitirá crear soluciones de ingeniería de datos escalables, mantenibles y eficientes.