Data Engineering with Databricks - Spanish
Este es un curso introductorio que sirve como punto de partida adecuado para aprender ingeniería de datos con Databricks.
A continuación, describimos cada uno de los cuatro módulos de cuatro horas incluidos en este curso.
1. Data Ingestion with Lakeflow Connect
Este curso ofrece una introducción completa a Lakeflow Connect como solución escalable y simplificada para la ingestión de datos en Databricks desde diversas fuentes de datos. Comenzará explorando los diferentes tipos de conectores de Lakeflow Connect (estándar y gestionados), aprenderá diversas técnicas de ingestión, como por lotes, por lotes incrementales y en streaming, y luego repasará las principales ventajas de las tablas Delta y la arquitectura Medallion.
A partir de ahí, adquirirá habilidades prácticas para ingestar datos de forma eficiente desde el almacenamiento de objetos en la nube utilizando los conectores estándar de Lakeflow Connect con métodos como CREATE TABLE AS (CTAS), COPY INTO y Auto Loader, junto con las ventajas y consideraciones de cada enfoque. A continuación, aprenderá a añadir columnas de metadatos a sus tablas de nivel bronce durante la ingestión en la plataforma de inteligencia de datos Databricks. A continuación, trabajará con la columna de datos rescatados, que gestiona los registros que no coinciden con el esquema de su tabla bronce, incluidas las estrategias para gestionar estos datos rescatados.
El curso también presenta técnicas para la ingestión y el aplanamiento de datos JSON semiestructurados, así como la ingestión de datos de nivel empresarial utilizando los conectores gestionados de Lakeflow Connect.
Por último, los alumnos explorarán estrategias de ingestión alternativas, incluidas las operaciones MERGE INTO y el aprovechamiento del Databricks Marketplace, lo que les proporcionará los conocimientos básicos para respaldar la ingestión de datos de ingeniería moderna.
2. Deploy Workloads with Lakeflow Jobs
El curso Implementar cargas de trabajo con Lakeflow Jobs enseña cómo orquestar y automatizar los flujos de trabajo de datos, análisis e inteligencia artificial utilizando Lakeflow Jobs. Aprenderá a crear canalizaciones robustas y listas para la producción con una programación flexible, una orquestación avanzada y las mejores prácticas en materia de fiabilidad y eficiencia, todo ello integrado de forma nativa en la plataforma de inteligencia de datos Databricks. Se recomienda tener experiencia previa con Databricks, Python y SQL.
3. Build Data Pipelines with Lakeflow Declarative Pipelines
Este curso presenta a los usuarios los conceptos y habilidades esenciales necesarios para crear canalizaciones de datos utilizando Lakeflow Declarative Pipelines en Databricks para la ingestión y el procesamiento incremental por lotes o en streaming a través de múltiples tablas de streaming y vistas materializadas. Diseñado para ingenieros de datos que se inician en Lakeflow Declarative Pipelines, el curso ofrece una visión general completa de los componentes básicos, como el procesamiento incremental de datos, las tablas de streaming, las vistas materializadas y las vistas temporales, destacando sus propósitos específicos y sus diferencias.
Entre los temas tratados se incluyen:
⇾ Desarrollo y depuración de canalizaciones ETL con el editor de múltiples archivos de Lakeflow utilizando SQL (con ejemplos de código Python).
⇾ Cómo las canalizaciones declarativas de Lakeflow realizan un seguimiento de las dependencias de datos en una canalización a través del gráfico de la canalización.
⇾ Configuración de los recursos informáticos de la canalización, los activos de datos, los modos de activación y otras opciones avanzadas.
A continuación, el curso presenta las expectativas de calidad de los datos en Lakeflow y guía a los usuarios a través del proceso de integración de las expectativas en las canalizaciones para validar y garantizar la integridad de los datos. A continuación, los alumnos explorarán cómo poner en producción una canalización, incluidas las opciones de programación, el modo de producción y la habilitación del registro de eventos de la canalización para supervisar su rendimiento y estado.
Por último, el curso trata cómo implementar la captura de datos modificados (CDC) utilizando la sintaxis APPLY CHANGES INTO dentro de los pipelines declarativos de Lakeflow para gestionar dimensiones que cambian lentamente (SCD tipo 1 y tipo 2), preparando a los usuarios para integrar CDC en sus propios pipelines.
4. Data Management and Governance with Unity Catalog
En este curso, aprenderá sobre la gestión y la gobernanza de datos utilizando Databricks Unity Catalog. Cubre los conceptos básicos de la gobernanza de datos, las complejidades de la gestión de lagos de datos, la arquitectura de Unity Catalog, la seguridad, la administración y temas avanzados como el control de acceso detallado, la segregación de datos y la gestión de privilegios.
* Este curso tiene como objetivo preparar a los alumnos para completar el examen de certificación de ingeniería de datos asociada y proporciona los conocimientos necesarios para realizar el curso Ingeniería de datos avanzada con Databricks.
Languages Available: English | 日本語 | Português BR | 한국어 | Español
1. Data Ingestion with Lakeflow Connect
⇾ Conocimientos básicos de la plataforma de inteligencia de datos Databricks, incluidos Databricks Workspaces, Apache Spark, Delta Lake, la arquitectura Medallion y Unity Catalog.
⇾ Experiencia trabajando con diversos formatos de archivo (por ejemplo, Parquet, CSV, JSON, TXT).
⇾ Dominio de SQL y Python.
⇾ Familiaridad con la ejecución de código en cuadernos Databricks.
2. Deploy Workloads with Lakeflow Jobs
⇾ Conocimientos básicos sobre conceptos fundamentales de la nube (máquinas virtuales, almacenamiento de objetos, gestión de identidades).
⇾ Capacidad para realizar tareas básicas de desarrollo de código (crear computación, ejecutar código en cuadernos, utilizar operaciones básicas de cuadernos, importar repositorios desde git, etc.).
⇾ Familiaridad intermedia con conceptos básicos de SQL (CREATE, SELECT, INSERT, UPDATE, DELETE, WHILE, GROUP BY, JOIN, etc.).
3. Build Data Pipelines with Lakeflow Declarative Pipelines
⇾ Conocimientos básicos de la plataforma de inteligencia de datos Databricks, incluidos Databricks Workspaces, Apache Spark, Delta Lake, la arquitectura Medallion y Unity Catalog.
⇾ Experiencia en la ingesta de datos sin procesar en tablas Delta, incluido el uso de la función SQL read_files para cargar formatos como CSV, JSON, TXT y Parquet.
⇾ Competencia en la transformación de datos mediante SQL, incluido el uso de consultas de nivel intermedio y conocimientos básicos sobre uniones SQL.
4. Data Management and Governance with Unity Catalog
⇾ Conocimientos básicos sobre conceptos de computación en la nube (máquinas virtuales, almacenamiento de objetos, etc.).
⇾ Experiencia intermedia con conceptos básicos de SQL, como comandos SQL, funciones agregadas, filtros y clasificación, índices, tablas y vistas.
⇾ Conocimientos básicos de programación en Python, interfaz Jupyter Notebook y fundamentos de PySpark.
Outline
1. Data Ingestion with Lakeflow Connect
⇾ Introducción a la ingeniería de datos en Databricks.
⇾ Ingestión de almacenamiento en la nube con el conector estándar LakeFlow Connect.
⇾ Ingestión de datos empresariales con los conectores gestionados LakeFlow Connect.
⇾ Alternativas de ingestión.
2. Deploy Workloads with Lakeflow Jobs
⇾ Introducción a la ingeniería de datos en Databricks.
⇾ Conceptos básicos de los trabajos de Lakeflow.
⇾ Creación y programación de trabajos.
⇾ Funciones avanzadas de los trabajos de Lakeflow.
3. Build Data Pipelines with Lakeflow Declarative Pipelines
⇾ Introducción a la ingeniería de datos en Databricks
⇾ Fundamentos de los procesos declarativos de Lakeflow
⇾ Creación de procesos declarativos de Lakeflow
4. Data Management and Governance with Unity Catalog
⇾ Descripción general de la gobernanza de datos.
⇾ Demostración: cómo rellenar el metalmagasin.
⇾ Laboratorio: cómo navegar por el metalmagasin.
⇾ Organización y patrones de acceso.
⇾ Demostración: cómo actualizar tablas a Unity Catalog.
⇾ Seguridad y administración en Unity Catalog.
⇾ Descripción general de Databricks Marketplace.
⇾ Privilegios en Unity Catalog.
⇾ Demostración: Control del acceso a los datos
⇾ Control de acceso detallado
⇾ Laboratorio: Migración y gestión de datos en Unity Catalog
Public Class Registration
If your company has purchased success credits or has a learning subscription, please fill out the Training Request form. Otherwise, you can register below.
Private Class Request
If your company is interested in private training, please submit a request.
Registration options
Databricks has a delivery method for wherever you are on your learning journey
Self-Paced
Custom-fit learning paths for data, analytics, and AI roles and career paths through on-demand videos
Register nowInstructor-Led
Public and private courses taught by expert instructors across half-day to two-day courses
Register nowBlended Learning
Self-paced and weekly instructor-led sessions for every style of learner to optimize course completion and knowledge retention. Go to Subscriptions Catalog tab to purchase
Purchase nowSkills@Scale
Comprehensive training offering for large scale customers that includes learning elements for every style of learning. Inquire with your account executive for details

