Data Engineering with Databricks - Spanish

Este es un curso introductorio que sirve como punto de partida adecuado para aprender ingeniería de datos con Databricks.

A continuación, describimos cada uno de los cuatro módulos de cuatro horas incluidos en este curso.

1. Data Ingestion with Lakeflow Connect

Este curso ofrece una introducción completa a Lakeflow Connect como solución escalable y simplificada para la ingestión de datos en Databricks desde diversas fuentes de datos. Comenzará explorando los diferentes tipos de conectores de Lakeflow Connect (estándar y gestionados), aprenderá diversas técnicas de ingestión, como por lotes, por lotes incrementales y en streaming, y luego repasará las principales ventajas de las tablas Delta y la arquitectura Medallion.

A partir de ahí, adquirirá habilidades prácticas para ingestar datos de forma eficiente desde el almacenamiento de objetos en la nube utilizando los conectores estándar de Lakeflow Connect con métodos como CREATE TABLE AS (CTAS), COPY INTO y Auto Loader, junto con las ventajas y consideraciones de cada enfoque. A continuación, aprenderá a añadir columnas de metadatos a sus tablas de nivel bronce durante la ingestión en la plataforma de inteligencia de datos Databricks. A continuación, trabajará con la columna de datos rescatados, que gestiona los registros que no coinciden con el esquema de su tabla bronce, incluidas las estrategias para gestionar estos datos rescatados.

El curso también presenta técnicas para la ingestión y el aplanamiento de datos JSON semiestructurados, así como la ingestión de datos de nivel empresarial utilizando los conectores gestionados de Lakeflow Connect.

Por último, los alumnos explorarán estrategias de ingestión alternativas, incluidas las operaciones MERGE INTO y el aprovechamiento del Databricks Marketplace, lo que les proporcionará los conocimientos básicos para respaldar la ingestión de datos de ingeniería moderna.

2. Deploy Workloads with Lakeflow Jobs

El curso Implementar cargas de trabajo con Lakeflow Jobs enseña cómo orquestar y automatizar los flujos de trabajo de datos, análisis e inteligencia artificial utilizando Lakeflow Jobs. Aprenderá a crear canalizaciones robustas y listas para la producción con una programación flexible, una orquestación avanzada y las mejores prácticas en materia de fiabilidad y eficiencia, todo ello integrado de forma nativa en la plataforma de inteligencia de datos Databricks. Se recomienda tener experiencia previa con Databricks, Python y SQL.

3. Build Data Pipelines with Lakeflow Declarative Pipelines

Este curso presenta a los usuarios los conceptos y habilidades esenciales necesarios para crear canalizaciones de datos utilizando Lakeflow Spark Declarative Pipelines (SDP) en Databricks para la ingestión y el procesamiento incremental por lotes o en streaming a través de múltiples tablas de streaming y vistas materializadas. Diseñado para ingenieros de datos que se inician en Spark Declarative Pipelines, el curso ofrece una visión general completa de los componentes básicos, como el procesamiento incremental de datos, las tablas de streaming, las vistas materializadas y las vistas temporales, destacando sus propósitos específicos y sus diferencias.

Entre los temas tratados se incluyen:

⇾ Desarrollo y depuración de canalizaciones ETL con el editor de múltiples archivos en Spark Declarative Pipelines utilizando SQL (con ejemplos de código Python).

⇾ Cómo Spark Declarative Pipelines realiza un seguimiento de las dependencias de datos en una canalización a través del gráfico de la canalización.

⇾ Configuración de los recursos informáticos de la canalización, los activos de datos, los modos de activación y otras opciones avanzadas.

A continuación, el curso presenta las expectativas de calidad de los datos en Spark Declarative Pipelines, guiando a los usuarios a través del proceso de integración de las expectativas en las canalizaciones para validar y garantizar la integridad de los datos. A continuación, los alumnos explorarán cómo poner en producción una canalización, incluidas las opciones de programación y la habilitación del registro de eventos de la canalización para supervisar su rendimiento y estado.

Por último, el curso trata cómo implementar la captura de datos modificados (CDC) utilizando la sintaxis AUTO CDC INTO dentro de Spark Declarative Pipelines para gestionar dimensiones que cambian lentamente (SCD tipo 1 y tipo 2), preparando a los usuarios para integrar CDC en sus propias canalizaciones.

4. Fundamentos de DevOps para la ingeniería de datos

Este curso explora las mejores prácticas de ingeniería de software y los principios de DevOps, diseñados específicamente para ingenieros de datos que trabajan con Databricks. Los participantes construirán una base sólida en temas clave como la calidad del código, el control de versiones, la documentación y las pruebas. El curso enfatiza DevOps, cubriendo los componentes centrales, los beneficios y el papel de la integración y entrega continuas (CI/CD) en la optimización de Lakeflow jobs de ingeniería de datos.

Aprenderá cómo aplicar los principios de modularidad en PySpark para crear componentes reutilizables y estructurar código de manera eficiente. La experiencia práctica incluye el diseño e implementación de pruebas unitarias para funciones PySpark utilizando el framework pytest, seguidas de pruebas de integración para pipeline de datos de Databricks con SDP y Lakeflow Jobs para garantizar la confiabilidad.

El curso también cubre las operaciones esenciales de Git dentro de Databricks, incluido el uso de carpetas Databricks Git para integrar prácticas de integración continua. Por último, analizará varios métodos de implementación de activos de Databricks, como REST API, CLI, SDK, y Databricks Asset Bundles (DAB), lo que le proporcionará el conocimiento de las técnicas para implementar y administrar sus canalizaciones.

Al final del curso, dominará la ingeniería de software y las mejores prácticas DevOps, lo que le permitirá crear soluciones de ingeniería de datos escalables, mantenibles y eficientes.

Skill Level

Associate

Duration

16h

Prerequisites

1. Data Ingestion with Lakeflow Connect

⇾ Conocimientos básicos de la plataforma de inteligencia de datos Databricks, incluidos Databricks Workspaces, Apache Spark, Delta Lake, la arquitectura Medallion y Unity Catalog.

⇾ Experiencia trabajando con diversos formatos de archivo (por ejemplo, Parquet, CSV, JSON, TXT).

⇾ Dominio de SQL y Python.

⇾ Familiaridad con la ejecución de código en cuadernos Databricks.

2. Deploy Workloads with Lakeflow Jobs

⇾ Conocimientos básicos sobre conceptos fundamentales de la nube (máquinas virtuales, almacenamiento de objetos, gestión de identidades).

⇾ Capacidad para realizar tareas básicas de desarrollo de código (crear computación, ejecutar código en cuadernos, utilizar operaciones básicas de cuadernos, importar repositorios desde git, etc.).

⇾ Familiaridad intermedia con conceptos básicos de SQL (CREATE, SELECT, INSERT, UPDATE, DELETE, WHILE, GROUP BY, JOIN, etc.).

3. Build Data Pipelines with Lakeflow Spark Declarative Pipelines

⇾ Conocimientos básicos de la plataforma de inteligencia de datos Databricks, incluidos Databricks Workspaces, Apache Spark, Delta Lake, la arquitectura Medallion y Unity Catalog.

⇾ Experiencia en la ingesta de datos sin procesar en tablas Delta, incluido el uso de la función SQL read_files para cargar formatos como CSV, JSON, TXT y Parquet.

⇾ Competencia en la transformación de datos mediante SQL, incluido el uso de consultas de nivel intermedio y conocimientos básicos sobre uniones SQL.

4. Fundamentos de DevOps para la ingeniería de datos

⇾ Conocimiento competente del Databricks platform, incluida la experiencia con Databricks Workspaces, Apache Spark, Delta Lake y la Medallion Architecture, Unity Catalog, Spark Declarative Pipelines, y Jobs. También se requiere una comprensión básica del control de versiones Git.

⇾ Experiencia en la ingesta y transformación de datos, con competencia en PySpark para el procesamiento de datos y manipulaciones de DataFrame. Además, los candidatos deben tener experiencia en la redacción de consultas SQL de nivel intermedio para el análisis y la transformación de datos.

⇾ Conocimiento de programación Python, con competencia en la escritura de código Python de nivel intermedio, incluida la capacidad de diseñar e implementar funciones y clases. Los usuarios también deben ser expertos en la creación, importación y utilización efectiva de paquetes Python.

Outline

1. Data Ingestion with Lakeflow Connect

⇾ Introducción a la ingeniería de datos en Databricks.

⇾ Ingestión de almacenamiento en la nube con el conector estándar LakeFlow Connect.

⇾ Ingestión de datos empresariales con los conectores gestionados LakeFlow Connect.

⇾ Alternativas de ingestión.

2. Deploy Workloads with Lakeflow Jobs

⇾ Introducción a la ingeniería de datos en Databricks.

⇾ Conceptos básicos de los trabajos de Lakeflow.

⇾ Creación y programación de trabajos.

⇾ Funciones avanzadas de los trabajos de Lakeflow.

3. Build Data Pipelines with Lakeflow Spark Declarative Pipelines

⇾ Introducción a la ingeniería de datos en Databricks

⇾ Fundamentos de los procesos declarativos de Lakeflow Spark

⇾ Creación de procesos declarativos de Lakeflow Spark

4. Fundamentos de DevOps para la ingeniería de datos

Ingeniería de software, DevOps y CI/CD Fundamentos

⇾ Introducción a las mejores prácticas de ingeniería software (SWE)

⇾ Introducción a Modularización del código PySpark

⇾ Modularizar PySpark Código

⇾ DevOps Fundamentos

⇾ El papel de CI/CD en DevOps

⇾ Conocimiento Chequeo/Discusión

Integración continua

⇾ Planificación del proyecto

⇾ Exploración de la configuración del proyecto

⇾ Introducción a las pruebas unitarias para PySpark

⇾ Creación y ejecución de pruebas unitarias

⇾ Ejecución de la integración pruebas con DLT y Flujos de trabajo

⇾ Realización de pruebas de integración con DLT y Flujos de trabajo

⇾ Control de versiones con visión general de Git

Introducción a Despliegue continuo

⇾ Implementación de la descripción general de los activos Databricks

⇾ Implementación del proyecto Databricks

Inscripción a clases públicas

Si su empresa ha adquirido créditos de servicio (Success Credits) o cuenta con una suscripción de aprendizaje, por favor complete el formulario de Solicitud de Capacitación. De lo contrario, puede registrarse a continuación.

Registro de clientes Registro de socios

Solicitud de clase privada

Si su empresa está interesada en capacitación privada, envíe una solicitud.

Solicitar Entrenamiento Privado

Ver todas nuestras opciones de inscripción

Registration options

Databricks ofrece modalidades de aprendizaje para acompañarlo en todo su recorrido.

A tu propio ritmo

Rutas de aprendizaje personalizadas para roles y trayectorias profesionales de datos, analítica e IA, con videos a pedido.

Regístrese ahora

Instruido por expertos

Cursos públicos y privados impartidos por instructores expertos en sesiones de medio día o dos días.

Regístrese ahora

Aprendizaje combinado (Blended Learning)

Sesiones semanales dirigidas por un instructor, junto con opciones a tu propio ritmo, para todos los estilos de aprendizaje, optimizando la finalización y la retención del conocimiento. Visite la pestaña “Catálogo de suscripciones” para comprar.

Comprar ahora

Skills@Scale

Oferta de capacitación integral para clientes a gran escala que incluye elementos para todos los estilos de aprendizaje. Consulte con su ejecutivo de cuenta para obtener más detalles.

Próximas clases públicas

Architecting Data Warehouses for Large-Scale Deployments - Spanish

Este curso aborda la optimización del rendimiento, el control de costos y la seguridad para implementaciones de data warehousing a gran escala.

Este curso está dirigido a profesionales de data warehousing responsables de gestionar entornos de Databricks que dan servicio a cientos o miles de usuarios en múltiples unidades de negocio. Adquirirá las habilidades necesarias para escalar de forma eficiente las operaciones de data warehousing, manteniendo un alto rendimiento, la rentabilidad y el cumplimiento de los estándares de seguridad.

Nota: Databricks Academy está pasando a un formato basado en cuadernos para las sesiones presenciales en el entorno de Databricks, dejando de utilizar presentaciones de diapositivas para las clases. Puedes acceder a los cuadernos de las clases en el entorno de laboratorio de Vocareum.

Languages Available: English | 日本語 | Português BR | 한국어 | française

Building ETL Pipelines with SQL - Spanish

Este curso enseña a crear pipelines ETL listos para producción utilizando exclusivamente SQL en la Databricks Data Intelligence Platform. Los participantes aprenden Streaming Tables con Auto Loader para la ingesta incremental, Materialized Views con actualización incremental para las transformaciones de Silver a Gold, AUTO CDC (FLOW AUTO CDC) para la gestión declarativa de dimensiones SCD Type 1 y Type 2, y Lakeflow Jobs con tareas SQL File para la orquestación en producción. El curso recorre un conjunto de datos retail realista a través de la arquitectura de medallón (Bronze → Silver → Gold).

Data Analysis with Databricks - Spanish

Este curso ofrece una introducción completa a Databricks SQL. Los alumnos aprenderán a importar datos, escribir consultas, crear visualizaciones y paneles de control, y configurar alertas. Este curso te preparará para presentarte al examen de Certificación de Analista de Datos Asociado de Databricks.

Este curso consta de dos módulos de cuatro horas de duración.

SQL Analytics on Databricks

En este curso, aprenderá cómo usar Databricks de manera efectiva para el análisis de datos, con un enfoque específico en Databricks SQL. Como analista de datos Databricks, sus responsabilidades incluirán encontrar datos relevantes, analizarlo para aplicaciones potenciales y transformarlo en formatos que proporcionen valiosas perspectivas comerciales.

También comprenderá su papel en la gestión de objetos de datos y cómo manipularlos dentro de la Plataforma de Inteligencia de Datos de Databricks, utilizando herramientas como Notebooks, SQL Editor y Databricks SQL.

Además, aprenderá sobre la importancia de Unity Catalog en la gestión de activos de datos y la plataforma en general. Finalmente, el curso proporcionará una descripción general de cómo Databricks facilita la optimización del rendimiento y le enseñará cómo acceder a Query Insights para comprender los procesos que ocurren detrás de escena al ejecutar análisis de SQL en Databricks.

AI/BI for Data Analysts

Este curso enseña a los analistas de datos a diseñar, crear, publicar y operar AI/BI Dashboards en Databricks. Los AI/BI Dashboards combinan datos gobernados por Unity Catalog con visualizaciones interactivas, filtros e integración con Genie, para que los usuarios de negocio puedan explorar respuestas sin escribir código.

El curso sigue una única implementación de extremo a extremo. Comienzas con tablas de origen en Unity Catalog y terminas con un dashboard de varias páginas publicado y supervisado. En el camino, aprenderás cómo los dashboards encajan en la familia de productos AI/BI de Databricks y dónde intervienen Genie, los conjuntos de datos, las visualizaciones y los filtros dentro del flujo de trabajo.

Languages Available: English | 日本語 | Português BR | 한국어