Data Ingestion with Lakeflow Connect - French

Ce cours fournit une introduction complète à Lakeflow Connect, une solution évolutive et simplifiée pour l’ingestion de données dans Databricks à partir d’un large éventail de sources. Vous commencerez par explorer les différents types de connecteurs Lakeflow Connect (Standard et Managed) et apprendrez diverses techniques d’ingestion de données, notamment l’ingestion par lots, par lots incrémentiels et en streaming. Vous passerez également en revue les principaux avantages de l’utilisation des tables Delta et de l’architecture Medallion.

Ensuite, vous développerez des compétences pratiques pour l’ingestion de données à partir du stockage d’objets dans le cloud à l’aide des connecteurs standard Lakeflow Connect. Cela comprend l’utilisation de méthodes telles que CREATE TABLE AS SELECT (CTAS), COPY INTO et Auto Loader, en mettant l’accent sur les avantages et les considérations de chaque approche. Vous apprendrez également à ajouter des colonnes de métadonnées à vos tables de niveau bronze lors de l’ingestion dans le Databricks Data Intelligence Platform. Le cours explique ensuite comment gérer les enregistrements qui ne correspondent pas à votre schéma de table à l’aide de la colonne de données récupérées, ainsi que des stratégies de gestion et d’analyse de ces données. Vous explorerez également les techniques d’ingestion et d’aplatissement des données JSON semi-structurées.

Ensuite, vous allez explorer comment effectuer une ingestion de données de niveau entreprise à l’aide des connecteurs gérés Lakeflow Connect pour importer des données à partir de bases de données et d’applications Software-as-a-Service (SaaS). Le cours présente également Partner Connect comme option pour intégrer des outils partenaires dans vos flux de travail d’ingestion.

Enfin, le cours se termine par des stratégies d’ingestion alternatives, notamment les opérations MERGE INTO et l’exploitation du Databricks Marketplace, vous dotant d’une base solide pour prendre en charge les cas d’utilisation modernes de l’ingénierie des données.

Skill Level

Associate

Duration

Prerequisites

- Compréhension de base du Databricks Data Intelligence Platform, y compris les espaces de travail Databricks, Apache Spark, Delta Lake, l’architecture du médaillon et Unity Catalog.

- Expérience de travail avec divers formats de fichiers (p. ex., Parquet, CSV, JSON, TXT).

- Maîtrise de SQL et de Python.

- Familiarité avec l’exécution du code dans Databricks Notebooks.

Public Class Registration

If your company has purchased success credits or has a learning subscription, please fill out the Training Request form. Otherwise, you can register below.

Customer registration Partner registration

Private Class Request

If your company is interested in private training, please submit a request.

Request Private Training

See all our registration options

Registration options

Databricks has a delivery method for wherever you are on your learning journey

Self-Paced

Custom-fit learning paths for data, analytics, and AI roles and career paths through on-demand videos

Instructor-Led

Public and private courses taught by expert instructors across half-day to two-day courses

Blended Learning

Self-paced and weekly instructor-led sessions for every style of learner to optimize course completion and knowledge retention. Go to Subscriptions Catalog tab to purchase

Purchase now

Skills@Scale

Comprehensive training offering for large scale customers that includes learning elements for every style of learning. Inquire with your account executive for details

Upcoming Public Classes

Data Engineer

Data Management and Governance with Unity Catalog - French

Dans cette session sur la gouvernance des données avec Unity Catalog, vous apprendrez des concepts et effectuerez des ateliers qui présentent des flux de travail à l’aide de la solution de gouvernance des données Unity Catalog - Databricks. Nous commencerons par une brève introduction à Unity Catalog, discuterons des concepts fondamentaux de gouvernance des données, puis aborderons divers sujets, notamment l’utilisation d'Unity Catalog pour le contrôle d’accès aux données, la gestion du stockage externe et des tables, la séparation des données, etc.

Languages Available:English | 日本語 | Português BR | 한국어 | française

Build Data Pipelines with Lakeflow Declarative Pipelines - French

Ce cours présente aux utilisateurs les concepts et compétences essentiels nécessaires à la création de pipelines de données à l’aide de Lakeflow Declarative Pipelines dans Databricks pour l’ingestion et le traitement incrémentiels, par lots ou en streaming via plusieurs tables de streaming et vues matérialisées. Conçu pour les ingénieurs de données qui découvrent Lakeflow Declarative Pipelines, le cours fournit une vue d’ensemble complète des composants de base tels que le traitement de données incrémentielles, les tables de streaming, les vues matérialisées et les vues temporaires, en mettant en évidence leurs objectifs spécifiques et leurs différences.

Les sujets abordés sont les suivants :

- Développement et débogage de pipelines ETL avec l’éditeur de fichiers multiples dans Lakeflow à l’aide de SQL (avec des exemples de code Python fournis)

- Comment les pipelines déclaratifs Lakeflow suivent les dépendances de données dans un pipeline via le graphique

de pipeline - Configuration des ressources de calcul Pipeline, des ressources de données, des modes de déclenchement et d’autres options

avancées Ensuite, le cours présente les attentes en matière de qualité des données dans Lakeflow, en guidant les utilisateurs tout au long du processus d’intégration des attentes dans les pipelines pour valider et renforcer l’intégrité des données. Les apprenants exploreront ensuite comment mettre un pipeline en production, y compris les options de planification, le mode de production et l’activation de la journalisation des événements du pipeline pour surveiller les performances et la santé du pipeline.

Enfin, le cours explique comment mettre en œuvre le Change Data Capture (CDC) à l’aide de la syntaxe APPLY CHANGES INTO dans Lakeflow Declarative Pipelines pour gérer les dimensions qui changent lentement (SCD Type 1 et Type 2), préparant ainsi les utilisateurs à intégrer le CDC dans leurs propres pipelines.

AI/BI for Data Analysts - French

Dans ce cours, vous apprendrez à utiliser les fonctionnalités que Databricks fournit pour les besoins de veille économique : Tableaux de bord AI/BI et AI/BI Genie. En tant qu'analyste de données Databricks, vous serez chargé de créer des tableaux de bord AI/BI et des espaces génie AI/BI au sein de la plateforme, de gérer l'accès à ces actifs par les parties prenantes et les parties nécessaires, et de maintenir ces actifs au fur et à mesure de leur modification, de leur actualisation ou de leur mise hors service au cours de leur durée de vie. Ce cours vise à enseigner aux participants comment concevoir des tableaux de bord pour obtenir des insights, les partager avec les collaborateurs et les parties prenantes et maintenir ces actifs au sein de la plateforme. Les participants apprendront également à utiliser AI/BI Genie Spaces pour prendre en charge l'analyse en libre-service grâce à la création et à la maintenance de ces environnements optimisés par le moteur d'intelligence des données Databricks.