Revenir au contenu principal

SQL Analytics on Databricks - French

Dans ce cours, vous apprendrez à utiliser efficacement Databricks pour l’analyse de données, en mettant l’accent sur Databricks SQL. En tant qu’analyste de données Databricks, vos responsabilités comprendront la recherche de données pertinentes, l’analyse des données pour des applications potentielles et la transformation des données en formats qui fournissent des insights commerciaux précieux. 


Vous comprendrez également votre rôle dans la gestion des objets de données et comment les manipuler au sein du Databricks Data Intelligence Platform, à l’aide d’outils tels que Notebooks, l’éditeur SQL et Databricks SQL. 


De plus, vous découvrirez l’importance de Unity Catalog dans la gestion des actifs de données et de la plateforme globale. Enfin, le cours fournira un aperçu de la façon dont Databricks facilite l’optimisation des performances et vous apprendra comment accéder à Query Insights pour comprendre les processus qui se déroulent en coulisse lors de l’exécution de l’analyse SQL sur Databricks.

Skill Level
Associate
Duration
4h
Prerequisites

Le contenu a été développé pour les participants possédant ces compétences/connaissances/aptitudes :
• Une connaissance pratique de l’utilisation de SQL à des fins d’analyse de données. 

• Se familiariser avec la création, le stockage et la gestion des données. 

• Une compréhension de base de l’analyse statistique.

• Comprendre la structure et les caractéristiques de définition de formats de données spécifiques tels que CSV, JSON, TXT et Parquet.

• Se familiariser avec l’interface utilisateur du Databricks Data Intelligence Platform.

Outline

Découverte des données

Utilisation de Unity Catalog comme outil de découverte de données

Comprendre les données propriété de l’objet

Laboratoire: Utilisez Unity Catalog pour localiser et inspecter datasets


Importation de données

Ingestion de données dans Databricks

Démo: Téléchargement de données vers Databricks Utilisation de l’interface utilisateur

Démo: Programmatique exploration et données ingestion dans Unity Catalog Unity Catalog

Laboratoire: Importer des données dans Databricks


SQL Execution

Databricks SQL et Databricks SQL Entrepôts

Démo: L’éditeur SQL unifié

Démo: Manipuler et transformez les données avec Databricks SQL

Démo: Création de vues avec Databricks SQL

Laboratoire: Manipuler et analyser une table


Analyse Query

Databricks Photon et l’optimisation en Databricks

Démo: Insights de requête

Meilleures pratiques pour SQL Analytics

Public Class Registration

If your company has purchased success credits or has a learning subscription, please fill out the Training Request form. Otherwise, you can register below.

Private Class Request

If your company is interested in private training, please submit a request.

See all our registration options

Registration options

Databricks has a delivery method for wherever you are on your learning journey

Runtime

Self-Paced

Custom-fit learning paths for data, analytics, and AI roles and career paths through on-demand videos

Inscrivez-vous maintenant

Instructors

Instructor-Led

Public and private courses taught by expert instructors across half-day to two-day courses

Inscrivez-vous maintenant

Learning

Blended Learning

Self-paced and weekly instructor-led sessions for every style of learner to optimize course completion and knowledge retention. Go to Subscriptions Catalog tab to purchase

Purchase now

Scale

Skills@Scale

Comprehensive training offering for large scale customers that includes learning elements for every style of learning. Inquire with your account executive for details

Upcoming Public Classes

Data Engineer

Data Ingestion with Lakeflow Connect - French

Ce cours fournit une introduction complète à Lakeflow Connect, une solution évolutive et simplifiée pour l’ingestion de données dans Databricks à partir d’un large éventail de sources. Vous commencerez par explorer les différents types de connecteurs Lakeflow Connect (Standard et Managed) et apprendrez diverses techniques d’ingestion de données, notamment l’ingestion par lots, par lots incrémentiels et en streaming. Vous passerez également en revue les principaux avantages de l’utilisation des tables Delta et de l’architecture Medallion.

Ensuite, vous développerez des compétences pratiques pour l’ingestion de données à partir du stockage d’objets dans le cloud à l’aide des connecteurs standard Lakeflow Connect. Cela comprend l’utilisation de méthodes telles que CREATE TABLE AS SELECT (CTAS), COPY INTO et Auto Loader, en mettant l’accent sur les avantages et les considérations de chaque approche. Vous apprendrez également à ajouter des colonnes de métadonnées à vos tables de niveau bronze lors de l’ingestion dans le Databricks Data Intelligence Platform. Le cours explique ensuite comment gérer les enregistrements qui ne correspondent pas à votre schéma de table à l’aide de la colonne de données récupérées, ainsi que des stratégies de gestion et d’analyse de ces données. Vous explorerez également les techniques d’ingestion et d’aplatissement des données JSON semi-structurées.

Ensuite, vous allez explorer comment effectuer une ingestion de données de niveau entreprise à l’aide des connecteurs gérés Lakeflow Connect pour importer des données à partir de bases de données et d’applications Software-as-a-Service (SaaS). Le cours présente également Partner Connect comme option pour intégrer des outils partenaires dans vos flux de travail d’ingestion.

Enfin, le cours se termine par des stratégies d’ingestion alternatives, notamment les opérations MERGE INTO et l’exploitation du Databricks Marketplace, vous dotant d’une base solide pour prendre en charge les cas d’utilisation modernes de l’ingénierie des données.

Paid
4h
Lab
instructor-led
Associate

Build Data Pipelines with Lakeflow Declarative Pipelines - French

Ce cours présente aux utilisateurs les concepts et compétences essentiels nécessaires pour créer des pipelines de données à l'aide de Lakeflow Spark Declarative Pipelines (SDP) dans Databricks pour l'ingestion et le traitement incrémentiels par lots ou en continu via plusieurs tables de streaming et vues matérialisées. Conçu pour les ingénieurs de données qui découvrent Spark Declarative Pipelines, ce cours offre un aperçu complet des composants essentiels tels que le traitement incrémentiel des données, les tables de streaming, les vues matérialisées et les vues temporaires, en soulignant leurs objectifs spécifiques et leurs différences.

Les thèmes abordés comprennent :

- Développement et débogage de pipelines ETL avec l'éditeur multi-fichiers dans Spark Declarative Pipelines à l'aide de SQL (avec exemples de code Python fournis)

- Comment les pipelines déclaratifs Spark suivent les dépendances des données dans un pipeline à travers le graphe du pipeline

- Configuration des ressources de calcul du pipeline, des actifs de données, des modes de déclenchement et d'autres options avancées

Ensuite, le cours présente les attentes en matière de qualité des données dans les pipelines déclaratifs Spark, guidant les utilisateurs tout au long du processus d'intégration des attentes dans les pipelines afin de valider et de garantir l'intégrité des données. Les apprenants découvriront ensuite comment mettre un pipeline en production, notamment les options de planification, et comment activer la journalisation des événements du pipeline afin de surveiller ses performances et son état de santé.

Enfin, le cours explique comment implémenter la capture des données modifiées (CDC) à l'aide de la syntaxe AUTO CDC INTO dans les pipelines déclaratifs Spark afin de gérer les dimensions à évolution lente (SCD de type 1 et de type 2), préparant ainsi les utilisateurs à intégrer la CDC dans leurs propres pipelines.

Paid
4h
Lab
instructor-led
Associate
Data Engineer

Data Engineering with Databricks - French

Il s'agit d'un cours d'introduction qui constitue un point de départ idéal pour apprendre l'ingénierie des données avec Databricks. 

Vous trouverez ci-dessous une description des quatre modules de quatre heures inclus dans ce cours.

1. Ingestion de données avec Lakeflow Connect

Ce cours fournit une introduction complète à Lakeflow Connect, une solution évolutive et simplifiée pour l’ingestion de données dans Databricks à partir d’un large éventail de sources. Vous commencerez par explorer les différents types de connecteurs Lakeflow Connect (Standard et Managed) et apprendrez diverses techniques d’ingestion de données, notamment l’ingestion par lots, par lots incrémentiels et en streaming. Vous passerez également en revue les principaux avantages de l’utilisation des tables Delta et de l’architecture Medallion.

Ensuite, vous développerez des compétences pratiques pour l’ingestion de données à partir du stockage d’objets dans le cloud à l’aide des connecteurs standard Lakeflow Connect. Cela comprend l’utilisation de méthodes telles que CREATE TABLE AS SELECT (CTAS), COPY INTO et Auto Loader, en mettant l’accent sur les avantages et les considérations de chaque approche. Vous apprendrez également à ajouter des colonnes de métadonnées à vos tables de niveau bronze lors de l’ingestion dans le Databricks Data Intelligence Platform. Le cours explique ensuite comment gérer les enregistrements qui ne correspondent pas à votre schéma de table à l’aide de la colonne de données récupérées, ainsi que des stratégies de gestion et d’analyse de ces données. Vous explorerez également les techniques d’ingestion et d’aplatissement des données JSON semi-structurées.

Ensuite, vous allez explorer comment effectuer une ingestion de données de niveau entreprise à l’aide des connecteurs gérés Lakeflow Connect pour importer des données à partir de bases de données et d’applications Software-as-a-Service (SaaS). Le cours présente également Partner Connect comme option pour intégrer des outils partenaires dans vos flux de travail d’ingestion.

Enfin, le cours se termine par des stratégies d’ingestion alternatives, notamment les opérations MERGE INTO et l’exploitation du Databricks Marketplace, vous dotant d’une base solide pour prendre en charge les cas d’utilisation modernes de l’ingénierie des données.

2. Déploiement de charges de travail avec Lakeflow Jobs

Le cours Déployer des charges de travail avec Lakeflow Jobs enseigne comment orchestrer et automatiser les données, l'analyse de données et les flux de travail IA à l’aide de Lakeflow Jobs en tant que plateforme d’orchestration unifiée au sein de l’écosystème Databricks. 

⇾ Vous apprendrez à concevoir et à mettre en œuvre des charges de travail de données à l’aide de graphes acycliques dirigés (DAGs), à configurer diverses options de planification et à mettre en œuvre des fonctionnalités de flux de travail avancées telles que l’exécution de tâches conditionnelles, les dépendances conditionnelles et les boucles for each. 

⇾ Le cours couvre les meilleures pratiques pour la création de pipelines robustes et prêts pour la production avec une sélection de calcul appropriée, une orchestration modulaire, des techniques de gestion des erreurs et une conception tolérante aux pannes, le tout intégré nativement dans le Databricks Data Intelligence Platform.

3. Création de pipelines de données avec Lakeflow Spark Declarative Pipelines

Ce cours présente aux utilisateurs les concepts et compétences essentiels nécessaires pour créer des pipelines de données à l'aide de Lakeflow Spark Declarative Pipelines (SDP) dans Databricks pour l'ingestion et le traitement incrémentiels par lots ou en continu via plusieurs tables de streaming et vues matérialisées. Conçu pour les ingénieurs de données qui découvrent Spark Declarative Pipelines, ce cours offre un aperçu complet des composants essentiels tels que le traitement incrémentiel des données, les tables de streaming, les vues matérialisées et les vues temporaires, en soulignant leurs objectifs spécifiques et leurs différences.

Les thèmes abordés comprennent :

- Développement et débogage de pipelines ETL avec l'éditeur multi-fichiers dans Spark Declarative Pipelines à l'aide de SQL (avec exemples de code Python fournis)

- Comment les pipelines déclaratifs Spark suivent les dépendances des données dans un pipeline à travers le graphe du pipeline

- Configuration des ressources de calcul du pipeline, des actifs de données, des modes de déclenchement et d'autres options avancées

Ensuite, le cours présente les attentes en matière de qualité des données dans les pipelines déclaratifs Spark, guidant les utilisateurs tout au long du processus d'intégration des attentes dans les pipelines afin de valider et de garantir l'intégrité des données. Les apprenants découvriront ensuite comment mettre un pipeline en production, notamment les options de planification, et comment activer la journalisation des événements du pipeline afin de surveiller ses performances et son état de santé.

Enfin, le cours explique comment implémenter la capture des données modifiées (CDC) à l'aide de la syntaxe AUTO CDC INTO dans les pipelines déclaratifs Spark afin de gérer les dimensions à évolution lente (SCD de type 1 et de type 2), préparant ainsi les utilisateurs à intégrer la CDC dans leurs propres pipelines.

4. Notions essentielles de DevOps pour l'ingénierie des données

Ce cours explore les meilleures pratiques d’ingénierie logicielle et les principes DevOps, spécialement conçus pour les ingénieurs de données travaillant avec Databricks. Les participants construiront une base solide dans les sujets clés tels que la qualité du code, le contrôle de version, la documentation et les tests. Le cours met l’accent sur DevOps, couvrant les composants de base, les avantages et le rôle de l’intégration et de la livraison continues (CI/CD) dans l’optimisation des workflows de data engineering.

Vous apprendrez à appliquer les principes de modularité dans PySpark pour créer des composants réutilisables et structurer le code efficacement. L’expérience pratique comprend la conception et l’implémentation de tests unitaires pour les fonctions PySpark à l’aide du framework pytest, suivis de tests d’intégration pour les pipelines de données Databricks avec DLT et Workflows pour garantir la fiabilité.

Le cours couvre également les opérations essentielles Git au sein de Databricks, y compris l’utilisation des dossiers Databricks Git pour intégrer les pratiques d’intégration continue. Enfin, vous examinerez à haut niveau les différentes méthodes de déploiement des actifs Databricks, tels que les ensembles d’actifs REST API, CLI, SDK, et Databricks (DAB), ce qui vous permettra d’acquérir la connaissance des techniques de déploiement et de gestion de vos pipelines.

À la fin du cours, vous maîtriserez l’ingénierie logicielle et les meilleures pratiques DevOps, ce qui vous permettra de créer des solutions d'ingénierie des données évolutives, maintenables et efficaces.

Languages Available: English | 日本語 | Português BR | 한국어 | Español | française

Paid
16h
Lab
instructor-led
Associate

Questions?

If you have any questions, please refer to our Frequently Asked Questions page.