Revenir au contenu principal

Tutoriel : 3 projets d'analytique gratuits sur Databricks que vous pouvez réaliser en une après-midi

Une introduction pratique à Databricks Free Edition à travers trois projets analytiques concrets prêts pour votre portfolio, avec données, tableaux de bord, SQL et insights générés par l'IA.

Tutorial: 3 Free Databricks Analytics Projects You Can Do In An Afternoon

Publié: February 5, 2026

Produit13 min de lecture

Summary

  • Trois projets analytiques pour débutants que tu peux réaliser en un après-midi en utilisant Databricks Free Edition, sans carte de crédit.
  • Comment importer et analyser des datasets publiques à l'aide de tableaux de bord IA/BI, de requêtes en langage naturel, de fonctions IA et de prévisions ML légères.
  • Des exemples pratiques et prêts à être présentés (tableaux de bord + code) qui aident les étudiants, les demandeurs de job et les utilisateurs d'informatique décisionnelle à créer de véritables artefacts d'analytique qu'ils pourront mettre en valeur.

Vous voulez un véritable projet d'analytique que vous pouvez partager publiquement, aborder lors d'entretiens ou ajouter à votre CV ou à votre portfolio, le tout sans avoir besoin de carte de crédit ?

Databricks Free Edition offre aux étudiants, aux jeunes professionnels et aux passionnés d'IA un accès aux mêmes outils de données et d'IA que ceux utilisés par les plus grandes entreprises, avec le compute adapté aux projets personnels. Le AI/BI dashboard et les outils analytiques de Databricks sont un excellent point de start. Cet article de blog vous expliquera comment importer des datasets publics pour les analyser en détail, créer un tableau de bord soigné et raconter une histoire claire sur les tendances et les insights qui s'y cachent.

Que vous soyez un utilisateur expert de tableurs cherchant à passer au niveau supérieur avec SQL et Python, ou un ingénieur BI expérimenté qui s'essaie à l'analytique basée sur l'IA, ces projets sont conçus pour vous aider à créer quelque chose de tangible, rapidement. Si vous souhaitez aller plus loin, vous pouvez explorer la formation AI/BI gratuite à votre rythme de Databricks, les cours approfondis pour auteurs AI/BI, ou participer à une session d'intégration gratuite en direct. Vous pouvez également accéder à des dizaines d'autres démos publiques installables ici.

Installer

Si vous n'avez pas encore de compte, vous pouvez vous inscrire à Databricks Free Edition ici. Aucune carte de crédit ni aucun numéro de téléphone ne sont requis. Bénéficiez d'un accès gratuit et perpétuel à Databricks pour vos expérimentations et votre apprentissage avec Databricks Free Edition. Remarque : l'édition gratuite est destinée à un usage personnel, et non à une utilisation en production ou commerciale. Si vous recherchez une plateforme de données de production entièrement prise en charge pour votre entreprise, contactez Databricks ici.

Un dernier conseil avant de start : si vous rencontrez des erreurs ou si vous êtes bloqué à tout moment, l'Assistant Databricks (le losange violet dans le coin supérieur droit) est incroyablement utile pour debugging, générer du SQL et expliquer des concepts au fur et à mesure.

Maintenant que la configuration est terminée, lançons-nous !

1. Analyser une fabrique de cookies (simulée)

Nous commencerons par un échauffement facile. Pour une petite entreprise, il est essentiel de suivre de près les opérations et les tendances pour assurer sa réussite. Le propriétaire d'une petite entreprise peut chercher à obtenir des informations, par exemple trouver le produit le plus vendu, identifier les sites les plus performants ou prévoir les Ventes de l'année prochaine.

Chaque workspace Databricks est fourni avec un ensemble de données d'exemple pré-installé dans le catalogue 'samples', ce qui est un excellent point de départ pour l'expérimentation de nouvelles fonctionnalités. L'ensemble de données simulées 'bakehouse' sur les fournisseurs, les avis et les transactions est un bon moyen de s'exercer à raconter comment se porte 'notre' petite entreprise. Vous pouvez trouver le dataset dans la section 'catalog' de la barre de menu latérale gauche de Databricks, qui est le cœur de chaque workspace et vous permet d'explorer les datasets disponibles pour l'analyse.

Dans ce cas, vous pouvez développer le catalogue ‘samples’ et le schéma ‘bakehouse’ pour trouver les données.

Pour commencer, créez un nouveau tableau de bord en cliquant sur 'new->Dashboard' dans le coin supérieur gauche de l'espace de travail, puis, sous l'onglet 'data' du tableau de bord, sélectionnez l'une des tables en utilisant SQL comme ci-dessous (ou choisissez-la dans le sélecteur de tables de l'interface utilisateur) :

Sur le canevas du tableau de bord, ajoutez des visualisations et du texte qui vous aident à raconter une histoire claire. Par exemple, vous pouvez utiliser des diagrammes circulaires pour la composition (comme la composition des produits), des graphiques linéaires pour les tendances (comme les ventes au fil du temps) et des compteurs pour mettre en évidence les chiffres clés, comme le nombre total de transactions ou le chiffre d'affaires.

Le dataset Bakehouse inclut également des avis clients simulés, ce qui en fait un excellent endroit pour essayer l'analyse assistée par l'IA à l'aide de la fonction AI_Query(). Cela crée un nouveau dataset en appliquant un modèle d'IA directement à vos données — dans ce cas, en classifiant chaque avis comme positif, négatif ou neutre. Vous pourriez également modifier le prompt pour générer une réponse automatique pour chaque avis (et vous voudrez peut-être faire de l'expérimentation en demandant différents tons).

Défi de niveau supérieur: saurez-vous trouver un moyen d'appliquer une autre fonction d'IA comme ai_classify() ou ai_gen() ? Pouvez-vous modifier le prompt AI_Query() pour générer des commentaires de tableau de bord pour vous ? Ou des réponses automatiques aux avis ? Pouvez-vous aller jusqu'au bout et créer un agent pour générer automatiquement du contenu marketing en vous basant sur les meilleurs avis, comme Kasey Uhlenhuth l'a fait lors du Data & AI Summit 2024 ?

2. Prédisez votre loyer

Les données sur le logement sont souvent un excellent moyen d'exercer vos compétences en analytique : il y a de nombreuses corrélations fortes à trouver, comme la météo et les taux d'intérêt, et il existe une pléthore de données de haute qualité publiées par des sources officielles (souvent gouvernementales). Pour ne citer que quelques exemples, les open datasets de Zillow Research offrent d'excellentes données sur le logement aux États-Unis, tandis que l'Office for National Statistics du gouvernement britannique fournit des données de recensement de haute qualité. Les questions d'analyse courantes sont du type « Quel État/province a les taux de croissance les plus élevés ? », « Où y a-t-il le plus de nouvelles constructions ? », ou « Quelle est la relation entre les coûts du logement et les taux d'intérêt ? »

Mon préféré est un dataset sur les 'prix de location demandés' provenant du portail Gouvernement ouvert du gouvernement du Canada, qui contient un ensemble de loyers annoncés avec des attributs tels que l'année, la zone métropolitaine, le nombre de chambres, etc. Je trouve que la façon dont les données présentent les années sous forme de lignes individuelles facilite le filtrage et l'analyse.

Pour importer les données dans votre workspace, téléchargez le dataset depuis le portail, extrayez le fichier de données du fichier zip (« 46100092.csv »), puis cliquez sur le bouton « upload data » sur la page d'accueil de votre workspace pour suivre un petit assistant qui vous guidera dans la conversion du format CSV en table.

Par défaut, la table résultante portera le même nom que le fichier technique. Pensez donc à la renommer avec un nom plus significatif, comme 'Housing_data'. Une fois créé, utilisez la section ‘catalog’ du workspace pour le trouver, puis créez un tableau de bord avec le bouton ‘create’ pour en obtenir un prérempli avec un squelette autour du dataset.

Pour améliorer le tableau de bord de démarrage, vous pourriez ajouter d'autres vues et comparaisons qui ajoutent du contexte et de la couleur à l'analyse. Vous pourriez comparer les loyers moyens ou la croissance dans d'autres villes, ou examiner le ratio des logements d'une chambre par rapport aux autres types de logements. Quelle est la ville la plus chère ? N'oubliez pas d'ajouter également des filtres afin que les utilisateurs puissent se concentrer sur les villes ou les types d'unités qui les intéressent.

Dans certains cas, vous devrez peut-être écrire une SQL query différente ou incorporer d'autres données ; n'oubliez pas que l'Assistant Databricks (le losange violet dans le coin supérieur droit) peut vous être utile. Dans mon exemple, j'ai demandé à l'Assistant d'ajouter la latitude/longitude des villes afin de pouvoir créer la vue cartographique.

Pour générer une prédiction, commencez par un graphique linéaire classique avec la date de référence sur l'axe des x et le prix demandé (valeur) sur l'axe des y. Ensuite, recherchez le bouton « Ajouter une prévision » dans la barre latérale. Cela ajoutera une nouvelle visualisation de prévision au canevas de votre tableau de bord, créée à partir d'un nouveau dataset SQL avec la fonction SQL « AI_Forecast() » de Databricks qui appelle un modèle de ML de séries chronologiques et l'applique à vos données. Cette fonctionnalité bêta est toujours en cours d'évolution (nous serions ravis de recevoir vos commentaires !), mais elle constitue tout de même un point de départ utile pour appliquer le ML à un cas d'utilisation réel. N'oubliez non plus que l'Assistant Databricks peut toujours vous aider à créer votre propre SQL personnalisé pour de nouveaux datasets.

Défi de niveau supérieur: Bien que la fonction AI_Forecast() soit excellente pour obtenir une prédiction de référence rapide, une prédiction plus précise impliquerait de combiner d'autres points de données et d'appliquer un algorithme de machine learning personnalisé. Vous pouvez voir à quoi ressemblerait une solution complète (dans ce cas, la prédiction de la maintenance des éoliennes) sur notre site de démos Databricks.

3. Trouver un tournage de film à observer

Dans les villes qui servent fréquemment de décor de film, vous aurez peut-être la chance de tomber sur des camions de tournage, des assistants de production et de petites cabines de réalisateur autour de bâtiments historiques ou de quartiers pittoresques. Avant que les productions cinématographiques puissent bloquer l'espace public pour ces tournages, elles doivent obtenir des permis de tournage, qui sont ensuite publiés dans des datasets ouverts par les agences gouvernementales.

Bien qu'il ne contienne pas de permis futurs, l'un des meilleurs exemples de ce type de dataset est la liste des permis de tournage du portail de données ouvertes de la ville de New York. Elle répertorie le type de tournage (actualités, long métrage ou série), ainsi que l'heure de start et de fin du tournage, l'arrondissement et le code postal. En découpant et en analysant le dataset, vous pouvez identifier les lieux les plus courants et, avec un peu de chance, apercevoir une star au travail.

Comme dans les exemples précédents, nous devons start par charger les données dans Databricks. Le portail de données ouvertes de New York vous permet de facilement download le .csv et les importer via l'option « upload de données » de l'interface utilisateur, comme nous l'avons fait pour les exercices précédents. Cependant, une caractéristique intéressante de ce dataset est qu'il est mis à jour quotidiennement. Récupérons ces données par programmation afin de pouvoir les traiter de manière planifiée. Cette approche est beaucoup plus proche de celle que vous pourriez adopter dans un contexte d'entreprise.

Databricks facilite grandement l'exécution du code Python dont nous avons besoin via les Notebooks. Dans ce cas, créez un notebook (Nouveau->Notebook dans le coin supérieur gauche), copiez et collez le code ci-dessous, puis cliquez sur Exécuter pour télécharger le CSV dans votre espace de travail et le convertir en table. N'oubliez pas que si vous rencontrez des problèmes, vous pouvez toujours utiliser Databricks Assistant (via le diamant violet) pour vous aider !

Ce premier morceau de code crée un Volume (un emplacement pour stocker des fichiers arbitraires) puis download le dataset à l'aide de la bibliothèque Python URLLib. N'hésitez pas à modifier les noms de catalogue+schéma pour les adapter à votre style !

Ce deuxième morceau de code prend le fichier brut et crée une table nommée 'film_permits' que nous pouvons utiliser dans notre tableau de bord. Essayez de demander à l'Assistant de l'expliquer si nécessaire.

Si l'opération a réussi, vous devriez pouvoir trouver la table via la section catalog du workspace ou en ouvrant la barre latérale de l'explorateur de données (icône à trois formes) dans le Notebook, puis en développant le catalogue databricks_demo et le schéma open_nyc pour voir la table. Vous devrez peut-être cliquer sur le bouton 'refresh' si vous l'aviez déjà ouvert.

Rappel : si vous rencontrez des problèmes avec le code, n'oubliez pas que vous pouvez toujours abandonner l'approche par le code et importer les données manuellement en les téléchargeant depuis le portail et en les important via le bouton « Upload Data » sur la page d'accueil de votre espace de travail.

Une fois la table chargée, il est temps de l'analyser sous toutes ses coutures pour raconter une histoire ! Vous pourriez vouloir vérifier les tendances avec un graphique en courbes : y a-t-il plus de tournages pour des séries ou pour des longs métrages ? Est-ce que ça change au fil du temps ? Ou vous pourriez réfléchir à la distribution avec un diagramme à barres ou un diagramme circulaire : les lieux de tournage des actualités ou des publicités coïncident-ils souvent avec ceux des films ?

Si vous essayez de créer une visualisation cartographique, vous remarquerez peut-être que, bien que les permis de tournage aient un code postal, la visualisation de carte du tableau de bord d'AI/BI nécessite des attributs de latitude et de longitude. Heureusement, les jeux de données de correspondance entre code postal et coordonnées sont faciles à trouver en ligne et peuvent être importés dans le tableau de bord à l'aide de l'Assistant. Vous pouvez télécharger cet ensemble de données ouvert (sous licence Creative Commons), puis créer un nouvel ensemble de données sur votre tableau de bord, en demandant à l'Assistant de générer une requête combinée. Voici le prompt que j'ai utilisé (à adapter en fonction des noms de votre catalogue et de vos tables spécifiques) :

Et voici une version de ce à quoi votre tableau de bord final pourrait ressembler !

Défi : Quelles autres données d'OpenNYC pourriez-vous superposer, peut-être les volumes de taxis ou de VTC ? Points marquants ? Si vous agissez en politique, existe-t-il une analyse qui pourrait faire avancer votre cause ? D'autres villes et États proposent des datasets ouverts similaires, comme le dataset Building Energy Benchmark de Seattle sur les émissions, qui pourrait être plus proche de chez vous. 

Pouvez-vous étendre l'analyse géospatiale à l'aide des «fonctions ST» natives de Databricks pour rechercher les autres points les plus proches ?

Conclusion

Ce que je préfère dans l'analytique, ce sont les moments de révélation que l'on a en suivant sa curiosité, et j'espère que ces exemples vous ont inspiré quelques idées. Si vous souhaitez en savoir plus ou préparer une certification pour votre CV, vous pouvez suivre le cours de formation gratuit de Databricks sur l'IA/BI à votre rythme ici, un cours de formation d'auteur plus approfondi ici, ou rejoindre un cours d'intégration gratuit en direct! Le site de documentation Databricks est également un excellent outil de référence pour des fonctionnalités spécifiques.

Si vous voulez importer l'un des exemples de tableaux de bord de ce blog, vous pouvez consulter ce dépôt pour la source. Les spécifications des tableaux de bord AI/BI sont simplement au format JSON, alors téléchargez le fichier et importez-le via le menu déroulant « import » sur la page d'accueil des tableaux de bord.

Enfin, vous pouvez trouver des dizaines de démos installables allant du ML au dashboarding en passant par l'IA agentique dans le centre de démos Databricks. Essayez quelque chose de nouveau, ou partagez ce que vous avez créé avec la communauté Databricks sur votre plateforme de médias sociaux préférée. Bon codage !

Start à construire avec Databricks Free Edition

Créez votre espace de travail gratuit(aucune carte de crédit requise) et transformez ces projets en tableaux de bord prêts à être intégrés à votre portfolio dès aujourd'hui.

 

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.

Et ensuite ?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks