Revenir au contenu principal
Produit

Tutoriel : 3 projets d'analyse Databricks gratuits que vous pouvez réaliser en un après-midi

Une introduction pratique à Databricks Free Edition à travers trois projets d'analyse concrets et prêts pour votre portfolio — avec données, tableaux de bord, SQL et insights basés sur l'IA.

par Noah Sommerfeld

  • Trois projets d'analyse conviviaux que vous pouvez réaliser en un après-midi en utilisant Databricks Free Edition, sans carte de crédit requise.
  • Comment importer et analyser des jeux de données publics à l'aide de tableaux de bord IA/BI, de requêtes en langage naturel, de fonctions IA et de prévisions ML légères.
  • Exemples pratiques prêts pour votre portfolio (tableaux de bord + code) qui aident les étudiants, les demandeurs d'emploi et les utilisateurs de BI à créer de véritables artefacts d'analyse qu'ils peuvent présenter.

Vous voulez un vrai projet d'analyse que vous pouvez partager publiquement, dont parler lors d'entretiens, ou ajouter à votre CV ou portfolio, le tout sans avoir besoin d'une carte de crédit ?

Databricks Free Edition donne aux étudiants, aux jeunes professionnels et aux curieux de l'IA accès aux mêmes outils de données+IA utilisés dans les entreprises leaders, avec la bonne quantité de calcul pour les projets personnels, et le tableau de bord d'IA/BI et les outils d'analyse de Databricks sont un excellent point de départ. Ce blog vous guidera à travers l'importation de certains ensembles de données publics pour les découper, construire un tableau de bord soigné et raconter une histoire claire sur les tendances et les informations cachées à l'intérieur.

Que vous soyez un utilisateur avancé de tableurs cherchant à passer au niveau supérieur avec SQL et Python, ou un ingénieur BI expérimenté expérimentant l'analyse alimentée par l'IA, ces projets sont conçus pour vous aider à construire quelque chose de tangible, rapidement. Si vous souhaitez aller plus loin, vous pouvez explorer la formation gratuite de Databricks en libre-service sur l'IA/BI, les cours approfondis sur l'IA/BI pour auteurs, ou rejoindre une session d'intégration gratuite en direct. Vous pouvez également accéder à des dizaines d'autres démos publiques installables ici.

Configuration

Si vous n'avez pas encore de compte, vous pouvez vous inscrire à Databricks Free Edition ici, sans carte de crédit ni numéro de téléphone requis. Vous bénéficiez d'un accès gratuit et permanent à Databricks pour l'expérimentation et l'apprentissage avec Databricks Free Edition. Remarque : Free Edition est destinée à un usage personnel, non à une utilisation en production ou commerciale. Si vous recherchez une plateforme de données de qualité production, entièrement prise en charge pour votre entreprise, contactez Databricks ici.

Un dernier conseil avant de commencer : si vous rencontrez des erreurs ou êtes bloqué à tout moment, Databricks Assistant (le losange violet en haut à droite) est incroyablement utile pour le débogage, la génération de SQL et l'explication des concepts au fur et à mesure.

Databricks Assistant

Une fois la configuration terminée, plongeons !

1. Analyser une (simulée) Boulangerie de Cookies

Nous commencerons par un échauffement facile. Pour une petite entreprise, suivre les opérations et les tendances est essentiel pour réussir. Un propriétaire de petite entreprise pourrait rechercher des informations telles que le produit le plus vendu, les emplacements les plus performants, ou prévoir à quoi pourraient ressembler les ventes l'année prochaine.

Chaque espace de travail Databricks est livré avec un ensemble préinstallé de données d'exemple sous le catalogue 'samples', qui est un excellent point de départ pour expérimenter de nouvelles fonctionnalités. L'ensemble de données simulé 'bakehouse' de fournisseurs, d'avis et de transactions est particulièrement utile pour s'entraîner à raconter une histoire sur la performance de 'notre' petite entreprise. Vous pouvez trouver l'ensemble de données dans la section 'catalog' du menu latéral gauche de Databricks, qui est le cœur de chaque espace de travail et vous permet d'explorer les ensembles de données disponibles pour l'analyse.

Dans ce cas, vous pouvez développer le catalogue 'samples' et le schéma 'bakehouse' pour trouver les données.

Catalog

Pour commencer, créez un nouveau tableau de bord en cliquant sur 'new->Dashboard' dans le coin supérieur gauche de l'espace de travail, puis sous l'onglet 'data' du tableau de bord, sélectionnez l'une des tables en utilisant SQL comme ci-dessous (ou choisissez-la dans le sélecteur de table de l'interface utilisateur) :

Sur le canevas du tableau de bord, ajoutez des visualisations et du texte qui vous aident à raconter une histoire claire. Par exemple, vous pourriez utiliser des diagrammes circulaires pour la composition (comme le mix de produits), des graphiques linéaires pour les tendances (comme les ventes au fil du temps), et des compteurs pour mettre en évidence les chiffres clés, comme le total des transactions ou des revenus.

Bakehouse Sales dashboard

L'ensemble de données Bakehouse comprend également des avis clients simulés, ce qui en fait un excellent endroit pour essayer l'analyse assistée par IA en utilisant la fonction AI_Query(). Cela crée un nouvel ensemble de données en appliquant un modèle d'IA directement à vos données — dans ce cas, en classant chaque avis comme positif, négatif ou neutre. Vous pourriez également modifier l'invite pour générer une réponse automatique pour chaque avis (et vous pourriez vouloir expérimenter en demandant différents tons de voix).

Défi de niveau supérieur : Pouvez-vous trouver un moyen d'appliquer une autre fonction d'IA comme ai_classify() ou ai_gen() ? Pouvez-vous modifier l'invite AI_Query() pour générer des commentaires de tableau de bord pour vous ? Ou des réponses automatiques aux avis ? Pouvez-vous aller jusqu'au bout et construire un agent pour générer automatiquement du contenu marketing basé sur les meilleurs avis, comme l'a fait Kasey Uhlenhuth lors du Data & AI Summit 2024 ?

2. Prédire Votre Loyer

Les données immobilières sont souvent un excellent moyen de développer vos compétences en analyse — il existe de nombreuses corrélations fortes à trouver, comme la météo et les taux d'intérêt, et une pléthore de données de haute qualité publiées par des sources officielles (souvent gouvernementales). Par exemple, les ensembles de données ouverts de Zillow Research offrent d'excellentes données immobilières américaines, tandis que l'Office for National Statistics du gouvernement britannique fournit des données de recensement de haute qualité. Les questions d'analyse courantes sont du type « Quelle province/état a les taux de croissance les plus élevés ? », « Où se trouve le plus de nouvelles constructions ? » ou « Quelle est la relation entre les coûts du logement et les taux d'intérêt ? »

Mon préféré est un ensemble de données de « prix de location demandés » du portail Open Government du gouvernement du Canada, qui contient un ensemble de loyers annoncés avec des attributs comme l'année, la zone métropolitaine, le nombre de chambres, etc. Je trouve que la façon dont les années sont présentées sous forme de lignes individuelles facilite le filtrage et l'analyse.

Pour importer les données dans votre espace de travail, téléchargez l'ensemble de données depuis le portail, extrayez le fichier de données du zip ('46100092.csv'), puis cliquez sur le bouton 'upload data' sur la page d'accueil de votre espace de travail pour parcourir un petit assistant sur le formatage du CSV en une table.

Housing data

Par défaut, le nom de la table résultante sera le même que celui du fichier techniquement nommé, alors gardez un œil sur la possibilité de le renommer en quelque chose de significatif comme 'Housing_data'. Une fois créée, utilisez la section 'catalog' de l'espace de travail pour la trouver, puis créez un tableau de bord en utilisant le bouton 'create' pour en obtenir un pré-rempli avec un squelette autour de l'ensemble de données.

dataset

Pour améliorer le tableau de bord de démarrage, vous pourriez ajouter d'autres découpes et comparaisons qui ajoutent du contexte et de la couleur à l'analyse. Vous pourriez envisager de comparer les loyers moyens ou la croissance dans d'autres villes, ou d'examiner le ratio des unités d'une chambre par rapport aux autres types de logements. Quelle est la ville la plus chère ? N'oubliez pas d'ajouter également des filtres pour que les utilisateurs puissent se concentrer sur leurs villes ou types d'unités spécifiques d'intérêt.

Dans certains cas, vous devrez peut-être écrire une requête SQL différente ou incorporer d'autres données ; rappelez-vous que Databricks Assistant (losange violet en haut à droite) peut être utile. Dans mon exemple, j'ai demandé à Assistant d'ajouter la latitude/longitude des villes afin que je puisse construire la vue cartographique.

tableau de bord de démarrage

Pour générer une prédiction, commencez par un graphique linéaire classique avec la date de référence comme axe des x et le prix demandé (valeur) comme axe des y. Ensuite, recherchez le bouton « ajouter une prévision » dans la barre latérale. Cela ajoutera une nouvelle visualisation de prévision à votre canevas de tableau de bord, construite sur un nouveau jeu de données SQL avec la fonction SQL ‘AI_Forecast()’ de Databricks, qui appelle un modèle ML de séries chronologiques et l'applique à vos données. Cette fonctionnalité bêta est encore en cours d'évolution (nous aimerions avoir votre avis !), mais elle constitue un excellent point de départ pour appliquer le ML à un cas d'utilisation réel. N'oubliez pas que Databricks Assistant peut toujours vous aider à créer votre propre SQL personnalisé pour de nouveaux jeux de données.

jeu de données SQL

Défi de niveau supérieur : Bien que AI_Forecast() soit idéal pour une prévision de référence rapide, une prévision plus précise impliquerait de combiner d'autres points de données et d'appliquer un algorithme d'apprentissage automatique personnalisé — vous pouvez voir à quoi ressemblerait une solution complète de ce type (dans ce cas, la prévision de la maintenance des éoliennes) sur notre site de démos Databricks.

3. Trouvez un tournage de film à observer

Dans les villes qui servent fréquemment de décor de film, vous pourriez avoir la chance de tomber sur des camions de tournage, des assistants de production et de petites cabines de réalisateur autour de bâtiments historiques ou de quartiers pittoresques. Avant que les productions cinématographiques ne puissent bloquer la propriété publique pour ces tournages, elles doivent obtenir des permis de tournage, qui sont ensuite publiés dans des jeux de données ouverts par les agences gouvernementales.

Bien qu'il ne contienne pas de permis prospectifs, l'un des meilleurs exemples de ce type de jeu de données est la liste du portail Open Data de la ville de New York pour les permis de tournage. Il répertorie le type de tournage (par exemple, actualités, long métrage ou série), ainsi que l'heure de début et de fin du tournage, l'arrondissement et le code postal. En découpant et en analysant le jeu de données, vous pouvez identifier les emplacements les plus courants et, espérons-le, apercevoir une star au travail.

prévision IA

Comme les exemples précédents, nous devons commencer par charger les données dans Databricks. Le portail de données ouvertes de New York vous permet de télécharger facilement le fichier .csv et de l'importer via la fonction « télécharger des données » de l'interface utilisateur, comme nous l'avons fait pour les exercices précédents. Cependant, une caractéristique intéressante de ce jeu de données est qu'il est mis à jour quotidiennement. Récupérons ces données par programmation afin de pouvoir les exécuter selon un calendrier. C'est beaucoup plus proche de la façon dont vous pourriez l'aborder dans un contexte d'entreprise.

Databricks facilite grandement l'exécution du Python dont nous avons besoin via les notebooks. Dans ce cas, créez un notebook (nouveau -> notebook dans le coin supérieur gauche), copiez et collez le code ci-dessous, et appuyez sur Exécuter pour télécharger le CSV dans votre espace de travail et le convertir en table. N'oubliez pas qu'en cas de problème, vous pouvez toujours utiliser Databricks Assistant (via le losange violet) pour vous aider !

Ce premier extrait de code crée un volume (un endroit pour stocker des fichiers arbitraires), puis télécharge le jeu de données à l'aide de la bibliothèque Python URLLib. N'hésitez pas à modifier les noms de catalogue et de schéma pour qu'ils correspondent à votre style !

Ce deuxième extrait de code prend le fichier brut et crée une table appelée « film_permits » que nous pouvons utiliser dans notre tableau de bord. Essayez de demander à Assistant de l'expliquer si vous en avez besoin.

Si cela a fonctionné avec succès, vous devriez pouvoir trouver la table via la partie catalogue de l'espace de travail ou en ouvrant la barre latérale de l'explorateur de données (icône à trois formes) dans le notebook, puis en développant le catalogue databricks_demo et le schéma open_nyc pour voir la table. Vous devrez peut-être appuyer sur le bouton « actualiser » si vous l'aviez déjà ouvert.

catalogue de démo Databricks

Rappel : Si vous rencontrez des problèmes avec le code, n'oubliez pas que vous pouvez toujours abandonner l'approche par code et importer les données manuellement en les téléchargeant depuis le portail et en les téléchargeant via le bouton « Importer des données » sur la page d'accueil de votre espace de travail.

Une fois la table chargée, il est temps de la découper et de présenter une histoire ! Vous voudrez peut-être vérifier les tendances avec un graphique linéaire : y a-t-il plus de tournages pour des séries ou des longs métrages ? Est-ce que cela change avec le temps ? Ou vous pourriez penser à la distribution avec un graphique à barres ou à secteurs : les emplacements de tournage d'actualités ou commerciaux se chevauchent-ils beaucoup avec les films ?

Si vous essayez de créer une visualisation cartographique, vous remarquerez peut-être que, bien que les permis de tournage aient un code postal, la visualisation cartographique du tableau de bord IA/BI nécessite des attributs de latitude et de longitude. Heureusement, les jeux de données de mappage code postal/coordonnées sont faciles à trouver en ligne et peuvent être importés dans le tableau de bord à l'aide d'Assistant. Vous pourriez télécharger ce jeu de données ouvert (sous licence Creative Commons), puis créer un nouveau jeu de données sur votre tableau de bord, en demandant à Assistant de générer une requête combinée. Voici l'invite que j'ai utilisée (ajustez-la pour vos noms de catalogue et de table spécifiques) :

Et voici une version de ce à quoi pourrait ressembler votre tableau de bord final !

visualisation cartographique du tableau de bord IA/BI

Défi : Quelles autres données d'OpenNYC pourriez-vous superposer, peut-être les volumes de taxis ou de covoiturage ? Des monuments importants ? Si vous êtes politiquement actif, y a-t-il une analyse qui servirait votre cause ? D'autres villes et États proposent des jeux de données ouverts similaires, comme le jeu de données Building Energy Benchmark de Seattle sur les émissions, qui pourrait être plus proche de chez vous.

Pouvez-vous étendre l'analyse géospatiale en utilisant les fonctions « ST Functions » natives de Databricks pour rechercher les points les plus proches ?

Conclusion

Ma partie préférée de l'analyse, ce sont les moments d'illumination que l'on obtient en poursuivant sa curiosité, et j'espère que ces exemples vous ont donné des idées. Si vous souhaitez en savoir plus ou si vous décidez de suivre une certification que vous pouvez ajouter à votre CV, vous pouvez accéder à la formation gratuite de Databricks sur l'aperçu IA/BI dispensée à votre rythme ici, à une formation plus approfondie pour auteurs ici, ou rejoindre une classe d'intégration en direct gratuite ! Le site de documentation Databricks est également un excellent endroit pour trouver des informations sur des fonctionnalités spécifiques.

Si vous souhaitez importer l'un des tableaux de bord d'exemple de ce blog, vous pouvez consulter ce dépôt pour le code source. Les spécifications des tableaux de bord IA/BI ne sont que du JSON, donc téléchargez le fichier et importez-le via le menu déroulant « importer » sur la page d'accueil des tableaux de bord.

Spécifications du tableau de bord IA/BI

Enfin, vous trouverez des dizaines de démos installables allant du ML au tableau de bord en passant par l'IA agentique dans le centre de démos Databricks. Essayez quelque chose de nouveau, ou partagez ce que vous avez construit avec la communauté Databricks sur votre plateforme de médias sociaux préférée. Bon codage !

Commencez à créer avec Databricks Free Edition

Lancez votre espace de travail gratuit — aucune carte de crédit requise — et transformez ces projets en tableaux de bord prêts pour votre portfolio dès aujourd'hui.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.