Architecture de bout en bout de l'Intelligence des Données avec Azure Databricks
L'architecture de bout en bout de l'intelligence des données fournit une base évolutive et sécurisée pour l'analytique, l'IA et les insights en temps réel sur les données en lots et en streaming.

Résumé de l'architecture
L'architecture de bout en bout de l'intelligence des données s'intègre parfaitement avec Power BI et Copilot dans Microsoft Fabric, Microsoft Purview, Azure Data Lake Storage Gen2 et Azure Event Hubs, permettant la prise de décision basée sur les données à travers l'entreprise. Cette solution démontre comment vous pouvez tirer parti de la plateforme d'intelligence de données pour Azure Databricks combinée à Power BI pour démocratiser les données et l'IA tout en répondant aux besoins de sécurité et d'échelle de niveau entreprise. En commençant par une architecture de lac de données unifiée et ouverte, gouvernée par Unity Catalog, l'intelligence de données exploite les données uniques d'une organisation pour fournir une solution simple, robuste et accessible pour l'ETL, l'entrepôt de données et l'IA afin qu'ils puissent livrer des produits de données plus rapidement et plus facilement.
Cas d’utilisation
Cette architecture de bout en bout peut être utilisée pour :
- Modernisez une architecture de données héritée en combinant ETL, entrepôt de données et IA pour créer une plateforme plus simple et prête pour l'avenir
- Alimentez des cas d'utilisation d'analyse en temps réel tels que les recommandations de commerce électronique, la maintenance prédictive et l'optimisation de la chaîne d'approvisionnement à grande échelle
- Construisez des applications GenAI de niveau production telles que des agents de service client pilotés par l'IA, la personnalisation et l'automatisation des documents
- Permettez aux dirigeants d'entreprise au sein d'une organisation de tirer des enseignements de leurs données sans avoir besoin de compétences techniques approfondies ou de tableaux de bord personnalisés
- Partagez ou monétisez en toute sécurité les données avec les partenaires et les clients
Flux de données
- Ingestion des données
- Stream de données depuis Azure Event Hubs vers Lakeflow Declarative Pipelines, avec contrôle de schéma et gouvernance via Unity Catalog
- Utilisez Auto Loader pour ingérer de manière incrémentielle des données non structurées et semi-structurées depuis ADLS Gen2 vers Delta Lake
- Accédez aux systèmes relationnels externes en utilisant Lakehouse Federation, en veillant à ce que toutes les sources suivent le même modèle de gouvernance
- Traiter à la fois des données par lots et en flux à grande échelle en utilisant les pipelines déclaratifs Lakeflow et le moteur Photon, en suivant l'architecture du médaillon.
- Bronze : Données brutes par lots et en streaming ingérées telles quelles pour la conservation et l'auditabilité
- Silver: Nettoyage et jointure des ensembles de données - la logique de flux et de lots est définie de manière déclarative pour simplifier la complexité
- Or : Données agrégées, prêtes pour l'entreprise, conçues pour être consommées par les systèmes d'analyse et d'IA en aval
- Cette approche unifiée permet aux équipes de construire des pipelines résilients qui supportent le traitement des données en temps réel et historiques dans la même architecture
- Stockez toutes les données dans un format ouvert et interopérable en utilisant Delta Lake sur ADLS Gen2.
Permettez la compatibilité entre des moteurs comme Delta, Apache Iceberg™ et Hudi tout en centralisant le stockage dans un environnement sécurisé et évolutif. - Explorez, enrichissez et entraînez des modèles d'IA à l'aide de carnets de notes collaboratifs et d'outils ML réglementés.
Utilisez des carnets de notes sans serveur pour l'exploration et l'entraînement des modèles, avec MLflow, le magasin de fonctionnalités et le catalogue Unity gérant les modèles, les fonctionnalités et les index de vecteurs. - Servez des requêtes ad hoc et à haute concurrence directement à partir de votre lac de données en utilisant Databricks SQL.
Fournissez un accès rapide et rentable aux données de niveau Gold sans avoir besoin de déplacer ou de dupliquer les données. - Visualisez les données prêtes pour l'entreprise dans Power BI en utilisant des modèles sémantiques connectés à Unity Catalog.
Construisez des rapports dans Microsoft Fabric avec des connexions en direct aux données gouvernées via Databricks SQL. - Laissez les utilisateurs commerciaux explorer les données en utilisant le langage naturel avec AI/BI Genie.
Démocratisez l'accès aux données en permettant à quiconque de faire des requêtes de données de manière conversationnelle sans écrire de SQL. - Partagez des données en direct et gouvernées à l'extérieur en utilisant Delta Sharing.
Utilisez des normes ouvertes pour distribuer de manière sécurisée les données avec des partenaires, des clients ou d'autres unités commerciales. - Orchestrez les flux de données et d'IA sur la plateforme en utilisant Databricks Jobs.
Gérez les dépendances, la planification et l'exécution à partir d'un seul point de vue sur vos pipelines et vos jobs ML. - Publiez les métadonnées sur Microsoft Purview pour une découverte et une gouvernance unifiées des données.
Étendez votre portée de gouvernance en synchronisant les métadonnées du catalogue Unity pour une visibilité à l'échelle de l'entreprise. - Profitez des services principaux d'Azure pour la gouvernance de la plateforme.
- Gestion des identités et connexion unique (SSO) via Microsoft Entra ID
- Gérez les coûts et la facturation via Microsoft Cost Management
- Surveillez la télémétrie et la santé du système via Azure Monitor
- Gérez les clés cryptées et les secrets via Azure Key Vault
- Facilitez le contrôle de version et le CI/CD via Azure DevOps et GitHub
- Assurez la gestion de la sécurité du cloud via Microsoft Defender pour Cloud