Revenir au contenu principal

Construire un Lakehouse Sémantique avec AtScale et Databricks

Apprenez comment une couche sémantique universelle peut démocratiser votre Databricks Lakehouse et permettre la BI en libre-service

Building a Semantic Lakehouse With AtScale and Databricks

Publié: 10 novembre 2022

Partenaires5 min de lecture

Ceci est un article collaboratif entre AtScale et Databricks. Nous remercions Kieran O'Driscoll, Technology Alliances Manager, AtScale, pour ses contributions.

 

Kyle Hale, architecte de solutions chez Databricks, a inventé le terme "Semantic Lakehouse" dans son blog il y a quelques mois. C'est un bon aperçu du potentiel de simplification de la pile BI et de l'exploitation de la puissance du lakehouse. Alors qu'AtScale et Databricks collaborent de plus en plus pour soutenir nos clients communs, le potentiel d'exploitation de la plateforme de couche sémantique d'AtScale avec Databricks pour créer rapidement un Semantic Lakehouse a pris forme. Un lakehouse sémantique fournit une couche d'abstraction sur les tables physiques et offre une vue conviviale pour la consommation des données en définissant et en organisant les données par différents domaines thématiques, et en définissant les entités, les attributs et les jointures. Tout cela simplifie la consommation des données par les analystes métier et les utilisateurs finaux.

La plupart des entreprises luttent encore avec la démocratisation des données

Rendre les données accessibles aux décideurs est un défi auquel la plupart des organisations sont confrontées aujourd'hui. Plus l'organisation est grande, plus il devient difficile d'imposer un standard unique pour la consommation et la préparation des analyses. Plus de la moitié des entreprises déclarent utiliser trois outils de BI ou plus, et plus d'un tiers en utilisent quatre ou plus. En plus des utilisateurs de BI, les data scientists ont leurs propres préférences, tout comme les développeurs d'applications.

Ces outils fonctionnent de différentes manières et parlent différents langages de requête. Des résultats d'analyse contradictoires sont presque garantis lorsque plusieurs unités commerciales prennent des décisions en recourant à différentes copies de données cloisonnées ou à des solutions de cubage OLAP conventionnelles comme les extraits Tableau Hyper, les importations Power BI Premium, ou Microsoft SQL Server Analysis Services (SSAS) pour les utilisateurs d'Excel.

Garder les données dans différents data marts et data warehouses, les extraits dans diverses bases de données et les données mises en cache en externe dans les outils de reporting ne donne pas une version unique de la vérité pour l'entreprise et augmente le mouvement des données, l'ETL, la sécurité et la complexité. Cela devient un cauchemar de gouvernance des données et signifie également que les organisations gèrent leurs activités sur des données potentiellement obsolètes provenant de différents silos de données dans les couches BI et n'exploitent pas toute la puissance du Databricks Lakehouse.

Le besoin d'une couche sémantique universelle

La couche sémantique AtScale se situe entre tous vos outils de consommation d'analyse et votre Databricks Lakehouse. En abstrayant la forme et l'emplacement physiques des données, la couche sémantique rend les données stockées dans le Delta Lake prêtes à l'analyse et facilement consommables par l'outil de choix des utilisateurs métier. Les outils de consommation peuvent se connecter à AtScale via l'un des protocoles suivants :

  • Pour SQL, le moteur AtScale apparaît comme un entrepôt Hive SQL.
  • Pour MDX ou DAX, AtScale apparaît comme un cube SQL Server Analysis Services (SSAS).
  • Pour les applications REST ou Python, AtScale apparaît comme un service web.

Plutôt que de traiter les données localement, AtScale pousse les requêtes entrantes vers Databricks sous forme de SQL optimisé. Cela signifie que les requêtes des utilisateurs s'exécutent directement sur Delta Lake en utilisant Databricks SQL pour le calcul, l'échelle et les performances.

Semantic Lakehouse with Databricks and Atscale
Semantic Lakehouse with Databricks and Atscale

L'avantage supplémentaire de l'utilisation d'une couche sémantique universelle est que la technologie d'optimisation autonome des performances d'AtScale identifie les modèles de requêtes des utilisateurs pour orchestrer automatiquement la création et la maintenance des agrégats, tout comme le ferait une équipe d'ingénierie de données. Désormais, personne n'a à consacrer de temps et d'efforts de développement pour créer et maintenir ces agrégats, car ils sont auto-créés et gérés par Atscale pour des performances optimales. Ces agrégats sont créés dans le Delta Lake sous forme de tables Delta physiques et peuvent être considérés comme une "couche diamant". Ces agrégats sont entièrement gérés par AtScale et améliorent l'échelle et les performances de vos rapports BI sur le Databricks Lakehouse tout en simplifiant radicalement les pipelines de données d'analyse et l'ingénierie de données associée.

UN LEADER 5X

Gartner® : Databricks, leader des bases de données cloud

Créer un lakehouse sémantique indépendant des outils

La vision de la plateforme Databricks Lakehouse est une plateforme unifiée unique pour prendre en charge toutes vos charges de travail de données, d'analyse et d'IA. La description par Kyle du "Semantic Lakehouse" est un bon modèle pour une pile BI simplifiée.

AtScale étend cette idée de Semantic Lakehouse en prenant en charge les charges de travail BI et les cas d'utilisation IA/ML grâce à notre couche sémantique indépendante des outils. La combinaison d'AtScale et de Databricks signifie que l'architecture du lakehouse sémantique est étendue à n'importe quelle couche de présentation - peu importe s'il s'agit de Tableau, Power BI, Excel ou Looker. Ils peuvent tous utiliser la même couche sémantique dans AtScale.

Semantic Lakehouse - all your analytics directly on the Lakehouse
Semantic Lakehouse - all your analytics directly on the Lakehouse

Avec l'avènement du lakehouse, les organisations n'ont plus leurs équipes BI et IA/ML travaillant isolément. La couche sémantique universelle d'AtScale aide les organisations à obtenir un accès cohérent à toutes leurs données d'entreprise, qu'il s'agisse d'un utilisateur métier dans Excel ou d'un data scientist utilisant un Notebook, tout en exploitant toute la puissance de leur plateforme Databricks Lakehouse.

Ressources supplémentaires

Regardez notre discussion de panel avec Franco Patano, spécialiste produit principal chez Databricks pour plus d'informations et pour découvrir comment ces outils peuvent vous aider à créer une plateforme d'analyse agile et évolutive.

Si vous avez des questions concernant AtScale ou comment moderniser et migrer votre pile EDW, BI et de reporting héritée vers Databricks et AtScale - n'hésitez pas à contacter [email protected] ou contactez Databricks.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.