Ceci est un article collaboratif entre Databricks et Quest Software. Nous remercions Vani Mishra, Directrice de la gestion de produits chez Quest Software, pour ses contributions.
Alors que les clients modernisent leur parc de données pour Databricks, ils consolident divers data marts et EDW dans une architecture lakehouse évolutive unique qui prend en charge l'ETL, la BI et l'IA. Généralement, l'une des premières étapes de ce parcours commence par faire le point sur les modèles de données existants des systèmes hérités, puis en les rationalisant et en les convertissant dans les zones Bronze, Silver et Gold de l'architecture Databricks Lakehouse. Un outil de modélisation de données robuste capable de visualiser, concevoir, déployer et standardiser les actifs de données du lakehouse simplifie grandement le parcours de conception et de migration du lakehouse, tout en accélérant les aspects de gouvernance des données.
Nous sommes ravis d'annoncer notre partenariat et l'intégration d'erwin Data Modeler par Quest avec la Databricks Lakehouse Platform pour répondre à ces besoins. Les data modelers peuvent désormais modéliser et visualiser les structures de données du lakehouse avec erwin Data Modeler pour créer des modèles de données logiques et physiques afin d'accélérer la migration vers Databricks. Les data modelers et architectes peuvent rapidement ré-ingénierer ou reconstruire des bases de données et leurs tables et vues sous-jacentes sur Databricks. Vous pouvez désormais accéder facilement à erwin Data Modeler depuis Databricks Partner Connect !
Voici quelques-unes des raisons principales pour lesquelles les outils de modélisation de données comme erwin Data Modeler sont importants :
Dans ce blog, nous allons démontrer trois scénarios sur la façon dont erwin Data Modeler peut être utilisé avec Databricks :
Une fois la création de l'ERD terminée, nous vous montrerons comment générer un fichier DDL/SQL pour l'équipe de conception physique de Databricks.
La première étape consistera à sélectionner un modèle logique/physique comme montré ici :
Une fois sélectionné, vous pouvez commencer à construire vos entités, attributs, relations, définitions et autres détails dans ce modèle.
La capture d'écran ci-dessous montre un exemple de modèle avancé :
Ici, vous pouvez construire votre modèle et documenter les détails selon vos besoins. Pour en savoir plus sur l'utilisation d'erwin Data Modeler, consultez leur documentation d'aide en ligne : aide.
L'ingénierie inversée d'un modèle de données consiste à créer un modèle de données à partir d'une base de données ou d'un script existant. L'outil de modélisation crée une représentation graphique des objets de base de données sélectionnés et des relations entre ces objets. Cette représentation graphique peut être un modèle logique ou physique.
Nous allons nous connecter à Databricks depuis erwin Data Modeler via Partner Connect :
| Paramètre | Description | Informations supplémentaires |
|---|---|---|
| Type de connexion | Spécifie le type de connexion que vous souhaitez utiliser. Sélectionnez Utiliser une source de données ODBC pour vous connecter à l'aide de la source de données ODBC que vous avez définie. Sélectionnez Utiliser une connexion JDBC pour vous connecter à l'aide de JDBC. | |
| Source de données ODBC | Spécifie la source de données à laquelle vous souhaitez vous connecter. La liste déroulante affiche les sources de données définies sur votre ordinateur. | Cette option n'est disponible que lorsque le Type de connexion est défini sur Utiliser une source de données ODBC. |
| Lancer l'administrateur ODBC. | Spécifie si vous souhaitez démarrer le logiciel d'administration ODBC et afficher la boîte de dialogue Sélectionner une source de données. Vous pouvez ensuite sélectionner une source de données précédemment définie ou en créer une. | Cette option n'est disponible que lorsque le Type de connexion est défini sur Utiliser une source de données ODBC. |
| Chaîne de connexion | Spécifie la chaîne de connexion basée sur votre instance JDBC dans le format suivant : jdbc:spark://<server-hostname>:443/default;transportMode=http;ssl=1;httpPath=<http-path> | Cette option n'est disponible que lorsque le Type de connexion est défini sur Utiliser une connexion JDBC. Par exemple : jdbc:spark://<url>.cloud.databricks.com:443/default;transportMode=http;ssl=1;httpPath=sql/protocolv1/o/<workspaceid>/xxxx |
La capture d'écran ci-dessous montre la connectivité JDBC via erwin DataModeler au Databricks SQL Warehouse.
Il nous permet de visualiser toutes les bases de données disponibles et de sélectionner celle dans laquelle nous voulons construire notre modèle ERD, comme montré ci-dessous.

La capture d'écran ci-dessus montre un ERD construit après une ingénierie inversée depuis Databricks avec la méthode ci-dessus. Voici quelques avantages de l'ingénierie inversée d'un modèle de données :
Dans l'ensemble, l'ingénierie inverse est précieuse et constitue une étape fondamentale pour la modélisation des données. L'ingénierie inverse permet une compréhension approfondie d'un système existant et de ses composants, un accès contrôlé au processus de conception de l'entreprise, une transparence totale tout au long du cycle de vie de la modélisation, des améliorations de l'efficacité, des gains de temps et d'argent, et une meilleure documentation qui conduit à de meilleurs objectifs de gouvernance.
Les scénarios ci-dessus supposent que vous travaillez avec une seule source de données, mais la plupart des entreprises disposent de différents data marts et EDW pour répondre à leurs besoins de reporting. Imaginez que votre entreprise corresponde à cette description et qu'elle entreprenne de créer un Databricks Lakehouse pour consolider ses plateformes de données dans le cloud en une plateforme unifiée pour la BI et l'IA. Dans ce cas, il sera facile d'utiliser erwin Data Modeler pour convertir vos modèles de données existants d'un EDW hérité vers un modèle de données Databricks. Dans l'exemple ci-dessous, un modèle de données créé pour un EDW comme SQL Server, Oracle ou Teradata peut maintenant être implémenté dans Databricks en modifiant la base de données cible pour Databricks.
Comme vous pouvez le voir dans la zone cerclée, ce modèle est conçu pour SQL Server. Nous allons maintenant convertir ce modèle et migrer son déploiement vers Databricks en changeant le serveur cible. Ce type de conversion facile de vos modèles de données aide les organisations à migrer rapidement et en toute sécurité les modèles de données des bases de données héritées ou sur site vers le cloud et à gouverner ces jeux de données tout au long de leur cycle de vie.
Dans l'image ci-dessus, nous avons essayé de convertir un modèle de données hérité basé sur SQL Server vers Databricks en quelques étapes simples. Ce type de chemin de migration facile permet aux organisations de migrer rapidement et en toute sécurité leurs données et leurs actifs vers Databricks, encourage la collaboration à distance et améliore la sécurité.
Passons maintenant à notre dernière partie ; une fois que le modèle ER est prêt et approuvé par l'équipe d'architecture de données, vous pouvez rapidement générer un fichier .sql à partir d'erwin DM ou vous connecter à Databricks et effectuer une ingénierie directe de ce modèle vers Databricks.
Suivez les captures d'écran ci-dessous, qui expliquent le processus étape par étape pour créer un fichier DDL ou un modèle de base de données pour Databricks.
erwin Data Modeler Mart prend également en charge GitHub. Cette prise en charge permet à votre équipe DevOps de contrôler vos scripts dans les dépôts de contrôle de source d'entreprise de votre choix. Désormais, avec la prise en charge de Git, vous pouvez facilement collaborer avec les développeurs et suivre les flux de travail de contrôle de version.
Dans ce blog, nous avons démontré la facilité avec laquelle il est possible de créer, d'effectuer une ingénierie inverse ou une ingénierie directe de modèles de données à l'aide d'erwin Data Modeler et de créer des modèles de données visuels pour migrer vos définitions de table vers Databricks et d'effectuer une ingénierie inverse de modèles de données pour la gouvernance des données et la création de couches sémantiques.
Ce type de pratique de modélisation des données est l'élément clé pour ajouter de la valeur à votre :
Commencez à utiliser erwin depuis Databricks Partner Connect.
Essayez Databricks gratuitement pendant 14 jours.
Essayez erwin Data modeler
** erwin DM 12.5 sera bientôt disponible avec la prise en charge d'Unity Catalog de Databricks où vous pourrez visualiser vos clés primaires et étrangères.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
