Veröffentlicht: 5. April 2023
von Vani Mishra, Abhishek Dey, Leo Mao, Soham Bhatt und Pradeep Anandapu
Dies ist ein gemeinsamer Beitrag von Databricks und Quest Software. Wir danken Vani Mishra, Director of Product Management bei Quest Software, für ihre Beiträge.
Wenn Kunden ihre Datenlandschaft auf Databricks modernisieren, konsolidieren sie verschiedene Data Marts und EDWs in einer einzigen skalierbaren Lakehouse-Architektur, die ETL, BI und KI unterstützt. Normalerweise beginnt einer der ersten Schritte dieser Reise damit, die vorhandenen Datenmodelle der Altsysteme zu erfassen, zu rationalisieren und in die Bronze-, Silber- und Gold-Zonen der Databricks Lakehouse-Architektur zu überführen. Ein robustes Datenmodellierungstool, das die Lakehouse-Datenassets visualisieren, entwerfen, bereitstellen und standardisieren kann, vereinfacht die Gestaltung und Migration des Lakehouse erheblich und beschleunigt die Aspekte der Datenverwaltung.
Wir freuen uns, unsere Partnerschaft und Integration von erwin Data Modeler von Quest mit der Databricks Lakehouse Platform bekannt zu geben, um diese Anforderungen zu erfüllen. Datenmodellierer können jetzt mit erwin Data Modeler Lakehouse-Datenstrukturen modellieren und visualisieren, um logische und physische Datenmodelle zu erstellen und die Migration zu Databricks zu beschleunigen. Datenmodellierer und Architekten können Datenbanken und ihre zugrunde liegenden Tabellen und Ansichten auf Databricks schnell neu entwickeln oder rekonstruieren. Sie können jetzt einfach auf erwin Data Modeler über Databricks Partner Connect zugreifen!
Hier sind einige der Hauptgründe, warum Datenmodellierungstools wie erwin Data Modeler wichtig sind:
In diesem Blog demonstrieren wir drei Szenarien, wie erwin Data Modeler mit Databricks verwendet werden kann:
Nach Abschluss der ERD-Erstellung zeigen wir Ihnen, wie Sie eine DDL/SQL-Datei für das physische Designteam von Databricks generieren.
Der erste Schritt ist die Auswahl eines logischen/physischen Modells, wie hier gezeigt:
Nach der Auswahl können Sie mit dem Erstellen Ihrer Entitäten, Attribute, Beziehungen, Definitionen und anderer Details in diesem Modell beginnen.
Der folgende Screenshot zeigt ein Beispiel für ein erweitertes Modell:
Hier können Sie Ihr Modell erstellen und die Details nach Bedarf dokumentieren. Um mehr darüber zu erfahren, wie Sie erwin Data Modeler verwenden, lesen Sie die Online-Hilfe-Dokumentation.
Reverse Engineering eines Datenmodells bedeutet, ein Datenmodell aus einer vorhandenen Datenbank oder einem Skript zu erstellen. Das Modellierungstool erstellt eine grafische Darstellung der ausgewählten Datenbankobjekte und der Beziehungen zwischen den Objekten. Diese grafische Darstellung kann ein logisches oder ein physisches Modell sein.
Wir werden uns über Partner Connect von erwin Data Modeler mit Databricks verbinden:
| Parameter | Beschreibung | Zusätzliche Informationen |
|---|---|---|
| Verbindungstyp | Gibt den Verbindungstyp an, den Sie verwenden möchten. Wählen Sie Use ODBC Data Source, um eine Verbindung über die definierte ODBC-Datenquelle herzustellen. Wählen Sie Use JDBC Connection, um eine Verbindung über JDBC herzustellen. | |
| ODBC-Datenquelle | Gibt die Datenquelle an, mit der Sie eine Verbindung herstellen möchten. Die Dropdown-Liste zeigt die auf Ihrem Computer definierten Datenquellen an. | Diese Option ist nur verfügbar, wenn der Verbindungstyp auf Use ODBC Data Source gesetzt ist. |
| ODBC-Administrator aufrufen. | Gibt an, ob Sie die ODBC-Administratorsoftware starten und das Dialogfeld Datenquelle auswählen anzeigen möchten. Sie können dann eine zuvor definierte Datenquelle auswählen oder eine Datenquelle erstellen. | Diese Option ist nur verfügbar, wenn der Verbindungstyp auf Use ODBC Data Source gesetzt ist. |
| Verbindungszeichenfolge | Gibt die Verbindungszeichenfolge basierend auf Ihrer JDBC-Instanz im folgenden Format an: jdbc:spark://<server-hostname>:443/default;transportMode=http;ssl=1;httpPath=<http-path> | Diese Option ist nur verfügbar, wenn der Verbindungstyp auf Use JDBC Connection gesetzt ist. Beispiel: jdbc:spark://<url>.cloud.databricks.com:443/default;transportMode=http;ssl=1;httpPath=sql/protocolv1/o/<workspaceid>/xxxx |
Der folgende Screenshot zeigt die JDBC-Konnektivität über erwin DataModeler zum Databricks SQL Warehouse.
Es ermöglicht uns, alle verfügbaren Datenbanken anzuzeigen und auszuwählen, in welcher Datenbank wir unser ERD-Modell erstellen möchten, wie unten gezeigt.

Der obige Screenshot zeigt ein ERD, das nach Reverse Engineering von Databricks mit der obigen Methode erstellt wurde. Hier sind einige Vorteile des Reverse Engineering eines Datenmodells:
Insgesamt ist Reverse Engineering wertvoll und ein grundlegender Schritt für das Datenmodellierungs. Reverse Engineering ermöglicht ein tieferes Verständnis eines bestehenden Systems und seiner Komponenten, kontrollierten Zugriff auf den Enterprise-Designprozess, volle Transparenz über den Modellierungslebenszyklus, Effizienzsteigerungen, Zeit- und Kostenersparnis sowie eine bessere Dokumentation, die zu besseren Governance-Zielen führt.
Die obigen Szenarien gehen davon aus, dass Sie mit einer einzelnen Datenquelle arbeiten, aber die meisten Unternehmen verfügen über verschiedene Data Marts und EDWs zur Unterstützung ihrer Reporting-Anforderungen. Stellen Sie sich vor, Ihr Unternehmen passt zu dieser Beschreibung und beginnt nun mit der Erstellung eines Databricks Lakehouse, um seine Datenplattformen in der Cloud auf einer einzigen, einheitlichen Plattform für BI und KI zu konsolidieren. In dieser Situation ist es einfach, erwin Data Modeler zu verwenden, um Ihre bestehenden Datenmodelle von einem Legacy-EDW in ein Databricks-Datenmodell zu konvertieren. Im folgenden Beispiel kann ein für ein EDW wie SQL Server, Oracle oder Teradata erstelltes Datenmodell nun in Databricks implementiert werden, indem die Zieldatenbank zu Databricks geändert wird.
Wie Sie im markierten Kreisbereich sehen können, wurde dieses Modell für SQL Server erstellt. Nun werden wir dieses Modell konvertieren und seine Bereitstellung nach Databricks migrieren, indem wir den Zielserver ändern. Diese Art der einfachen Konvertierung Ihrer Datenmodelle hilft Unternehmen, Datenmodelle schnell und sicher von Legacy- oder On-Premise-Datenbanken in die Cloud zu migrieren und diese Datensätze während ihres gesamten Lebenszyklus zu verwalten.
Im obigen Bild haben wir versucht, ein Legacy-SQL-Server-basiertes Datenmodell mit wenigen einfachen Schritten nach Databricks zu konvertieren. Dieser einfache Migrationspfad ermöglicht und hilft Unternehmen, ihre Daten und Assets schnell und sicher nach Databricks zu migrieren, fördert die Remote-Zusammenarbeit und verbessert die Sicherheit.
Kommen wir nun zu unserem letzten Teil; sobald das ER-Modell fertig und vom Datenarchitekturteam genehmigt ist, können Sie schnell eine .sql-Datei aus erwin DM generieren oder sich mit Databricks verbinden und dieses Modell direkt nach Databricks forward-engineeren.
Befolgen Sie die nachstehenden Screenshots, die den Schritt-für-Schritt-Prozess zur Erstellung einer DDL-Datei oder eines Datenbankmodells für Databricks erklären.
erwin Data Modeler Mart unterstützt auch GitHub. Diese Unterstützung ermöglicht es Ihrem DevOps-Team, Ihre Skripte in den von Ihnen gewählten Enterprise-Quellcode-Repositorys zu verwalten. Mit der Git-Unterstützung können Sie jetzt einfach mit Entwicklern zusammenarbeiten und Versionierungs-Workflows befolgen.
In diesem Blog haben wir gezeigt, wie einfach es ist, Datenmodelle mit erwin Data Modeler zu erstellen, zu reverse-engineeren oder forward-engineeren und visuelle Datenmodelle für die Migration Ihrer Tabellendefinitionen zu Databricks zu erstellen und Datenmodelle für Data Governance und die Erstellung von semantischen Ebenen zu reverse-engineeren.
Diese Art von Datenmodellierungspraxis ist das Schlüsselelement, um Mehrwert für Ihre zu schaffen:
Beginnen Sie mit der Verwendung von erwin über Databricks Partner Connect.
Testen Sie Databricks 14 Tage kostenlos.
Testen Sie erwin Data Modeler
** erwin DM 12.5 wird mit Databricks Unity Catalog-Unterstützung geliefert, mit der Sie Ihre Primär- und Fremdschlüssel visualisieren können.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
