주요 컨텐츠로 이동

Databricks Lakehouse Platform에서 Quest의 erwin Data Modeler를 사용한 시각적 데이터 모델링

Databricks에서 erwin을 사용한 데이터 모델링

Visual Data modeling using erwin Data Modeler on the Databricks Lakehouse Platform

발행일: 2023년 4월 5일

데이터 웨어하우징Less than a minute

이 문서는 Databricks와 Quest Software가 함께 작성했습니다. Quest Software의 제품 관리 이사인 Vani Mishra님께 감사드립니다.

 

erwin Data Modeler를 사용한 데이터 모델링

고객들이 Databricks로 데이터 에스테이트를 현대화함에 따라, ETL, BI 및 AI를 지원하는 단일 확장 가능한 레이크하우스 아키텍처로 다양한 데이터 마트와 EDW를 통합하고 있습니다. 일반적으로 이 여정의 첫 단계 중 하나는 레거시 시스템의 기존 데이터 모델을 파악하고, 이를 Databricks Lakehouse 아키텍처의 브론즈, 실버, 골드 영역으로 합리화하고 변환하는 것입니다. 레이크하우스 데이터 에셋을 시각화, 설계, 배포 및 표준화할 수 있는 강력한 데이터 모델링 도구는 레이크하우스 설계 및 마이그레이션 여정을 크게 단순화하고 데이터 거버넌스 측면을 가속화합니다.

이러한 요구를 충족하기 위해 Quest의 erwin Data ModelerDatabricks Lakehouse Platform의 파트너십 및 통합을 발표하게 되어 기쁩니다. 이제 데이터 모델러는 erwin Data Modeler를 사용하여 레이크하우스 데이터 구조를 모델링하고 시각화하여 논리적 및 물리적 데이터 모델을 구축하고 Databricks로의 마이그레이션을 가속화할 수 있습니다. 데이터 모델러와 아키텍트는 Databricks에서 데이터베이스와 그 아래의 테이블 및 뷰를 신속하게 재설계하거나 재구성할 수 있습니다. 이제 Databricks Partner Connect에서 erwin Data Modeler에 쉽게 액세스할 수 있습니다!

erwin Data Modeler와 같은 데이터 모델링 도구가 중요한 몇 가지 주요 이유는 다음과 같습니다.

  1. 데이터 이해도 향상: 데이터 모델링 도구는 복잡한 데이터 구조를 시각적으로 표현하여 이해 관계자가 다양한 데이터 요소 간의 관계를 더 쉽게 이해할 수 있도록 합니다.
  2. 정확성 및 일관성 증대: 데이터 모델링 도구는 데이터베이스가 정확성과 일관성을 염두에 두고 설계되도록 도와 오류 및 데이터 불일치 위험을 줄입니다.
  3. 협업 촉진: 데이터 모델링 도구를 사용하면 여러 이해 관계자가 데이터베이스 설계에 협업하여 모두가 같은 내용을 이해하고 결과 스키마가 모든 이해 관계자의 요구를 충족하도록 할 수 있습니다.
  4. 더 나은 데이터베이스 성능: 제대로 설계된 데이터베이스는 데이터베이스에 의존하는 애플리케이션의 성능을 향상시켜 더 빠르고 효율적인 데이터 처리를 가능하게 합니다.
  5. 유지 관리 용이성: 잘 설계된 데이터베이스를 사용하면 새 데이터 요소를 추가하거나 기존 요소를 수정하는 것과 같은 유지 관리 작업이 더 쉽고 오류 발생 가능성이 줄어듭니다.
  6. 향상된 데이터 거버넌스, 데이터 인텔리전스 및 메타데이터 관리.

이 블로그에서는 erwin Data Modeler를 Databricks와 함께 사용할 수 있는 세 가지 시나리오를 보여드리겠습니다.

  1. 첫 번째 시나리오는 팀이 비즈니스 팀의 문서를 기반으로 새로운 개체 관계 다이어그램(ERD)을 구축하고자 하는 경우입니다. 목표는 비즈니스 단위가 시스템에 적용되는 관계, 정의 및 비즈니스 규칙을 이해하고 적용할 수 있도록 논리적 모델에 대한 ER 다이어그램을 만드는 것입니다. 이 논리적 모델을 기반으로 Databricks용 물리적 모델도 구축할 것입니다.
  2. 두 번째 시나리오에서는 비즈니스 단위가 현재 Databricks 환경에서 역공학을 통해 시각적 데이터 모델을 구축하여 비즈니스 정의, 관계 및 거버넌스 관점을 이해하고 이를 보고 및 거버넌스 팀과 협업하는 데 사용합니다.
  3. 세 번째 시나리오에서는 플랫폼 아키텍트 팀이 Oracle, SQL Server, Teradata, MongoDB 등과 같은 다양한 엔터프라이즈 데이터 웨어하우스(EDW) 및 데이터 마트를 Databricks Lakehouse 플랫폼으로 통합하고 통합 마스터 모델을 구축하고 있습니다.

ERD 생성이 완료되면 Databricks 물리적 설계 팀을 위해 DDL/SQL 파일을 생성하는 방법을 보여드리겠습니다.

시나리오 #1: Databricks에 구현할 새로운 논리적 및 물리적 데이터 모델 생성

첫 번째 단계는 여기에 표시된 대로 논리적/물리적 모델을 선택하는 것입니다.

새 논리적 모델 생성.
새 논리적 모델 생성.

선택하면 이 모델에서 엔터티, 속성, 관계, 정의 및 기타 세부 정보를 구축하기 시작할 수 있습니다.

아래 스크린샷은 고급 모델의 예입니다.

논리적 모델 샘플.
논리적 모델 샘플.

여기에서 필요에 따라 모델을 구축하고 세부 정보를 문서화할 수 있습니다. erwin Data Modeler 사용 방법에 대해 자세히 알아보려면 온라인 도움말 문서를 참조하십시오.

가이드

레이크하우스의 데이터 웨어하우징

시나리오 #2: Databricks Lakehouse Platform에서 데이터 모델 역공학

데이터 모델 역공학은 기존 데이터베이스 또는 스크립트에서 데이터 모델을 만드는 것입니다. 모델링 도구는 선택한 데이터베이스 개체와 개체 간의 관계를 그래픽으로 표현합니다. 이 그래픽 표현은 논리적 모델 또는 물리적 모델일 수 있습니다.

파트너 커넥트를 통해 erwin Data Modeler에서 Databricks에 연결할 것입니다.

연결 옵션:

매개변수 설명 추가 정보
연결 유형 사용하려는 연결 유형을 지정합니다. ODBC 데이터 원본 사용을 선택하여 정의한 ODBC 데이터 원본을 사용하여 연결합니다. JDBC 연결 사용을 선택하여 JDBC를 사용하여 연결합니다.  
ODBC 데이터 원본 연결하려는 데이터 원본을 지정합니다. 드롭다운 목록에는 컴퓨터에 정의된 데이터 원본이 표시됩니다. 이 옵션은 연결 유형이 ODBC 데이터 원본 사용으로 설정된 경우에만 사용할 수 있습니다.
ODBC 관리자 호출. ODBC 관리자 소프트웨어를 시작하고 데이터 원본 선택 대화 상자를 표시할지 여부를 지정합니다. 그런 다음 이전에 정의한 데이터 원본을 선택하거나 데이터 원본을 만들 수 있습니다. 이 옵션은 연결 유형이 ODBC 데이터 원본 사용으로 설정된 경우에만 사용할 수 있습니다.
연결 문자열 다음 형식의 JDBC 인스턴스를 기반으로 연결 문자열을 지정합니다: jdbc:spark://<server-hostname>:443/default;transportMode=http;ssl=1;httpPath=<http-path> 이 옵션은 연결 유형이 JDBC 연결 사용으로 설정된 경우에만 사용할 수 있습니다. 예: jdbc:spark://<url>.cloud.databricks.com:443/default;transportMode=http;ssl=1;httpPath=sql/protocolv1/o/<workspaceid>/xxxx

아래 스크린샷은 Databricks SQL Warehouse에 대한 erwin DataModeler의 JDBC 연결을 보여줍니다.

JDBC를 통해 Databricks SQL Warehouse에 연결.
JDBC를 통해 Databricks SQL Warehouse에 연결.

이를 통해 사용 가능한 모든 데이터베이스를 보고 ERD 모델을 구축할 데이터베이스를 선택할 수 있습니다. 아래 참조.

역공학 마법사
역공학 마법사

ERD

위 스크린샷은 위 방법으로 Databricks에서 역공학한 후 구축된 ERD를 보여줍니다. 데이터 모델 역공학의 이점은 다음과 같습니다.

  1. 기존 시스템에 대한 이해도 향상: 기존 시스템을 역공학함으로써 시스템이 어떻게 작동하고 다양한 구성 요소가 어떻게 상호 작용하는지 더 잘 이해할 수 있습니다. 잠재적인 문제점이나 개선 영역을 식별하는 데 도움이 됩니다.
  2. 비용 절감: 역공학은 기존 시스템의 비효율성을 식별하여 프로세스를 최적화하거나 낭비되는 리소스 영역을 식별하여 비용을 절감하는 데 도움이 될 수 있습니다.
  3. 시간 절약: 역공학은 처음부터 다시 시작하는 대신 기존 코드나 데이터 구조를 재사용할 수 있어 시간을 절약할 수 있습니다.
  4. 더 나은 문서화: 역공학은 기존 시스템에 대한 정확하고 최신 상태의 문서를 만드는 데 도움이 될 수 있으며, 이는 유지 관리 및 향후 개발에 유용할 수 있습니다.
  5. 간편한 마이그레이션: 리버스 엔지니어링을 통해 기존 시스템의 데이터 구조와 관계를 파악하여 새 시스템이나 데이터베이스로 데이터를 더 쉽게 마이그레이션할 수 있습니다.

전반적으로 리버스 엔지니어링은 데이터 모델링에 귀중하고 기본적인 단계입니다. 리버스 엔지니어링은 기존 시스템 및 구성 요소에 대한 더 깊은 이해, 엔터프라이즈 설계 프로세스에 대한 제어된 액세스, 모델링 수명 주기 전반에 걸친 완전한 투명성, 효율성 향상, 시간 및 비용 절감, 거버넌스 목표 개선으로 이어지는 더 나은 문서화를 가능하게 합니다.

시나리오 #3: 기존 데이터 모델을 Databricks로 마이그레이션.

위 시나리오는 단일 데이터 소스를 다룬다고 가정하지만, 대부분의 기업은 보고 요구 사항을 지원하기 위해 다양한 데이터 마트와 EDW를 보유하고 있습니다. 귀사의 상황이 이와 같고 BI 및 AI를 위한 통합 플랫폼인 Databricks Lakehouse를 클라우드에서 구축하여 데이터 플랫폼을 통합하려고 한다고 상상해 보세요. 이 경우 erwin Data Modeler를 사용하여 레거시 EDW의 기존 데이터 모델을 Databricks 데이터 모델로 쉽게 변환할 수 있습니다. 아래 예시에서는 SQL Server, Oracle 또는 Teradata와 같은 EDW를 위해 구축된 데이터 모델을 대상 데이터베이스를 Databricks로 변경하여 Databricks에서 구현할 수 있습니다.

기존 SQL Server 데이터 모델
기존 SQL Server 데이터 모델

표시된 원 영역에서 볼 수 있듯이 이 모델은 SQL Server용으로 구축되었습니다. 이제 이 모델을 변환하고 대상 서버를 변경하여 Databricks로 배포를 마이그레이션할 것입니다. 이러한 종류의 쉬운 데이터 모델 변환은 조직이 레거시 또는 온프레미스 데이터베이스에서 클라우드로 데이터 모델을 빠르고 안전하게 마이그레이션하고 수명 주기 전반에 걸쳐 해당 데이터 세트를 관리하는 데 도움이 됩니다.

SQL Server 데이터 모델을 Databricks에 해당하는 모델로 변환합니다.
SQL Server 데이터 모델을 Databricks에 해당하는 모델로 변환합니다.

위 그림에서는 몇 가지 간단한 단계를 통해 레거시 SQL Server 기반 데이터 모델을 Databricks로 변환하려고 시도했습니다. 이러한 종류의 쉬운 마이그레이션 경로는 조직이 데이터 및 자산을 Databricks로 빠르고 안전하게 마이그레이션하고, 원격 협업을 장려하며, 보안을 강화할 수 있도록 지원합니다.

이제 마지막 부분으로 넘어가겠습니다. ER 모델이 준비되고 데이터 아키텍처 팀의 승인을 받으면 erwin DM에서 .sql 파일을 빠르게 생성하거나 Databricks에 연결하여 이 모델을 Databricks로 직접 포워드 엔지니어링할 수 있습니다.

아래 스크린샷은 Databricks용 DDL 파일 또는 데이터베이스 모델을 생성하는 단계별 프로세스를 설명합니다.

SQL DDL 생성 단계
SQL DDL 생성 단계
여기서 SQL 스크립트를 검토하거나 업데이트할 수 있습니다.
여기서 SQL 스크립트를 검토하거나 업데이트할 수 있습니다.

erwin Data Modeler Mart는 GitHub도 지원합니다. 이 지원을 통해 DevOps 팀은 스크립트를 원하는 엔터프라이즈 소스 제어 리포지토리로 제어하는 요구 사항을 충족할 수 있습니다. 이제 Git 지원을 통해 개발자와 쉽게 협업하고 버전 제어 워크플로를 따를 수 있습니다.

결론

이 블로그에서는 erwin Data Modeler를 사용하여 데이터 모델을 생성, 리버스 엔지니어링 또는 포워드 엔지니어링하는 방법과 Databricks로 테이블 정의를 마이그레이션하기 위한 시각적 데이터 모델을 생성하고 데이터 거버넌스 및 시맨틱 레이어 생성을 위한 데이터 모델을 리버스 엔지니어링하는 방법을 보여주었습니다.

이러한 종류의 데이터 모델링 관행은 다음을 추가하는 핵심 요소입니다.

  1. 데이터 거버넌스 관행
  2. 비용 절감 및 데이터 및 메타데이터의 가치 실현 시간 단축
  3. 비즈니스 결과 및 관련 메타데이터 이해 및 개선
  4. 복잡성 및 위험 감소
  5. IT 팀과 비즈니스 이해 관계자 간의 협업 개선
  6. 더 나은 문서화
  7. 마지막으로 레거시 데이터베이스에서 Databricks 플랫폼으로 마이그레이션하는 쉬운 경로

Databricks 파트너 커넥트에서 erwin 사용을 시작하세요.

Databricks를 14일 동안 무료로 사용해 보세요.
erwin Data modeler 사용해 보기
** erwin DM 12.5는 Databricks Unity Catalog 지원과 함께 제공되며, 이를 통해 기본 키 및 외래 키를 시각화할 수 있습니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요