주요 컨텐츠로 이동

개방형 플랫폼, 통합 파이프라인: Databricks에서 dbt가 가속화되는 이유

내장된 거버넌스와 강력한 가격 대비 성능을 갖춘 개방형 통합 레이크하우스에서 dbt를 실행하세요

dbt on Databricks

발행일: 2026년 4월 16일

파트너Less than a minute

Summary

  • 개방형 기반은 공급업체 종속을 방지합니다. 개방형 테이블 형식과 오픈 소스 Unity Catalog 거버넌스를 사용하여 dbt 워크플로를 구축하세요.
  • 통합 플랫폼은 도구 난립을 제거합니다. 통합 거버넌스 및 오케스트레이션 기능이 내장된 단일 환경에서 수집 및 BI와 함께 dbt를 실행하세요.
  • 최소한의 튜닝 및 운영 오버헤드로 강력한 가격/성능을 확보하세요.

dbt는 데이터 변환 워크플로에 구조를 제공합니다. 팀은 이를 사용하여 BI 대시보드, AI/ML 모델 및 교차 기능 보고와 같은 다운스트림 소비에 활용되는 큐레이션된 데이터 세트로 원시 데이터를 변환합니다.

하지만 현실은 이렇습니다. dbt의 성능은 dbt가 실행되는 데이터 플랫폼만큼 강력합니다.

대부분의 데이터 스택은 스토리지, 컴퓨팅, 거버넌스, 오케스트레이션 및 모니터링을 여러 시스템에 걸쳐 통합해야 합니다. 그 결과는 무엇일까요? 데이터 중복, 일관성 없는 권한, 파편화된 관찰 가능성, 그리고 파트타임 직업이 되어버린 성능 튜닝입니다. 이것이 바로 점점 더 많은 팀이 dbt 워크플로를 Databricks로 통합하는 이유입니다.

dbt를 효과적으로 실행하려면 플랫폼에 네 가지가 필요합니다.

  1. 개방형 기반으로 dbt 워크플로가 독점 스택에 종속되지 않도록 합니다.
  2. 원활한 오케스트레이션으로 dbt 파이프라인을 한 곳에서 처음부터 끝까지 실행합니다.
  3. 기본 dbt 워크플로의 일부인 내장 거버넌스
  4. 강력한 가격 대비 성능으로 수동 튜닝 없이 dbt가 처음부터 빠르게 실행되도록 합니다.

Databricks는 이 네 가지 핵심 요소를 모두 단일 플랫폼에 기본 통합하여 제공합니다. Databricks에서 dbt를 실행하면 개방성, 거버넌스, 성능 및 운영 간소성을 위해 설계된 레이크하우스 아키텍처 위에 dbt 개발자 경험을 누릴 수 있습니다. 각 기능이 실제로 어떻게 작동하는지 살펴보겠습니다.

dbt on the Databricks Lakehouse is no longer fragmented

Databricks에서 dbt를 실행함으로써 방대한 레거시 노트북과 7개 이상의 소스 시스템을 단일의 거버넌스 데이터 플랫폼으로 통합할 수 있었습니다. Unity Catalog를 통해 카탈로그 수준 격리를 통해 341개의 테넌트, 여러 환경 및 외부 파트너 데이터 공유를 관리합니다. dbt 문서가 UC로 직접 흐르므로 분석가는 병목 현상 없이 셀프 서비스할 수 있습니다. 개방형 형식과 Delta Sharing으로 게시함으로써 파트너 및 다운스트림 팀은 다양한 도구와 환경에서 dbt 생성 데이터 세트를 쉽게 소비할 수 있습니다. 구축을 위한 단일 플랫폼이지만 소비를 위한 개방형 플랫폼입니다. —Sohan Chatterjee, Head of Data and Analytics, iSolved

벤더 종속 없이 개방형 기반에서 dbt 실행

벤더 종속은 조직의 데이터 전략에 있어 가장 중요한 전략적 위험 중 하나입니다. dbt는 개방형 어댑터 프레임워크로 구축되어 변환 로직이 단일 플랫폼에 종속되지 않음을 의미합니다. dbt는 설계상 개방적이며 Databricks는 이를 실행할 개방형 플랫폼을 제공합니다. 많은 최신 데이터 스택은 단기적인 편의성을 제공하지만 장기적인 마찰을 초래하는 독점 스토리지 계층을 중심으로 합니다. 시간이 지남에 따라 이는 다양한 소비자를 지원하기 위한 데이터 중복 및 내보내기 파이프라인, 상호 운용성을 제한하는 스토리지 형식, 플랫폼 요구 사항이 발전함에 따라 증가하는 전환 비용으로 이어집니다.

Databricks는 개방형 레이크하우스입니다. 데이터가 개방형 테이블 형식으로 저장되고 개방형 인터페이스를 통해 액세스할 수 있는 통합 플랫폼으로, 스토리지와 거버넌스가 단일 쿼리 엔진에 종속되지 않도록 합니다. Databricks에서 dbt 모델은 개방형 형식인 Delta LakeApache Iceberg 테이블이 되어 변환된 데이터가 내보내거나 병렬 복사본을 유지 관리할 필요 없이 전체 데이터 환경에서 액세스할 수 있도록 보장합니다. 이러한 개방성은 특히 dbt 워크플로에 중요합니다. 신중하게 모델링된 실버 및 골드 테이블은 다운스트림 사용자가 dbt가 실행되는 플랫폼뿐만 아니라 모든 쿼리 엔진을 통해 소비할 수 있는 재사용 가능한 데이터 제품이 됩니다.

이러한 개방성은 스토리지 이상으로 확장됩니다. Unity Catalog는 외부 엔진에서 거버넌스된 읽기 및 쓰기를 지원하는 개방형 카탈로그 및 액세스 표준을 중심으로 구축됩니다. Databricks SQL은 ANSI 표준을 따르므로 벤더별 재작성을 줄이기 위해 쿼리가 플랫폼 간에 이식 가능하게 유지됩니다. 이는 벤더 종속이 아닌 이식성을 위해 설계된 스택에서 dbt 워크플로가 실행됨을 의미합니다.

Lakeflow Jobs로 dbt 파이프라인을 처음부터 끝까지 오케스트레이션

오케스트레이션은 운영 복잡성이 누적되는 곳입니다. dbt를 Databricks와 함께 외부 오케스트레이터와 페어링하는 것은 두 개의 시스템을 운영하고, 두 곳에서 디버깅하며, 그들 사이의 불안정한 핸드오프를 의미합니다.

Lakeflow Jobs는 dbt를 통합 파이프라인 내의 첫 번째 클래스 작업 유형으로 취급하여 해당 복잡성을 제거합니다. 별도의 오케스트레이션 계층을 유지하는 대신 팀은 단일 워크플로에서 업스트림 수집 및 다운스트림 작업과 함께 dbt를 실행합니다. 예를 들어, Auto Loader를 사용하여 원시 데이터를 수집하고, dbt 모델로 데이터를 변환한 다음, 대시보드 새로 고침 또는 ML 재학습을 트리거할 수 있습니다. 이 모든 것이 통합 재시도 논리 및 종속성 관리 기능이 있는 단일 파이프라인에서 이루어집니다. Databricks의 dbt는 스트리밍 테이블을 통한 직접적인 수집도 가능하게 합니다. dbt Platform 사용자의 경우 dbt Platform 작업(베타)을 통해 Lakeflow는 dbt Platform에서 실행되는 dbt 워크플로를 트리거하고 관리할 수 있습니다.

dbt Orchestration

Lakeflow를 통해 오케스트레이션되는 dbt의 경우 실패, 재시도 및 컨텍스트가 한 곳에서 보입니다. 별도의 dbt 오케스트레이터와 Databricks 로그 간에 전환하는 대신 동일한 작업 실행 보기에서 실패, 영향을 받은 다운스트림 작업 및 영향을 받은 대시보드를 볼 수 있습니다.

가이드

최신 분석을 위한 컴팩트 가이드

거버넌스를 기본 dbt 워크플로의 일부로 만들기

dbt 워크플로가 확장됨에 따라 거버넌스가 병목 현상이 됩니다. 팀은 테이블 내용, 소유권 및 액세스 권한에 대한 명확한 답변이 필요합니다. 기존 스택에서는 이 컨텍스트가 별도의 카탈로그 도구, 권한 시스템 및 전체적으로 연결되지 않는 불완전한 계보 보기에 분산되어 있습니다.

Databricks는 Unity Catalog를 사용하여 이 문제를 해결합니다. Unity Catalog는 dbt 내뿐만 아니라 수집, BI, ML/AI 등 전반에 걸쳐 전체 레이크하우스에 대한 액세스 제어, 검색 및 계보를 통합합니다. Unity Catalog를 사용하면 dbt가 테이블을 다시 생성할 때마다 grant 문을 다시 실행할 필요가 없습니다. 권한은 스키마 수준에서 관리되며 테이블 재빌드에 걸쳐 지속됩니다. 행 수준 필터, 열 마스크속성 기반 액세스 제어와 같은 세분화된 제어는 dbt, BI 도구 및 노트북 전반에 걸쳐 일관되게 적용됩니다.

예를 들어, dbt의 persist_docs 기능을 사용하여 dbt 문서를 Unity Catalog에 유지할 때 dbt에서 작성된 열 설명 및 컨텍스트는 데이터가 쿼리되고 소비되는 곳에서 검색 가능해집니다. Unity Catalog는 원시 수집부터 dbt 변환을 거쳐 다운스트림 사용까지 데이터 흐름을 추적하는 열 수준 데이터 계보를 제공합니다. 소스 스키마가 변경되면 어떤 dbt 모델과 다운스트림 자산이 영향을 받는지 즉시 확인할 수 있습니다. 이러한 수준의 가시성은 데이터 파이프라인이 분리된 시스템에 걸쳐 있을 때 불가능합니다.

비용 거버넌스는 데이터 거버넌스만큼 중요합니다. 쿼리 태그를 사용하면 dbt 실행에 비즈니스 컨텍스트를 연결하고 시스템 테이블을 통해 팀, 프로젝트 또는 환경별 지출을 추적할 수 있습니다. 팀은 이제 추정치가 아닌 실제 데이터를 사용하여 "마케팅 분석 dbt 파이프라인 비용이 얼마나 드는가?"라는 질문에 답할 수 있습니다. 또한 (비공개 미리 보기 버전의)DBSQL 세분화된 비용 모니터링은 모든 dbt 워크로드에 대한 집계 비용 모니터링을 제공합니다.

처음부터 강력한 가격 대비 성능으로 dbt 실행

데이터 웨어하우스를 성능에 맞게 최적화하려면 일반적으로 지속적인 수동 작업이 필요합니다. 팀은 종종 개발자 속도를 성능 위생과 맞바꾸게 됩니다.

Databricks는 고성능 실행 엔진과 dbt와 네이티브로 작동하는 기능을 결합하여 이러한 복잡성을 추상화하여 수동 오버헤드 없이속도 향상을 제공합니다.

내장 성능

  • Photon 엔진은 벡터화된 실행을 통해 SQL 워크로드를 가속화하여 클라우드 데이터 웨어하우스에 비해 최대12배 더 나은 가격 대비 성능을 제공합니다. 서버리스 SQL 웨어하우스에는 기본적으로 Photon이 포함되어 있어 팀은 추가 비용 없이 가속화된 성능을 얻을 수 있습니다.
  • 예측 최적화는 AI를 사용하여 테이블을 모니터링하고 유지 관리를 자동화하여 최대20배 더 빠른 쿼리를 달성합니다. 이를 통해 dbt 엔지니어가 과거에 의존했던 수동 OPTIMIZE 후크의 필요성이 줄어듭니다.

dbt 구성을 통해 잠금 해제된 성능 기능

  • 데이터 볼륨이 증가함에 따라 동적으로 조정되는 유연한 접근 방식으로 엄격한 파티셔닝 전략을 대체하는Liquid Clustering과의 dbt 통합은 수동 튜닝 없이 최대 10배 더 빠른 속도를 제공합니다.
  • 오픈 소스 Spark 선언적 파이프라인으로 구동되는 dbt의구체화된 뷰는 증분 처리를 자동으로 처리합니다. Databricks는 업데이트해야 하는 항목을 결정하는 복잡성을 관리하고 전체 데이터 세트를 다시 계산하는 대신 새로 수정된 레코드만 처리합니다. 이는 비효율적인 예약된 배치 새로 고침에 비해 컴퓨팅 비용을 절감합니다.

이러한 기능을 통해 사용자는 튜닝에 소비하는 시간을 줄이고 데이터 세트가 증가함에 따라 성능을 유지하는 파이프라인 구축에 더 많은 시간을 할애할 수 있습니다. 2025년 한 해 동안 Databricks SQL은 추가 구성 없이 ETL 워크로드(쓰기가 포함된 쿼리)에서10%의 성능 향상을 달성했습니다.

지금 시작하기

Databricks는 개방형 스토리지, 통합 거버넌스, 강력한 가격 대비 성능 및 통합 운영을 dbt 워크플로를 위해 한 곳에서 제공합니다. 이미 Databricks에서 dbt를 실행 중인 2900개 이상의 고객과 함께하세요.빠른 시작 가이드를 따라 시작하세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

Never miss a Databricks post

Subscribe to our blog and get the latest posts delivered to your inbox