주요 컨텐츠로 이동

최고의 사례: Azure Data Factory에서 Databricks 워크플로우를 기본적으로 시작하기

Azure Data Factory 고객들은 이제 Databricks 워크플로우를 사용하여 Databricks 데이터 인텔리전스 플랫폼에서 최대의 효과를 얻을 수 있습니다

db - pbi image 3

Published: May 16, 2025

파트너1분 이내 소요

Summary

Azure Data Factory 고객들은 이제 새로운 기본 Databricks Job 활동을 사용하여 Databricks 워크플로우를 트리거할 수 있으며, 이를 통해 두 플랫폼 간의 더 깊은 통합을 가능하게 합니다. 이 모범 사례는 고객들이 Databricks 데이터 인텔리전스 플랫폼을 완전히 활용하도록 돕습니다, 이에는 Databricks SQL, DLT, 그리고 Power BI 발행과 같은 고급 기능이 포함됩니다. 노트북 활동에서 워크플로우로 이전함으로써, 고객들은 성능을 향상시키고, 비용을 줄이며, 데이터 및 AI 파이프라인 전반에 걸쳐 작업을 단순화할 수 있습니다.

Azure Databricks는 첫 번째 파티 Microsoft 서비스로, Azure 생태계와 기본적으로 통합되어 데이터와 AI를 고성능 분석 및 깊은 도구 지원과 통합합니다. 이 밀접한 통합은 이제 Azure Data Factory (ADF)에서 네이티브 Databricks Job 활동을 포함하여, ADF 내에서 직접 Databricks 워크플로우를 트리거하는 것이 어느 때보다 쉬워졌습니다.

이 새로운 ADF 활동은 즉각적인 모범 사례이며, 모든 ADF 및 Azure Databricks 사용자들은 이 패턴으로 전환을 고려해야 합니다.

새로운 Databricks Job 활동은 매우 간단하게 사용할 수 있습니다:

  1. ADF 파이프라인에서, Databricks Job 활동을 화면에 드래그하세요  
  2. Azure Databricks 탭에서는 Databricks 연결 서비스를 선택하여 Azure Databricks 작업 공간에 인증합니다
    • 다음 옵션 중 하나를 사용하여 인증할 수 있습니다: 
      • PAT 토큰 
      • ADF 시스템에 할당된 관리 아이덴티티, 또는 
      • 사용자가 할당한 관리 아이덴티티
    • 연결된 서비스는 클러스터를 구성하도록 요구하지만, 이 클러스터는 생성되거나 사용되지 않습니다 이 활동을 실행할 때. 다른 활동 유형과의 호환성을 위해 유지됩니다

작업 활동

3. 설정 탭에서, Job 드롭 다운 목록에서 실행할 Databricks 워크플로우를 선택합니다 (인증된 주체가 접근할 수 있는 Job만 보게 됩니다). 아래의 Job Parameters 섹션에서, Databricks 워크플로우로 보낼 Job Parameters (있는 경우)를 설정합니다. Databricks Job Parameters에 대해 더 알고 싶다면, 문서를 확인하세요.  

  • Job과 Job Parameters는 동적 컨텐츠로 설정될 수 있음을 유의하세요

작업 parameter

그게 전부입니다. ADF는 Databricks 워크플로우를 시작하고 Job Run ID와 URL을 반환합니다. ADF는 Job Run이 완료될 때까지 폴링합니다. 아래에서 이 새로운 패턴이 왜 즉시 클래식이 되었는지 알아보세요. 

gif pbi

ADF에서 Databricks 워크플로우를 시작하면 Azure Databricks 투자에서 더 많은 성능을 얻을 수 있습니다

Azure Data Factory와 Azure Databricks를 함께 사용하는 것은 2018년에 이 블로그 포스트와 함께 출시되었을 때부터 GA 패턴이었습니다.  그 이후로, 이 통합은 주로 이 간단한 패턴을 따르는 Azure 고객들에게 필수적이었습니다:

  1. ADF를 사용하여 100개 이상의 커넥터를 통해 데이터를 Azure 저장소에 저장하고, 개인 또는 온프레미스 연결을 위한 자체 호스팅된 통합 런타임을 사용합니다
  2. ADLS의 Delta Lake 테이블을 사용하여 Databricks에서 확장 가능한 데이터 변환을 구현하기 위해 기본 Databricks 노트북 활동을 통해 Databricks 노트북을 조정합니다

이 패턴은 시간이 지남에 따라 매우 가치있었지만, 고객들을 다음과 같은 운영 모드로 제한하였고, 이로 인해 Databricks의 전체 가치를 누리지 못하게 되었습니다:

  • 클러스터 시작 시간을 방지하기 위해 All Purpose 컴퓨트를 사용하여 작업을 실행 -> 노이즈 이웃 문제에 직면하고 자동화된 작업을 위한 All purpose 컴퓨트 비용 지불
  • 작업 컴퓨팅을 사용할 때 노트북 실행 별로 클러스터를 시작하는 것을 기다립니다 -> 클래식 클러스터는 노트북 실행 별로 회전되어, 노트북의 DAG에 대해서도 각각 클러스터 시작 시간이 발생합니다
  • 작업 클러스터 시작 시간을 줄이기 위해 풀 관리 -> 풀은 관리하기 어렵고 종종 활용되지 않는 VM에 대한 비용을 지불하게 될 수 있습니다
  • ADF와 Azure Databricks 간의 통합에 대한 과도하게 허용적인 권한 패턴 사용 -> 통합은 워크스페이스 관리자 또는 클러스터 생성 권한이 필요합니다
  • Databricks SQL, DLT, 또는 Serverless와 같은 Databricks의 새로운 기능을 사용할 수 없습니다

이 패턴은 확장 가능하며 Azure Data Factory와 Azure Databricks에 기본적으로 탑재되어 있지만, 2018년 출시 이후로 Databricks가 모든 클라우드에서 시장 선도적인 데이터 인텔리전스 플랫폼으로 크게 성장함에도 불구하고 제공하는 도구와 기능은 동일하게 유지되었습니다.

Azure Databricks는 전통적인 분석을 넘어서 Azure에서 통합 데이터 인텔리전스 플랫폼을 제공합니다. 이것은 업계 선도적인 Lakehouse 아키텍처와 내장된 AI 및 고급 거버넌스를 결합하여, 고객들이 더 빠르고, 더 낮은 비용으로, 그리고 엔터프라이즈 등급의 보안으로 인사이트를 얻을 수 있도록 돕습니다. 주요 기능은 다음과 같습니다:

  • OSS와 오픈 표준
  • Unity 카탈로그를 통한 업계 최고의 Lakehouse 카탈로그로, Azure Databricks 내외부의 코드, 언어, 컴퓨트를 통해 데이터와 AI를 보호합니다
  • ETL을 위한 최고 수준의 성능과 가격 성능 
  • 전통적인 ML 및 GenAI에 대한 내장 기능, LLM의 미세 조정, 기본 모델 사용 (Claude Sonnet 포함), 에이전트 애플리케이션 구축, 모델 서비스 등이 포함됩니다 
  • Databricks SQL을 사용한 Lakehouse에서 업계 최고의 DW
  • Unity 카탈로그와 워크플로우에서 찾을 수 있는 Power BI로 게시 기능을 통한 자동 게시 및 통합

Azure Data Factory에서 기본 Databricks Job 활동이 출시되면서 고객들은 이제 Databricks 워크플로우를 실행하고 Jobs Runs에 매개변수를 전달할 수 있습니다. 이 새로운 패턴은 위에서 강조한 제약 사항을 해결할 뿐만 아니라, 이전에는 ADF에서 사용할 수 없었던 Databricks의 다음 기능을 사용할 수 있게 해줍니다:아니었습니다.

  • Databricks 내에서 DAG 작업 프로그래밍
  • Databricks SQL 통합 사용
  • DLT 파이프라인 실행
  • SQL 웨어하우스와의 dbt 통합 사용
  • 클러스터 시작 시간을 줄이기 위해 클래식 작업 클러스터 재사용 사용
  • 서버리스 작업 컴퓨트 사용
  • Run As, Task Values, If/Else와 For Each와 같은 조건 실행, AI/BI Task, Repair Runs, 알림/경고, Git 통합, DABs 지원, 내장된 계보, 대기열 및 동시 실행 등의 표준 Databricks 워크플로우 기능...

가장 중요한 것은, 고객들이 이제 ADF Databricks 작업 활동을 사용하여 Databricks 워크플로우의 Power BI 작업을 활용할 수 있습니다, 이는 Unity 카탈로그의 스키마에서 Power BI 서비스에 Semantic Models을 자동으로 게시하고 Import 또는 Dual(설정 지침 문서)를 사용하는 테이블이 있으면 Import를 트리거합니다. Databricks 워크플로우의 Power BI 작업에 대한 데모는 여기에서 찾을 수 있습니다. 이를 보완하기 위해, Databricks에서의 Power BI 최적화 가이드 를 확인해 보세요 - 이는 팀이 보고서를 성능, 비용, 사용자 경험에 대해 처음부터 구성하고 최적화하는 데 도움이 되는 간결하고 실질적인 가이드입니다.

pbi 작업

pbi 작업에 게시
ADF의 Databricks 작업 활동은 새로운 최적의 실천 방법입니다

Azure Data Factory에서 Databricks Job 활동을 사용하여 Databricks 워크플로우를 시작하는 것은 두 도구를 사용할 때 새로운 최선의 통합 방법입니다. 고객들은 이 패턴을 즉시 사용하여 Databricks 데이터 인텔리전스 플랫폼의 모든 기능을 활용할 수 있습니다. ADF를 사용하는 고객들은 ADF Databricks Job 활동을 사용하면 즉시 비즈니스 가치와 비용 절감을 얻을 수 있습니다. 노트북 활동을 사용하는 ETL 프레임워크를 가진 고객들은 그들의 프레임워크를 Databricks 워크플로우와 새로운 ADF Databricks Job 활동으로 이전하고 이 이니셔티브를 그들의 로드맵에서 우선 순위로 두어야 합니다. 

Azure Databricks의 무료 14일 체험판 을 시작하세요.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?