주요 컨텐츠로 이동

Azure Databricks의 Lakeflow로 데이터 엔지니어링 플랫폼을 현대화하세요

Databricks Lakeflow on Azure는 현대적이고 엔터프라이즈급이며 신뢰할 수 있는 데이터 엔지니어링 솔루션을 제공합니다

Lakeflow on Azure Databricks

발행일: February 10, 2026

제품Less than a minute

Summary

  • Lakeflow는 데이터 수집, 변환, 오케스트레이션을 포함하여 Azure Databricks에서 작업하는 데이터 엔지니어를 위한 통합 엔드투엔드 솔루션을 제공합니다.
  • 통합 보안 및 거버넌스부터 기본 내장 관찰 가능성, serverless compute, 스트리밍 처리, 코드 우선 UI에 이르기까지 Azure Databricks 실무자는 Azure 데이터 플랫폼과 결합하여 광범위한 Lakeflow 기능을 활용할 수 있습니다.
  • Azure Databricks에서 Lakeflow를 사용하는 데이터 엔지니어는 프로덕션용 데이터 파이프라인을 최대 25배 더 빠르게 구축하고 배포할 수 있으며, 더 높은 성능을 확인하고 ETL 비용을 최대 83%까지 절감할 수 있습니다.

데이터 엔지니어들은 프로덕션용 파이프라인을 구축하는 데 필요한 분산된 도구와 솔루션의 수에 점점 더 큰 불만을 느끼고 있습니다. 중앙 집중식 데이터 인텔리전스 플랫폼이나 통합 거버넌스가 없으면 팀은 다음과 같은 여러 가지 문제를 겪습니다.

  • 비효율적인 성능과 긴 시작 시간
  • 분리된 UI와 지속적인 컨텍스트 전환
  • 세분화된 보안 및 제어 부족
  • 복잡한 CI/CD
  • 제한된 데이터 리니지 가시성
  • 기타

그 결과 팀의 속도 저하 및 데이터에 대한 신뢰도 감소. 

Azure  Databricks 의 Lakeflow 를 사용하면 단일 Azure 네이티브 플랫폼에서 모든 데이터 엔지니어링 작업을 중앙 집중화하여 이러한 문제를 해결할 수 있습니다.  

Azure Databricks를 위한 통합 데이터 엔지니어링 솔루션

Lakeflow는 Azure의 Databricks 데이터 인텔리전스 플랫폼 에 구축된 엔드투엔드 최신 데이터 엔지니어링 솔루션으로, 모든 필수 데이터 엔지니어링 기능을 통합합니다. Lakeflow를 통해 다음을 얻을 수 있습니다:

  • 기본 내장 데이터 수집, 변환, 오케스트레이션 을 한곳에서
  • 관리형 수집 커넥터
  • 선언적 ETL 로 더 빠르고 간단하게 개발
  • 증분 및 스트리밍 처리 로 더 빠른 SLA와 최신 인사이트 확보
  • 네이티브 거버넌스 및 리니지 - Databricks의 통합 거버넌스 솔루션인 Unity Catalog를 통해
  • 기본 내장 관찰 가능성 데이터 품질 및 파이프라인 안정성을 위한

그 외에도 훨씬 더 많습니다! 유연하고 모듈화된 인터페이스 하나로, 코딩을 선호하는 사용자든 포인트 앤 클릭 인터페이스를 선호하는 사용자든 모두의 요구 사항을 충족할 수 있습니다.

한곳에서 모든 워크로드 수집, 변환 및 오케스트레이션

Lakeflow는 데이터 엔지니어링 환경을 통합하여 더 빠르고 안정적으로 작업을 진행할 수 있도록 합니다.

Lakeflow Connect를 사용한 간단하고 효율적인 데이터 수집

포인트 앤 클릭 인터페이스나 간단한 API를 사용하여 Lakeflow Connect 로 플랫폼에 데이터를 쉽게 수집하여 시작할 수 있습니다.

지원되는 다양한 소스에서 정형 및 비정형 데이터 를 모두 Azure Databricks로 수집할 수 있습니다. 여기에는 Salesforce, Workday, ServiceNow와 같은 인기 SaaS 애플리케이션, SQL Server와 같은 데이터베이스, 클라우드 스토리지, 메시지 버스 등이 포함됩니다. 또한 Lakeflow Connect는 Private Link와 같은 Azure 네트워킹 패턴 및 데이터베이스용 VNet 내 수집 게이트웨이 배포를 지원합니다. 

실시간 수집의 경우 Azure Databricks의 Lakeflow에 있는 서버리스 직접 쓰기 API인 Zerobus Ingest를 확인해 보세요. 이 API는 이벤트 데이터를 데이터 플랫폼으로 직접 푸시하여 메시지 버스가 필요 없으므로 더 간단하고 짧은 지연 시간으로 데이터를 수집할 수 있습니다. 

Spark Declarative Pipelines로 안정적인 데이터 파이프라인을 쉽게 구축

 Lakeflow Spark Declarative Pipelines(SDP)를 활용하여 비즈니스에 필요한 방식으로 데이터를 쉽게 정리, 구성 및 변환하세요. 

SDP 를 사용하면 단 몇 줄의 Python(또는 SQL) 코드만으로 신뢰할 수 있는 배치 및 스트리밍 ETL을 구축할 수 있습니다. 필요한 변환을 선언하기만 하면 SDP가 종속성 매핑, 배포 인프라, 데이터 품질을 포함한 나머지 모든 것을 처리합니다. 

SDP는 개발 시간과 운영 오버헤드를 최소화하는 동시에 데이터 엔지니어링 모범 사례를 기본으로 코드화하므로, 단 몇 줄의 코드로 증분화나 SCD 유형 1 및 2와 같은 복잡한 패턴을 쉽게 구현할 수 있습니다. Spark Structured Streaming의 모든 강력한 기능을 놀랍도록 간단하게 만들었습니다.

또한 Lakeflow는 Azure Databricks에 통합되어 있으므로, Databricks Asset Bundles (DABs), Lakehouse Monitoring 등의 도구를 사용하여 프로덕션에 즉시 사용 가능한 거버넌스 파이프라인을 몇 분 만에 배포할 수 있습니다. 

Lakeflow Jobs를 사용한 최신 데이터 우선 오케스트레이션

Azure Databricks에서 데이터 및 AI 워크로드를 오케스트레이션하려면 Lakeflow Jobs 를 사용하세요. 현대적이고 단순화된 데이터 중심 접근 방식을 갖춘 Lakeflow Jobs는 Databricks에서 가장 신뢰받는 오케스트레이터이며, 99.9%의 신뢰성으로 대규모 데이터 및 AI 처리와 실시간 분석을 지원합니다.  

Lakeflow Jobs에서는 SQL 워크로드, Python 코드, 대시보드, 파이프라인 및 외부 시스템을 단일 통합 DAG로 조정하여 모든 종속성을 시각화할 수 있습니다. 워크플로 실행은 테이블 업데이트나 파일 도착과 같은 데이터 인식 Trigger 및 제어 흐름 작업으로 간단하고 유연합니다. 코드 없는 백필 실행 과 기본 내장 관찰 가능성 덕분에 Lakeflow Jobs를 사용하면 다운스트림 데이터를 최신 상태이고 액세스 가능하며 정확하게 유지하기가 쉽습니다

Azure Databricks 사용자는 Lakeflow Jobs의 Power BI 작업 을 사용하여 Power BI 시맨틱 모델을 자동으로 업데이트하고 새로고침할 수도 있으며(자세한 내용은 여기 참조), 이를 통해 Lakeflow Jobs는 Azure 워크로드를 위한 원활한 오케스트레이터가 됩니다. 

기본 내장 보안 및 통합 거버넌스 

 Unity Catalog 를 통해 Lakeflow는 수집, 변환, 오케스트레이션 전반에 걸쳐 중앙 집중식 ID, 보안, 거버넌스 제어를 상속합니다. 연결은 자격 증명을 안전하게 저장하고, 액세스 정책은 모든 워크로드에서 일관되게 적용되며, 세분화된 권한을 통해 올바른 사용자 및 시스템만 데이터를 읽거나 쓸 수 있도록 보장합니다.

Unity Catalog는 또한 수집부터 Lakeflow Jobs를 거쳐 다운스트림 분석 및 Power BI에 이르기까지 엔드투엔드 계보 를 제공하여 종속성을 쉽게 추적하고 규정 준수를 보장합니다. 시스템 테이블 은 작업, 사용자, 데이터 사용량 전반에 걸쳐 운영 및 보안 가시성을 제공하여 팀이 외부 로그를 통합하지 않고도 품질을 모니터링하고 모범 사례를 적용하도록 돕습니다.

Lakeflow와 Unity Catalog는 함께 Azure Databricks 사용자에게 기본적으로 거버넌스가 적용된 파이프라인을 제공하여, 팀이 신뢰할 수 있고 안전하며 감사 가능한 프로덕션급 데이터 딜리버리를 보장합니다.

Unity Catalog가 OneLake를 지원하는 방법 에 대한 블로그를 읽어보세요. 

5X 리더

Gartner®: Databricks 클라우드 데이터베이스 리더

모두를 위한 유연한 사용자 경험 및 저작 환경

이 모든 기능 외에도 Lakeflow는 놀라울 정도로 유연하고 사용하기 쉬워, 조직의 모든 사람, 특히 개발자에게 아주 적합합니다.

코드 우선 사용자는 강력한 실행 엔진과 고급 개발자 중심 도구 덕분에 Lakeflow를 선호합니다. 개발자는 Lakeflow 파이프라인 편집기를 사용하여 IDE를 활용하고 강력한 개발 도구로 파이프라인을 구축할 수 있습니다. 또한 Lakeflow Jobs는 반복 가능한 CI/CD 패턴을 위해 DB Python SDK 및 DAB와 함께 코드 우선 제작 및 개발 도구를 제공합니다.

Lakeflow Pipelines Editor를 통해 데이터 파이프라인을 한 곳에서 모두 작성하고 테스트할 수 있습니다. 

Lakeflow는 신규 및 비즈니스 사용자를 위해 간단한 포인트 앤 클릭 인터페이스와 Lakeflow Connect를 통한 데이터 수집 API를 갖추고 있어 매우 직관적이고 사용하기 쉽습니다.  

네이티브 관찰 가능성으로 추측은 줄이고 문제 해결은 더 정확하게

모니터링 솔루션은 데이터 플랫폼과 분리되어 있는 경우가 많아 관측성을 운영하기 어렵게 만들고 파이프라인이 중단될 가능성을 높입니다.

Azure Databricks의 Lakeflow Jobs는 데이터 엔지니어가 파이프라인의 문제를 신속하게 파악하고 해결하는 데 필요한 심층적인 엔드투엔드 가시성을 제공합니다. Lakeflow의 관찰 가능성 기능을 사용하면 통합된 실행 목록을 통해 단일 UI에서 성능 문제, 종속성 병목 현상, 실패한 태스크를 즉시 찾아낼 수 있습니다. 

Lakeflow 시스템 테이블과 Unity Catalog에 기본 내장된 데이터 리니지 는 데이터세트, 워크스페이스, 쿼리 및 다운스트림 영향 전반에 대한 전체 컨텍스트를 제공하여 근본 원인 분석을 더 빠르게 수행할 수 있도록 지원합니다. 새로 정식 출시(GA)된 작업 내 시스템 테이블을 사용하면 모든 작업에 걸쳐 사용자 지정 대시보드를 구축하고 작업 상태를 중앙에서 모니터링할 수 있습니다. 

Lakeflow의 시스템 테이블을 사용하여 가장 자주 실패하는 작업, 전반적인 오류 추세 및 일반적인 오류 메시지를 확인하세요.

그리고 문제가 발생하면 Databricks Assistant 가 도와드립니다.

Databricks Assistant는 Azure Databricks에 내장된 컨텍스트 인식 AI 코파일럿으로, 자연어를 사용하여 노트북, SQL 쿼리, 작업, 대시보드를 신속하게 구축하고 문제를 해결함으로써 오류로부터 더 빠르게 복구하도록 도와줍니다.

하지만 Assistant는 디버깅 이상의 작업을 수행합니다. 또한 PySpark/SQL 코드를 생성하고 Unity Catalog에 기반을 둔 기능으로 설명할 수 있으므로 사용자의 컨텍스트를 이해합니다. 또한 제안 실행, 패턴 파악, 데이터 탐색 및 EDA 수행에도 사용할 수 있어 모든 데이터 엔지니어링 요구에 훌륭한 동반자가 됩니다.

비용 및 사용량 제어

파이프라인이 커질수록 리소스 사용량을 적정 규모로 조정하고 비용을 통제하기가 더 어려워집니다.

Lakeflow의 serverless 데이터 처리를 사용하면 Databricks가 compute를 자동으로 지속적으로 최적화하여 유휴 리소스 낭비와 사용량을 최소화합니다. 데이터 엔지니어는 미션 크리티컬 워크로드의 경우 성능 모드로, 비용이 더 중요한 경우에는 표준 모드로 serverless를 실행하도록 선택하여 유연성을 확보할 수 있습니다.

Lakeflow Jobs는 클러스터 재사용도 허용하므로 워크플로의 여러 태스크를 동일한 작업 클러스터 에서실행하여 콜드 스타트 지연을 없앨 수 있으며,  또한 세분화된 제어 를 지원하여 모든 태스크가 재사용 가능한 작업 클러스터 또는 자체 전용 클러스터를 대상으로 지정할 수 있습니다. serverless compute와 함께 클러스터 재사용은 스핀업을 최소화하므로 데이터 엔지니어는 운영 오버헤드를 줄이고 데이터 비용을 더 효과적으로 제어할 수 있습니다.

Microsoft Azure + Databricks Lakeflow - 입증된 성공적인 조합

Databricks Lakeflow를 통해 데이터 팀은 거버넌스, 확장성 또는 성능을 저하시키지 않으면서 더 빠르고 안정적으로 업무를 수행할 수 있습니다. 데이터 엔지니어링이 Azure Databricks에 원활하게 통합되어 있으므로, 팀은 대규모의 모든 데이터 및 AI 요구 사항을 충족하는 단일 엔드투엔드 플랫폼의 이점을 누릴 수 있습니다.

Azure의 고객들은 Lakeflow를 스택에 통합하여 다음과 같은 긍정적인 결과를 이미 확인했습니다.

  • 더 빠른 파이프라인 개발: 팀은 프로덕션에 즉시 사용 가능한 데이터 파이프라인을 최대 25배 더 빠르게 구축 및 배포하고 생성 시간을 70% 단축할 수 있습니다.
  • 향상된 성능과 안정성: 일부 고객은 성능이 90배 향상되고 처리 시간이 몇 시간에서 몇 분으로 단축되는 것을 경험하고 있습니다.
  • 향상된 효율성 및 비용 절감: 자동화와 최적화된 처리를 통해 운영 오버헤드를 대폭 줄일 수 있습니다. 고객들은 연간 최대 수천만 달러를 절감하고 ETL 비용을 최대 83%까지 줄였다고 보고했습니다.

Databricks 블로그에서 Azure 및 Lakeflow 고객 성공 사례를 읽어보세요

Lakeflow가 궁금하신가요? Databricks를 무료로 체험하고 데이터 엔지니어링 플랫폼에 대해 모두 알아보세요.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?

Tutorial: 3 Free Databricks Analytics Projects You Can Do In An Afternoon

제품

February 5, 2026/2분 소요

튜토리얼: 오후 시간에 할 수 있는 3가지 무료 Databricks 분석 프로젝트

How to Build Production-Ready Genie Spaces, and Build Trust Along the Way

제품

February 6, 2026/2분 소요

프로덕션용 Genie Spaces 구축 및 신뢰 확보 방법