주요 컨텐츠로 이동

Databricks Lakeflow의 일반 사용 가능성 발표

데이터 엔지니어링의 통합 접근 방식은 수집, 변환, 조정을 통해 이루어집니다

Lakeflow GA blog image

Published: June 12, 2025

공지사항1분 이내 소요

Summary

  • Databricks Lakeflow는 데이터 지능 플랫폼에서 수집, 변환, 조정을 위한 통합 솔루션을 제공함으로써 분산된 스택에 의해 제기된 데이터 엔지니어링 도전을 해결합니다.
  • Lakeflow Connect는 데이터베이스, 파일 소스, 엔터프라이즈 애플리케이션, 데이터 웨어하우스에 더 많은 커넥터를 추가합니다. Zerobus는 낮은 지연 시간으로 고처리량 직접 쓰기를 도입합니다.
  • Lakeflow 선언형 파이프라인은 새로운 오픈 Spark 선언형 파이프라인 표준에 기반을 두고 있으며, 데이터 엔지니어를 위한 새로운 IDE를 특징으로 하여 ETL 파이프라인 개발을 개선합니다.

우리는 기쁘게도 Lakeflow, Databricks의 통합 데이터 엔지니어링 솔루션, 이제 일반적으로 사용 가능하다는 것을 발표합니다. 인기 있는 데이터 소스를 위한 확장된 수집 커넥터, 데이터 파이프라인을 쉽게 구축하고 디버그할 수 있게 해주는 새로운 "데이터 엔지니어링용 IDE", 그리고 ETL을 운영하고 모니터링하는 능력을 확장한 것을 포함합니다. 
 
지난해 Data + AI Summit에서 우리는 Lakeflow를 소개했습니다 - 데이터 엔지니어링의 미래에 대한 우리의 비전 - 세 가지 핵심 구성 요소를 포함한 종단간 솔루션입니다:

  • Lakeflow Connect: 기업용 앱, 데이터베이스, 파일 시스템, 실시간 스트림에서 신뢰할 수 있고 관리되는 데이터 수집을 제공하며, 사용자 정의 커넥터나 외부 서비스의 오버헤드 없이 가능합니다.
  • Lakeflow 선언형 파이프라인: Spark 선언형 파이프라인의 오픈 표준에 기반한 확장 가능한 ETL 파이프라인으로, 거버넌스와 관찰 가능성과 통합되어 있으며, 현대적인 "데이터 엔지니어링용 IDE"를 통해 개발 경험을 간소화합니다.
  • Lakeflow Jobs: 데이터 인텔리전스 플랫폼을 위한 네이티브 오케스트레이션, 고급 제어 흐름, 실시간 데이터 트리거, 그리고 종합적인 모니터링을 지원합니다.

데이터 엔지니어링을 통합함으로써, Lakeflow는 다양한 도구를 결합하는 복잡성과 비용을 제거하고, 데이터 팀이 비즈니스에 가치를 창출하는 데 집중할 수 있게 합니다. Lakeflow Designer, 새로운 AI 기반 시각적 파이프라인 빌더를 통해 사용자는 코드를 작성하지 않고도 생산 수준의 데이터 파이프라인을 구축할 수 있습니다.

바쁜 한 해였고, Lakeflow가 일반 사용 가능 상태에 도달함에 따라 새로운 소식을 공유하는 것이 매우 기쁩니다.

데이터 엔지니어링 팀은 조직의 데이터 요구 사항을 따라잡는 데 어려움을 겪습니다

모든 산업에서, 기업의 경쟁력은 데이터를 통해 분석과 AI를 통해 가치를 추출하는 능력입니다. 데이터는 조직의 모든 면에서 활용되고 있습니다 - 고객 360° 뷰와 새로운 고객 경험을 만들기 위해, 새로운 수익 흐름을 가능하게 하기 위해, 운영을 최적화하고 직원들을 권한 부여하기 위해. 조직이 자체 데이터를 활용하려고 하면, 도구의 조각들로 이루어진 패치워크가 생깁니다. 데이터 엔지니어들은 데이터 엔지니어링 작업의 복잡성을 다루는 동안 통합하기 어렵고 유지 관리 비용이 많이 드는 파편화된 도구 스택을 탐색하는 것이 어렵습니다.

주요한 도전 과제는 데이터 거버넌스입니다 - 파편화된 도구는 표준을 강제하는 것을 어렵게 만들어, 발견, 계보 및 관찰 가능성에 대한 격차를 초래합니다. 최근 The Economist의 연구 에서 "데이터 엔지니어의 절반은 거버넌스가 다른 어떤 것보다 더 많은 시간을 차지한다"고 발견했습니다. 같은 설문조사에서 데이터 엔지니어들에게 가장 큰 이익을 가져다 줄 것이 무엇인지 물었고, 그들은 '데이터 소스 연결 간소화로 데이터 수집', '여러 도구 대신 통합된 단일 솔루션 사용' 및 '데이터 파이프라인에 대한 더 나은 가시성을 통해 문제를 찾고 해결'이 최고의 개입 방법 중 하나라고 지적했습니다.

데이터 인텔리전스 플랫폼에 통합된 통합 데이터 엔지니어링 솔루션

Lakeflow는 Data Intelligence Platform에서 end-to-end 데이터 엔지니어링 솔루션을 제공함으로써 데이터 팀이 이러한 도전을 해결하는 데 도움을 줍니다. Databricks 고객은 Lakeflow를 데이터 엔지니어링의 모든 측면 - 수집, 변환, 오케스트레이션에 사용할 수 있습니다. 이 모든 기능들이 하나의 솔루션의 일부로 제공되기 때문에, 복잡한 도구 통합에 시간을 소비하거나 외부 도구의 라이선스에 추가 비용을 지불할 필요가 없습니다.

또한, Lakeflow는 Data Intelligence Platform에 내장되어 있으며, 이를 통해 모든 데이터와 AI 사용 사례를 배포, 관리, 관찰하는 일관된 방법이 제공됩니다. 예를 들어, 거버넌스를 위해 Lakeflow는 Unity Catalog와 통합되며, 이는 Data Intelligence Platform의 통합 거버넌스 솔루션입니다. Unity 카탈로그를 통해 데이터 엔지니어들은 데이터 파이프라인의 모든 부분에 대한 완전한 가시성과 제어를 얻어, 데이터가 어디에서 사용되고 있는지 쉽게 이해하고 문제가 발생하면 원인을 찾을 수 있습니다.

코드 버전 관리, CI/CD 파이프라인 배포, 데이터 보안 또는 실시간 운영 메트릭스 관찰이든, Lakeflow는 Data Intelligence Platform을 활용하여 종단간 데이터 엔지니어링 요구 사항을 관리하는 단일하고 일관된 장소를 제공합니다.

Lakeflow Connect: 더 많은 커넥터, 그리고 Unity Catalog로의 빠른 직접 쓰기

지난해 우리는 Lakeflow Connect 의 강력한 채택을 보았으며, 2,000명 이상의 고객이 우리의 수집 커넥터를 사용하여 데이터에서 가치를 창출하고 있습니다. 한 예는 Porsche Holding Salzburg 이 이미 Lakeflow Connect를 사용하여 CRM 데이터를 분석과 통합하여 고객 경험을 향상시키는 이점을 보고 있습니다.

“Lakeflow Connect의 Salesforce 커넥터를 사용하면 Porsche의 비즈니스 측면에서 사용 편의성과 가격에 대한 중요한 격차를 해소하는 데 도움이 됩니다. 고객 측면에서, 우리는 Porsche와 고객 사이의 유대를 강화하는 완전히 새로운 고객 경험을 만들 수 있습니다. 이는 통합되고 분산되지 않은 고객 여정을 통해 이루어집니다."   
— Lucas Salzburger, 프로젝트 매니저, Porsche Holding Salzburg

오늘, 우리는 간단하고 신뢰할 수 있는 수집을 위한 더 많은 내장 커넥터를 통해 지원되는 데이터 소스의 범위를 확장하고 있습니다. Lakeflow의 커넥터는 각각의 데이터 소스에 맞게 맞춤화된 변경 데이터 캡처(CDC) 방법을 포함하여 효율적인 데이터 추출에 최적화되어 있습니다.

이제 이러한 관리형 커넥터는 엔터프라이즈 애플리케이션, 파일 소스, 데이터베이스, 데이터 웨어하우스를 아우르며, 다양한 릴리즈 상태에서 전개됩니다: 

  • 엔터프라이즈 애플리케이션: Salesforce, Workday, ServiceNow, Google Analytics, Microsoft Dynamics 365, Oracle NetSuite 
  • 파일 출처: SFTP, SharePoint
  • 데이터베이스: Microsoft SQL Server, Oracle Database, MySQL, PostgreSQL
  • 데이터 웨어하우스: Snowflake, Amazon Redshift, Google BigQuery

또한, 고객들로부터 보편적으로 볼 수 있는 사용 사례는 실시간 이벤트 데이터를 수집하는 것이며, 이는 일반적으로 데이터 플랫폼 외부에서 호스팅되는 메시지 버스 인프라를 통해 이루어집니다. 이 사용 사례를 Databricks에서 간단하게 만들기 위해, 우리는 개발자가 매우 높은 처리량(100 MB/s)과 거의 실시간 지연 시간(<5 초)으로 레이크하우스에 직접 이벤트 데이터를 작성할 수 있게 하는 Lakeflow Connect API인 Zerobus를 발표하게 되어 기쁩니다. 이 간소화된 수집 인프라는 규모에 따른 성능을 제공하며, Databricks Platform과 통합되어 있어 바로 더 넓은 분석 및 AI 도구를 활용할 수 있습니다.

“Joby는 Zerobus와 함께 우리의 제조 대리점을 사용하여 텔레메트리 데이터를 분당 기가바이트 단위로 우리의 레이크하우스에 직접 푸시하여 인사이트를 얻는 시간을 단축시킬 수 있습니다 - 모두 Databricks Lakeflow와 Data Intelligence Platform을 통해.”  
— 도미닉 뮐러, 공장 시스템 리드, Joby Aviation Inc.

Lakeflow 선언형 파이프라인: 오픈 표준에 기반한 가속화된 ETL 개발

수페타바이트의 데이터를 가진 수천 명의 고객과 함께 DLT를 운영하고 발전시킨 수년 후, 우리는 배운 모든 것을 새로운 오픈 표준으로 만들었습니다: Spark 선언형 파이프라인. 이것은 파이프라인 개발의 다음 단계입니다 - 선언형, 확장 가능하고 오픈입니다.

그리고 오늘, 우리는 Lakeflow 선언형 파이프라인의 일반 가용성을 발표하게 되어 기쁩니다. 이는 Spark 선언형 파이프라인의 힘을 Databricks Data Intelligence Platform에 가져옵니다. 이것은 오픈 표준과 100% 소스 호환성이 있으므로, 한 번 파이프라인을 개발하면 어디에서나 실행할 수 있습니다. 또한 DLT 파이프라인과 100% 후진 호환성이 있으므로, 기존 사용자는 아무 것도 다시 작성하지 않고도 새로운 기능을 채택할 수 있습니다. Lakeflow 선언형 파이프라인은 Databricks에서 완전히 관리되는 경험입니다: 서버 없는 컴퓨팅, 통합 거버넌스를 위한 Unity 카탈로그와의 깊은 통합, 그리고 목적에 맞게 만들어진 데이터 엔지니어링용 IDE.

새로운 데이터 엔지니어링용 IDE는 파이프라인 개발 경험을 간소화하기 위해 만들어진 현대적인 통합 환경입니다. 이것은 포함합니다

  • 코드와 DAG가 나란히 있으며, 종속성 시각화와 즉시 데이터 미리보기가 가능합니다
  • 문제를 인라인으로 표시하는 컨텍스트 인식 디버깅
  • 빠른 개발을 위한 내장 Git 통합
  • AI 지원 작성 및 구성

Lakeflow 선언형 파이프라인 UI

“새로운 에디터는 모든 것을 한 곳에 모아줍니다 - 코드, 파이프라인 그래프, 결과, 구성, 그리고 문제 해결. 더 이상 브라우저 탭을 번갈아 보거나 컨텍스트를 잃을 필요가 없습니다. 개발이 더욱 집중적이고 효율적으로 느껴집니다. 나는 각 코드 변경의 영향을 직접 볼 수 있습니다. 한 번 클릭하면 정확한 오류 라인으로 이동하여 디버깅을 더 빠르게 할 수 있습니다. 모든 것이 연결됩니다 - 코드에서 데이터로; 코드에서 테이블로; 테이블에서 코드로. 파이프라인 간 전환은 쉽고, 자동 구성 유틸리티 폴더와 같은 기능은 복잡성을 제거합니다. 이것은 파이프라인 개발이 작동해야 하는 방식처럼 느껴집니다." 
— 크리스 샤랏, 데이터 엔지니어, 롤스-로이스

Lakeflow 선언형 파이프라인은 이제 Databricks에서 확장 가능하고, 관리되며, 지속적으로 최적화된 파이프라인을 구축하는 통합 방법입니다 - 코드에서 작업하든 Lakeflow Designer, 즉, 신뢰할 수 있는 데이터 파이프라인을 구축할 수 있는 새로운 노코드 경험을 통해 시각적으로 작업하든 상관없습니다.

Lakeflow Jobs: 통합된 관찰 가능성을 가진 모든 워크로드에 대한 신뢰할 수 있는 오케스트레이션

Databricks 워크플로우는 오랫동안 신뢰받아 왔으며, 매주 1억 1천만 개의 작업을 실행하는 파이프라인을 위해 우리의 플랫폼을 의존하는 수천명의 고객들이 있습니다. Lakeflow의 GA와 함께, 우리는 워크플로우를 Lakeflow 작업으로 발전시키고 있습니다. 이는 이 성숙한, 기본적인 오케스트레이터를 데이터 엔지니어링 스택의 나머지 부분과 통합합니다.

Lakeflow Jobs UI

Lakeflow Jobs는 다음과 같은 확장 세트의 기능을 포함하여 Data Intelligent Platform에서 어떤 프로세스든지 조정할 수 있게 해줍니다:

  • 선언형 파이프라인, 노트북, SQL 쿼리, dbt 변환, 심지어 AI/BI 대시보드 출판 또는 Power BI로의 출판을 포함하는 흐름을 조정하기 위한 다양한 작업 유형에 대한 지원.
  • 조건 실행, 루프 및 작업 또는 작업 수준에서의 매개 변수 설정과 같은 제어 흐름 기능들.
  • 간단한 스케줄링 이상의 작업 실행 트리거로 파일 도착 트리거와 새로운 데이터가 사용 가능할 때만 작업이 실행되도록 하는 새로운 테이블 업데이트 트리거가 있습니다.
  • 더 나은 성능과 낮은 비용을 위한 자동 최적화를 제공하는 서버리스 작업.
“서버리스 Lakeflow Jobs를 통해 우리는 지연 시간을 3-5배 개선할 수 있었습니다. 이전에 10분이 걸리던 작업이 이제는 단지 2-3분만에 완료되어 처리 시간을 크게 줄였습니다. 이를 통해 우리는 선수와 코치에게 더 빠른 피드백 루프를 제공할 수 있게 되었고, 그들이 실시간에 가까운 시간 내에 실행 가능한 결정을 내릴 수 있도록 필요한 인사이트를 제공할 수 있게 되었습니다."  
— 브라이스 두가, 데이터 엔지니어링 매니저, 신시내티 레즈

Lakeflow의 통합의 일부로, Lakeflow Jobs는 데이터 수집부터 변환, 복잡한 오케스트레이션에 이르기까지 데이터 수명주기의 모든 계층에 대한 end-to-end 관찰 가능성을 제공합니다. 다양한 도구 세트는 모든 모니터링 요구 사항에 맞춰져 있습니다: 시각적 모니터링 도구는 검색, 상태 및 추적을 한눈에 제공하며, 디버깅 도구인 쿼리 프로필은 성능을 최적화하는 데 도움이 되며, 알림 및 시스템 테이블은 문제를 드러내고 역사적인 통찰력을 제공하며, 데이터 품질 기대치는 규칙을 강제하고 데이터 파이프라인 요구 사항에 대한 높은 표준을 보장합니다.

Lakeflow 시작하기

Lakeflow Connect, Lakeflow 선언형 파이프라인, 그리고 Lakeflow Jobs는 오늘날 모든 Databricks 고객에게 일반적으로 사용 가능합니다. Lakeflow에 대해 더 알아보려면 여기 를 클릭하고, 다음 데이터 엔지니어링 프로젝트에 Lakeflow를 시작하는 방법을 알아보려면 공식 문서 를 방문하세요.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요