주요 컨텐츠로 이동
공지사항

Lakeflow: 에이전틱 데이터 엔지니어링의 새로운 시대

기업이 신뢰할 수 있는 통합 실시간 데이터 기반

작성자: Bilal Aslam, Ray Zhu, Manish Dalwadi, Saad Ansari , 지젤 고이코체아

  • 에이전틱 AI를 위한 통합 기반: Lakeflow는 수집, 변환, 오케스트레이션을 Unity Catalog 아래로 통합하여 도구 난립으로 인한 격차를 해소하고, AI 에이전트에게 신뢰할 수 있는 실시간 컨텍스트의 단일 소스를 제공합니다.
  • 고성능 수집 및 스트리밍: Lakeflow Connect로 100개 이상의 엔터프라이즈 데이터 소스에 연결하고, Zerobus Ingest의 다중 인터페이스를 통해 대용량 이벤트 데이터를 스트리밍하며, Spark Declarative Pipelines용 Real-Time Mode로 밀리초 단위의 대기 시간을 구현합니다.
  • 에이전틱 개발 및 운영: Lakeflow Designer를 통해 시각적으로 파이프라인을 구축하고, Genie Code로 작성을 가속화하며, Genie ZeroOps로 운영 부담을 줄이고, Lakeflow Jobs로 기존 오케스트레이터를 통합합니다.

모든 분석, AI 및 애플리케이션은 데이터에서 시작됩니다. 지난 수십 년 동안 데이터 엔지니어링 도구는 다양한 사용 사례와 사용자 페르소나에 걸쳐 급격히 증가했습니다. 그 결과 대부분의 기업은 통합, 유지 관리 또는 거버넌스가 어려운 매우 복잡하고 파편화된 데이터 스택을 갖게 되었습니다. AI가 모든 데이터와 AI 실무자에게 힘을 실어줌에 따라, 이러한 취약한 데이터 스택에는 훨씬 더 큰 압박이 가해질 것입니다.

이것이 바로 우리가 수집부터 변환, 오케스트레이션에 이르는 데이터 엔지니어링의 모든 과정을 위한 통합 플랫폼인 Databricks Lakeflow를 구축하기 시작한 이유입니다. 모든 Lakeflow 기능은 완전히 통합되어 있으며 Unity Catalog에 의해 중앙에서 거버넌스가 수행됩니다. 에이전트 시대에 이러한 통합 아키텍처는 에이전트가 데이터 파이프라인을 구축할 뿐만 아니라 운영할 수도 있도록 지원하여 상당한 이점을 제공합니다. 오늘 Data + AI Summit에서 Databricks Lakeflow의 다음 주요 진화 단계를 발표합니다.

Lakeflow: Connect, Spark Declarative Pipelines, Jobs, Designer

Genie Code 및 Lakeflow Designer: 에이전트 기반 파이프라인 개발

Genie Code는 이제 Lakeflow 사용자 경험의 모든 측면에 깊이 통합되었습니다. Genie Code를 사용하여 수집 커넥터를 만들고, Python 및 SQL로 파이프라인을 구축하며, 태스크, 트리거 및 종속성을 갖춘 작업을 개발할 수 있습니다. 이 모든 것은 수집, 변환 및 오케스트레이션 워크로드 전반에 걸쳐 Genie Code에 완전한 엔드투엔드 컨텍스트를 제공하는 통합 데이터 엔지니어링 스택 덕분에 가능합니다.

이제 정식 버전(GA)으로 제공되는 Lakeflow Designer는 기업 전반에서 데이터 엔지니어링을 민주화합니다. 이 시각적이고 AI 기반의 노코드 인터페이스를 통해 팀은 드래그 앤 드롭 캔버스와 자연어 프롬프트를 사용하여 파이프라인을 구축할 수 있습니다. 비즈니스 분석가와 비기술 사용자도 코드를 작성하지 않고 프로덕션 환경에 바로 사용할 수 있는 ETL 파이프라인을 구축할 수 있습니다. Designer에서 구축된 모든 시각적 Flow는 프로덕션 지원 Spark Declarative Pipeline에서 기본적으로 실행되므로 복잡한 인수인계 없이 변환 손실이 전혀 발생하지 않습니다. 데이터 엔지니어는 컨텍스트를 전환하거나 로직을 다시 작성할 필요 없이 이 코드를 해당 위치에서 직접 쉽게 검토하고 개선할 수 있습니다.

Genie ZeroOps: 데이터 및 AI 운영 자동화

오늘 발표된 Genie ZeroOps는 데이터 팀이 프로덕션 환경에서 데이터 및 AI 자산을 운영할 수 있도록 지원합니다. Genie ZeroOps는 데이터 및 AI 자산을 모니터링하고 관리하는 전용 백그라운드 AI 에이전트입니다. ZeroOps는 Unity Catalog의 데이터 품질 메트릭, 오류 로그 및 리니지 데이터를 사용하여 실패를 감지하고 근본 원인 분석을 수행하여 무엇이 잘못되었는지 식별합니다. 또한 제안된 수정 사항을 생성하고 Unity Catalog가 거버넌스를 수행하는 안전하고 격리된 샌드박스 환경에서 이를 검증합니다. 수정 사항 적용은 human-in-the-loop(인간 참여형) 방식으로 이루어지므로, Genie ZeroOps가 까다로운 작업을 처리하는 동안 사용자는 제어권을 유지할 수 있습니다. 에이전트 기반 개발과 마찬가지로, Genie ZeroOps의 기능은 Lakeflow가 포함된 통합 데이터 스택을 통해 제공되는 완전한 컨텍스트 인식 및 엔드투엔드 거버넌스 덕분에 가능합니다.

Lakeflow Connect: 100개 이상의 빌트인 커넥터를 갖춘 빠르게 성장하는 생태계

자동화된 파이프라인의 가치는 그 파이프라인을 통해 흐르는 데이터의 가치에 비례합니다. 완전한 "기업 메모리"를 구축하고 Databricks Genie와 같은 AI 에이전트를 그라운딩하려면 비즈니스의 모든 영역에 걸쳐 거버넌스가 적용된 최신 컨텍스트에 원활하게 액세스해야 합니다. Lakeflow Connect는 계속 늘어나는 기업 시스템 목록에서 새로운 데이터를 Unity Catalog가 제어하는 Delta 테이블로 직접 증분 수집하여 이 프로세스를 단순화합니다.

오늘 우리는 Lakeflow Connect가 확장되어 기업 애플리케이션, 데이터베이스, 파일 소스 및 클라우드 스토리지 전반에 걸쳐 100개 이상의 네이티브 관리형 커넥터를 지원하게 되었음을 발표합니다. 이제 취약한 서드파티 도구를 제거하고 고객에게 가장 필요한 사용 사례에 맞게 최적화된 수집 파이프라인을 실행할 수 있습니다.

특수 시스템이나 독점 시스템을 보유한 조직의 경우, Community Connectors(Beta)는 Databricks를 기반으로 구축된 오픈 소스 솔루션을 제공합니다. 커뮤니티에서 사전 구축된 커넥터를 배포하거나 자체 커넥터를 빌드하여 조직 또는 더 넓은 생태계 전체에 공유해 보세요.

Panasonic은 Lakeflow Connect를 사용하여 SAP, Workday 및 SharePoint의 데이터를 통합함으로써 취약한 레거시 ETL을 실시간 거버넌스 인텔리전스를 위한 단일 플랫폼으로 대체했습니다.

“경직된 레거시 ETL 스택에서 Databricks 플랫폼으로 전환함으로써 이제 당사의 BI 팀은 중요한 데이터를 쉽게 검색하고 액세스할 수 있게 되었으며, Power BI 새로 고침 시간을 50% 단축했습니다. 우리는 외부의 일관성 없는 데이터를 신뢰할 수 있는 프로덕션 등급 자산으로 전환하여 새로운 비즈니스 인사이트를 발굴하고 Panasonic의 경쟁 우위를 강화하고 있습니다.”—Jerry Deng, BI 디렉터, Panasonic

또한 Lakeflow Connect Free Tier를 통해 조직이 대용량 수집의 TCO를 영구적으로 낮출 수 있도록 지원하고 있습니다. 고객은 매일 100개의 무료 DBU를 자동으로 제공받아, 널리 사용되는 관리형 SaaS 및 데이터베이스 커넥터 전반에서 매일 최대 1억 개의 레코드를 지원할 수 있습니다.

Zerobus Ingest: 데이터 생산자를 위한 Kafka 없는 수집

Zerobus Ingest는 메시지 버스 없이도 조직이 대용량 이벤트 데이터를 처리하는 방식을 변화시키고 있습니다. 5초 미만의 실시간에 가까운 쓰기와 최대 100MB/s(테이블당 10GB/s 이상)의 높은 처리량을 제공하는 Zerobus는 데이터를 플랫폼에 대규모로 직접 전달합니다.

하지만 성능은 생산자가 마찰 없이 연결할 수 있을 때만 의미가 있습니다. 마이그레이션은 구성 변경만큼 간단해야 합니다. 올해 초 정식 버전(GA)으로 출시된 이후, Zerobus는 데이터 생산자가 이미 작업하고 있는 환경에 맞춰 지원을 확장했습니다.

  • Kafka 호환 API(Beta): 기존 Kafka 생산자가 코드를 변경할 필요 없이 데이터를 Databricks로 직접 푸시합니다.
  • gRPC 및 REST API(GA): 고성능 애플리케이션을 위한 지속적인 gRPC 스트림 또는 웹훅 및 서버리스 함수를 위한 상태 비저장 REST API입니다.
  • SDK 생태계(GA): Python, Java, Rust, Go, TypeScript용 프로덕션 지원 SDK를 통해 Zerobus를 맞춤형 애플리케이션에 직접 쉽게 내장할 수 있습니다.
  • OpenTelemetry(Public Preview): 구성 변경만으로 메트릭, 추적 및 로그를 레이크하우스로 직접 전송할 수 있습니다.

이러한 다중 인터페이스 유연성은 글로벌 기업에 클라우드로의 직접적이고 대기 시간이 짧은 브리지를 제공합니다. 예를 들어, Meta는 온프레미스 데이터 센터를 클라우드에 연결하기 위해 Zerobus Ingest를 사용해 왔으며, 이를 통해 데이터 기반 솔루션을 대규모로 신속하게 개발할 수 있었습니다.

“Zerobus Ingest와 Spark Declarative Pipelines 덕분에 엔드투엔드 파이프라인 대기 시간을 1분 미만으로 단축하여 가치 창출 시간을 앞당길 수 있었습니다.”—Srikanth Sakhamuri, Data Engineering Leader, Meta

데이터가 Unity Catalog가 관리하는 Delta 테이블에 도달하면, Databricks Genie와 같은 다운스트림 AI 및 BI 도구에서 즉시 액세스할 수 있습니다. 엔드투엔드 실시간 분석 스택의 일부로, Zerobus는 데이터를 수집하고 Apache Spark™ Declarative Pipelines (SDP)의 Real-Time Mode를 사용하여 처리 및 변환하며, 완전히 네이티브한 실시간 엔진에서 실행되는 새로운 데이터 웨어하우스 유형인 Lakehouse//RT가 밀리초 단위의 성능으로 데이터를 서빙합니다.

Spark Declarative Pipelines: 배치 및 스트리밍, SQL 및 Python, 그리고 이제 실시간까지

초저지연 스트리밍을 구현하려면 기존에는 데이터 팀이 복잡하고 파편화된 아키텍처를 관리해야 했으며, 종종 Spark와 함께 Apache Flink와 같은 두 번째 특화 엔진을 유지 관리해야 했습니다. Databricks는 처음에 Spark Structured Streaming용 Real-Time Mode (RTM)을 도입하여 이러한 이중 엔진의 복잡성을 해결했습니다. 주기적인 마이크로 배칭에서 연속 스트림 처리로 전환함으로써, 현재 RTM은 Coinbase, DraftKings, MakeMyTrip을 포함한 글로벌 브랜드의 파이프라인을 지원하고 있습니다.

이제 이러한 강력한 기능을 통합 ETL 제품에도 제공합니다. Spark Declarative Pipelines용 Real-Time Mode (RTM)가 이제 Public Preview로 제공됩니다. SDP용 RTM은 별도의 엔진을 관리하는 복잡성과 비용 없이 최저 5밀리초의 엔드투엔드 대기 시간을 달성합니다. 클래식 및 서버리스 컴퓨팅 모두에서 사용할 수 있으며, 버전 없는 실행, 자동화된 인프라 업그레이드, 가동 중지 시간이 거의 없는 유지 관리 등 Spark Declarative Pipelines의 운영상 이점과 함께 초저지연 스트리밍을 제공합니다.

다음으로, Append, Auto CDC, incremental Replace Where, 및 Materialized View를 포함한 Spark Declarative Pipelines의 선언적 API를 Databricks 플랫폼 어디에서나 사용할 수 있도록 지원합니다. 즉, 사용자는 이미 익숙한 제품, 컴퓨팅 유형 및 사용자 인터페이스에서 직접 증분 데이터 처리의 이점을 누릴 수 있습니다. 이러한 모든 API는 현재 Databricks SQL에서 사용할 수 있으며, 향후 몇 주 내에 서버리스 Notebook 및 Lakeflow Designer에서도 사용할 수 있게 될 예정입니다.

Lakeflow Jobs: 이제 50개 이상의 통합 지원

오케스트레이션이 데이터 파이프라인 관리에서 가장 어려운 부분이 되어서는 안 됩니다. 복잡한 프로덕션 DAG를 실행하든, 일정을 예약하든, AI 에이전트를 실행하든 관계없이 Lakeflow Jobs는 이 모든 작업을 처리하는 Databricks의 네이티브 오케스트레이션 엔진입니다. 데이터 수명 주기의 모든 레이어에 관리형 오케스트레이션과 엔드투엔드 관측 가능성을 도입함으로써, 데이터 팀은 Apache Airflow와 같은 레거시 오케스트레이터를 단일 통합 플랫폼으로 통합하고 있습니다.

데이터 및 컨텍스트 인식 오케스트레이션

모든 cron 일정은 데이터가 준비되는 시점을 추측하는 것에 불과합니다. Lakeflow Jobs를 사용하면 더 이상 추측할 필요 없이 실제 데이터 준비 상태를 기반으로 파이프라인을 트리거할 수 있습니다. 일상적인 언어를 사용하여 Genie에게 데이터에서 "준비 완료"가 의미하는 바를 정의하는 SQL 트리거를 작성하도록 요청할 수 있습니다. 조건이 충족되는 즉시 작업이 실행되므로 데이터 계약을 준수하고 오래된 데이터를 처리하지 않도록 보장합니다.

“Lakeflow Jobs 덕분에 기존 기술로는 접근할 수 없었던 데이터에 접근할 수 있었고, 이를 통해 더 깊고 신뢰할 수 있는 비즈니스 인사이트를 창출할 수 있었습니다."—Sachin Wadhwa, Director of Data Architecture and Platforms, The Rank Group

무엇이든, 어디서나 가능한 범용 오케스트레이션

Databricks 외부에서 데이터 워크플로우를 운영하는 고객을 위해, Lakeflow Jobs는 처음부터 통합을 다시 구축할 필요 없이 외부 시스템으로 범위를 기본적으로 확장할 수 있는 External Orchestration을 제공합니다. 개방형 오퍼레이터 프레임워크를 사용하여 Snowflake 작업을 원활하게 트리거하고, 맞춤형 REST API를 실행하거나, Slack 및 PagerDuty 알림을 관리할 수 있습니다. 몇 시간 후에나 충족될 수 있는 외부 조건을 기다리는 동안 컴퓨팅 리소스는 지능적으로 일시 중단됩니다. 저희는 GitHub에 40개 이상의 오퍼레이터 예시를 게시하고 있으며, 향후 분기 동안 수십 개의 관리형 통합을 추가할 예정입니다. 또한 모든 자격 증명은 Unity Catalog를 통해 흐르며 완전한 감사 추적을 제공합니다.

Lakeflow 시작하기

Lakeflow는 신뢰할 수 있는 에이전트형 AI 애플리케이션을 구축하는 데 필요한 통합 데이터 기반을 제공합니다. 기술 구성에 대해 자세히 알아보고 이러한 새로운 기능이 작동하는 모습을 확인하려면, 실습 튜토리얼을 살펴보거나 기술 문서를 검토하여 다음 프로젝트를 시작해 보세요.

구축할 준비가 되셨나요? 지금 Databricks를 무료로 체험하고 Lakeflow를 경험해 보세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.