주요 컨텐츠로 이동

Lakeflow 선언형 파이프라인의 새로운 기능: 2025년 7월

What’s New in Lakeflow Declarative Pipelines: July 2025

Published: July 22, 2025

제품1분 이내 소요

작성자: Matt Jones

Summary

  • Lakeflow 선언형 파이프라인은 일반적으로 사용 가능합니다
  • 최근의 최적화는 서버리스 파이프라인에 대한 TCO를 최대 70%까지 줄였습니다
  • 새로운 교육 과정이 이제 라이브 상태이며 무료로 시작하는 데 도움을 줍니다

Lakeflow 선언형 파이프라인이 이제 일반적으로 사용 가능하며, DAIS 이후로 그 추세가 둔화되지 않았습니다. 이 포스트는 지난 몇 주 동안 추가된 모든 것을 정리하여 여러분이 현재의 상황, 다음에 올 것, 그리고 어떻게 사용해야 하는지에 대해 완벽하게 이해할 수 있도록 도와줍니다.

  • DAIS 요약: 우리가 발표한 것들
  • TCO 개선: 비용을 줄이는 최근의 성능 향상
  • 기능 업데이트: 미리보기 또는 GA에서 이제 사용 가능한 새로운 기능
  • 교육 자료: 시작하는 데 도움이 되는 무료 자기 주도 학습 과정

DAIS 2025 리뷰: Lakeflow 선언형 파이프라인이 여기에 있습니다

2025년 Data + AI Summit에서, 우리는 핵심 선언형 파이프라인 기술을 Apache Spark™ 프로젝트에 기여했다고 발표했습니다. 이것은 Spark 선언형 파이프라인입니다. 이 기여는 Spark의 선언형 모델을 개별 쿼리에서 전체 파이프라인으로 확장하여, 개발자들이 파이프라인이 어떤 작업을 수행해야 하는지 정의하면 Spark이 어떻게 수행할지 처리하게 합니다. 이미 수천 개의 생산 작업에서 검증된 이 기술은 이제 Spark 커뮤니티 전체의 오픈 표준입니다.

Lakeflow 선언형 파이프라인의 새로운 데이터 엔지니어링용 IDE
The new IDE for Data Engineering in Lakeflow Declarative Pipelines

우리는 또한 데이터 인테리전스 플랫폼에서 데이터 수집, 변환, 및 오케스트레이션을 위한 Databricks의 통합 솔루션인 Lakeflow의 일반 사용 가능성을 발표했습니다. GA 마일스톤은 파이프라인 개발에 대한 주요 진화를 표시했습니다. DLT는 이제 Lakeflow 선언형 파이프라인이며, 기존 파이프라인과의 완벽한 후진 호환성과 함께 동일한 핵심 이점을 제공합니다. 또한 우리는 코드-DAG 페어링, 컨텍스트 미리보기, AI 지원 작성 등의 기능으로 파이프라인 개발을 간소화하기 위해 처음부터 구축된 Lakeflow 선언형 파이프라인의 새로운 데이터 엔지니어링용 IDE (위에 표시)를 소개했습니다.

마지막으로, 우리는 데이터 파이프라인을 구축하기 위한 노코드 경험인 Lakeflow Designer를 발표했습니다. 이것은 실제 Lakeflow 파이프라인을 생성함으로써 생산 준비성이나 거버넌스를 손상시키지 않고 더 많은 사용자에게 ETL을 접근 가능하게 합니다. 곧 미리보기가 공개됩니다.

이러한 발표들은 데이터 엔지니어링의 새로운 장을 나타냅니다 - 더 간단하고, 더 확장 가능하며, 더 열려 있습니다. 그리고 DAIS 이후 몇 주 동안 우리는 모멘텀을 유지했습니다.

선언형 파이프라인에 대한 더 스마트한 성능, 더 낮은 비용

우리는 Lakeflow 선언형 파이프라인이 더 빠르고 비용 효율적으로 실행될 수 있도록 중요한 백엔드 개선을 이루었습니다. 전반적으로, 서버리스 파이프라인은 이제 Photon, Enzyme, 자동 스케일링, 그리고 AutoCDC데이터 품질 기대치와 같은 고급 기능에 대한 엔진 개선 덕분에 더 나은 가격-성능을 제공합니다.

주요 포인트는 다음과 같습니다:

  • 서버리스 표준 모드 가 이제 사용 가능하며, 평균적으로 비용(평균 TCO가 26% 더 좋음)과 대기 시간 면에서 클래식 컴퓨트를 일관되게 능가합니다.
  • 서버리스 성능 모드 는 더 빠른 결과를 제공하며, 엄격한 SLA에 대해 TCO 경쟁력이 있습니다.
  • AutoCDC 는 이제 많은 작업 부하에서 전통적인 MERGE를 능가하며, 특히 이러한 최적화와 함께 사용할 때 복잡한 로직 없이 SCD1 및 SCD2 패턴을 구현하는 것을 더 쉽게 만듭니다.

이러한 변경사항들은 Lakeflow Declarative Pipelines를 대규모 생산 ETL에 가장 효율적인 옵션으로 만들기 위한 지속적인 약속에 기반을 두고 있습니다.

선언형 파이프라인의 새로운 기능들

데이터 + AI 서밋 이후, 우리는 파이프라인을 더 모듈화하고, 생산 준비를 하고, 운영하기 쉽게 만드는 일련의 업데이트를 제공했습니다. 이는 추가적인 구성이나 글루 코드를 필요로 하지 않습니다.

운영의 단순화

테이블 건강 관리가 이제 더 쉽고 비용 효율적입니다:

  • 예측 최적화 는 이제 모든 새로운 및 기존 Unity 카탈로그 파이프라인에 대한 테이블 유지 관리 - OPTIMIZE 및 VACUUM과 같은 -를 관리합니다. 유지 관리는 이제 고정된 일정에 따라 실행되는 대신, 작업 패턴과 데이터 레이아웃에 적응하여 비용과 성능을 자동으로 최적화합니다. 이것은 다음을 의미합니다:
    • 수동으로 유지 관리를 조정하거나 예약하는 데 들이는 시간 감소
    • 불필요한 컴퓨트 사용을 피하는 더 스마트한 실행
    • 더 빠른 쿼리 성능을 위한 더 나은 파일 크기와 클러스터링
  • 삭제 벡터 는 이제 새로운 스트리밍 테이블과 머티리얼라이즈드 뷰에 대해 기본적으로 활성화되어 있습니다. 이는 불필요한 재작성을 줄여 성능을 향상시키고 업데이트와 삭제 중에 전체 파일 재작성을 피함으로써 컴퓨팅 비용을 낮춥니다. 만약 엄격한 물리적 삭제 요구사항이 있으신 경우 (예: GDPR), 삭제 벡터를 비활성화 하거나 데이터를 영구적으로 제거할 수 있습니다.

더 모듈화되고 유연한 파이프라인

새로운 기능은 팀이 파이프라인을 구조화하고 관리하는 방식에 더 큰 유연성을 제공하며, 데이터 재처리 없이 가능합니다:

  • Lakeflow 선언형 파이프라인은 이제 여러 카탈로그와 스키마에 테이블을 게시하는 기능을 활용하여 기존 파이프라인을 업그레이드하는 것을 지원합니다. 이전에는 이러한 유연성이 새 파이프라인을 생성할 때만 가능했습니다. 이제 기존 파이프라인을 처음부터 다시 구축할 필요 없이 이 모델로 마이그레이션할 수 있어, 시간이 지남에 따라 더 모듈식 데이터 아키텍처를 가능하게 합니다.
  • 이제 단일 SQL 명령과 테이블 정의를 이동시키는 작은 코드 변경으로 스트리밍 테이블과 머티리얼라이즈드 뷰를 이동 시킬 수 있습니다. 이로 인해 큰 파이프라인을 분할하거나, 작은 파이프라인을 통합하거나, 테이블 간에 다른 새로 고침 일정을 채택하는 것이 데이터나 로직을 다시 생성할 필요 없이 더 쉬워집니다. 테이블을 다른 파이프라인에 재할당하려면, 다음을 실행하십시오:

명령을 실행하고 테이블 정의를 원본 파이프라인에서 대상 파이프라인으로 이동한 후, 대상 파이프라인이 테이블에 대한 업데이트를 수행합니다.

파이프라인 관찰 가능성을 위한 새로운 시스템 테이블

새로운 파이프라인 시스템 테이블 이 이제 Public Preview에 있어, 여러분의 작업 공간 전체의 모든 파이프라인에 대한 완전하고 쿼리 가능한 뷰를 제공합니다. 이에는 창작자, 태그, 생명주기 이벤트(삭제 또는 구성 변경 등)와 같은 메타데이터가 포함되어 있으며, 비용 할당 및 보고를 위해 청구 로그와 결합될 수 있습니다. 이는 특히 많은 파이프라인을 관리하고 환경이나 사업 부서 간 비용을 추적하려는 팀에게 유용합니다.

파이프라인 업데이트를 위한 두 번째 시스템 테이블 - 새로 고침 이력, 성능, 실패를 포함 - 이 여름 후반에 계획되어 있습니다.

Lakeflow를 직접 사용해 보세요.

Lakeflow 학습 라이브러리Lakeflow에 처음 접하시거나 기술을 더 깊게 배우고 싶으신가요? 시작하는 데 도움이 될 세 가지 무료 자기 주도 학습 과정을 출시했습니다:

  • Lakeflow Connect를 이용한 데이터 수집 – 클라우드 저장소에서 Databricks로 데이터를 수집하거나 노코드, 완전히 관리되는 커넥터를 사용하는 방법을 배워보세요.
  • Lakeflow Jobs를 이용한 작업 배포 – 내장된 관찰 가능성과 자동화를 통해 생산 작업을 조정합니다.
  • Lakeflow 선언형 파이프라인을 이용한 데이터 파이프라인 구축 – 파이프라인 개발을 통해 스트리밍, 데이터 품질, 출판을 포함한 엔드 투 엔드로 진행합니다.

세 가지 코스는 모두 현재 Databricks Academy에서 무료로 이용 가능합니다.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요