주요 컨텐츠로 이동

Lakeflow Jobs, 테이블 업데이트 트리거 출시

테이블이 업데이트될 때만 작업이 실행되도록 트리거하여 비용을 절감하세요

Announcing table update triggers in Lakeflow Jobs

Published: October 20, 2025

공지사항1분 이내 소요

Summary

  • 테이블 업데이트 트리거 소개: 지정된 테이블이 업데이트될 때마다 자동으로 작업 트리거
  • 사용자가 업스트림 일정과 독립적으로 이벤트 기반 파이프라인을 오케스트레이션할 수 있도록 하여 분산된 데이터 팀의 역량 강화
  • 데이터가 도착하는 즉시 작업을 트리거하여 지연 시간을 줄이고 비용을 절감하여 효율성 향상

Databricks에서 Lakeflow Jobs 의 테이블 업데이트 트리거 가 이제 정식으로 제공된다는 기쁜 소식을 알려드립니다. 많은 데이터 팀이 여전히 cron 작업을 사용하여 데이터가 언제 사용 가능한지 추정하지만, 이러한 추측은 컴퓨팅 낭비와 인사이트 지연으로 이어질 수 있습니다. 테이블 업데이트 트리거를 사용하면 지정된 테이블이 업데이트되는 즉시 작업이 자동으로 실행되므로 파이프라인을 더 신속하고 효율적으로 오케스트레이션할 수 있습니다.

데이터가 변경되면 작업이 즉시 트리거됩니다.

테이블 업데이트 트리거 를 사용하면 테이블 업데이트를 기반으로 작업을 트리거할 수 있습니다. 데이터가 추가되거나 업데이트되는 즉시 작업이 시작됩니다. Lakeflow Jobs 에서 테이블 업데이트 트리거를 구성하려면 Schedules & Triggers 메뉴에서 '테이블 업데이트' 트리거 유형을 사용하여 Unity Catalog 에 알려진 테이블을 하나 이상 추가하기만 하면 됩니다. 지정된 테이블이 업데이트되면 새 실행이 시작됩니다. 여러 테이블을 선택한 경우, 단일 테이블이 업데이트된 후 작업을 실행할지 또는 선택한 모든 테이블이 업데이트된 후에만 실행할지 결정할 수 있습니다.

일�정 및 트리거

테이블에 업데이트가 빈번하거나 데이터 버스트가 발생하는 시나리오를 처리하기 위해, 파일 도착 트리거에서 사용할 수 있는 것과 동일한 고급 타이밍 구성인 트리거 간 최소 시간마지막 변경 후 대기를 활용할 수 있습니다.

  • 트리거 간 최소 시간 은 테이블이 자주 업데이트되어 작업을 너무 자주 시작하고 싶지 않을 때 유용합니다. 예를 들어, 데이터 수집 파이프라인이 매시간 여러 번 테이블을 업데이트하는 경우 60분의 버퍼를 설정하면 해당 시간 내에 작업이 두 번 이상 실행되는 것을 방지합니다.
  • 마지막 변경 후 대기 는 작업이 시작되기 전에 모든 데이터가 도착했는지 확인하는 데 도움이 됩니다. 예를 들어 업스트림 시스템이 몇 분에 걸쳐 테이블에 여러 배치를 쓰는 경우, 짧은 '마지막 변경 후 대기'(예: 5분)를 설정하면 쓰기가 완료된 후에만 작업이 한 번 실행됩니다.

마지막 변경 후 대기

이러한 설정을 통해 제어 기능과 유연성을 확보하여 작업이 시기적절하면서도 리소스 효율적으로 실행되도록 할 수 있습니다.

추측 작업을 없애 비용과 지연 시간을 줄이세요

cron 스케줄을 실시간 트리거로 바꾸면 낭비되는 컴퓨팅을 줄이고 오래된 데이터로 인한 지연을 방지할 수 있습니다. 데이터가 일찍 도착하면 작업이 즉시 실행됩니다. 지연되는 경우, 오래된 데이터에 대한 컴퓨팅 낭비를 방지할 수 있습니다.

이는 팀이 여러 시간대에 걸쳐 운영되거나 대용량 데이터 파이프라인을 관리하는 경우와 같이 대규모 환경에서 특히 효과적입니다. 컴퓨팅을 과도하게 프로비저닝하거나 데이터가 오래될 위험을 감수하는 대신, 데이터의 실시간 변경 사항에 대응하여 항상 최신 상태를 유지하고 신속하게 대응할 수 있습니다.

분산형, 이벤트 기반 파이프라인 강화

대규모 조직에서는 업스트림 데이터가 어디에서 오는지 또는 어떻게 생성되는지 항상 알 수는 없습니다. 테이블 업데이트 트리거를 사용하면 업스트림 일정에 긴밀하게 결합되지 않고 독립적으로 작동하는 반응형 파이프라인을 구축할 수 있습니다. 예를 들어, 오전 8시에 대시보드 새로고침을 예약하는 대신 매일, 새 데이터가 도착하는 즉시 새로고침할 수 있으며, 이를 통해 사용자는 항상 최신 인사이트를 볼 수 있습니다. 이는 자율성과 셀프 서비스가 핵심인 Data Mesh 환경에서 특히 강력합니다.

테이블 업데이트 트리거는 Lakeflow Jobs에 내장된 관찰 가능성의 이점을 활용합니다. 테이블 메타데이터(예: 커밋 타임스탬프 또는 버전)는 매개변수를 통해 다운스트림 작업에 노출되므로 모든 작업에서 동일하고 일관된 데이터 스냅샷을 사용하도록 보장합니다. 테이블 업데이트 트리거는 업스트림 테이블 변경 사항에 의존하므로 데이터 종속성을 이해하는 것이 중요합니다. Unity Catalog 의 자동화된 리니지는 어떤 작업이 어떤 테이블에서 읽어오는지 보여주어 가시성을 제공합니다. 이는 대규모로 테이블 업데이트 트리거를 안정적으로 만드는 데 필수적이며, 팀이 종속성을 이해하고 의도하지 않은 다운스트림 영향을 방지하는 데 도움이 됩니다.

테이블 업데이트 트리거Lakeflow Jobs의 계속해서 성장하는 오케스트레이션 기능 중 가장 최신 기능입니다. 이는 제어 흐름, 파일 도착 트리거 및 통합된 관찰 가능성과 결합하여 더 효율적인 파이프라인을 위한 유연하고 확장 가능하며 현대적인 기반을 제공합니다.

시작하기

이제 Unity Catalog를 사용하는 모든 Databricks 고객이 테이블 업데이트 트리거를 사용할 수 있습니다. 시작하려면:

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요