주요 컨텐츠로 이동

Lakeflow에서 관찰 가능성이 어떻게 신뢰할 수 있는 데이터 파이프라인을 구축하는 데 도움이 되는지

Lakeflow의 관찰 가능성 기능 모음은 데이터 엔지니어가 효율적이고 신뢰할 수 있으며 건강한 데이터 파이프라인을 대규모로 자신있게 유지할 수 있는 도구를 제공합니다.

Observability in Lakeflow Screenshot

Published: September 10, 2025

제품1분 이내 소요

Summary

  • Databricks Lakeflow는 내장된 관찰 가능성으로 신뢰할 수 있고, 건강하며, 신선한 데이터 파이프라인을 구축하는 데 도움을 줍니다
  • 데이터 전문가들은 단일 UI를 통해 중요한 작업 및 파이프라인 데이터에 빠르게 접근하여 종단 간 가시성을 얻습니다
  • Lakeflow는 적극적인 알림, 빠른 근본 원인 분석, 그리고 문제 해결을 지원합니다

데이터 볼륨이 증가함에 따라 데이터 플랫폼에 대한 위험도 증가합니다: 오래된 파이프라인부터 숨겨진 오류, 비용 초과까지. 관찰 가능성이 데이터 엔지니어링 솔루션에 통합되어 있지 않으면, 단지 데이터 파이프라인의 건강과 신선도뿐만 아니라 하류 데이터, 분석, AI 작업 부하에서 심각한 문제를 놓칠 위험이 있어서 맹목적으로 비행하게 됩니다. Lakeflow를 사용하면, Databricks의 통합 및 지능형 데이터 엔지니어링 솔루션을 통해, ETL 플랫폼 내에서 직접적으로 사용자 친화적인 인터페이스를 통해 내장된 관찰 가능성 솔루션을 사용하여 이 도전을 쉽게 극복할 수 있습니다. 이는 데이터 인텔리전스 위에 위치해 있습니다.

이 블로그에서는 Lakeflow의 관찰 가능성 기능을 소개하고 신뢰할 수 있고, 최신이며, 건강한 데이터 파이프라인을 구축하는 방법을 보여줄 것입니다.

데이터 엔지니어링에 있어 관찰 가능성은 필수적입니다

데이터 엔지니어링의 관찰 가능성은 ETL이 올바르고 효과적으로 작동하는지 확인하기 위해 시스템을 발견하고, 모니터링하고, 문제를 해결하는 능력을 의미합니다. 이것은 건강하고 신뢰할 수 있는 데이터 파이프라인을 유지하고, 인사이트를 도출하며, 신뢰할 수 있는 하류 분석을 제공하는 핵심입니다. 

조직들이 점점 늘어나는 비즈니스 중요 파이프라인을 관리함에 따라, 데이터 플랫폼의 신뢰성을 모니터링하고 보장하는 것이 기업에게 매우 중요해졌습니다. 이 도전을 해결하기 위해, 더 많은 데이터 엔지니어들이 관찰 가능성의 이점을 인식하고 추구하고 있습니다. Gartner에 따르면, 데이터 및 분석 리더들의 65%는 2년 내에 데이터 관찰 가능성이 그들의 데이터 전략의 핵심 부분이 될 것으로 예상합니다. 생산성을 향상시키고, 대규모 데이터를 안정적으로 운영하는 방법을 찾고자 하는 데이터 엔지니어들은 그들의 데이터 엔지니어링 플랫폼에서 관찰 가능성 실천을 구현해야 합니다.

조직에 적합한 관찰 가능성을 확립하는 것은 다음의 핵심 기능을 도입하는 것을 포함합니다: 

  • 대규모에서의 종단간 가시성: 단일 위치에서 작업과 데이터 파이프라인을 쉽게 보고 분석함으로써 눈에 띄지 않는 부분을 제거하고 시스템 인사이트를 발견하세요
  • 적극적인 모니터링 및 조기 실패 감지: 문제가 발생하자마자 식별하여 하류에 영향을 미치기 전에 해결
  • 문제 해결 및 최적화: 출력물의 품질을 보장하고 시스템 성능을 최적화하여 운영 비용을 개선

Lakeflow가 이 모든 것을 단일 경험에서 어떻게 지원하는지 알아보세요.

작업 및 파이프라인에 대한 대규모 종단 간 가시성

효과적인 관찰 가능성은 완전한 가시성에서 시작합니다. Lakeflow는 다양한 사전 구성된 시각화 및 통합 뷰 를 제공하여 데이터 파이프라인을 철저히 관리하고 전체 ETL 프로세스가 원활하게 진행되고 있는지 확인하는 데 도움을 줍니다.

중앙 집중화되고 세밀한 시각으로 작업 및 파이프라인의 눈에 띄지 않는 부분을 줄입니다 

 작업 및 파이프라인 페이지는 워크스페이스 전체에서 모든 작업, 파이프라인, 그리고 그들의 실행 이력에 대한 접근을 중앙화합니다. 이 통합된 실행 개요는 데이터 파이프라인의 발견과 관리를 단순화하고 실행을 시각화하고 추세를 추적하여 더 적극적인 모니터링을 가능하게 합니다.

작업에 대한 더 많은 정보를 찾고 있나요? 단지 어떤 작업이든 클릭하여 상태, 지속 시간, 추세, 경고 등의 주요 세부 사항을 강조하는 전용 페이지로 이동하십시오. Matrix View 를 통해 다음을 할 수 있습니다:

  • 특정 작업 실행에 쉽게 들어가 추가 인사이트를 얻음, 예를 들어, 종속성을 시각화하거나 실패 지점을 확인하는 그래프 뷰
  • 작업 수준을 보려면 확대 (파이프라인, 노트북 출력 등)에 대한 자세한 내용, 예를 들어 스트리밍 메트릭 (Public Preview에서 사용 가능). 

Lakeflow는 또한 전용 파이프라인 실행 페이지를 제공하여 테이블 간 파이프라인 실행의 상태, 메트릭, 진행 상황을 쉽게 모니터링할 수 있습니다. 

Easily go from an overview of your jobs and pipeline runs to more detailed information on jobs and tasks

대규모 데이터 시각화를 통한 더 많은 인사이트

이러한 통합 뷰 외에도 Lakeflow는 사용량과 추세에 대한 인사이트를 얻기 위해 작업 부하에 대한 과거 관찰 가능성을 제공합니다. System Tables를 사용하면, 지역 내 모든 작업 공간에서 생성된 모든 작업과 파이프라인을 추적하고 통합하는 Databricks 관리 테이블을 사용하여 작업 및 파이프라인의 데이터를 대규모로 시각화하는 자세한 대시보드와 보고서를 작성할 수 있습니다. 최근 업데이트된 대화식 대시보드 템플릿 을 사용하면 Lakeflow System Tables 에 대해 다음과 같은 작업을 더 쉽고 빠르게 수행할 수 있습니다: 

  • 실행 추세 추적: 데이터 기반 결정을 위해 시간에 따른 작업 행동에 대한 인사이트를 쉽게 도출
  • 병목 현상 식별: 잠재적 성능 문제 감지 (다음 섹션에서 더 자세히 다룸)
  • 청구서와 교차 참조: 비용 모니터링 개선 및 청구서 놀람 방지  

Jobs와 Pipelines에 대한 System Tables는 현재 Public Preview 상태입니다.

 

작업을 위한 시스템 테이블
Build dashboards using system tables in Lakeflow and get a high-level overview of your Jobs & Pipelines health

 

가시성은 작업 또는 작업 수준을 넘어서 확장됩니다. Lakeflow의 Unity Catalog와의 통합, Databricks의 통합 거버넌스 솔루션은 전체 데이터 라인의 시각화를 통해 전체 그림을 완성하는 데 도움이 됩니다. 이를 통해 데이터 흐름과 종속성을 추적하고 파이프라인과 작업의 전체 컨텍스트와 영향을 한 곳에서 파악하는 것이 더 쉬워집니다. 

데이터 리니지와 Unity Catalog 통
Track data lineage using Databricks’ Unity Catalog

 

적극적인 모니터링, 작업 실패의 조기 감지, 문제 해결 및 최적화 

데이터 엔지니어로서, 당신은 단지 시스템을 모니터링하는 것만이 아닙니다. 또한 ETL 개발에서 발생할 수 있는 문제나 성능 차이에 대해 미리 대응하고, 이들이 출력물과 비용에 영향을 미치기 전에 해결해야 합니다.

조기에 문제를 잡아내기 위한 적극적인 알림

Lakeflow의 기본 알림을 사용하면, Slack, 이메일, 또는 PagerDuty를 통해 중요한 작업 오류, 지속 시간, 또는 백로그에 대해 어떻게 알림을 받을지 선택할 수 있습니다. Event hooks 는 Lakeflow Declarative Pipelines (현재 Public Preview 상태)에서 특정 이벤트에 대해 어떤 것을 모니터링하거나 언제 알림을 받을지 결정하는 사용자 정의 Python 콜백 함수를 정의함으로써 더 많은 유연성을 제공합니다. 

빠른 원인 분석을 통한 신속한 문제 해결

경고를 받은 후 다음 단계는  문제가 발생했는지 이해하는 것입니다.

Lakeflow는 알림에서 직접 특정 작업 또는 작업 실패의 상세 보기로 이동하여 문맥에 맞는 원인 분석을 할 수 있게 해줍니다. 워크플로우 데이터를 어떤 수준의 세부 정보와 유연성으로 볼 수 있는지는 오류의 원인이 무엇인지 쉽게 파악할 수 있게 합니다. 

예를 들어, 작업의 행렬 뷰를 사용하면, 특정 워크플로에 대한 작업 실패 및 성능 패턴을 추적할 수 있습니다. 한편, 타임라인 (간트) 뷰는 각 작업과 쿼리 (서버리스 작업의 경우)의 지속 시간을 분해하여 한 작업에서 느린 성능 문제를 발견하고 Query Profiles를 사용하여 근본 원인을 더 깊게 파악할 수 있습니다. Databricks의 Query Profiles 는 SQL, Python, 그리고 Declarative Pipeline 실행에 대한 빠른 개요를 보여주어, ETL 플랫폼에서 병목 현상을 식별하고 작업 부하를 최적화하는 데 도움이 됩니다.

또한 System Tables 를 활용하여 작업과 그 종속성에 걸쳐 이상을 강조하는 대시보드를 만들어 루트 원인 분석을 더 쉽게 할 수 있습니다. 이러한 대시보드는 실패뿐만 아니라 성능 간극이나 지연 개선 기회, 예를 들어 지연 P50/P90/P99 및 클러스터 메트릭스를 빠르게 파악하는 데 도움이 됩니다. 분석을 보완하기 위해, 데이터 계보 및 쿼리 이력 시스템 테이블을 활용하여 데이터 계보를 통해 상류 오류와 하류 영향을 쉽게 추적할 수 있습니다.

 

Lakeflow에서의 근본 원인 분석
Easily find the root cause of your issues with Query History System Tables

신뢰할 수 있는 파이프라인을 위한 디버깅 및 최적화

루트 원인 분석 외에도, Lakeflow는 빠른 문제 해결을 위한 도구를 제공합니다, 이는 클러스터 리소스 문제나 구성 오류일 수 있습니다. 문제를 해결한 후에는 전체 작업을 다시 실행하지 않고 실패한 작업과 그 종속성을 실행할 수 있어 계산 리소스를 절약할 수 있습니다. 더 복잡한 문제 해결 사례에 직면했다면? Databricks Assistant, 우리의 AI 기반 도우미(현재 Public Preview 중)가 명확한 인사이트를 제공하고 작업과 파이프라인의 오류를 진단하는 데 도움을 줍니다.

Lakeflow에서의 문제 해결
Easily troubleshoot issues in your data pipelines with the “Repair job run” functionality

현재 데이터 파이프라인을 더 잘 모니터링할 수 있도록 추가적인 관찰 가능성 기능을 개발 중입니다. 곧, 작업 흐름 및 파이프라인의 건강 지표를 보고 작업 부하의 동작을 이해하는 데 도움이 되는 지표와 신호를 볼 수 있게 될 것입니다.

Lakeflow의 관찰 가능성 기능에 대한 요약

핵심 관찰 가능성 기둥Lakeflow 기능
대규모에서의 종단간 가시성
적극적인 모니터링과 조기 실패 감지
문제 해결 및 성능 최적화

Lakeflow로 신뢰할 수 있는 데이터 엔지니어링 구축 시작하기

Lakeflow는 작업과 파이프라인이 원활하게 실행되고, 건강하며, 대규모에서 신뢰할 수 있게 운영되도록 필요한 지원을 제공합니다. 내장된 관찰 가능성 솔루션을 시도해 보고 데이터 지능 노력과 비즈니스 요구에 대비한 데이터 엔지니어링 플랫폼을 어떻게 구축할 수 있는지 확인해 보세요.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요