작성자: 안드레아 타르디프 , Justin Edrington
디지털 기반의 회사들이 AI가 혁신을 주도하는 중요한 역할을 인식하고 있지만, 많은 회사들이 여전히 ETL 파이프라인을 운영적으로 효율적으로 만드는 데 어려움을 겪고 있습니다.
머티리얼라이즈드 뷰(MVs) 는 관리 테이블로 사전 계산된 쿼리 결과를 저장하여, 사용자가 동일한 쿼리를 반복적으로 계산하는 것을 피하면서 복잡하거나 자주 사용되는 데이터에 훨씬 빠르게 접근할 수 있게 해줍니다. MVs는 쿼리 성능을 향상시키고, 계산 비용을 줄이며, 변환 과정을 단순화합니다.
Lakeflow 선언적 파이프라인 (LDP)은 데이터 파이프라인을 구축하는데 있어 직관적이고 선언적인 접근법을 제공하며, MV에 대한 전체 및 증분 새로고침을 모두 지원합니다. Databricks 파이프라인은 Enzyme 엔진에 의해 구동되며, 이 엔진은 새로운 데이터가 쿼리 결과에 어떻게 영향을 미치는지 추적하고 필요한 부분만 업데이트하여 MV를 효율적으로 최신 상태로 유지합니다. 다양한 기법 중에서 선택하기 위해 내부 비용 모델을 활용하며, 이에는 물리화 뷰와 수동 ETL 패턴이 일반적으로 사용됩니다.
이 블로그에서는 예상치 못한 전체 재계산을 감지하고 적절한 증분 MV 새로 고침을 위해 파이프라인을 최적화하는 방법에 대해 논의할 것입니다.