예측 최적화(Predictive Optimization)의 제한된 공개 미리보기(Gated Public Preview)를 소개하게 되어 기쁩니다. Data + AI Summit에서 발표된 이 예측 최적화 기능은 최적화 프로세스를 간소화하는 AI 기반 접근 방식으로, 이제 일반적으로 사용 가능합니다. 현재 이 기능은 데이터 레이아웃 및 정리 작업과 같은 주요 작업을 지원하며, 초기 사용자 피드백에 따르면 일상적인 데이터 유지보수를 크게 단순화하는 데 효과적이라는 평가를 받고 있습니다.
자동 통계 관리의 추가로, 예측 최적화는 고객 가치를 제공하고 운영을 간소화합니다. 주요 개선 사항은 다음과 같습니다:
최신 통계를 활용하면 성능과 총 소유 비용(TCO)을 크게 향상시킬 수 있습니다. 통계를 사용한 쿼리 실행과 사용하지 않은 경우를 비교 분석한 결과, 관찰된 작업 부하(workloads)에서 평균 22%의 성능 향상이 확인되었습니다. Databricks는 이러한 통계를 활용하여 데이터 스캔 프로세스를 최적화하고 가장 효율적인 쿼리 실행 계획을 선택합니다. 이러한 접근 방식은 Data Intelligence Platform이 사용자에게 실질적인 가치를 제공하는 능력을 보여주는 사례입니다.
통계가 쿼리 성능에 영향을 미치는 것은 당연한 일입니다. 통계는 쿼리 계획 최적화를 결정하는 데 사용되며, 실행 중에는 적응형 쿼리 실행(AQE)에 의해 보완됩니다. 제한된 공개 미리보기(Gated Public Preview)에 참여한 고객 사례에서는 최적화된 조인 전략이 적용된 쿼리 비율의 증가와 블룸 필터(bloom filter)의 활용 확대로 인해 다양한 성능 향상이 관찰되었습니다. 통계는 성능 개선을 경험할 수 있는 최고의 기회를 제공합니다.
데이터 레이크하우스는 두 가지 유형의 통계를 활용합니다: 데이터 스키핑 통계(Delta 통계라고도 함)와 쿼리 최적화 통계입니다. Delta 통계는 파일 수준에서 작동하며 스캔 작업 중 데이터 건너뛰기를 가능하게 하고, 기본적으로 처음 32개의 컬럼에 대해 자동으로 생성됩니다. 반면, 쿼리 최적화 통계는 테이블 수준의 지표로, 쿼리 계획을 지원하며 ANALYZE
명령을 실행한 후에만 수집됩니다.
현재의 통계 수집 방식은 최적의 성능을 추구하면서 비용을 최소화하려는 데이터 엔지니어링 팀에 여러 과제를 제기합니다:
데이터 건너뛰기 통계는 자동으로 수집되지만, 데이터가 계속 증가하고 사용 방식이 다양해지면서 ANALYZE
명령을 실행할 시점을 결정하는 것은 복잡한 문제가 됩니다. 고객들은 쿼리 최적화 통계를 적극적으로 유지 관리해야 하는 운영 부담을 겪습니다. 게다가, 많은 고객이 ANALYZE
명령을 정기적으로 실행하지 않아 최적화되지 않은 쿼리 실행 계획을 사용하게 되는 경우가 많습니다.