2026년 2월 18일

대규모 예측 최적화: 혁신의 한 해와 다음 단계

Unity Catalog 관리형 테이블 전반에서 더 빠른 쿼리, 더 낮은 스토리지 비용 및 완전한 자동화

이제 새로운 Unity Catalog 관리 테이블에 대해 예측 최적화가 기본적으로 실행되며 대규모로 작동합니다.
2025년의 새로운 기능은 더 빠른 쿼리, 더 저렴한 스토리지 유지 관리, 향상된 기능을 제공했습니다.
2026년에 예측 최적화는 데이터 수명 주기 자동화 및 더 깊이 있는 관찰 가능성으로 확장됩니다.

소개

가장 성능이 뛰어나고 비용 효율적인 레이크하우스는 데이터 볼륨, 쿼리 패턴, 조직의 사용량이 계속해서 발전함에 따라 스스로를 최적화하는 레이크하우스입니다. Unity Catalog의 예측 최적화(PO)는 데이터가 기록되고 쿼리되는 방식을 지속적으로 분석한 다음 사용자나 플랫폼 팀의 수동 작업 없이 적절한 유지 관리 작업을 자동으로 적용하여 이러한 동작을 가능하게 합니다. 2025년에 예측 최적화는 선택적 자동화 기능에서 기본 플랫폼 동작으로 전환되어 수백만 개의 프로덕션 테이블에 걸쳐 성능과 스토리지 효율성을 관리하는 동시에 테이블 튜닝과 관련된 전통적인 운영 부담을 제거했습니다. 지금까지의 주요 성과와 2026년의 다음 단계를 소개합니다.

레이크하우스 전반의 대규모 채택

2025년 내내 고객들이 증가하는 데이터 자산을 관리하기 위해 자율 유지 관리에 점점 더 의존하게 되면서 Databricks Platform 전반에서 예측 최적화가 빠르게 도입되었습니다. 지난 한 해 동안 예측 최적화는 다음과 같이 빠르게 성장했습니다.

참조되지 않은 엑사바이트의 데이터 가 vacuum되어 수천만 달러의 스토리지 비용이 절감되었습니다.
수백 페타바이트의 데이터가 쿼리 성능과 파일 정리 효율성을 개선하기 위해 압축 및 클러스터링되었습니다.
수백만 개의 테이블이 자율적인 데이터 레이아웃 관리를 위해 Automatic Liquid Clustering 을 채택했습니다.

이 규모에서 관찰된 일관된 성능 향상을 바탕으로 모든 신규 Unity Catalog 관리 테이블, 워크스페이스 및 계정에 대해 Predictive Optimization이 기본적으로 활성화됩니다.

예측 최적화의 작동 방식

예측 최적화 (PO)는 lakehouse를 위한 플랫폼 인텔리전스 계층으로 기능하여 데이터 layout을 지속적으로 최적화하고, 스토리지 사용 공간을 줄이며, UC 관리 테이블에서 효율적인 query 계획에 필요한 정확한 파일 통계를 유지합니다.

관찰된 사용 패턴을 기반으로 PO는 다음과 같은 명령을 언제 어떻게 실행할지 자동으로 결정합니다.

OPTIMIZE: 작은 파일을 압축하고 데이터 지역성을 개선하여 효율적인 액세스를 지원합니다.
VACUUM: 참조되지 않는 파일을 삭제하여 스토리지 비용 관리
CLUSTER BY: 자동 리퀴드 클러스터링을 사용하는 테이블에 대해 최적의 클러스터링 열 선택
ANALYZE: 쿼리 계획 및 데이터 스키핑을 위한 정확한 통계 유지

모든 최적화 결정은 워크로드 기반이며 적응형이므로, 쿼리 패턴이 변경됨에 따라 일정을 관리하거나, 매개변수를 조정하거나, 최적화 전략을 재검토할 필요가 없습니다.

2025년 예측 최적화의 주요 발전 사항

자동 통계로 쿼리 속도 22% 향상

정확한 통계는 효율적인 쿼리 계획을 수립하는 데 매우 중요하지만, 데이터 볼륨과 쿼리 다양성이 증가함에 따라 통계를 수동으로 관리하는 것은 점점 더 비현실적이 됩니다.

이제 정식 출시된 자동 통계 를 통해 예측 최적화는 관찰된 쿼리 동작을 기반으로 중요한 열을 결정하고 수동 ANALYZE 명령어 없이 통계를 최신 상태로 유지합니다.

통계는 다음과 같은 두 가지 상호 보완적인 메커니즘을 통해 유지 관리됩니다.

쓰기 시 통계(Stats-on-write)는 데이터가 기록될 때 최소한의 오버헤드로 통계를 수집하며, 이 방법은 ANALYZE TABLE을 실행하는 것보다 7~10배 더 뛰어난 성능을 보입니다.
백그라운드 새로 고침은 데이터 변경 또는 변화하는 쿼리 패턴으로 인해 통계가 오래된 상태가 되면 통계를 업데이트합니다.

실제 고객 프로덕션 워크로드에서 이 접근 방식은 수동 통계 관리의 운영 비용을 제거하면서 최대 22% 더 빠른 쿼리를 제공했습니다.

6배 더 빠르고 4배 더 저렴한 VACUUM

VACUUM은 참조되지 않는 데이터 파일을 삭제하여 스토리지 비용과 규정 준수를 관리하는 데 중요한 역할을 합니다. 표준 vacuum은 제거할 후보를 식별하기 위해 테이블 디렉터리의 모든 파일을 나열해야 하며, 1,000만 개의 파일이 있는 테이블의 경우 이 작업에 40분 이상이 걸릴 수 있습니다.

이제 Predictive Optimization은 Delta 트랜잭션 로그를 활용하여 제거 가능한 파일을 직접 식별하는 최적화된 VACUUM 실행 경로를 적용하여, 가능한 경우 비용이 많이 드는 디렉터리 목록 조회를 방지합니다.

대규모 환경에서 다음과 같은 결과를 가져왔습니다.

최대 6배 더 빠른 VACUUM 실행
표준 접근 방식에 비해 최대 4배 낮은 컴퓨팅 비용

엔진은 이 로그 기반 접근 방식을 사용할 시점과 전체 디렉터리 스캔을 수행하여 중단된 트랜잭션의 조각을 정리할 시점을 동적으로 결정합니다.

자동 리퀴드 클러스터링

자동 리퀴드 클러스터링(Automatic Liquid Clustering) 은 2025년에 정식 출시되었으며 이미 프로덕션 환경에서 수백만 개의 테이블을 최적화하고 있습니다.

이 프로세스는 전적으로 워크로드 기반으로 작동합니다.

먼저, PO는 테이블의 모든 쿼리에서 원격 분석을 분석하여 조건자 열, 필터 표현식, 읽고 정리한 파일의 수 및 크기와 같은 주요 메트릭을 관찰합니다.
다음으로, 워크로드 모델링을 수행하여 다양한 후보 클러스터링 키 조합(예: 날짜, customer_id 또는 둘 다를 기준으로 클러스터링)을 식별하고 테스트합니다.
마지막으로, PO는 비용-편익 분석을 실행하여 query 정리를 극대화하고 스캔되는 데이터를 줄일 수 있는 최상의 단일 클러스터링 전략을 선택하며, 테이블의 기존 삽입 순서가 이미 충분한지 여부까지도 결정합니다.

수동 튜닝 없이 더 빠른 쿼리를 얻을 수 있습니다. 워크로드를 자동으로 분석하고 최적의 데이터 레이아웃을 적용함으로써 PO는 클러스터링 키 선택이라는 복잡한 작업을 제거하고 쿼리 패턴이 발전함에 따라 테이블이 높은 성능을 유지하도록 보장합니다.

플랫폼 전반에 적용

예측 최적화는 기존 테이블을 넘어 Databricks 플랫폼의 더 광범위한 영역을 지원하도록 확장되었습니다.

이제 PO는 Lakeflow Spark 선언적 파이프라인(SDP)과 기본적으로 통합되어 구체화된 뷰와 스트리밍 테이블 모두에 자율적인 백그라운드 유지 관리를 제공합니다.
PO는 관리형 Delta 테이블과 Iceberg 테이블 모두에서 작동합니다.
PO는 모든 신규 Unity Catalog 관리 테이블, 작업 공간, 계정에서 default로 활성화됩니다.

이를 통해 개별 테이블의 고립된 최적화가 아닌 전체 데이터 자산에 걸쳐 자율적인 유지 관리가 보장됩니다.

2026년, 다음은 무엇일까요?

저희는 수동 테이블 튜닝을 자동화된 유지 관리로 대체하는 기능을 제공하기 위해 최선을 다하고 있습니다. 이와 병행하여 물리적 테이블 상태를 넘어 전체 데이터 수명 주기 인텔리전스(자동화된 스토리지 비용 절감, 데이터 수명 주기 관리, 행 삭제)를 해결하기 위해 확장할 계획입니다. 또한 향상된 관찰 가능성을 우선순위로 두고, 예측 최적화 인사이트를 일반적인 테이블 운영 및 거버넌스 허브에 통합하여 PO 운영과 ROI에 대한 더 명확한 가시성을 제공하고 있습니다.

자동 TTL(자동 행 삭제)

데이터 보존을 관리하거나 스토리지 비용을 제어하는 것은 중요하지만 종종 수동으로 처리해야 하는 작업입니다. 행 삭제를 완벽하게 자동화하는 Predictive Optimization의 새로운 기능인 Auto-TTL을 소개합니다. 이 기능을 사용하면 다음과 같은 명령어를 사용하여 모든 UC 관리 테이블에 간단한 TTL(time-to-live) 정책을 직접 설정할 수 있습니다.

정책이 설정되면 나머지는 Predictive Optimization이 알아서 처리합니다. 먼저 DELETE 작업을 실행하여 만료된 행을 일시적으로 삭제(soft-delete)한 다음, VACUUM을 실행하여 물리적 스토리지에서 영구적으로 제거하는 전체 2단계 프로세스를 자동화합니다.

지금 바로 계정 팀에 문의하여 Private Preview로 이 기능을 사용해 보세요!

향상된 관찰 가능성

개선된 예측 최적화 관찰 가능성

새로운 데이터 거버넌스 허브 에서 예측 최적화의 직접적인 영향과 ROI를 추적할 수 있습니다. 이 관찰 가능성 대시보드는 PO의 운영에 대한 중앙 집중식 뷰를 기본적으로 제공하며, 그 가치를 정량화하는 주요 메트릭을 표시합니다.

이를 사용하여 압축된 바이트, Liquid로 클러스터링된 바이트, vacuum된 바이트 및 분석된 바이트에 대한 명확한 시각화를 통해 PO가 내부적으로 수행하는 작업을 정확히 확인할 수 있습니다. 가장 중요한 점은 허브가 예상 스토리지 비용 절감액을 표시하여 이러한 작업을 직접적인 비즈니스 가치로 전환한다는 것입니다. 이를 통해 PO가 스토리지 비용과 쿼리 성능 모두에 미치는 긍정적인 영향을 그 어느 때보다 쉽게 이해하고 전달할 수 있습니다.

DESCRIBED EXTENDED에서 Predictive Optimization이 최적화를 건너뛴 이유(예: 테이블이 이미 잘 클러스터링되었거나, 테이블이 너무 작아 압축의 이점을 얻을 수 없는 경우 등).

또한, PO 시스템 테이블에서 데이터 스키핑 및 자동 리퀴드를 위한 열 선택을 볼 수 있는 기능이 추가되었습니다.

지금 바로 계정팀에 문의하여 Data Governance Hub를 프라이빗 프리뷰로 체험해 보세요!

향상된 테이블 수준 스토리지 관찰 가능성

스토리지 사용 공간에 대한 명확성을 높이기 위해 Predictive Optimization을 위한 향상된 관찰 가능성 기능을 도입할 예정입니다. 파일 수 및 스토리지 증가와 같은 상위 수준 메트릭을 통해 테이블의 상태와 변화를 모니터링할 수 있습니다. 이러한 인사이트를 직접 제공함으로써 자동화된 유지 관리의 영향을 시각화하고, 비용을 절감하며 데이터 자산을 간소화할 새로운 기회를 더 쉽게 식별할 수 있도록 지원합니다.

예측 최적화 시작하기

Predictive Optimization은 현재 Unity Catalog 관리 테이블에서 사용할 수 있으며 새로운 워크로드에 대해 기본적으로 활성화됩니다.

활성화되면 고객은 더 빠른 VACUUM 실행, 워크로드 인식 자동 통계 및 자동 리퀴드 클러스터링을 통한 자율적인 데이터 layout의 이점을 자동으로 누릴 수 있습니다.

계정 팀에 문의하여 Private Preview를 통해 Auto TTL 및 Predictive Optimization 관찰 가능성(데이터 거버넌스 Hub)을 살펴볼 수도 있습니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)