Unity Catalog (UC) 관리 테이블 은 강력한 거버넌스 와 무봉쇄 상호 운용성 을 결합합니다. 데이터는 고객이 소유한 클라우드 저장소에 위치하므로, 조직은 물리적 위치에 대한 완전한 제어권을 유지하면서 Databricks의 내장 지능 과 자동화의 혜택을 누릴 수 있습니다.
오늘날, UC 관리 테이블은 Databricks에서 가장 일반적으로 사용되는 테이블 유형입니다. 모든 UC 테이블 중 세 개 중 두 개가 관리되고 있습니다. 이 채택은 그것이 대규모에서 운영을 단순화하고 비용을 줄이며 성능을 향상시키는 능력을 반영합니다.
UC 관리 테이블을 사용하면 조직은 항상 최신 테이블 기능을 사용하고 있다는 것을 확신할 수 있습니다. 이 테이블들은 자동으로 업그레이드되며, 다른 테이블 유형과 달리 사용 패턴을 이해하여 새로운 기능을 안전하고 점진적으로 활성화할 수 있습니다. 수동 개입 없이 말이죠.

UC 관리 테이블의 구조는 고급 AI 기능 이전에는 불가능했던 것들을 가능하게 합니다. 모든 읽기와 쓰기가 Unity Catalog를 통해 이루어지므로, Databricks는 데이터를 지능적으로 최적화 하여 쿼리 성능을 향상시키고, 저장소 비용을 줄이며, 일상적인 유지 관리를 제거할 수 있습니다.
주요 이점은 다음과 같습니다:
이 블로그에서는 UC 관리 테이 블을 효과적으로 만드는 기능에 대해 깊이 있게 살펴보고, 최근의 개선 사항과 로드맵에 대한 미리보기를 제공할 것입니다.
"Unity Catalog 관리 테이블의 자동 최적화는 저장 비용에서 연간 100만 달러 이상을 절약 하면서 매일의 지루한 수동 작업을 제거하는 데 도움이 되었습니다." —Abhinav Raghuvanshi, Zepto의 데이터 엔지니어링 부문 부사장
UC 관리 테이블은 기본적으로 최적화되며, 수동 튜닝이 필요하지 않습니다. 그들은 쿼리 작업 부하에 따라 지속적으로 적응하여 성능을 향상시키고, 저장 비용을 줄이며, 생명주기 관리를 간소화합니다.
UC 관리 테이블은 자동 진공청소, 파일 압축, 메타데이터 캐싱과 같은 내장 기능을 통해 작업을 단순화합니다. Delta와 Iceberg와 같은 오픈 포맷에 기반을 둔 UC 관리 테이블은 제3자 도구와 엔진과 쉽게 통합됩니다.
UC 관리 테이블은 AI 기반 기술을 적용하여 비용 절감 50% 이상과 쿼리 속도 20배 이상 향상을 제공합니다:
UC 관리 테이블은 수동 구성이 필요 없이 관찰된 쿼리 패턴에 따라 데이터를 자동으로 클러스터링합니다. 반면, UC 외부 테이블은 데이터 엔지니어가 OPTIMIZE 명령을 실행하고 클러스터링 키를 수동으로 정의해야 합니다. 관리 테이블에서는 예측 최적화가 동적으로 클러스터링을 처리하여 추가적인 노력 없이 쿼리 성능을 향상시키고 저장 비용을 줄입니다. [더 읽기]

UC 관리 테이블에서는 예측 최적화가 VACUUM 작업이 유익할 때를 자동으로 식별하고 이를 스케줄링합니다. VACUUM은 정의된 보존 기간 후에 삭제된 행과 관련된 파일을 제거하여 저장소 사용량을 줄입니다. UC 외부 테이블의 경우, 이 과정은 VACUUM 명령을 실행하여 수동으로 관리해야 합니다.

UC 관리 테이블이 삭제되면, 클라우드 저장소의 기본 데이터는 7일 후에 자동으로 삭제되어 저장 비용을 줄이고 고아 파일을 방지합니다. 반면, UC 외부 테이블을 삭제하면 데이터는 삭제되지 않습니다. 사용자는 저장소 버킷에서 파일을 수동으로 제거해야 합니다. 이 단계를 놓치면 데이터가 남아 있어 불필요한 저장소 사용량이 발생합니다. 이 행동에 대한 개선 사항이 예정된 로드맵 섹션을 참조하십시오.
UC 관리 테이블은 데이터 스킵과 조인 계획을 더 스마트하게 만드는 통계를 자동으로 수집합니다. 최소 및 최대 열 값과 같은 주요 지표는 시스템이 쿼리 실행 중에 관련 없는 파일을 식별하고 건너뛰는 데 도움이 됩니다, 이로 인해 계산 오버헤드가 줄어듭니다. UC 외부 테이블은 기본적으로 첫 32개 열에 대한 통계를 생성하는 반면, UC 관리 테이블은 실제 쿼리 작업 부하와 가장 관련이 있는 열을 동적으로 우선 순위를 정합니다. [더 읽기]

UC 관리 테이블은 트랜잭션 메타데이터의 인메모리 캐싱을 사용하여 클라우드 기반 트랜잭션 로그에 대한 접근을 줄입니다. 이로 인해 컴퓨팅 비용이 줄어들고 쿼리 계획 성능이 향상됩니다. 이 기능은 Databricks가 모든 쓰기를 추적하고 캐시된 메타데이터가 현재 상태와 일치하도록 보장할 수 있는 UC 관리 테이블에 독점적입니다.

