Unity Catalog (UC) 관리 테이블 은 강력한 거버넌스 와 무봉쇄 상호 운용성 을 결합합니다. 데이터는 고객이 소유한 클라우드 저장소에 위치하므로, 조직은 물리적 위치에 대한 완전한 제어권을 유지하면서 Databricks의 내장 지능 과 자동화의 혜택을 누릴 수 있습니다.
오늘날, UC 관리 테이블은 Databricks에서 가장 일반적으로 사용되는 테이블 유형입니다. 모든 UC 테이블 중 세 개 중 두 개가 관리되고 있습니다. 이 채택은 그것이 대규모에서 운영을 단순화하고 비용을 줄이며 성능을 향상시키는 능력을 반영합니다.
UC 관리 테이블을 사용하면 조직은 항상 최신 테이블 기능을 사용하고 있다는 것을 확신할 수 있습니다. 이 테이블들은 자동으로 업그레이드되며, 다른 테이블 유형과 달리 사용 패턴을 이해하여 새로운 기능을 안전하고 점진적으로 활성화할 수 있습니다. 수동 개입 없이 말이죠.

UC 관리 테이블의 구조는 고급 AI 기능 이전에는 불가능했던 것들을 가능하게 합니다. 모든 읽기와 쓰기가 Unity Catalog를 통해 이루어지므로, Databricks는 데이터를 지능적으로 최적화 하여 쿼리 성능을 향상시키고, 저장소 비용을 줄이며, 일상적인 유지 관리를 제거할 수 있습니다.
주요 이점은 다음과 같습니다:
이 블로그에서는 UC 관리 테이블을 효과적으로 만드는 기능에 대해 깊이 있게 살펴보고, 최근의 개선 사항과 로드맵에 대한 미리보기를 제공할 것입니다.
"Unity Catalog 관리 테이블의 자동 최적화는 저장 비용에서 연간 100만 달러 이상을 절약 하면서 매일의 지루한 수동 작업을 제거하는 데 도움이 되었습니다." —Abhinav Raghuvanshi, Zepto의 데이터 엔지니어링 부문 부사장
UC 관리 테이블은 기본적으로 최적화되며, 수동 튜닝이 필요하지 않습니다. 그들은 쿼리 작업 부하에 따라 지속적으로 적응하여 성능을 향상시키고, 저장 비용을 줄이며, 생명주기 관리를 간소화합니다.
UC 관리 테이블은 자동 진공청소, 파일 압축, 메타데이터 캐싱과 같은 내장 기능을 통해 작업을 단순화합니다. Delta와 Iceberg와 같은 오픈 포맷에 기반을 둔 UC 관리 테이블은 제3자 도구와 엔진과 쉽게 통합됩니다.
UC 관리 테이블은 AI 기반 기술을 적용하여 비용 절감 50% 이상과 쿼리 속도 20배 이상 향상을 제공합니다:
UC 관리 테이블은 수동 구성이 필요 없이 관찰된 쿼리 패턴에 따라 데이터를 자동으로 클러스터링합니다. 반면, UC 외부 테이블은 데이터 엔지니어가 OPTIMIZE 명령을 실행하고 클러스터링 키를 수동으로 정의해야 합니다. 관리 테이블에서는 예측 최적화가 동적으로 클러스터링을 처리하여 추가적인 노력 없이 쿼리 성능을 향상시키고 저장 비용을 줄입니다. [더 읽기]

UC 관리 테이블에서는 예측 최적화가 VACUUM 작업이 유익할 때를 자동으로 식별하고 이를 스케줄링합니다. VACUUM은 정의된 보존 기간 후에 삭제된 행과 관련된 파일을 제거하여 저장소 사용량을 줄입니다. UC 외부 테이블의 경우, 이 과정은 VACUUM 명령을 실행하여 수동으로 관리해야 합니다.
