내장 AI 최적화는 수동 튜닝이 필요 없이 비용을 50% 이상 절감하고 쿼리를 20배 빠르게 제공합니다
작성자: 엘리자베스 보먼
Unity Catalog (UC) 관리 테이블 은 강력한 거버넌스 와 무봉쇄 상호 운용성 을 결합합니다. 데이터는 고객이 소유한 클라우드 저장소에 위치하므로, 조직은 물리적 위치에 대한 완전한 제어권을 유지하면서 Databricks의 내장 지능 과 자동화의 혜택을 누릴 수 있습니다.
오늘날, UC 관리 테이블은 Databricks에서 가장 일반적으로 사용되는 테이블 유형입니다. 모든 UC 테이블 중 세 개 중 두 개가 관리되고 있습니다. 이 채택은 그것이 대규모에서 운영을 단순화하고 비용을 줄이며 성능을 향상시키는 능력을 반영합니다.
UC 관리 테이블을 사용하면 조직은 항상 최신 테이블 기능을 사용하고 있다는 것을 확신할 수 있습니다. 이 테이블들은 자동으로 업그레이드되며, 다른 테이블 유형과 달리 사용 패턴을 이해하여 새로운 기능을 안전하고 점진적으로 활성화할 수 있습니다. 수동 개입 없이 말이죠.

UC 관리 테이블의 구조는 고급 AI 기능 이전에는 불가능했던 것들을 가능하게 합니다. 모든 읽기와 쓰기가 Unity Catalog를 통해 이루어지므로, Databricks는 데이터를 지능적으로 최적화 하여 쿼리 성능을 향상시키고, 저장소 비용을 줄이며, 일상적인 유지 관리를 제거할 수 있습니다.
주요 이점은 다음과 같습니다:
이 블로그에서는 UC 관리 테이블을 효과적 으로 만드는 기능에 대해 깊이 있게 살펴보고, 최근의 개선 사항과 로드맵에 대한 미리보기를 제공할 것입니다.
"Unity Catalog 관리 테이블의 자동 최적화는 저장 비용에서 연간 100만 달러 이상을 절약 하면서 매일의 지루한 수동 작업을 제거하는 데 도움이 되었습니다." —Abhinav Raghuvanshi, Zepto의 데이터 엔지니어링 부문 부사장
UC 관리 테이블은 기본적으로 최적화되며, 수동 튜닝이 필요하지 않습니다. 그들은 쿼리 작업 부하에 따라 지속적으로 적응하여 성능을 향상시키고, 저장 비용을 줄이며, 생명주기 관리를 간소화합니다.
UC 관리 테이블은 자동 진공청소, 파일 압축, 메타데이터 캐싱과 같은 내장 기능을 통해 작업을 단순화합니다. Delta와 Iceberg와 같은 오픈 포맷에 기반을 둔 UC 관리 테이블은 제3자 도구와 엔진과 쉽게 통합됩니다.
UC 관리 테이블은 AI 기반 기술을 적용하여 비용 절감 50% 이상과 쿼리 속도 20배 이상 향상을 제공합니다:
UC 관리 테이블은 수동 구성이 필요 없이 관찰된 쿼리 패턴에 따라 데이터를 자동으로 클러스터링합니다. 반면, UC 외부 테이블은 데이터 엔지니어가 OPTIMIZE 명령을 실행하고 클러스터링 키를 수동으로 정의해야 합니다. 관리 테이블에서는 예측 최적화가 동적으로 클러스터링 을 처리하여 추가적인 노력 없이 쿼리 성능을 향상시키고 저장 비용을 줄입니다. [더 읽기]

UC 관리 테이블에서는 예측 최적화가 VACUUM 작업이 유익할 때를 자동으로 식별하고 이를 스케줄링합니다. VACUUM은 정의된 보존 기간 후에 삭제된 행과 관련된 파일을 제거하여 저장소 사용량을 줄입니다. UC 외부 테이블의 경우, 이 과정은 VACUUM 명령을 실행하여 수동으로 관리해야 합니다.

UC 관리 테이블이 삭제되면, 클라우드 저장소의 기본 데이터는 7일 후에 자동으로 삭제되어 저장 비용을 줄이고 고아 파일을 방지합니다. 반면, UC 외부 테이블을 삭제하면 데이터는 삭제되지 않습니다. 사용자는 저장소 버킷에서 파일을 수동으로 제거해야 합니다. 이 단계를 놓치면 데이터가 남아 있어 불필요한 저장소 사용량이 발생합니다. 이 행동에 대한 개선 사항이 예정된 로드맵 섹션을 참조하 십시오.
UC 관리 테이블은 데이터 스킵과 조인 계획을 더 스마트하게 만드는 통계를 자동으로 수집합니다. 최소 및 최대 열 값과 같은 주요 지표는 시스템이 쿼리 실행 중에 관련 없는 파일을 식별하고 건너뛰는 데 도움이 됩니다, 이로 인해 계산 오버헤드가 줄어듭니다. UC 외부 테이블은 기본적으로 첫 32개 열에 대한 통계를 생성하는 반면, UC 관리 테이블은 실제 쿼리 작업 부하와 가장 관련이 있는 열을 동적으로 우선 순위를 정합니다. [더 읽기]

UC 관리 테이블은 트랜잭션 메타데이터의 인메모리 캐싱을 사용하여 클라우드 기반 트랜잭션 로그에 대한 접근을 줄입니다. 이로 인해 컴퓨팅 비용이 줄어들고 쿼리 계획 성능이 향상됩니다. 이 기능은 Databricks가 모든 쓰기를 추적하고 캐시된 메타데이터가 현재 상태와 일치하도록 보장할 수 있는 UC 관리 테이블에 독점적입니다.

Databricks는 AI를 사용하여 파일을 최적의 크기로 자동으로 압축합니다. 이 최적화는 데이터가 쓰여질 때 발생하며, 파일 단편화와 스캔 오버헤드를 줄여 쿼리 성능을 향상시킵니다. [더 읽기]

UC 관리 테이블은 Delta와 Iceberg와 같은 오픈 포맷을 기반으로 하여 현대 데이터 생태계 전반에 걸쳐 넓은 호환성을 제공합니다. 이들은 모든 엔진에서 접근 가능합니다 이 포맷을 지원하는 Trino, DuckDB, Apache Spark™, Daft, 그리고 Iceberg REST 카탈로그와 통합된 도구, 예를 들어 Dremio와 같은 것들입니다.
Open API와 자격 증명 발급을 통해 안전한 접근이 가능하며, 이를 통해 외부 도구가 중복 없이 거버넌스 데이터와 상호 작용할 수 있습니다. 이는 아키텍처를 단순화하고 분석 및 AI 작업 부하 간의 단일 진실 원천을 가능하게 합니다.
제3자 쓰기 지원도 확대되고 있습니다. 사적 미리보기에서, UC 관리 테이블은 이제 비-Databricks Delta 클라이언트로부터의 쓰기를 받아 들이며, 이는 Unity Catalog 거버넌스를 유지하면서 외부 처리 프레임워크와의 통합을 용이하게 합니다.
Delta Sharing, 업계 유일의 오픈 공유 프로토콜,은 상호 운용성을 더욱 강화하여, Databricks를 사용하지 않는 수신자에게도 기본 데이터에 대한 안전한 읽기 전용 접근을 허용합니다. 이러한 기능들은 플랫폼, 파트너, 애플리케이션 간에 거버넌스 데이터 접근을 확장하는 데 도움이 됩니다.
이러한 최적화는 데이터 레이아웃 수준에서 적용되므로, 성능 향상은 보편적입니다. 외부 도구는 동일한 클러스터 레이아웃, 압축된 파일, 풍부한 통계를 활용하여 엔진에 관계없이 더 빠른 쿼리와 더 효율적인 읽기를 제공합니다.
곧 UC 관리 테이블을 더욱 강력하고 유연하게 만들어 줄 몇 가지 새로운 기능이 출시될 예정입니다:
사용되지 않는 테이블, 보유 기간, 테이블 크기 추세, 사용자 정의 메타데이터에 대한 가시성을 향상시켜 비용을 관리하고 모범 사례를 강제하는 데 도움이 됩니다.
삭제된 테이블의 보유 기간을 사용자 정의하고, 저장 비용을 더욱 줄이기 위한 즉시 삭제 지원을 포함합니다.
카탈로그와 스키마 간에 테이블을 이동시키는 명령어는 팀이 환경이 변화함에 따라 데이터셋을 논리적으로 구성하는 데 도움이 됩니다.
여러 테이블 간의 원자성 커밋 지원. 어떤 작업이 실패하면 전체 트랜잭션이 롤 백되어 복잡한 데이터 작업에 대한 신뢰성이 향상됩니다.
UC 관리 테이블은 기본적으로 활성화되어 있으며, 새로운 테이블을 생성하거나 기존 테이블을 변환하는 것이 쉽습니다.
새로운 작업 부하의 경우, UC 관리 테이블은 저장 위치를 지정할 필요 없이 생성됩니다. Databricks는 고객 소유의 클라우드 저장소에서 데이터 경로를 자동으로 관리합니다:
CREATE OR REPLACE TABLE catalog.schema.my_managed_table
관리 테이블로 전환을 원하는 조직은 다음 명령을 사용하여 외부 UC 테이블을 변환할 수 있습니다:
ALTER TABLE catalog.schema.my_external_table SET MANAGED
보기 문서 그리고 이 양식을 사용하여 게이트가 있는 공개 미리보기에 대한 액세스를 요청하십시오.
외부 테이블 유형에서 이동하는 팀의 경우, UC 관리 테이블로의 변환은 프라이빗 프리뷰에서 가능합니다. 이를 통해 통합 카탈로그 하에서 거버넌스와 최적화를 통합하는 것이 더 쉬워집니다. 이 게이트된 프리뷰에 접근하려면 이 양식을 사용하여 요청할 수 있습니다.
관리 테이블에 대한 제3자 쓰기, 다중 테이블 트랜잭션, 스키마 재구성과 같은 기능을 실험하려면, Databricks 계정 팀에 연락하여 관련 미리보기 프로그램에 참여하십시오.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.