2025년 6월 30일

Unity Catalog 관리 테이블이 어떻게 대규모 성능을 자동화하는지

내장 AI 최적화는 수동 튜닝이 필요 없이 비용을 50% 이상 절감하고 쿼리를 20배 빠르게 제공합니다

데이터 관리에 대한 표준 최선의 사례인 Unity Catalog (UC) 관리 테이블의 기능에 대해 알아보기
UC 관리 테이블에서 예측 최적화를 통해 비용을 50% 이상 절감하고 쿼리 성능을 20배 이상 향상시키기
사용 패턴에 적응하는 자동, 지능적인 데이터 최적화를 통해 데이터 엔지니어링 시간 절약하기

Unity Catalog (UC) 관리 테이블 은 강력한 거버넌스 와 무봉쇄 상호 운용성 을 결합합니다. 데이터는 고객이 소유한 클라우드 저장소에 위치하므로, 조직은 물리적 위치에 대한 완전한 제어권을 유지하면서 Databricks의 내장 지능 과 자동화의 혜택을 누릴 수 있습니다.

오늘날, UC 관리 테이블은 Databricks에서 가장 일반적으로 사용되는 테이블 유형입니다. 모든 UC 테이블 중 세 개 중 두 개가 관리되고 있습니다. 이 채택은 그것이 대규모에서 운영을 단순화하고 비용을 줄이며 성능을 향상시키는 능력을 반영합니다.

UC 관리 테이블을 사용하면 조직은 항상 최신 테이블 기능을 사용하고 있다는 것을 확신할 수 있습니다. 이 테이블들은 자동으로 업그레이드되며, 다른 테이블 유형과 달리 사용 패턴을 이해하여 새로운 기능을 안전하고 점진적으로 활성화할 수 있습니다. 수동 개입 없이 말이죠.

이미지는 AI가 지원하는 데이터 최적화 생명주기를 보여줍니다. 모델은 테이블 데이터와 쿼리 패턴에서 학습하고, 최적의 최적화를 예측하고, 이를 자동으로 실행하며, 피드백 루프에서 테이블 데이터와 쿼리 패턴의 변화를 관찰합니다.

UC 관리 테이블의 구조는 고급 AI 기능 이전에는 불가능했던 것들을 가능하게 합니다. 모든 읽기와 쓰기가 Unity Catalog를 통해 이루어지므로, Databricks는 데이터를 지능적으로 최적화 하여 쿼리 성능을 향상시키고, 저장소 비용을 줄이며, 일상적인 유지 관리를 제거할 수 있습니다.

주요 이점은 다음과 같습니다:

최신 기능으로 자동 업그레이드
압축, 클러스터링, 및 백업을 통한 자체 유지 관리
지능형 최적화를 통한 저장 및 계산 비용 절감
Open API를 통한 안전한 접근, 비-Databricks 클라이언트도 가능
Databricks 내에서뿐만 아니라 모든 클라이언트에서 더 빠른 쿼리

이 블로그에서는 UC 관리 테이블을 효과적으로 만드는 기능에 대해 깊이 있게 살펴보고, 최근의 개선 사항과 로드맵에 대한 미리보기를 제공할 것입니다.

"Unity Catalog 관리 테이블의 자동 최적화는 저장 비용에서 연간 100만 달러 이상을 절약 하면서 매일의 지루한 수동 작업을 제거하는 데 도움이 되었습니다." —Abhinav Raghuvanshi, Zepto의 데이터 엔지니어링 부문 부사장

Unity Catalog 관리형 테이블의 이점은 무엇인가요?

UC 관리 테이블은 기본적으로 최적화되며, 수동 튜닝이 필요하지 않습니다. 그들은 쿼리 작업 부하에 따라 지속적으로 적응하여 성능을 향상시키고, 저장 비용을 줄이며, 생명주기 관리를 간소화합니다.

UC 관리 테이블은 자동 진공청소, 파일 압축, 메타데이터 캐싱과 같은 내장 기능을 통해 작업을 단순화합니다. Delta와 Iceberg와 같은 오픈 포맷에 기반을 둔 UC 관리 테이블은 제3자 도구와 엔진과 쉽게 통합됩니다.

지능형 최적화가 비용 및 성능 향상을 주도합니다

UC 관리 테이블은 AI 기반 기술을 적용하여 비용 절감 50% 이상과 쿼리 속도 20배 이상 향상을 제공합니다:

자동 Liquid 클러스터링

UC 관리 테이블은 수동 구성이 필요 없이 관찰된 쿼리 패턴에 따라 데이터를 자동으로 클러스터링합니다. 반면, UC 외부 테이블은 데이터 엔지니어가 OPTIMIZE 명령을 실행하고 클러스터링 키를 수동으로 정의해야 합니다. 관리 테이블에서는 예측 최적화가 동적으로 클러스터링을 처리하여 추가적인 노력 없이 쿼리 성능을 향상시키고 저장 비용을 줄입니다. [더 읽기]

자동 액체 클러스터링은 파일의 90%를 건너뛰어 더 빠른 쿼리와 낮은 컴퓨팅 비용을 제공합니다

자동 VACUUM

UC 관리 테이블에서는 예측 최적화가 VACUUM 작업이 유익할 때를 자동으로 식별하고 이를 스케줄링합니다. VACUUM은 정의된 보존 기간 후에 삭제된 행과 관련된 파일을 제거하여 저장소 사용량을 줄입니다. UC 외부 테이블의 경우, 이 과정은 VACUUM 명령을 실행하여 수동으로 관리해야 합니다.

자동 백업은 활성 테이블에서 더 이상 참조되지 않는 데이터를 삭제하여 저장 공간을 절약합니다

자동 정리와 함께 연기된 DROP

UC 관리 테이블이 삭제되면, 클라우드 저장소의 기본 데이터는 7일 후에 자동으로 삭제되어 저장 비용을 줄이고 고아 파일을 방지합니다. 반면, UC 외부 테이블을 삭제하면 데이터는 삭제되지 않습니다. 사용자는 저장소 버킷에서 파일을 수동으로 제거해야 합니다. 이 단계를 놓치면 데이터가 남아 있어 불필요한 저장소 사용량이 발생합니다. 이 행동에 대한 개선 사항이 예정된 로드맵 섹션을 참조하십시오.

자동 통계 수집

UC 관리 테이블은 데이터 스킵과 조인 계획을 더 스마트하게 만드는 통계를 자동으로 수집합니다. 최소 및 최대 열 값과 같은 주요 지표는 시스템이 쿼리 실행 중에 관련 없는 파일을 식별하고 건너뛰는 데 도움이 됩니다, 이로 인해 계산 오버헤드가 줄어듭니다. UC 외부 테이블은 기본적으로 첫 32개 열에 대한 통계를 생성하는 반면, UC 관리 테이블은 실제 쿼리 작업 부하와 가장 관련이 있는 열을 동적으로 우선 순위를 정합니다. [더 읽기]

이미지는 자동 통계가 자동으로 수집되어 관련 없는 파일을 건너뛸 수 있도록 하는 방법을 보여줍니다. 이로 인해 쿼리가 더 빠르게 실행되고 계산 비용이 줄어듭니다.

메타데이터 캐싱

UC 관리 테이블은 트랜잭션 메타데이터의 인메모리 캐싱을 사용하여 클라우드 기반 트랜잭션 로그에 대한 접근을 줄입니다. 이로 인해 컴퓨팅 비용이 줄어들고 쿼리 계획 성능이 향상됩니다. 이 기능은 Databricks가 모든 쓰기를 추적하고 캐시된 메타데이터가 현재 상태와 일치하도록 보장할 수 있는 UC 관리 테이블에 독점적입니다.

메타데이터 캐싱은 클라우드 저장소에 대한 호출 횟수를 줄여 쿼리를 가속화합니다

파일 크기 최적화

Databricks는 AI를 사용하여 파일을 최적의 크기로 자동으로 압축합니다. 이 최적화는 데이터가 쓰여질 때 발생하며, 파일 단편화와 스캔 오버헤드를 줄여 쿼리 성능을 향상시킵니다. [더 읽기]

Unity 카탈로그 관리 테이블은 파일을 적절한 크기로 자동으로 압축합니다.

디자인에 의한 개방성과 상호 운용성

UC 관리 테이블은 Delta와 Iceberg와 같은 오픈 포맷을 기반으로 하여 현대 데이터 생태계 전반에 걸쳐 넓은 호환성을 제공합니다. 이들은 모든 엔진에서 접근 가능합니다 이 포맷을 지원하는 Trino, DuckDB, Apache Spark™, Daft, 그리고 Iceberg REST 카탈로그와 통합된 도구, 예를 들어 Dremio와 같은 것들입니다.

Open API와 자격 증명 발급을 통해 안전한 접근이 가능하며, 이를 통해 외부 도구가 중복 없이 거버넌스 데이터와 상호 작용할 수 있습니다. 이는 아키텍처를 단순화하고 분석 및 AI 작업 부하 간의 단일 진실 원천을 가능하게 합니다.

제3자 쓰기 지원도 확대되고 있습니다. 사적 미리보기에서, UC 관리 테이블은 이제 비-Databricks Delta 클라이언트로부터의 쓰기를 받아들이며, 이는 Unity Catalog 거버넌스를 유지하면서 외부 처리 프레임워크와의 통합을 용이하게 합니다.

Delta Sharing, 업계 유일의 오픈 공유 프로토콜,은 상호 운용성을 더욱 강화하여, Databricks를 사용하지 않는 수신자에게도 기본 데이터에 대한 안전한 읽기 전용 접근을 허용합니다. 이러한 기능들은 플랫폼, 파트너, 애플리케이션 간에 거버넌스 데이터 접근을 확장하는 데 도움이 됩니다.

이러한 최적화는 데이터 레이아웃 수준에서 적용되므로, 성능 향상은 보편적입니다. 외부 도구는 동일한 클러스터 레이아웃, 압축된 파일, 풍부한 통계를 활용하여 엔진에 관계없이 더 빠른 쿼리와 더 효율적인 읽기를 제공합니다.

로드맵에 무엇이 있는가

곧 UC 관리 테이블을 더욱 강력하고 유연하게 만들어 줄 몇 가지 새로운 기능이 출시될 예정입니다:

테이블 레벨 관찰 가능성

사용되지 않는 테이블, 보유 기간, 테이블 크기 추세, 사용자 정의 메타데이터에 대한 가시성을 향상시켜 비용을 관리하고 모범 사례를 강제하는 데 도움이 됩니다.

UNDROP 기간 설정 가능

삭제된 테이블의 보유 기간을 사용자 정의하고, 저장 비용을 더욱 줄이기 위한 즉시 삭제 지원을 포함합니다.

스키마 및 카탈로그 재구성 도구

카탈로그와 스키마 간에 테이블을 이동시키는 명령어는 팀이 환경이 변화함에 따라 데이터셋을 논리적으로 구성하는 데 도움이 됩니다.

다중 문장 및 다중 테이블 트랜잭션 (사적 미리보기)

여러 테이블 간의 원자성 커밋 지원. 어떤 작업이 실패하면 전체 트랜잭션이 롤백되어 복잡한 데이터 작업에 대한 신뢰성이 향상됩니다.

UC 관리 테이블 시작하기

UC 관리 테이블은 기본적으로 활성화되어 있으며, 새로운 테이블을 생성하거나 기존 테이블을 변환하는 것이 쉽습니다.

새로운 관리 테이블 생성

새로운 작업 부하의 경우, UC 관리 테이블은 저장 위치를 지정할 필요 없이 생성됩니다. Databricks는 고객 소유의 클라우드 저장소에서 데이터 경로를 자동으로 관리합니다:

CREATE OR REPLACE TABLE catalog.schema.my_managed_table

기존의 UC 외부 테이블을 관리 테이블로 변환

관리 테이블로 전환을 원하는 조직은 다음 명령을 사용하여 외부 UC 테이블을 변환할 수 있습니다:

ALTER TABLE catalog.schema.my_external_table SET MANAGED

보기 문서 그리고 이 양식을 사용하여 게이트가 있는 공개 미리보기에 대한 액세스를 요청하십시오.

외부 테이블 변환 (non-UC)

외부 테이블 유형에서 이동하는 팀의 경우, UC 관리 테이블로의 변환은 프라이빗 프리뷰에서 가능합니다. 이를 통해 통합 카탈로그 하에서 거버넌스와 최적화를 통합하는 것이 더 쉬워집니다. 이 게이트된 프리뷰에 접근하려면 이 양식을 사용하여 요청할 수 있습니다.

미리보기에서 고급 기능 시도해보기

관리 테이블에 대한 제3자 쓰기, 다중 테이블 트랜잭션, 스키마 재구성과 같은 기능을 실험하려면, Databricks 계정 팀에 연락하여 관련 미리보기 프로그램에 참여하십시오.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)