Unity Catalog(UC)를 오픈 소스화한 지 1년이 지난 지금, 그 결과는 분명합니다. 개방성은 단순히 원칙이 아니라 실제로 효과가 있다는 것입니다.
그 이후로 수백 개의 기업이 Delta Lake, Apache Iceberg 및 최신 데이터 스택의 모든 주요 엔진에 걸쳐 개방적이고 상호 운용 가능한 거버넌스의 기반으로 Unity Catalog 를 채택했습니다. 개방형 표준에 대한 약속으로 시작된 것이 개방형 APIs, 파트너 통합, 대규모 고객 영향력으로 구성된 번성하는 생태계로 발전했습니다.
현재 Unity Catalog는 데이터 및 AI를 위한 가장 널리 채택된 오픈 카탈로그입니다. 데이터 팀은 더 이상 성능, 상호 운용성, 거버넌스 사이에서 절충할 필요 없이 이 모든 것을 누릴 수 있습니다.
2024년에는 외부 도구와의 상호 운용성을 향상시키기 위해 UC를 오픈 소스화하고 UC Open APIs를 출시했습니다. 이 APIs를 사용하면 어떤 엔진이든 간단하게 Unity Catalog에 안전하게 연결하고, Delta 및 Iceberg 테이블을 읽거나 쓰며, 자격 증명 벤딩과 중앙 집중식 액세스 정책을 통해 거버넌스를 자동으로 적용할 수 있습니다.
1년 후, 생태계가 그 자체로 모든 것을 말해줍니다:
이러한 모멘텀은 개방성과 거버넌스가 함께 작동할 때 상호 운용성이 가장 잘 확장된다는 것을 증명합니다.
Unity Catalog는 거버넌스, 액세스, 성능 전반에 걸쳐 Delta 및 Iceberg에 대한 최고 수준의 지원을 제공합니다. UC Open APIs와 Iceberg REST API를 통해 조직은 통합 액세스 정책을 준수하면서 테이블을 읽고, 쓰고, 생 성하여 모든 엔진을 안전하게 연결할 수 있습니다.
Unity Catalog는 외부 액세스를 간소화합니다.
개방성과 성능이 결합된 UC Managed Table을 활용하여 거버넌스를 한 단계 더 발전시키세요. Databricks에 최적화된 이 테이블은 Predictive Optimization과 Liquid Clustering을 사용하여 query 속도를 최대 20배 높이고 스토리지 비용을 50% 절감하는 동시에, 표준 APIs를 통해 완전히 개방적이고 액세스 가능한 상태를 유지합니다. Managed Table은 중앙 집중식 거버넌스, 개방형 포맷, 지능형 성능을 모두 하나로 통합한 새로운 표준입니다.
지난 1년간 UC 오픈 APIs는 수백 개의 조직이 형식 사일로를 해소하고, 거버넌스를 통합하며, 스택의 모든 부분에 걸쳐 상호 운용성을 확장하도록 지원했습니다.
PepsiCo: 다중 엔진 분석을 위한 통합 데이터 거버넌스
PepsiCo는 Kubernetes 기반 Spark와 같은 여러 compute 엔진으로 다양한 분석 에코시스템을 운영합니다. 기존에는 이러한 엔진이 UC를 우회하여 경로 기반 액세스를 통해 외부 테이블에 연결해야 했습니다. UC 오픈 APIs를 통해 PepsiCo는 이제 스토리지 수준의 해결 방법 없이 단일화된 중앙 집중식 거버넌스를 사용하여 관리형 테이블을 채택하고 외부 엔진이 데이터에 액세스할 수 있게 되었습니다.
Unity Catalog의 오픈 APIs를 통해 저희 팀은 거버넌스와 데이터 일관성을 유지하면서 각자 선호하는 도구를 사용할 수 있게 되었습니다. 여러 compute 엔진에서 작동하는 진정으로 상호 운용 가능한 데이터 및 AI 플랫폼 내에서 관리형 테이블의 이점을 활용할 수 있습니다.— Sudipta Das, 엔터프라이즈 데이터 운영 디렉터
Coinbase: 자격 증명 벤딩을 활용한 대규모 그래프 query
Coinbase는 PuppyGraph를 사용하여 매일 테라바이트의 데이터를 처리합니다. UC 개방형 APIs 및 자격 증명 발급은 ETL 파이프라인의 필요성을 없애 Coinbase가 정책을 적용하고 감사 Log를 캡처하면서 Delta 및 Iceberg 테이블을 직접 query할 수 있도록 합니다.
Unity Catalog의 개방형 APIs를 사용하여 PuppyGraph는 임시 자격 증명으로 매일 2TB 이상의 데이터를 query하고 대규모로 서비스 종속성을 분석할 수 있으며, 이 모든 작업을 UC에서 거버넌스를 중앙 집중화하여 처리 합니다.— Eric Sun, Coinbase 데이터 플랫폼 총괄
생태계 파트너십
Unity Catalog는 성장하는 파트너 생태계의 중심에 있으며, Databricks를 넘어 거버넌스를 확장합니다:
Starburst는 데이터 생태계 전반의 개방성과 상호 운용성에 대한 Databricks의 비전을 공유합니다. Databricks Unity Catalog와 통합함으로 써 고객은 모든 데이터에 대한 단일 진실 공급원을 생성하고, 중앙화된 거버넌스와 함께 원하는 도구를 유연하게 활용할 수 있습니다.— Starburst Data CEO, Justin Borgman
Unity Catalog는 lakehouse를 위한 가장 개방적이고 상호 운용성이 뛰어난 거버넌스 레이어로서 계속해서 발전하고 있습니다. 다음 출시 예정 기능:
Unity Catalog Open APIs는 Delta 및 Iceberg 클라이언트 모두에서 사용할 수 있습니다. 시작하기:
지금 바로 UC Open APIs로 Start 구축을 시작하여 상호 운용성과 통합 거버넌스 구현이 얼마나 쉬운지 확인해 보세요. Unity Catalog를 시작하려면 AWS, Azure, GCP에 대한 가이드를 따르세요.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
