AWS S3 데이터를 Azure Databricks에서 Unity Catalog 를 통해 접근할 수 있는 기능이 일반적으로 사용 가능해졌다는 사실을 발표 하게 되어 기쁩니다. 모든 데이터와 AI 자산에 대한 업계 유일의 통합된 오픈 거버넌스 솔루션인 Unity Catalog는 조직이 어디에서든 데이터를 관리할 수 있게 해주어 보안, 준수, 클라우드 간 상호 운용성을 보장합니다. 이번 릴리스를 통해 팀은 데이터 세트를 이동하거나 복사할 필요 없이 Azure Databricks에서 AWS S3 데이터를 직접 구성하고 쿼리할 수 있게 되었습니다. 이로써 ADLS와 S3 저장소 모두에 걸쳐 정책, 접근 제어, 감사를 표준화하는 것이 더욱 쉬워졌습니다.
이 블로그에서는 두 가지 주요 주제를 다룰 예정입니다:
기업들이 하이브리드 및 크로스 클라우드 아키텍처를 채택함에 따라, 종종 접근 제어가 파편화되고, 보안 정책이 일관성이 없으며, 거버넌스 프로세스가 중복됩니다. 이러한 복잡성은 위험을 증가시키고, 운영 비용을 높이며, 혁신을 늦춥니다.
Unity Catalog를 이용한 크로스 클라우드 데이터 관리는 단일 권한 모델, 중앙 집중식 정책 강제, 그리고 AWS S3와 Azure Data Lake Storage와 같은 여러 클라우드에 저장된 데이터에 대한 종합적인 감사를 확장함으로써 이를 단순화합니다. 이 모든 것은 Databricks Platform 내에서 관리됩니다.
Unity Catalog에서 크로스 클라우드 데이터 관리를 활용하는 주요 이점은 다음과 같습니다:
클라우드 간 거버넌스를 연결함으로써, Unity Catalog는 팀이 그들의 모든 데이터와 AI 자산의 가치를 극대화하고 관리할 수 있는 단일하고 안전한 인터페이스를 제공합니다—그들이 어디에 있든간에.
이전에는 Azure Databricks를 사용할 때, Unity Catalog는 ADLS 내의 저장 위치만 지원했습니다. 이는 AWS S3 버킷에 데이터를 저장하고 있지만 Azure Databricks의 Unity Catalog로 접근하고 처리해야 하는 경우, 전통적인 접근 방식은 그 데이터를 ADLS 컨테이너로 추출, 변환, 로드(ETL)하는 과정을 필요로 했음을 의미합니다—이는 비용이 많이 들고 시간이 많이 소요되는 과정입니다. 이는 또한 중복되거나 오래된 데이터 복사본을 유지하는 위험을 증가시킵니다.
이번 GA 릴리스를 통해 이제 Azure Databricks의 Unity Catalog에서 외부 크로스 클라우드 S3 위치를 직접 설정할 수 있습니다. 이를 통해 마이그레이션 또는 중복 없이 S3 데이터를 원활하게 읽고 관리할 수 있습니다.
몇 가지 간단한 단계로 AWS S3 버킷에 대한 액세스를 구성할 수 있습니다:
3. 쿼리 시작! Azure Databricks 작업 공간에서 직접 S3 데이터를 쿼리할 준비가 되었습니다.
GA를 통해 이제 Azure Databricks에서 S3의 외부 테이블과 볼륨에 액세스하는 것을 지원합니다. 구체적으로, 다음 기능들이 이제 읽기 전용 용량으로 지원됩니다:
Azure Databricks에서 크로스 클라우드 데이터 거버넌스를 시도해 보려면,IAM 역할을 위한 저장소 자격 증명 설정 방법 에 대한 문서를 확인해 보세요. Azure Databricks에서 S3 저장소를 위한 것입니다. 클라우드 제공자가 그들의 클라우드 서비스 외부에서 데이터에 접근하는 데 대한 요금을 부과할 수 있다는 점을 주의해야 합니다. Unity Catalog를 시작하려면, Azure 를 위한 Unity Catalog 가이드를 따르세요.
6월 9일부터 12일까지 샌프란시스코의 Moscone Center에서 열리는 Data + AI Summit에서 Unity Catalog 제품 및 엔지니어링 팀에 참여하세요! 데이터 및 AI 관리의 최신 혁신을 첫 눈에 보실 수 있습니다. 지금 등록하여 자리를 확보하세요!
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)