2025년 5월 21일

크로스 클라우드 데이터 거버넌스 정식 출시(GA) 발표

안전한 Azure Databricks 환경 내에서 Unity Catalog를 사용하여 모든 S3 데이터를 액세스하고 관리하세요

Azure Databricks의 Unity Catalog가 이제 AWS S3 데이터에 대한 직접 액세스를 지원하므로, S3와 ADLS 모두에서 액세스 제어, 정책 및 감사를 통합할 수 있습니다.
이제 팀은 데이터를 마이그레이션하거나 복제할 필요 없이 Azure Databricks에서 직접 S3 데이터를 구성하고 쿼리할 수 있습니다.
정식 출시(GA) 버전은 Azure Databricks 내에서 S3 외부 테이블, 볼륨 및 AWS IAM 기반 자격 증명과 같은 읽기 전용 기능을 지원합니다.

이제 Unity Catalog를 통해 Azure Databricks에서 AWS S3 데이터에 액세스하여 크로스 클라우드 데이터 거버넌스를 구현하는 기능이 정식 출시(GA)되었음을 기쁜 마음으로 발표합니다. 모든 데이터 및 AI 자산을 위한 업계 유일의 통합 개방형 거버넌스 솔루션인 Unity Catalog는 조직이 데이터가 어디에 있든 안전하게 관리하고, 클라우드 전반에서 보안, 규정 준수 및 상호 운용성을 보장할 수 있도록 지원합니다. 이번 출시를 통해 팀은 데이터 세트를 마이그레이션하거나 복사할 필요 없이 Azure Databricks에서 AWS S3 데이터를 직접 구성하고 쿼리할 수 있습니다. 이를 통해 ADLS와 S3 스토리지 모두에서 정책, 액세스 제어 및 감사를 더 쉽게 표준화할 수 있습니다.

이 블로그에서는 두 가지 핵심 주제를 다룹니다.

Unity Catalog가 크로스 클라우드 데이터 거버넌스를 지원하는 방법
Azure Databricks에서 AWS S3 데이터에 액세스하고 작업하는 방법

Unity Catalog의 크로스 클라우드 데이터 거버넌스란 무엇인가요?

기업이 하이브리드 및 크로스 클라우드 아키텍처를 도입함에 따라 분산된 액세스 제어, 일관되지 않은 보안 정책, 중복된 거버넌스 프로세스 등의 문제에 직면하는 경우가 많습니다. 이러한 복잡성은 리스크를 증가시키고 운영 비용을 높이며 혁신을 저해합니다.

Unity Catalog를 통한 크로스 클라우드 데이터 거버넌스는 Databricks 플랫폼 내에서 모두 관리되며, AWS S3 및 Azure Data Lake Storage와 같이 여러 클라우드에 저장된 데이터에 대해 단일 권한 모델, 중앙 집중식 정책 적용 및 포괄적인 감사를 확장하여 이 프로세스를 단순화합니다.

Unity Catalog에서 크로스 클라우드 데이터 거버넌스를 활용할 때 얻을 수 있는 주요 이점은 다음과 같습니다.

통합 거버넌스 – 사일로화된 시스템을 번거롭게 오갈 필요 없이 한 곳에서 액세스 정책, 보안 제어 및 규정 준수 표준을 관리할 수 있습니다.
원활한 데이터 액세스 – 단일 워크스페이스에서 여러 클라우드에 걸친 데이터를 안전하게 검색, 쿼리 및 분석하여 사일로를 제거하고 복잡성을 줄입니다.
강화된 보안 및 규정 준수 – 모든 클라우드 스토리지에 대해 중앙 집중식 가시성, 태깅, 계보(lineage), 데이터 분류 및 감사를 수행할 수 있습니다.

클라우드 전반의 거버넌스를 연결함으로써 Unity Catalog는 팀이 데이터 및 AI 자산이 어디에 있든 이를 관리하고 가치를 극대화할 수 있는 단일의 안전한 인터페이스를 제공합니다.

작동 방식

이전에는 Azure Databricks를 사용할 때 Unity Catalog가 ADLS 내의 스토리지 위치만 지원했습니다. 즉, AWS S3 버킷에 저장된 데이터가 있지만 Azure Databricks의 Unity Catalog로 해당 데이터에 액세스하고 처리해야 하는 경우, 기존 방식으로는 해당 데이터를 ADLS 컨테이너로 추출, 변환, 로드(ETL)해야 했습니다. 이 프로세스는 비용과 시간이 많이 소요될 뿐만 아니라, 중복되고 오래된 데이터 사본을 유지하게 될 위험도 높입니다.

이번 GA 출시를 통해 이제 Azure Databricks의 Unity Catalog에서 직접 외부 크로스 클라우드 S3 위치를 설정할 수 있습니다. 이를 통해 마이그레이션이나 중복 없이 S3 데이터를 원활하게 읽고 관리할 수 있습니다.

크로스 클라우드 데이터 거버넌스 다이어그램

몇 가지 간단한 단계만으로 AWS S3 버킷에 대한 액세스를 구성할 수 있습니다.

스토리지 자격 증명을 설정하고 외부 위치를 생성합니다. AWS IAM 및 S3 리소스가 프로비저닝되면 Azure Databricks Catalog Explorer에서 직접 스토리지 자격 증명과 외부 위치를 생성할 수 있습니다.
- 스토리지 자격 증명을 생성하려면 Catalog Explorer 내에서 Credentials으로 이동합니다. AWS IAM Role (Read-only)을 선택하고 필수 필드를 채운 다음, 메시지가 표시되면 신뢰 정책 스니펫을 추가합니다.
- 외부 위치를 생성하려면 Catalog Explorer 내에서 External locations으로 이동합니다. 그런 다음 방금 설정한 자격 증명을 선택하고 나머지 세부 정보를 입력합니다.
권한을 적용합니다. Catalog Explorer 내의 Credentials 페이지에서 이제 Azure Databricks의 한 곳에서 ADLS 및 S3 데이터를 함께 볼 수 있습니다. 여기에서 두 스토리지 시스템 모두에 일관된 권한을 적용할 수 있습니다.

3. 쿼리를 시작하세요! 이제 Azure Databricks 워크스페이스에서 직접 S3 데이터를 쿼리할 준비가 되었습니다.

GA 출시 버전에서 지원되는 기능은 무엇인가요?

GA 출시를 통해 이제 Azure Databricks에서 S3의 외부 테이블 및 볼륨에 액세스할 수 있도록 지원합니다. 구체적으로 다음 기능들이 읽기 전용으로 지원됩니다.

AWS IAM 역할 스토리지 자격 증명
S3 외부 위치
S3 외부 테이블
S3 외부 볼륨
S3 dbutils.fs 액세스
Azure의 UC에서 S3 데이터의 Delta Sharing

시작하기

Azure Databricks에서 크로스 클라우드 데이터 거버넌스를 사용해 보려면 Azure Databricks의 S3 스토리지를 위한 IAM 역할용 스토리지 자격 증명을 설정하는 방법에 대한 문서를 확인해 보세요. 클라우드 제공업체에서 해당 클라우드 서비스 외부의 데이터에 액세스하는 데 비용을 청구할 수 있다는 점에 유의하시기 바랍니다. Unity Catalog를 시작하려면 Azure용 Unity Catalog 가이드를 따르세요.

6월 9~12일 샌프란시스코 모스콘 센터에서 열리는 Data + AI Summit에서 Unity Catalog 제품 및 엔지니어링 팀과 함께하세요! 데이터 및 AI 거버넌스의 최신 혁신 기술을 가장 먼저 만나보실 수 있습니다. 지금 등록하여 자리를 확보하세요!

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

크로스 클라우드 데이터 거버넌스 정식 출시(GA) 발표

Unity Catalog의 크로스 클라우드 데이터 거버넌스란 무엇인가요?

작동 방식

GA 출시 버전에서 지원되는 기능은 무엇인가요?

시작하기

최신 게시물을 이메일로 받아보세요

Sign up