주요 컨텐츠로 이동

Databricks 클린룸에 대해 가장 많이 묻는 질문 10가지와 답변

Databricks Clean Rooms로 개인 정보 보호 우선 데이터 협업을 간소화하세요.

Top 10 Questions You Asked About Databricks Clean Rooms, Answered

Published: December 18, 2025

제품1분 이내 소요

Summary

  • 원시 레코드를 노출하지 않고 파트너와 민감한 데이터에 대해 작업합니다.
  • Delta Sharing을 사용하여 Snowflake 또는 BigQuery와 같은 외부 데이터를 클린룸으로 가져올 수 있습니다.
  • ID 확인, 광고, 의료, 금융을 포함한 사용 사례를 지원합니다.

데이터 협업은 최신 AI 혁신의 근간이며, 특히 조직이 외부 파트너와 협력하여 새로운 인사이트를 얻는 경우에 더욱 그렇습니다. 하지만 민감한 데이터를 보호하면서 협업을 지원하는 데 있어 데이터 개인정보 보호와 지적 재산 보호는 여전히 주요 과제로 남아 있습니다.

다양한 산업 분야의 고객들이 이러한 격차를 해소하기 위해 Databricks Clean Rooms 을 사용하여 민감한 데이터에 대한 공유 분석을 실행하고 개인정보 보호 우선 협업을 실현하고 있습니다.

아래에 Clean Rooms에 관해 가장 자주 묻는 질문 10가지를 정리했습니다. 클린룸이란 무엇인지, 데이터와 IP를 보호하는 방법, 클라우드와 플랫폼 전반에서 작동하는 방식, 시작하는 방법 등을 다룹니다. 시작해 보겠습니다.

1. “데이터 클린룸”이란 무엇인가요?

데이터 클린룸은 가공되지 않은 데이터를 공유하지 않고도 귀사와 파트너가 민감한 데이터를 함께 작업하여 유용한 인사이트를 추출할 수 있는 안전한 환경입니다.

Databricks에서 Clean Room을 만들고 사용하려는 자산을 추가한 다음, 격리되고 안전하며 거버넌스가 적용되는 환경에서 승인된 노트북만 실행합니다.

Databricks 클린룸

2. 클린룸의 사용 사례 예시는 무엇인가요?

Clean Room은 여러 당사자가 가공되지 않은 데이터를 공유하지 않고 민감한 데이터를 분석해야 할 때 유용합니다. 이는 종종 개인정보 보호 규정, 계약 또는 지적 재산권 보호 때문입니다.

광고, 의료, 금융, 정부, 운송, 데이터 수익화 등 다양한 산업 분야에서 활용됩니다.

몇 가지 예는 다음과 같습니다.

광고 및 마케팅: PII를 노출하지 않는 ID 확인, 캠페인 계획 및 측정, 리테일 미디어를 위한 데이터 수익화 및 브랜드 협업.

  • Epsilon, The Trade Desk, Acxiom, LiveRamp, Deloitte와 같은 파트너는 ID 확인을 위해 Databricks 클린룸을 활용합니다.

금융 서비스: 은행, 보험사, 신용카드 회사가 데이터를 결합하여 운영 개선, 사기 탐지, 분석을 수행합니다.

  • 예: Mastercard 는 사기 탐지를 위해 클린룸을 사용하여 PII 데이터를 일치시키고 분석하며, Intuit 는 대출자 데이터를 대출 기관과 안전하게 일치시켜 적격 대출자를 찾습니다.

클린룸은 협업과 데이터 보강을 허용하면서 고객 데이터를 보호합니다.

3. 클린룸에서 어떤 종류의 데이터 자산을 공유할 수 있나요?

Databricks Clean Rooms에서 Unity Catalog로 관리되는 다양한 자산을 공유할 수 있습니다.

  • 테이블 (Managed, External, Foreign): 거래, 이벤트 또는 고객 프로필과 같은 구조화된 데이터입니다.
  • : 테이블을 필터링하거나 집계한 일부입니다.
  • 볼륨: 이미지, 오디오, 문서 또는 비공개 코드 라이브러리와 같은 파일입니다.
  • 노트북: 실행하려는 분석을 정의하는 SQL 또는 Python 노트북.

실제 적용 예시는 다음과 같습니다.

  • 소매업체, CPG 브랜드, 시장 조사 회사 가 해시 처리된 고객 ID, 집계된 판매 지표, 지역 인구 통계 등을 포함하는 익명화된 뷰를 공유하여 캠페인 도달 범위를 공동으로 분석합니다.
  • 스트리밍 플랫폼광고 대행사 가 캠페인 노출 테이블과 교차 플랫폼 잠재고객 측정항목을 컴퓨팅하는 노트북을 공유합니다.
  • 은행핀테크 파트너 는 위험 및 사기 ML 모델이 포함된 볼륨을 공유하고, 개별 기록을 비공개로 유지하면서 노트북을 사용하여 공동으로 모델 점수를 매깁니다.

4. 이는 Delta Sharing과 비교하면 어떤가요? 대신 클린룸을 사용해야 하는 이유는 무엇인가요?

이렇게 생각해 보세요. 한쪽 당사자가 자체 환경에서 데이터에 대한 읽기 전용 액세스를 필요로 하고 기본 레코드를 확인해도 괜찮은 경우 Delta Sharing이 적합한 선택입니다.

Clean Room은 데이터를 비공개로 유지해야 하는 경우 다자간 분석을 위한 안전하고 통제된 공간을 제공합니다. 파트너는 데이터 자산을 조인하고, 상호 승인된 코드를 실행하며, 모든 당사자가 동의하는 결과만 반환할 수 있습니다. 엄격한 개인정보 보호 보장을 충족해야 하거나 규제된 워크플로를 지원해야 하는 경우에 유용합니다. 사실 Clean Room에서 공유되는 데이터는 내부적으로 여전히 Delta Sharing 프로토콜을 사용합니다.

예를 들어, 소매업체는 공급업체가 제품 판매 현황을 확인할 수 있도록 Delta Sharing을 사용하여 판매 테이블에 대한 읽기 전용 액세스 권한을 부여할 수 있습니다. 이 두 당사자가 고객 특성이나 상세 인벤토리처럼 더 풍부하고 민감한 양측 데이터를 조인하고, 승인된 노트북을 실행하며, 수요 예측이나 상위 위험 품목과 같은 집계된 결과만 공유해야 하는 경우 클린룸을 사용하게 됩니다.

5. 클린룸에서 민감한 데이터와 IP는 어떻게 보호되나요?

Clean Room은 파트너가 사용자의 가공되지 않은 데이터나 IP를 절대 볼 수 없도록 만들어졌습니다. 데이터는 고객의 Unity Catalog에 유지되며, 승인된 노트북으로 제어되는 Delta Sharing을 통해 클린룸의 특정 자산만 공유합니다.

클린룸에서 이러한 보호 조치를 적용하려면:

  • 협업자는 실제 행 수준 데이터가 아닌 스키마(열 이름 및 유형)만 볼 수 있습니다.
  • 사용자와 파트너가 승인한 Notebook만 격리된 환경의 서버리스 컴퓨팅에서 실행할 수 있습니다.
  • 노트북은 임시 출력 테이블에 쓰므로 clean room을 벗어나는 항목을 정확하게 제어할 수 있습니다.
  • 아웃바운드 네트워크 트래픽은 serverless 이그레스 제어(SEG)를 통해 제한됩니다.
  • IP 또는 독점 코드를 보호하기 위해 로직을 비공개 라이브러리로 패키징하고 Unity Catalog 볼륨에 저장한 다음, 소스 코드를 공개하지 않고 클린룸 노트북 내에서 참조할 수 있습니다.

6. 다른 클라우드를 사용하는 협업자가 동일한 클린룸에 참여할 수 있나요?

예. 각 참여자가 Unity Catalog 지원 워크스페이스를 보유하고 Metastore에서 Delta Sharing을 활성화한 경우, Clean Room은 멀티클라우드 및 교차 리전 협업을 위해 설계되었습니다. 이는 Azure에서 Databricks를 사용하는 조직이 AWS 또는 GCP의 파트너와 클린룸에서 협업할 수 있음을 의미합니다.

클린룸 공동 작업자

7. Snowflake, BigQuery 또는 다른 플랫폼의 데이터를 클린룸으로 가져올 수 있나요?

네, 그럼요. Lakehouse Federation 은 Snowflake, BigQuery, 기존 warehouse와 같은 외부 시스템을 Unity Catalog (UC)의 외부 카탈로그로 노출합니다. UC에서 외부 테이블을 사용할 수 있게 되면, 다른 테이블이나 뷰를 공유하는 것과 동일한 방식으로 클린룸에서 공유할 수 있습니다.

개략적인 작동 방식은 다음과 같습니다. 사용자는 모든 데이터를 Databricks에 복사할 필요 없이 Lakehouse Federation을 사용하여 연결과 외부 카탈로그를 만들어 Unity Catalog에 외부 데이터 소스를 노출합니다. 해당 외부 테이블을 Unity Catalog에서 사용할 수 있게 되면 다른 Unity Catalog 관리 테이블 또는 뷰와 마찬가지로 Clean Room으로 공유할 수 있습니다.

8. 공동 데이터에 대한 맞춤형 분석은 어떻게 실행하나요?

클린룸 내부에서는 거의 모든 작업을 노트북을 통해 수행합니다. 원하는 분석 코드가 포함된 SQL 또는 Python 노트북을 추가하고 파트너가 노트북을 검토 및 승인하면 실행할 수 있습니다.

공동 데이터에 대한 사용자 지정 분석 실행 방법

간단한 예시로, 소매업체의 구매 내역과 미디어 파트너의 노출 수 간에 중복되는 해시 ID를 계산한 다음, 도달률, 빈도, 전환율을 출력하는 SQL 노트북이 있을 수 있습니다.

더 고급 단계: Python 노트북을 사용하여 양측의 피처를 조인하고, 결합된 데이터로 모델을 학습시키거나 점수를 매긴 다음, 예측을 출력 테이블에 작성합니다. 승인된 실행자는 결과물을 볼 수 있지만, 다른 쪽의 원시 레코드는 아무도 볼 수 없습니다.

9. 다자간 협업은 어떻게 작동하나요?

Databricks Clean Room에서는 서로 다른 클라우드나 데이터 플랫폼을 사용하더라도 사용자 본인과 9개의 파트너를 포함하여 최대 10개의 조직이 하나의 보안 환경에서 협업할 수 있습니다. 각 팀은 자체 Unity Catalog에 데이터를 보관하며, 클린룸에서 사용하려는 특정 테이블, 뷰 또는 파일만 공유합니다.

모든 참여자가 들어오면 각 당사자가 SQL 또는 Python 노트북을 제안할 수 있으며, 이 노트북은 모든 당사자가 로직에 동의할 수 있도록 실행 전에 승인을 받아야 합니다.

10. 네, 좋습니다. 어떻게 시작하나요?

시작 간단한 방법은 다음과 같습니다.

  • 워크스페이스에 Unity Catalog, Delta Sharing, 그리고 serverless compute가 활성화되어 있는지 확인하세요.
  • Unity Catalog metastore에서 Clean Room 개체를 만들고 파트너의 공유 식별자를 사용하여 파트너를 초대하세요.
  • 각 당사자는 협업하려는 데이터 자산과 노트북을 추가합니다.
  • 모든 사람이 노트북을 승인하면 분석을 실행하고 자신의 메타스토어에서 결과물을 검토하세요.

Clean Room 생성 및 start에 대해 자세히 알아보려면 이 동영상 을 시청하세요.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?

ETL and BI Migration Strategies

솔루션

January 27, 2025/1분 이내 소요

Databricks로의 마이그레이션 탐색: 아키텍처와 전략적 접근법

DeepSeek R1 on Databricks

공지사항

January 31, 2025/1분 이내 소요

DeepSeek R1 on Databricks