데이터 협업은 최신 AI 혁신의 근간이며, 특히 조직이 외부 파트너와 협력하여 새로운 인사이트를 얻는 경우에 더욱 그렇습니다. 하지만 민감한 데이터를 보호하면서 협업을 지원하는 데 있어 데이터 개인정보 보호와 지적 재산 보호는 여전히 주요 과제로 남아 있습니다.
다양한 산업 분야의 고객들이 이러한 격차를 해소하기 위해 Databricks Clean Rooms 을 사용하여 민감한 데이터에 대한 공유 분석을 실행하고 개인정보 보호 우선 협업을 실현하고 있습니다.
아래에 Clean Rooms에 관해 가장 자주 묻는 질문 10가지를 정리했습니다. 클린룸이 란 무엇인지, 데이터와 IP를 보호하는 방법, 클라우드와 플랫폼 전반에서 작동하는 방식, 시작하는 방법 등을 다룹니다. 시작해 보겠습니다.
데이터 클린룸은 가공되지 않은 데이터를 공유하지 않고도 귀사와 파트너가 민감한 데이터를 함께 작업하여 유용한 인사이트를 추출할 수 있는 안전한 환경입니다.
Databricks에서 Clean Room을 만들고 사용하려는 자산을 추가한 다음, 격리되고 안전하며 거버넌스가 적용되는 환경에서 승인된 노트북만 실행합니다.
Clean Room은 여러 당사자가 가공되지 않은 데이터를 공유하지 않고 민감한 데이터를 분석해야 할 때 유용합니다. 이는 종종 개인정보 보호 규정, 계약 또는 지적 재산권 보호 때문입니다.
광고, 의료, 금융, 정부, 운송, 데이터 수익화 등 다양한 산업 분야에서 활용됩니다.
몇 가지 예는 다음과 같습니다.
광고 및 마케팅: PII를 노출하지 않는 ID 확인, 캠페인 계획 및 측정, 리테일 미디어를 위한 데이터 수익화 및 브랜드 협업.
금융 서비스: 은행, 보험사, 신용카드 회사가 데이터를 결합하여 운영 개선, 사기 탐지, 분석을 수행합니다.
클린룸은 협업과 데이터 보강을 허용하면서 고객 데이터를 보호합니다.
Databricks Clean Rooms에서 Unity Catalog로 관리되는 다양한 자산을 공유할 수 있습니다.
실제 적용 예시는 다음과 같습니다.
이렇게 생각해 보세요. 한쪽 당사자가 자체 환경에서 데이터에 대한 읽기 전용 액세스를 필요로 하고 기본 레코드를 확인해도 괜찮은 경우 Delta Sharing이 적합한 선택입니다.
Clean Room은 데이터를 비공개로 유지해야 하는 경우 다자간 분석을 위한 안전하고 통제된 공간을 제공합니다. 파트너는 데이터 자산을 조인하고, 상호 승인된 코드를 실행하며, 모든 당사자가 동의하는 결과만 반환할 수 있습니다. 엄격한 개인정보 보호 보장을 충족해야 하거나 규제된 워크플로를 지원해야 하는 경우에 유용합니다. 사실 Clean Room에서 공유되는 데이터는 내부적으로 여전히 Delta Sharing 프로토콜을 사용합니다.
예를 들어, 소매업체는 공급업체가 제품 판매 현황을 확인할 수 있도록 Delta Sharing을 사용하여 판매 테이블에 대한 읽기 전용 액세스 권한을 부여할 수 있습니다. 이 두 당사자가 고객 특성이나 상세 인벤토리처럼 더 풍부하고 민감한 양측 데이터를 조인하고, 승인된 노트북을 실행하며, 수요 예측이나 상위 위험 품목과 같은 집계된 결과만 공유해야 하는 경우 클린룸을 사용하게 됩니다.
Clean Room은 파트너가 사용자의 가공되지 않은 데이터나 IP를 절대 볼 수 없도록 만들어졌습니다. 데이터는 고객의 Unity Catalog에 유지되며, 승인된 노트북으로 제어되는 Delta Sharing을 통해 클린룸의 특정 자산만 공유합니다.
클린룸에서 이러한 보호 조치를 적용하려면:
예. 각 참여자가 Unity Catalog 지원 워크스페이스를 보유하고 Metastore에서 Delta Sharing을 활성화한 경우, Clean Room은 멀티클라우드 및 교차 리전 협업을 위해 설계되었습니다. 이는 Azure에서 Databricks를 사용하는 조직이 AWS 또는 GCP의 파트너와 클린룸에서 협업할 수 있음을 의미합니다.

네, 그럼요. Lakehouse Federation 은 Snowflake, BigQuery, 기존 warehouse와 같은 외부 시스템을 Unity Catalog (UC)의 외부 카탈로그로 노출합니다. UC에서 외부 테이블을 사 용할 수 있게 되면, 다른 테이블이나 뷰를 공유하는 것과 동일한 방식으로 클린룸에서 공유할 수 있습니다.
개략적인 작동 방식은 다음과 같습니다. 사용자는 모든 데이터를 Databricks에 복사할 필요 없이 Lakehouse Federation을 사용하여 연결과 외부 카탈로그를 만들어 Unity Catalog에 외부 데이터 소스를 노출합니다. 해당 외부 테이블을 Unity Catalog에서 사용할 수 있게 되면 다른 Unity Catalog 관리 테이블 또는 뷰와 마찬가지로 Clean Room으로 공유할 수 있습니다.
클린룸 내부에서는 거의 모든 작업을 노트북을 통해 수행합니다. 원하는 분석 코드가 포함된 SQL 또는 Python 노트북을 추가하고 파트너가 노트북을 검토 및 승인하면 실행할 수 있습니다.

간단한 예시로, 소매업체의 구매 내역과 미디어 파트너의 노출 수 간에 중복되는 해시 ID를 계산한 다음, 도달률, 빈도, 전환율을 출력하는 SQL 노트북이 있을 수 있습니다.
더 고급 단계: Python 노트북을 사용하여 양측의 피처를 조인하고, 결합된 데이터로 모델을 학습시키거나 점수를 매긴 다음, 예측을 출력 테이블에 작성합니다. 승인된 실행자는 결과물을 볼 수 있지만, 다른 쪽의 원시 레코드는 아무도 볼 수 없습니다.
Databricks Clean Room에서는 서로 다른 클라우드나 데이터 플랫폼을 사용하더라도 사용자 본인과 9개의 파트너를 포함하여 최대 10개의 조직이 하나의 보안 환경에서 협업할 수 있습니다. 각 팀은 자체 Unity Catalog에 데이터를 보관하며, 클린룸에서 사용하려는 특정 테이블, 뷰 또는 파일만 공유합니다.
모든 참여자가 들어오면 각 당사자가 SQL 또는 Python 노트북을 제안할 수 있으며, 이 노트북은 모든 당사자가 로직에 동의할 수 있도록 실행 전에 승인을 받아야 합니다.
시작 간단한 방법은 다음과 같습니다.
Clean Room 생성 및 start에 대해 자세히 알아보려면 이 동영상 을 시청하세요.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
