주요 컨텐츠로 이동

레이크하우스를 위한 데이터 클린룸 소개

db-233-clean-rooom-og

Lakehouse용 데이터 클린룸을 발표하게 되어 기쁘게 생각합니다. 이를 통해 기업은 개인 정보를 안전하게 보호하는 방식으로 모든 클라우드에서 고객 및 파트너와 쉽게 협업할 수 있습니다. 데이터 클린룸의 참여자는 데이터 개인정보를 보호하면서 기존 데이터를 공유하고 조인하며, Python, R, SQL, Java, Scala 등 모든 언어로 데이터에 대한 복잡한 워크로드를 실행할 수 있습니다.

외부 데이터에 대한 수요가 그 어느 때보다 커지면서 조직들은 데이터를 안전하게 교환하고 외부 데이터를 소비하여 데이터 기반 혁신을 촉진할 방법을 찾고 있습니다. 기존에는 조직이 데이터 공유 솔루션을 활용하여 파트너와 데이터를 공유하고 상호 신뢰를 바탕으로 데이터 프라이버시를 보호했습니다. 그러나 일단 데이터가 공유되면 조직은 데이터에 대한 통제권을 잃게 되며 파트너가 다양한 플랫폼에서 데이터를 어떻게 사용하는지에 대한 가시성이 거의 또는 전혀 없습니다. 이는 잠재적인 데이터 오용 및 데이터 프라이버시 침해에 노출될 수 있습니다. 엄격한 데이터 개인정보 보호 규제에 따라 조직은 민감한 데이터가 소비되는 방식에 대한 통제권과 가시성을 확보하는 것이 필수적입니다. 결과적으로 조직은 안전하고 통제되며 비공개적인 방식으로 데이터를 협업할 방법이 필요하며, 바로 이 지점에서 데이터 클린룸이 중요해집니다.

이 블로그에서는 데이터 클린룸, 데이터 클린룸에 대한 수요, Databricks Lakehouse Platform에서 확장 가능한 데이터 클린룸에 대한 저희의 비전에 대해 논의합니다.

데이터 클린룸(Data Clean Room)이란 무엇이며 비즈니스에 왜 중요한가요?

데이터 클린룸은 여러 참여자가 다른 참여자에게 데이터가 노출될 위험 없이 자사 데이터를 조인하고 데이터에 대한 분석을 수행할 수 있는 안전하고, 거버넌스가 적용되며, 개인정보가 보호되는 환경을 제공합니다. 참여자는 자신의 데이터에 대한 완전한 제어권을 가지며, 개인 식별 정보(PII)와 같은 민감한 데이터를 노출하지 않고 어떤 참여자가 자신의 데이터에 대해 어떤 분석을 수행할 수 있는지 결정할 수 있습니다.

데이터 클린룸은 여러 산업에 걸쳐 광범위한 사용 사례를 열어줍니다. 예를 들어, 소비재(CPG) 기업은 자사 광고 데이터를 리테일 파트너의 판매 시점(POS) 거래 데이터와 조인하여 판매 증대 효과를 볼 수 있습니다. 미디어 산업에서 광고주와 마케팅 담당자는 데이터 개인정보를 보호하면서 더 넓은 도달 범위, 더 나은 세분화, 더 높은 광고 효과 투명성을 확보하여 더욱 타겟팅된 광고를 제공할 수 있습니다. 금융 서비스 회사는 가치 사슬 전반에 걸쳐 협력하여 사전 사기 탐지 또는 자금 세탁 방지 전략을 수립할 수 있습니다. 실제로 IDC는 2024년까지 G2000 기업의 65%가 데이터 개인정보를 보호하면서 상호 의존성을 높이기 위해 데이터 클린룸을 통해 외부 이해관계자와 데이터 공유 파트너십을 형성할 것이라고 예측합니다.

개인 정보를 안전하게 보호하는 데이터 클린룸

클린룸 수요를 견인하는 몇 가지 강력한 이유를 살펴보겠습니다.

빠르게 변화하는 보안, 규정 준수 및 프라이버시 환경: GDPR 및 CCPA와 같은 엄격한 데이터 프라이버시 규정과 제3자 측정의 전면적인 변화로 인해 조직이 데이터를 수집, 사용 및 공유하는 방식, 특히 광고 및 마케팅 사용 사례의 경우에 큰 변화가 있었습니다. 예를 들어, Apple의 앱 추적 투명성 프레임워크 (ATT)는 Apple 기기 사용자에게 앱 추적을 쉽게 거부할 수 있는 자유와 유연성을 제공합니다. Google 또한 2023년 말까지 Chrome에서 서드파티 쿠키 지원을 단계적으로 중단 할 계획입니다. 이러한 프라이버시 법률과 관행이 발전함에 따라 산업이 UID 2.0과 같은 PII 기반의 새로운 식별자로 이동하면서 데이터 클린룸에 대한 수요가 증가할 것입니다. 쿠키 없는 현실에서 조직들은 비즈니스 목표를 달성하기 위해 개인 정보 보호 중심 방식으로 파트너와 데이터를 결합할 새로운 솔루션을 찾고자 할 것입니다.

분산된 데이터 생태계에서의 협업: 오늘날 소비자는 언제 어디서 어떻게 콘텐츠를 이용할지에 대해 그 어느 때보다 더 많은 선택권을 가지고 있습니다. 결과적으로 소비자의 디지털 발자국은 여러 플랫폼에 분산되어 있어 기업은 파트너와 협력하여 고객의 요구사항과 필요에 대한 통합된 뷰를 만들어야 합니다. 조직 간의 협업을 촉진하기 위해 클린룸은 데이터를 다른 데이터와 결합하여 새로운 인사이트나 기능을 활용할 수 있는 안전하고 비공개적인 방법을 제공합니다.

새로운 데이터 수익화 방법: 대부분의 조직은 이미 기존 데이터 또는 IP에 대한 수익화 전략을 가지고 있거나 개발하려고 합니다. 오늘날의 개인정보 보호법으로 인해 기업들은 개인정보 보호 규칙을 위반할 위험 없이 데이터를 수익화하기 위한 모든 가능한 이점을 찾으려 할 것입니다. 이를 통해 데이터 공급업체나 게시자는 데이터에 직접 액세스하지 않고도 빅데이터 분석을 위해 데이터를 결합할 수 있는 기회가 생깁니다.

기존 데이터 클린룸 솔루션에는 큰 단점이 있습니다.

조직이 다양한 클린룸 솔루션을 검토함에 따라 기존 솔루션에는 '클린룸'의 잠재력을 완전히 실현하지 못하고 조직의 비즈니스 요구 사항을 충족하지 못하는 몇 가지 명백한 단점이 있습니다.

데이터 이동 및 복제: 기존 데이터 클린룸 공급업체는 참여자가 공급업체 플랫폼으로 데이터를 이동하도록 요구하며, 이는 플랫폼 종속을 초래하고 참여자에게 추가적인 데이터 스토리지 비용을 발생시킵니다. 또한, 참여자가 집계된 데이터에 대한 분석을 수행하기 전에 데이터를 표준화된 형식으로 준비하는 데 시간이 많이 걸립니다. 게다가, 서로 다른 클라우드 및 지역에 있는 참여자와의 협업을 용이하게 하기 위해 참여자는 여러 클라우드 및 지역에 걸쳐 데이터를 복제해야 하므로 운영 및 비용 오버헤드가 발생합니다.

SQL로 제한됨: 기존 클린룸 솔루션은 임의의 워크로드와 분석을 실행할 수 있는 유연성을 많이 제공하지 않으며, 종종 간단한 SQL 문으로 제한됩니다. SQL은 강력하고 클린룸에 반드시 필요하지만, machine learning, APIs와의 통합 또는 SQL만으로는 처리할 수 없는 기타 분석 워크로드와 같은 복잡한 계산이 필요한 경우가 있습니다.

확장의 어려움: 대부분의 기존 클린룸 솔루션은 단일 공급업체에 종속되어 있어 한 번에 두 명 이상의 참가자로 협업을 확장하기가 어렵습니다. 예를 들어, 광고주는 여러 플랫폼에서 광고 성과에 대한 상세한 보기를 원할 수 있으며, 이를 위해서는 여러 데이터 게시자의 집계된 데이터를 분석해야 합니다. 협업이 단 두 명의 참가자로 제한되면 조직은 하나의 클린룸 플랫폼에서 부분적인 인사이트만 얻게 되고, 결국 부분적인 인사이트를 수동으로 취합하는 데 따르는 운영 오버헤드를 감수하며 다른 클린룸 공급업체로 데이터를 이동하게 됩니다.

Databricks Lakehouse 플랫폼으로 확장 가능하고 유연한 데이터 클린룸 솔루션을 배포하세요.

Databricks Lakehouse Platform은 데이터 개인정보 및 거버넌스 요구사항에 따라 확장 가능하고 유연한 데이터 클린룸을 구축, 서빙 및 배포하기 위한 포괄적인 도구 세트를 제공합니다.

복제 없는 안전한 데이터 공유: Delta Sharing을 사용하면 클린룸 참가자는 클라우드 또는 지역 간에 데이터를 복제하지 않고도 데이터 레이크의 데이터를 다른 참가자와 안전하게 공유할 수 있습니다. 데이터는 사용자에게 그대로 유지되며 어떤 플랫폼에도 종속되지 않습니다. 또한 클린룸 참가자는 데이터 사용량을 중앙에서 감사하고 모니터링할 수 있습니다.

임의의 워크로드 및 언어 실행을 위한 완벽한 지원: Databricks Lakehouse platform은 클린룸 참가자에게 데이터에 대해 SQL, R, Scala, Java, Python 등 모든 언어로 machine learning 또는 데이터 워크로드와 같은 복잡한 계산을 실행할 수 있는 유연성을 제공합니다.

안내형 온보딩 환경으로 손쉬운 확장: Databricks Lakehouse Platform의 클린룸은 모든 클라우드 또는 지역에서 여러 참가자로 쉽게 확장할 수 있습니다. 사전 정의된 템플릿(예: 작업, 워크플로, 대시보드)을 사용하여 쉽게 시작하고 일반적인 사용 사례를 통해 참가자를 안내하여 인사이트 도출 시간을 단축할 수 있습니다.

세분화된 액세스 제어를 통한 개인 정보 보호: Unity Catalog를 사용하면 데이터에 대한 세분화된 액세스 제어를 활성화하고 개인 정보 보호 요구 사항을 충족할 수 있습니다. 통합 거버넌스를 통해 참가자는 자신의 데이터에서 실행할 수 있는 쿼리 또는 작업을 완벽하게 제어할 수 있습니다. 데이터에 대한 모든 쿼리 또는 작업은 Databricks에서 호스팅하는 신뢰할 수 있는 컴퓨팅에서 실행됩니다. 참여자는 다른 참여자의 가공되지 않은 데이터에 절대 접근할 수 없으므로 데이터 개인정보 보호가 보장됩니다. 참여자는 오픈 소스 또는 타사 차등 개인정보 보호 프레임워크를 활용하여 클린룸의 미래 경쟁력을 확보할 수도 있습니다.

Databricks Lakehouse의 데이터 클린룸에 대해 자세히 알아보려면 Databricks 계정 담당자에게 문의하세요.

직접 확인해 보시겠어요?

기업이 개인 정보 보호 및 보안을 보장하며 모든 클라우드 플랫폼에서 고객 및 파트너와 안전하게 협업할 수 있도록 클린룸 제품 둘러보기를 체험해 보세요.

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?

ETL and BI Migration Strategies

솔루션

January 27, 2025/1분 이내 소요

Databricks로의 마이그레이션 탐색: 아키텍처와 전략적 접근법

DeepSeek R1 on Databricks

공지사항

January 31, 2025/1분 이내 소요

DeepSeek R1 on Databricks