• Databricks 데이터 분류를 사용하면 전체 데이터 자산에 걸쳐 민감한 데이터를 지속적으로 쉽게 검색하고 규정 준수 사각지대를 제거할 수 있습니다.
• 데이터 분류는 에이전틱 AI를 활용하여 대규모로 PII를 자동으로 식별하고 태그를 지정하여 새로운 테이블과 열이 생성될 때 민감한 데이터의 가시성, 감사 가능성 및 거버넌스를 유지합니다.
• 팀은 데이터 분류를 사용하여 ABAC로 보호를 자동화하고, 일관된 액세스 정책을 적용하며, 위험을 높이지 않고 안심하고 데이터를 공유할 수 있습니다.
조직이 데이터 플랫폼을 확장함에 따라 민감한 정보는 종종 눈에 잘 띄는 곳에 숨겨져 있습니다. 매일 새로운 테이블이 생성되고 규제 환경은 점점 더 복잡해지고 있으며 그 어느 때보다 위험 부담이 커지고 있습니다. GDPR Enforcement Tracker Report에 따르면 GDPR 과징금만으로도 2025년에 56억 유로를 초과했으며, 이는 2024년 이후 11억 7천만 유로가 증가한 수치입니다.
수동 검색 방법은 확장성이 떨어집니다. 수백 개의 테이블에 효과적이던 방법이 수천 개 규모에서는 실패합니다. 그 결과 컴플 라이언스 사각지대, 비용이 많이 드는 감사, 정체된 데이터 민주화. 근본적인 문제는 찾을 수 없는 것은 보호할 수 없다는 것입니다.
오늘 AWS, Azure Databricks, GCP에서 Databricks 데이터 분류의 Public Preview를 발표하게 되어 기쁩니다.
데이터 분류는 에이전트 AI 시스템을 사용하여 모든 카탈로그에서 민감한 데이터를 자동으로 검색하고 태그를 지정합니다. 이를 통해 개인 식별 정보(PII)가 있는 위치에 대한 지속적인 가시성을 확보하여 데이터가 증가하더라도 규정 준수를 유지하고, 보호를 자동화하며, 팀 간에 자신 있게 데이터를 공유할 수 있습니다.
데이터 분류는 확장되는 데이터 환경 전반에 걸쳐 포괄적이고 자동화된 PII 탐지 기능을 제공하여, 민감한 정보를 명확하게 식별하고 일관된 보호를 보장합니다. 이 접근 방식은 민감한 자산을 보호하는 데 도움이 될 뿐만 아니라 수동 작업량도 줄여줍니다. 이를 더 광범위하게 출시함에 따라, 저희 팀이 더 높은 가치의 이니셔티브에 집중할 수 있기를 기대합니다. — Gregg Rinsler, FanDuel 데이터 거버넌스 수석 이사
자동화된 분류가 마련되면 팀은 수동 분류에서 전략적 거버넌스로 전환할 수 있습니다.
모든 데이터 팀의 핵심 자산은 '시간이 지나도 유지되는 일관성'으로 정의되는 신뢰입니다. Data Classification은 데이터 자산에서 PII를 스캔하고 교정 워크플로를 자동화하여 이러한 신뢰를 구축하는 데 도움을 줍니다. 그 결과, 팀이 자신 있게 신뢰하고 활용할 수 있는 검증된 규정 준수 데이터가 확보됩니다. — 샘 샤, Databricks 데이터 팀 엔지니어링 VP

데이터 분류는 모든 데이터를 포괄하는 자동화된 에이전트 기반 분류를 제공하도록 설계되었습니다. 방법은 다음과 같습니다.
정확한 분류를 위한 에이전틱 AI: 입증된 패턴 인식, 메타데이터, 대규모 언어 모델을 결합하여 정규식 전용 도구보다 최대 60% 더 높은 정 확도를 제공합니다. 데이터는 Databricks AI 보안 제어 표준(AWS | Azure | GCP)에 따라 사용자의 환경을 절대 벗어나지 않습니다.
엔터프라이즈 규모를 위한 효율적이고 지능적인 스캔: 전체 카탈로그를 한 번 스캔한 다음, 새 테이블 및 열 또는 변경된 테이블 및 열만 다시 스캔합니다. Unity Catalog 리니지는 중요 데이터 세트의 증분 스캔을 보장하여 PII가 나타나는 즉시 포착되도록 합니다. 초기 베타 출시 이후 탐지 속도를 크게 개선하고 스캔 비용을 최대 75%까지 절감했습니다. 이 시스템은 실전 테스트를 거쳐 데이터 플랫폼의 성장에 따라 고성능을 보장합니다.
검토 및 유효성 검사: PII를 포함하는 열과 현재 이 데이터에 액세스할 수 있는 사용자에 대한 완전한 가시성을 확보하세요. 당사의 집중 검토 UI는 샘플 데이터와 함께 신뢰도 높은 탐지 결과를 표시하여 태그를 쉽게 일괄 적용할 수 있도록 합니다. 전체 결과는 사용자 지정 보고 또는 태그 지정을 위해 시스템 테이블에 저장됩니다.
데이터 분류는 PII 탐지를 자동화하여 당사의 규정 준수 접근 방식을 혁신하고 있습니다. 당사는 Databricks Apps를 통한 승인 워크플로와 함께 분류 결과를 사용하여 Just-In-Time 액세스 제어를 활성화합니다. 이를 통해 필요할 때만 민감한 데이터에 액세스할 수 있도록 유지할 수 있습니다. 당사는 이를 위한 수작업을 없애고, 대신 Databricks 플랫폼에 있는 전체 데이터에 걸쳐 자동화된 탐지 및 보호 체계를 구축했습니다. — Abhijit Joshi, Staff 데이터 엔지니어, Oportun

민감한 데이터의 위치를 파악하면 데이터를 더 쉽게 보호하고 액세스를 안전하게 확장할 수 있습니다.
ABAC 정책으로 거버넌스 확장: 속성 기반 액세스 제어(ABAC) 정책 은 민감한 열을 자동으로 마스킹하거나 암호화합니다. 예를 들어, 보안팀을 제외한 모든 사용자에 대해 [class.name], [class.email_address], [class.phone_number]로 태그가 지정된 모든 열을 마스킹하는 정책을 설정합니다. 일단 구성되면 이 정책은 민감한 것으로 태그가 지정된 데이터에 자동으로 적용되어 비즈니스에 따라 확장되는 일관된 데이터 보호를 보장합니다.

ABAC를 사용하여 안전하게 액세스 권한을 개방하세요: 위 예시의 고객 트랜잭션 테이블을 생각해 보세요. 이 테이블에는 민감한 열(예: customer_name, email, phone)과 민감하지 않은 열(예: transaction_id 또는 customer_id 열)이 모두 포함될 수 있습니다. ABAC 정책은 민감하지 않은 필드는 열어두면서 민감한 열만 마스킹합니다. 전체 테이블을 차단하거나 복잡한 뷰 로직을 유지할 필요가 없습니다.

향후 몇 달간의 로드맵을 소개합니다.
수동 프로세스를 자동화된 데이터 분류로 전환할 준비가 되셨나요? 아래 리소스를 통해 시작해 보세요:
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
