주요 컨텐츠로 이동

Unity Catalog의 데이터 분류를 사용하여 대규모로 민감한 데이터 찾기

수동 태그 지정이나 스크립트 없이 AI 에이전트를 사용하여 데이터 자산 전반의 PII를 자동으로 탐지, 태그 지정, 추적하세요.

Blog: Find Sensitive Data at Scale with Data Classification in Unity Catalog

Published: October 27, 2025

제품1분 이내 소요

Summary

• Databricks 데이터 분류를 사용하면 전체 데이터 자산에 걸쳐 민감한 데이터를 지속적으로 쉽게 검색하고 규정 준수 사각지대를 제거할 수 있습니다.
• 데이터 분류는 에이전틱 AI를 활용하여 대규모로 PII를 자동으로 식별하고 태그를 지정하여 새로운 테이블과 열이 생성될 때 민감한 데이터의 가시성, 감사 가능성 및 거버넌스를 유지합니다.
• 팀은 데이터 분류를 사용하여 ABAC로 보호를 자동화하고, 일관된 액세스 정책을 적용하며, 위험을 높이지 않고 안심하고 데이터를 공유할 수 있습니다.

민감한 데이터가 누락되는 이유

조직이 데이터 플랫폼을 확장함에 따라 민감한 정보는 종종 눈에 잘 띄는 곳에 숨겨져 있습니다. 매일 새로운 테이블이 생성되고 규제 환경은 점점 더 복잡해지고 있으며 그 어느 때보다 위험 부담이 커지고 있습니다. GDPR Enforcement Tracker Report에 따르면 GDPR 과징금만으로도 2025년에 56억 유로를 초과했으며, 이는 2024년 이후 11억 7천만 유로가 증가한 수치입니다.

수동 검색 방법은 확장성이 떨어집니다. 수백 개의 테이블에 효과적이던 방법이 수천 개 규모에서는 실패합니다. 그 결과 컴플라이언스 사각지대, 비용이 많이 드는 감사, 정체된 데이터 민주화. 근본적인 문제는 찾을 수 없는 것은 보호할 수 없다는 것입니다.

에이전틱 데이터 분류 소개

오늘 AWS, Azure Databricks, GCP에서 Databricks 데이터 분류의 Public Preview를 발표하게 되어 기쁩니다.

데이터 분류는 에이전트 AI 시스템을 사용하여 모든 카탈로그에서 민감한 데이터를 자동으로 검색하고 태그를 지정합니다. 이를 통해 개인 식별 정보(PII)가 있는 위치에 대한 지속적인 가시성을 확보하여 데이터가 증가하더라도 규정 준수를 유지하고, 보호를 자동화하며, 팀 간에 자신 있게 데이터를 공유할 수 있습니다. 

데이터 분류는 확장되는 데이터 환경 전반에 걸쳐 포괄적이고 자동화된 PII 탐지 기능을 제공하여, 민감한 정보를 명확하게 식별하고 일관된 보호를 보장합니다. 이 접근 방식은 민감한 자산을 보호하는 데 도움이 될 뿐만 아니라 수동 작업량도 줄여줍니다. 이를 더 광범위하게 출시함에 따라, 저희 팀이 더 높은 가치의 이니셔티브에 집중할 수 있기를 기대합니다. —  Gregg Rinsler, FanDuel 데이터 거버넌스 수석 이사

수동 감사를 지속적인 가시성으로 전환하세요.

자동화된 분류가 마련되면 팀은 수동 분류에서 전략적 거버넌스로 전환할 수 있습니다.

  • 감사 준비: 전체 로그를 가져와 PII의 위치와 PII에 액세스할 수 있는 사용자 및 그룹을 정확히 표시합니다.
  • 전체 리니지: PII가 존재하는 시점과 다운스트림 흐름을 정확하게 추적하세요. PII가 실수로 다운스트림 데이터 세트에 복사되는 부분을 놓칠 위험을 방지하세요.
  • 데이터 삭제 요청: 모든 테이블에서 모든 사용자 데이터를 찾아 정리합니다.
모든 데이터 팀의 핵심 자산은 '시간이 지나도 유지되는 일관성'으로 정의되는 신뢰입니다. Data Classification은 데이터 자산에서 PII를 스캔하고 교정 워크플로를 자동화하여 이러한 신뢰를 구축하는 데 도움을 줍니다. 그 결과, 팀이 자신 있게 신뢰하고 활용할 수 있는 검증된 규정 준수 데이터가 확보됩니다. — 샘 샤, Databricks 데이터 팀 엔지니어링 VP

데이터 분류 작동 방식

데이터 분류는 모든 데이터를 포괄하는 자동화된 에이전트 기반 분류를 제공하도록 설계되었습니다. 방법은 다음과 같습니다. 

정확한 분류를 위한 에이전틱 AI: 입증된 패턴 인식, 메타데이터, 대규모 언어 모델을 결합하여 정규식 전용 도구보다 최대 60% 더 높은 정확도를 제공합니다. 데이터는 Databricks AI 보안 제어 표준(AWS | Azure | GCP)에 따라 사용자의 환경을 절대 벗어나지 않습니다.

엔터프라이즈 규모를 위한 효율적이고 지능적인 스캔: 전체 카탈로그를 한 번 스캔한 다음, 새 테이블 및 열 또는 변경된 테이블 및 열만 다시 스캔합니다. Unity Catalog 리니지는 중요 데이터 세트의 증분 스캔을 보장하여 PII가 나타나는 즉시 포착되도록 합니다. 초기 베타 출시 이후 탐지 속도를 크게 개선하고 스캔 비용을 최대 75%까지 절감했습니다. 이 시스템은 실전 테스트를 거쳐 데이터 플랫폼의 성장에 따라 고성능을 보장합니다.

검토 및 유효성 검사: PII를 포함하는 열과 현재 이 데이터에 액세스할 수 있는 사용자에 대한 완전한 가시성을 확보하세요. 당사의 집중 검토 UI는 샘플 데이터와 함께 신뢰도 높은 탐지 결과를 표시하여 태그를 쉽게 일괄 적용할 수 있도록 합니다. 전체 결과는 사용자 지정 보고 또는 태그 지정을 위해 시스템 테이블에 저장됩니다.

데이터 분류는 PII 탐지를 자동화하여 당사의 규정 준수 접근 방식을 혁신하고 있습니다. 당사는 Databricks Apps를 통한 승인 워크플로와 함께 분류 결과를 사용하여 Just-In-Time 액세스 제어를 활성화합니다. 이를 통해 필요할 때만 민감한 데이터에 액세스할 수 있도록 유지할 수 있습니다. 당사는 이를 위한 수작업을 없애고, 대신 Databricks 플랫폼에 있는 전체 데이터에 걸쳐 자동화된 탐지 및 보호 체계를 구축했습니다. — Abhijit Joshi, Staff 데이터 엔지니어, Oportun

확장 가능한 액세스 제어 구축 

민감한 데이터의 위치를 파악하면 데이터를 더 쉽게 보호하고 액세스를 안전하게 확장할 수 있습니다.

  • 민감도 등급 자동화: 데이터 세트 민감도에 따라 사용자를 승인하는 기존 액세스 요청 워크플로를 자동화하세요. 예를 들어 Data Classification 태그를 사용하여 조직의 민감도 수준(예: 기밀, 제한, 내부, 공개)별로 테이블을 자동으로 분류할 수 있습니다.
  • ABAC 정책으로 거버넌스 확장: 속성 기반 액세스 제어(ABAC) 정책 은 민감한 열을 자동으로 마스킹하거나 암호화합니다. 예를 들어, 보안팀을 제외한 모든 사용자에 대해 [class.name], [class.email_address], [class.phone_number]로 태그가 지정된 모든 열을 마스킹하는 정책을 설정합니다. 일단 구성되면 이 정책은 민감한 것으로 태그가 지정된 데이터에 자동으로 적용되어 비즈니스에 따라 확장되는 일관된 데이터 보호를 보장합니다.

  • ABAC를 사용하여 안전하게 액세스 권한을 개방하세요: 위 예시의 고객 트랜잭션 테이블을 생각해 보세요. 이 테이블에는 민감한 열(예: customer_name, email, phone)과 민감하지 않은 열(예: transaction_id 또는 customer_id 열)이 모두 포함될 수 있습니다. ABAC 정책은 민감하지 않은 필드는 열어두면서 민감한 열만 마스킹합니다. 전체 테이블을 차단하거나 복잡한 뷰 로직을 유지할 필요가 없습니다.

다음은 무엇인가요?

향후 몇 달간의 로드맵을 소개합니다.

  • API 및 Terraform 지원 *곧 Public Preview로 제공 예정*
  • PHI 및 PCI와 같은 내장된 지역 및 도메인별 분류기 *곧 Public Preview로 제공 예정*
  • 맞춤 분류 규칙: 비즈니스별 데이터 패턴에 사용됩니다. 에이전틱 AI 시스템을 사용하여 회사 데이터에 특화된 패턴을 개발하고 있습니다 *비공개 미리보기* 

지금 바로 공개 미리보기를 시작해 보세요

수동 프로세스를 자동화된 데이터 분류로 전환할 준비가 되셨나요? 아래 리소스를 통해 시작해 보세요: 

  • 제품 설명서를 읽어보세요 (AWS | Azure | GCP)
  • 이 제품은 HIPAA 규정을 준수하며 Databricks AI 기능의 신뢰 및 안전 표준을 따릅니다. 자세한 내용은 여기 보안 FAQ에서 확인하세요(AWS | Azure | GCP).
  • 맞춤 분류기 Private Preview를 신청하려면 계정 담당자에게 문의하세요.
  • 지금 바로 시작하여 카탈로그 세부정보 탭 어디에서든 Data Classification을 활성화하세요

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요