2026년 3월 6일

LogSentinel: Databricks가 LLM 기반 PII 탐지 및 거버넌스를 위해 Databricks를 사용하는 방법

LogSentinel 심층 분석: 내부적으로 LLM을 활용하여 PII 검색 및 거버넌스를 자동화하는 방법

Databricks의 LLM을 사용하여 로그 및 데이터베이스 전반에서 민감한 데이터를 자동으로 감지하고 분류합니다.
당사의 LogSentinel 시스템은 정확한 라벨링을 위해 계층적, 상주 인식 및 다중 모델 분류를 적용하며, 이 기술은 데이터 분류 제품에 직접 통합되고 있습니다.
열을 사전 라벨링하고 라벨링 드리프트를 지속적으로 감지함으로써 LogSentinel은 신뢰할 수 있는 PII 감지, 자동화된 정책 적용, 훨씬 더 빠른 대규모 규정 준수 워크플로를 지원합니다.

Databricks는 내부 logs와 데이터세트가 지속적으로 변경되는 대규모 환경에서 운영됩니다. 즉, 스키마가 발전하고, 새로운 열이 나타나며, 데이터 시맨틱이 drift됩니다. 이 블로그에서는 Databricks 내부에서 Databricks를 사용하여 플랫폼 변경에 따라 PII 및 기타 민감한 데이터에 정확한 레이블을 지정하는 방법을 설명합니다.

이를 위해 Databricks에서 스키마 변화를 추적하고, 레이블링 드리프트를 감지하며, 고품질 레이블을 거버넌스 및 보안 제어에 제공하는 LLM 기반 데이터 분류 시스템인 LogSentinel을 구축했습니다. 저희는 MLflow를 사용하여 실험을 추적하고 시간 경과에 따른 성능을 모니터링하며, 고객이 동일한 접근 방식의 이점을 누릴 수 있도록 LogSentinel의 최고의 아이디어를 Databricks 데이터 분류 제품에 다시 통합하고 있습니다.

이 시스템이 중요한 이유

이 시스템은 플랫폼, 데이터, 보안 팀을 위해 다음과 같은 세 가지 구체적인 비즈니스 영역을 개선하도록 설계되었습니다.

규정 준수 주기 단축: 애널리스트가 몇 주 동안 수행하던 반복적인 검토 작업을 이제는 사람이 확인하기 전에 열이 사전 레이블링되고 사전 분류되므로 몇 시간 만에 완료할 수 있습니다.
운영 리스크 감소: 시스템이 라벨링 드리프트와 스키마 변경을 지속적으로 감지하므로, 민감한 필드가 잘못되거나 누락된 태그와 함께 조용히 빠져나갈 가능성이 줄어듭니다.
더 강력한 정책 시행: 이제 신뢰할 수 있는 레이블이 마스킹, 액세스 제어, 보존 및 상주 규칙을 직접 구동하여 이전의 '최선 노력 거버넌스'를 실행 가능한 정책으로 전환합니다.

실제로 팀은 모든 도메인에 대해 맞춤형 분류기를 구축할 필요 없이 새 테이블을 표준 파이프라인에 연결하고, drift 메트릭과 예외를 모니터링하며, 시스템에 의존하여 PII 및 상주 제약 조건을 적용할 수 있습니다.

한눈에 보는 시스템 아키텍처

저희는 내부 데이터 분류 체계를 사용하여 테이블에 지속적으로 주석을 달고, 레이블링 드리프트를 감지하며, 문제가 발생하면 수정 티켓을 여는 LLM 기반 열 분류 시스템을 Databricks에 구축했습니다. 시스템에 포함된 다양한 구성 요소는 다음과 같습니다(MLFlow를 사용하여 추적 및 평가).

데이터 수집: 다양한 데이터 소스(Unity Catalog 열 데이터, 레이블 분류 체계 데이터, 정답 데이터 포함) 수집
데이터 증강: Databricks AI Search 및 AI 주석 생성을 사용한 데이터 증강
LLM 오케스트레이션
계층적 레이블링 시스템
모델 버전 관리: 여러 모델을 병렬로 실행
레이블 예측: 전문가 혼합(MoE) 접근 방식을 사용하여 최종 레이블 예측
티켓 생성: 위반 사항 감지 및 JIRA 티켓 생성

엔드투엔드 워크플로는 아래 그림에 나와 있습니다.

Data Ingestion

주석을 달 각 로그 유형 또는 데이터 세트에 대해 모든 열에서 값을 무작위로 샘플링하고 테이블 이름, 열 이름, 유형, 기존 주석 및 값의 일부 샘플과 같은 메타데이터를 시스템으로 전송합니다. LLM 비용을 줄이고 처리량을 개선하기 위해 동일한 테이블의 여러 열을 단일 요청으로 함께 일괄 처리합니다.

당사의 분류 체계는 프로토콜 버퍼를 사용하여 정의되며 현재 100개 이상의 계층적 데이터 라벨을 포함하고 있으며, 팀에 추가 카테고리가 필요한 경우를 위해 커스텀 확장도 가능합니다. 이를 통해 거버넌스 및 플랫폼 이해관계자는 몇 가지 정규식을 넘어 'PII'와 '민감'이 무엇을 의미하는지에 대한 공통된 계약을 맺게 됩니다.

데이터 증강

두 가지 증강 전략으로 분류 품질이 크게 향상됩니다.

AI 열 주석 생성: 주석이 없는 경우 Databricks AI 생성 주석 을 사용하여 LLM과 향후 테이블 소비자 모두에게 도움이 되는 간결하고 사람이 읽을 수 있는 설명을 합성합니다.
소수샷(Few-shot) 예제 생성: 정답(ground truth) 데이터 세트를 유지하고 AI Search를 통해 검색된 정적 예제와 동적 예제를 모두 사용합니다. 각 열에 대해 이름, 유형, 주석 및 컨텍스트로부터 임베딩을 구축한 다음, 상위 K개의 유사한 레이블이 지정된 열을 검색하여 프롬프트에 포함합니다.

정적 프롬프트는 초기 단계나 레이블이 지정된 데이터가 제한적인 경우에 가장 적합하며 일관성과 재현성을 제공합니다. 동적 프롬프트는 성숙한 시스템에서 더 효과적이며, 벡터 검색을 사용하여 유사한 예시를 가져오고 크고 다양한 데이터 세트의 새로운 스키마와 데이터 도메인에 적응합니다.

LLM 오케스트레이션

시스템의 핵심에는 프로덕션 규모로 LLM 호출을 관리하는 경량 오케스트레이션 레이어가 있습니다.

주요 기능은 다음과 같습니다.

내부에서 호스팅되는 LLM(예: Llama, Claude 및 GPT 기반 모델) 간의 다중 모델 라우팅 및 모델을 사용할 수 없을 경우 자동 fallback.
지수 백오프를 사용한 일시적인 오류 및 속도 제한에 대한 재시도 로직.
비어 있거나 유효하지 않거나 환각으로 생성된 레이블을 감지하고 해당 사례를 백업 모델로 다시 실행하는 검증 후크입니다.
컨텍스트를 잃지 않으면서 토큰 사용을 최적화하기 위해 한 번에 여러 열에 주석을 다는 배치 처리.

계층적 레이블링 시스템

열당 세 가지 유형의 레이블을 예측합니다.

마스킹, 리댁션, 엄격한 액세스 제어를 지원하는 100가지 이상의 세분화된 옵션에서 가져온 세분화된 라벨.
모니터링 및 보고에 적합한 더 넓은 범주로 관련 세분화된 레이블을 집계하는 계층적 레이블.
데이터가 리전 내에 있어야 하는지 또는 리전 간 이동이 가능한지를 나타내어 데이터 이동 정책에 직접 적용되는 상주 레이블.

예측의 일관성을 유지하고 환각(hallucination)을 줄이기 위해 2단계 흐름을 사용합니다. 즉, 광범위한 분류 단계에서 상위 수준의 범주를 할당한 다음, 구체화 단계에서 해당 범주 내의 정확한 레이블을 선택합니다. 이는 사람이 검토할 때 먼저 '이것은 워크스페이스 데이터다'라고 결정한 다음 특정 워크스페이스 식별자 레이블을 선택하는 방식과 유사합니다.

모델 버전 관리 및 레이블 예측

단일 '최상의' 구성에 의존하는 대신, 각 모델 설정은 열에 레이블을 지정하기 위해 경쟁하는 전문가로 취급됩니다.

여러 모델 버전이 다음과 같은 차이점을 가지며 병렬로 실행됩니다.

기본 및 fallback LLM 선택.
생성된 주석 사용과 원시 메타데이터 사용 비교.
프롬프트 전략(정적 대 동적 few-shot).
레이블 세분성 및 분류 체계 하위 집합.

각 전문가는 0에서 100 사이의 레이블과 신뢰도 점수를 생성합니다. 그런 다음 시스템은 가장 신뢰도가 높은 전문가의 레이블을 선택합니다. 이는 정확도를 개선하고 특정 구성에서 가끔 발생하는 잘못된 예측의 영향을 줄이는 전문가 혼합(Mixture-of-Experts) 스타일의 접근 방식입니다.

이러한 설계를 통해 새로운 모델이나 프롬프트 전략을 도입하고, 기존 모델과 함께 실행하며, 기본값으로 설정되기 전에 메트릭과 다운스트림 티켓 볼륨 모두에 대해 평가할 수 있으므로 안전하게 실험할 수 있습니다.

티켓 생성

파이프라인은 현재 스키마 주석을 LLM 예측과 지속적으로 비교하여 의미 있는 편차를 찾아냅니다.

일반적인 사례는 다음과 같습니다.

주석 없이 새로 추가된 열.
열의 내용과 더 이상 일치하지 않는 기존 주석입니다.
리전 간 이동이 가능한 것으로 레이블이 지정된 민감한 값을 포함하는 열.

시스템이 위반을 감지하면 정책 항목을 생성하고 소유 팀에 테이블, 열, 제안된 레이블 및 신뢰도에 대한 컨텍스트와 함께 JIRA 티켓을 제출합니다. 이를 통해 데이터 분류 문제는 팀이 다른 프로덕션 인시던트와 마찬가지로 추적하고 해결할 수 있는 지속적인 워크플로가 됩니다.

영향 및 평가

이 시스템은 2,258개의 레이블이 지정된 샘플에 대해 평가되었으며, 그중 1,010개는 PII를, 1,248개는 비 PII를 포함했습니다. 이 데이터 세트에서 PII 탐지에 대해 최대 92%의 정밀도와 95%의 재현율을 달성했습니다.

이해 관계자에게 더 중요한 것은, 이 배포가 필요한 운영 성과를 창출했다는 것입니다.

검토자가 원시 스키마가 아닌 고품질의 제안 레이블부터 시작하기 때문에 각 대규모 감사 주기마다 수동 검토에 드는 노력이 몇 주에서 몇 시간으로 단축되었습니다.
이제 라벨링 드리프트는 연례 검토 중에 발견되는 대신 스키마가 발전함에 따라 지속적으로 감지됩니다.
안전한 것으로 잘못 레이블이 지정된 민감한 데이터에 대한 알림은 더욱 구체적이므로 보안팀은 노이즈가 많은 규칙 기반 스캐너를 분류하는 대신 신속하게 조치를 취할 수 있습니다.
마스킹 및 상주 정책은 분석 및 보고를 지원하는 동일한 레이블 분류 체계를 사용하여 대규모로 적용됩니다.

정밀도와 재현율은 가드레일 역할을 하지만 시스템은 검토 시간, 드리프트 감지 지연 시간, 주당 생성되는 조치 가능한 티켓의 양과 같은 결과를 중심으로 조정됩니다.

결론

분류 체계 기반 레이블링과 MoE 스타일 평가 프레임워크를 결합하여 MLflow를 사용하여 실험 및 배포를 관리하면서 Databricks의 기존 엔지니어링 및 거버넌스 워크플로를 활성화했습니다. 스키마가 변경될 때 레이블을 최신 상태로 유지하고, 규정 준수 검토를 더 빠르고 집중적으로 수행하며, 플랫폼 전반에 걸쳐 마스킹 및 상주 규칙을 일관되게 적용하는 데 필요한 적용 후크를 제공합니다.

이 작업의 가장 흥미로운 부분은 내부 학습 내용을 데이터 분류 제품에 직접 통합하는 것입니다. LogSentinel 내에서 이러한 기술을 운영하고 검증하면서 저희 기술을 Databricks Data Classification에 직접 통합합니다.

메타데이터 및 샘플 수집, 컨텍스트 보강, 여러 LLM 오케스트레이션, 예측을 정책 및 티켓팅 시스템에 제공하는 동일한 패턴은 데이터에 대한 신뢰할 수 있고 진화하는 이해가 필요한 모든 곳에서 재사용할 수 있습니다. 이러한 인사이트를 핵심 제품에 통합함으로써 모든 조직이 Databricks와 동일한 정밀도와 규모로 데이터 인텔리전스를 규정 준수 및 거버넌스에 활용할 수 있도록 지원합니다.

감사의 말

이 프로젝트는 여러 엔지니어링 팀 간의 협업을 통해 가능했습니다. 지원과 기여를 해주신 Anirudh Kondaveeti, Sittichai Jiampojamarn, Zefan Xu, Li Yang, Xiaohui Sun, Dibyendu Karmakar, Chenen Liang, Viswesh Periyasamy, Chengzu Ou, Evion Kim, Matthew Hayes, Benjamin Ebanks, Sudeep Srivastava 님께 감사드립니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)