LogSentinel 심층 분석: 내부적으로 LLM을 활용하여 PII 검색 및 거버넌스를 자동화하는 방법
작성자: 아니루드 콘다비티, 시티차이 지암포자만 , 제판 쉬
Databricks는 내부 logs와 데이터세트가 지속적으로 변경되는 대규모 환경에서 운영됩니다. 즉, 스키마가 발전하고, 새로운 열이 나타나며, 데이터 시맨틱이 drift됩니다. 이 블로그에서는 Databricks 내부에서 Databricks를 사용하여 플랫폼 변경에 따라 PII 및 기타 민감한 데이터에 정확한 레이블을 지정하는 방법을 설명합니다.
이를 위해 Databricks에서 스키마 변화를 추적하고, 레이블링 드리프트를 감지하며, 고품질 레이블을 거버넌스 및 보안 제어에 제공하는 LLM 기반 데이터 분류 시스템인 LogSentinel을 구축했습니다. 저희는 MLflow를 사용하여 실험을 추적하고 시간 경과에 따른 성능을 모니터링하며, 고객이 동일한 접근 방식의 이점을 누릴 수 있도록 LogSentinel의 최고의 아이디어를 Databricks 데이터 분류 제품에 다시 통합하고 있습니다.
이 시스템은 플랫폼, 데이터, 보안 팀을 위해 다음과 같은 세 가지 구체적인 비즈니스 영역을 개선하도록 설계되었습니다.
실제로 팀은 모든 도메인에 대해 맞춤형 분류기를 구축할 필요 없이 새 테이블을 표준 파이프라인에 연결하고, drift 메트릭과 예외를 모니터링하며, 시스템에 의존하여 PII 및 상주 제약 조건을 적용할 수 있습니다.
저희는 내부 데이터 분류 체계를 사용하여 테이블에 지속적으로 주석을 달고, 레이블링 드리프트를 감지하며, 문제가 발생하면 수정 티켓을 여는 LLM 기반 열 분류 시스템을 Databricks에 구축했습니다. 시스템에 포함된 다양한 구성 요소는 다음과 같습니다(MLFlow를 사용하여 추적 및 평가).
엔드투엔드 워크플로는 아래 그림에 나와 있습니다.

주석을 달 각 로그 유형 또는 데이터 세트에 대해 모든 열에서 값을 무작위로 샘플링하고 테이블 이름, 열 이름, 유형, 기존 주석 및 값의 일부 샘플과 같은 메타데이터를 시스템으로 전송합니다. LLM 비용을 줄이고 처리량을 개선하기 위해 동일한 테이블의 여러 열을 단일 요청으로 함께 일괄 처리합니다.
당사의 분류 체계는 프로토콜 버퍼를 사용하여 정의되며 현재 100개 이상의 계층적 데이터 라벨을 포함하고 있으며, 팀에 추가 카테고리가 필요한 경우를 위해 커스텀 확장도 가능합니다. 이를 통해 거버넌스 및 플랫폼 이해관계자는 몇 가지 정규식을 넘어 'PII'와 '민감'이 무엇을 의미하는지에 대한 공통된 계약을 맺게 됩니다.
두 가지 증강 전략으로 분류 품질이 크게 향상됩니다.
정적 프롬프트는 초기 단계나 레이블이 지정된 데이터가 제한적인 경우에 가장 적합하며 일관성과 재현성을 제공합니다. 동적 프롬프트는 성숙한 시스템에서 더 효과적이며, 벡터 검색을 사용하여 유사한 예시를 가져오고 크고 다양한 데이터 세트의 새로운 스키마와 데이터 도메인에 적응합니다.
시스템의 핵심에는 프로덕션 규모로 LLM 호출을 관리하는 경량 오케스트레이션 레이어가 있습니다.
주요 기능은 다음과 같습니다.
열당 세 가지 유형의 레이블을 예측합니다.
예측의 일관성을 유지하고 환각(hallucination)을 줄이기 위해 2단계 흐름을 사용합니다. 즉, 광범위한 분류 단계에서 상위 수준의 범주를 할당한 다음, 구체화 단계에서 해당 범주 내의 정확한 레이블을 선택합니다. 이는 사람이 검토할 때 먼저 '이것은 워크스페이스 데이터다'라고 결정한 다음 특정 워크스페이스 식별자 레이블을 선택하는 방식과 유사합니다.
단일 '최상의' 구성에 의존하는 대신, 각 모델 설정은 열에 레이블을 지정하기 위해 경쟁하는 전문가로 취급됩니다.
여러 모델 버전이 다음과 같은 차이점을 가지며 병렬로 실행됩니다.
각 전문가는 0에서 100 사이의 레이블과 신뢰도 점수를 생성합니다. 그런 다음 시스템은 가장 신뢰도가 높은 전문가의 레이블을 선택합니다. 이는 정확도를 개선하고 특정 구성에서 가끔 발생하는 잘못된 예측의 영향을 줄이는 전문가 혼합(Mixture-of-Experts) 스타일의 접근 방식입니다.
이러한 설계를 통해 새로운 모델이나 프롬프트 전략을 도입하고, 기존 모델과 함께 실행하며, 기본값으로 설정되기 전에 메트릭과 다운스트림 티켓 볼륨 모두에 대해 평가할 수 있으므로 안전하게 실험할 수 있습니다.
파이프라인은 현재 스키마 주석을 LLM 예측과 지속적으로 비교하여 의미 있는 편차를 찾아냅니다.
일반적인 사례는 다음과 같습니다.
시스템이 위반을 감지하면 정책 항목을 생성하고 소유 팀에 테이블, 열, 제안된 레이블 및 신뢰도에 대한 컨텍스트와 함께 JIRA 티켓을 제출합니다. 이를 통해 데이터 분류 문제는 팀이 다른 프로덕션 인시던트와 마찬가지로 추적하고 해결할 수 있는 지속적인 워크플로가 됩니다.
이 시스템은 2,258개의 레이블이 지정된 샘플에 대해 평가되었으며, 그중 1,010개는 PII를, 1,248개는 비 PII를 포함했습니다. 이 데이터 세트에서 PII 탐지에 대해 최대 92%의 정밀도와 95%의 재현율을 달성했습니다.
이해 관계자에게 더 중요한 것은, 이 배포가 필요한 운영 성과를 창출했다는 것입니다.
정밀도와 재현율은 가드레일 역할을 하지만 시스템은 검토 시간, 드리프트 감지 지연 시간, 주당 생성되는 조치 가능한 티켓의 양과 같은 결과를 중심으로 조정됩니다.
분류 체계 기반 레이블링과 MoE 스타일 평가 프레임워크를 결합하여 MLflow를 사용하여 실험 및 배포를 관리하면서 Databricks의 기존 엔지니어링 및 거버넌스 워크플로를 활성화했습니다. 스키마가 변경될 때 레이블을 최신 상태로 유지하고, 규정 준수 검토를 더 빠르고 집중적으로 수행하며, 플랫폼 전반에 걸쳐 마스킹 및 상주 규칙을 일관되게 적용하는 데 필요한 적용 후크를 제공합니다.
이 작업의 가장 흥미로운 부분은 내부 학습 내용을 데이터 분류 제품에 직접 통합하는 것입니다. LogSentinel 내에서 이러한 기술을 운영하고 검증하면서 저희 기술을 Databricks Data Classification에 직접 통합합니다.
메타데이터 및 샘플 수집, 컨텍스트 보강, 여러 LLM 오케스트레이션, 예측을 정책 및 티켓팅 시스템에 제공하는 동일한 패턴은 데이터에 대한 신뢰할 수 있고 진화하는 이해가 필요한 모든 곳에서 재사용할 수 있습니다. 이러한 인사이 트를 핵심 제품에 통합함으로써 모든 조직이 Databricks와 동일한 정밀도와 규모로 데이터 인텔리전스를 규정 준수 및 거버넌스에 활용할 수 있도록 지원합니다.
이 프로젝트는 여러 엔지니어링 팀 간의 협업을 통해 가능했습니다. 지원과 기여를 해주신 Anirudh Kondaveeti, Sittichai Jiampojamarn, Zefan Xu, Li Yang, Xiaohui Sun, Dibyendu Karmakar, Chenen Liang, Viswesh Periyasamy, Chengzu Ou, Evion Kim, Matthew Hayes, Benjamin Ebanks, Sudeep Srivastava 님께 감사드립니다.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.