주요 컨텐츠로 이동

에이전틱 AI를 사용한 대규모 데이터 품질 모니터링

Unity Catalog를 기반으로 구축되어 문제를 조기에 감지하고 신속하게 해결합니다.

Blog: Data Quality Quality Monitoring at scale with agentic AI

발행일: February 4, 2026

제품Less than a minute

Summary

• 분석 및 AI를 위해 데이터 자산이 증가함에 따라 수동, 규칙 기반 데이터 품질은 확장되지 않습니다.
• 에이전트 기반 데이터 품질 모니터링은 예상 데이터 패턴을 학습하고 중요한 데이터세트 전반에서 문제를 감지합니다.
• Unity Catalog 리니지와 같은 플랫폼 네이티브 신호는 팀이 엔터프라이즈 규모에서 문제를 더 신속하게 해결하는 데 도움이 됩니다.

대규모 데이터 품질의 과제

조직에서 더 많은 데이터 및 AI 제품을 구축함에 따라 데이터 품질을 유지하기가 더 어려워집니다. 데이터는 경영진 대시보드부터 전사적 Q&A 봇에 이르기까지 모든 것을 구동합니다. 최신이 아닌 테이블은 오래되었거나 심지어 부정확한 답변으로 이어져 비즈니스 결과에 직접적인 영향을 미칩니다. 

대부분의 데이터 품질 접근 방식은 이러한 현실에 맞춰 확장되지 않습니다. 데이터 팀은 소규모 테이블 세트에 적용되는 수동으로 정의된 규칙에 의존합니다. 데이터 자산이 증가함에 따라 사각지대가 생기고 전반적인 상태에 대한 가시성이 제한됩니다.

팀은 계속해서 새로운 테이블을 추가하며, 각 테이블에는 고유한 데이터 패턴이 있습니다. 모든 데이터 세트에 대해 맞춤형 검사를 유지하는 것은 지속 가능하지 않습니다. 실제로 소수의 중요한 테이블만 모니터링되는 반면 대부분의 데이터 자산은 확인되지 않은 상태로 남아 있습니다.

그 결과 조직은 그 어느 때보다 더 많은 데이터를 보유하게 되었지만, 데이터를 사용하는 데 대한 신뢰도는 낮아졌습니다. 

Agentic 데이터 품질 모니터링을 소개합니다

오늘 Databricks는 AWS, Azure Databricks 및 GCP에서 데이터 품질 모니터링(Data Quality Monitoring)의 공개 미리보기(Public Preview)를 발표합니다.

데이터 품질 모니터링은 단편적으로 이루어지던 수동 검사를 확장 가능한 에이전트 기반 접근 방식으로 대체합니다. 정적 임계값 대신 AI 에이전트는 정상적인 데이터 패턴을 학습하고 변화에 적응하며 데이터 자산을 지속적으로 모니터링합니다.

Databricks Platform과의 긴밀한 통합으로 탐지 이상의 기능을 활용할 수 있습니다.

  • 근본 원인은 업스트림 Lakeflow 작업 및 파이프라인에 직접 표시됩니다. 팀은 데이터 품질 모니터링에서 영향을 받은 작업으로 바로 이동하여 Lakeflow의 기본 내장 관측성 기능을 활용해 장애에 대한 더 깊은 맥락을 파악하고 문제를 더 신속하게 해결할 수 있습니다.
  • 문제는 Unity Catalog 리니지 및 인증된 태그를 사용하여 우선순위가 지정되므로 영향력이 큰 데이터 세트가 먼저 처리됩니다.

플랫폼 네이티브 모니터링을 통해 팀은 엔터프라이즈 규모에서 문제를 더 일찍 감지하고 가장 중요한 것에 집중하며 문제를 더 빠르게 해결할 수 있습니다.

“저희의 목표는 항상 데이터가 문제가 있을 때 알려주는 것이었습니다. Databricks의 데이터 품질 모니터링은 AI 기반 접근 방식을 통해 마침내 이를 실현합니다. UI에 원활하게 통합되어, 다른 제품에서는 항상 제한 요소였던, 직접 관여할 필요가 없는 무구성 방식으로 모든 테이블을 모니터링합니다. 사용자가 문제를 보고하는 대신 데이터가 먼저 문제를 표시하여 플랫폼의 품질, 신뢰 및 무결성을 향상시킵니다.” — Jake Roussis, Alinta Energy 수석 데이터 엔지니어

데이터 품질 모니터링 작동 방식 

데이터 품질 모니터링은 두 가지 상호 보완적인 방법을 통해 실행 가능한 인사이트를 제공합니다.

이상치 탐지

스키마 수준에서 활성화된 이상 탐지는 수동 구성 없이 모든 중요 테이블을 모니터링합니다. AI 에이전트는 과거 패턴과 계절별 행동을 학습하여 예상치 못한 변화를 식별합니다.

  • 정적 규칙이 아닌 학습된 동작: 에이전트는 정상적인 변동에 적응하고 최신성 및 완전성과 같은 주요 품질 신호를 모니터링합니다. null 비율, 고유성, 유효성을 포함한 추가 검사 지원이 곧 제공될 예정입니다.
  • 확장성을 위한 지능형 스캔: 스키마의 모든 테이블은 한 번 스캔된 후 테이블 중요도 및 업데이트 빈도에 따라 다시 방문합니다. Unity Catalog 리니지 및 인증 은 어떤 테이블이 가장 중요한지 결정합니다. 자주 사용되는 테이블은 더 자주 스캔되는 반면, 정적 또는 더 이상 사용되지 않는 테이블은 자동으로 건너뜁니다.
  • 가시성 및 보고를 위한 시스템 테이블: 테이블 상태, 학습된 threshold, 관찰된 패턴이 시스템 테이블에 기록됩니다. 팀은 이 데이터를 알림, 보고, 심층 분석에 사용합니다.

데이터 프로파일링

테이블 수준에서 활성화된 데이터 프로파일링은 요약 통계를 수집하고 시간 경과에 따른 변경 사항을 추적합니다. 이러한 메트릭은 과거의 컨텍스트를 제공하고 이상 탐지에 전달되어 문제를 쉽게 발견할 수 있도록 합니다.

 

“OnePay의 미션은 사람들이 저축하고, 쓰고, 빌리고, 돈을 불릴 수 있도록 지원하여 재정적 발전을 이루도록 돕는 것입니다. 이 미션을 달성하려면 모든 데이터세트에서 고품질 데이터를 확보하는 것이 중요합니다. 데이터 품질 모니터링을 통해 문제를 조기에 발견하고 신속하게 조치를 취할 수 있습니다. 이를 통해 분석, 보고, 강력한 ML 모델 개발의 정확성을 보장할 수 있으며, 이 모든 것이 고객에게 더 나은 서비스를 제공하는 데 기여합니다.” — 나밋 파이(Nameet Pai), OnePay 플랫폼 및 데이터 엔지니어링 책임자

끊임없이 증가하는 데이터 자산의 품질 보장

자동화된 품질 모니터링을 통해 데이터 플랫폼 팀은 데이터의 전반적인 상태를 파악하고 모든 문제를 신속하게 해결할 수 있습니다. 

에이전트 방식의 원클릭 모니터링: 수동으로 규칙을 작성하거나 임계값을 구성할 필요 없이 전체 스키마를 모니터링합니다. 데이터 품질 모니터링은 과거 패턴과 계절적 행동(예: 주말의 볼륨 감소, 세금 신고 기간 등)을 학습하여 모든 테이블에서 이상 징후를 지능적으로 감지합니다. 

데이터 상태에 대한 전체적인 보기: 통합된 보기에서 모든 테이블의 상태를 쉽게 추적하고 문제가 해결되도록 합니다. 

  • 다운스트림 영향에 따른 문제 우선순위 지정: 모든 테이블은 다운스트림 리니지 및 쿼리 볼륨을 기준으로 우선순위가 지정됩니다. 가장 중요한 테이블의 품질 문제가 먼저 표시됩니다.
  • 신속한 문제 해결: Unity Catalog에서 데이터 품질 모니터링은 문제를 업스트림 Lakeflow 작업Spark 선언적 파이프라인으로 직접 추적합니다. 팀은 카탈로그에서 영향을 받는 작업으로 바로 이동하여 특정 장애, 코드 변경 및 기타 근본 원인을 조사할 수 있습니다.

상태 표시기: 일관된 품질 신호가 업스트림 파이프라인에서 다운스트림 비즈니스 화면으로 전파됩니다. 데이터 엔지니어링 팀이 문제에 대해 가장 먼저 알림을 받으며, 소비자는 데이터가 사용하기에 안전한지 즉시 알 수 있습니다. 

다음은 무엇인가요?

향후 몇 달간의 로드맵은 다음과 같습니다:

  • 추가 품질 규칙: null 비율, 고유성, 유효성 등 더 많은 검사를 지원합니다.
  • 자동화된 알림 및 근본 원인 분석: 작업 및 파이프라인에 직접 내장된 지능형 근본 원인 포인터를 사용하여 알림을 자동으로 수신하고 문제를 신속하게 해결합니다.
  • 플랫폼 전반의 상태 표시기: Unity Catalog, Lakeflow Observability, Lineage, 노트북, Genie 등에서 일관된 상태 신호를 확인하세요.
  • 불량 데이터 필터링 및 격리: 선제적으로 불량 데이터를 식별하여 소비자에 도달하는 것을 방지합니다.

시작하기: 공개 미리보기

확장 가능한 지능형 모니터링을 경험하고 신뢰할 수 있는 셀프 서비스 데이터 플랫폼을 구축해 보세요. 지금 바로 Public Preview를 사용해 보세요: 

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?

ETL and BI Migration Strategies

솔루션

January 27, 2025/1분 이내 소요

Databricks로의 마이그레이션 탐색: 아키텍처와 전략적 접근법

DeepSeek R1 on Databricks

공지사항

January 31, 2025/1분 이내 소요

DeepSeek R1 on Databricks