주요 컨텐츠로 이동
Platform blog

레이크하우스 모니터링: 데이터 품질과 AI를 위한 통합 솔루션

Jacqueline Li
Alkis Polyzotis
케이시 울렌후스
이 포스트 공유하기

Introduction

데이터브릭스 레이크하우스 모니터링을 사용하면 추가 툴이나 복잡한 과정 없이 데이터부터 기능, ML 모델에 이르는 모든 데이터 파이프라인을 모니터링할 수 있습니다. Unity Catalog에 내장되어 거버넌스와 함께 품질을 추적하고 데이터 및 AI 에셋의 성능에 대한 심층적인 인사이트를 얻을 수 있습니다. 레이크하우스 모니터링은 완전히 서버리스이므로 인프라나 컴퓨팅 구성 튜닝에 대해 걱정할 필요가 없습니다.

모니터링에 대한 단일 통합 접근 방식을 사용하면 Databricks 데이터 인텔리전스 플랫폼에서 직접 품질을 추적하고, 오류를 진단하고, 솔루션을 간편하게 찾을 수 있습니다. 여러분과 여러분의 팀이 레이크하우스 모니터링을 최대한 활용할 수 있는 방법을 계속 읽어보세요.

example-dashboard

Why Lakehouse Monitoring? 

데이터 파이프라인이 원활하게 실행되는 것처럼 보이지만 시간이 지남에 따라 데이터의 품질이 소리 없이 저하되는 것을 발견하는 시나리오입니다. 이는 데이터 엔지니어들이 흔히 겪는 문제입니다. 누군가 데이터를 사용할 수 없다고 불평하기 전까지는 모든 것이 정상으로 보입니다.

ML 모델을 훈련하는 사람들에게는 프로덕션 모델 성능을 추적하고 여러 버전을 비교하는 것이 지속적인 과제입니다. 결과적으로 팀은 프로덕션 환경에서 모델이 오래되어 롤백해야 하는 상황에 직면하게 됩니다.

데이터 품질 저하를 감추는 기능적 파이프라인에 대한 환상 때문에 데이터 및 AI 팀은 납기 및 품질 SLA를 충족하기가 어렵습니다. 레이크하우스 모니터링은 다운스트림 프로세스가 영향을 받기 전에 품질 문제를 사전에 발견할 수 있도록 도와줍니다. 잠재적인 문제를 미리 파악하여 파이프라인이 원활하게 실행되고 머신 러닝 모델이 시간이 지나도 효과적으로 유지되도록 할 수 있습니다. 더 이상 디버깅과 변경 사항 롤백에 몇 주를 소비하지 않아도 됩니다!

How it works

lakehouse-flowchart

레이크하우스 모니터링을 사용하면 단 한 번의 클릭으로 모든 테이블의 통계적 속성과 품질을 모니터링할 수 있습니다. 유니티는 Unity 카탈로그의 모든 델타 테이블에 대한 데이터 품질을 시각화하는 대시보드를 자동으로 생성합니다. 유니티 제품은 다양한 메트릭 세트를 즉시 계산합니다. 예를 들어 추론 테이블을 모니터링하는 경우 R-제곱, 정확도 등과 같은 모델 성능 지표를 제공합니다. 또는 데이터 엔지니어링 테이블을 모니터링하는 경우에는 평균, 최소/최대 등의 분포 지표를 제공합니다. 기본 제공 메트릭 외에도 계산을 원하는 사용자 지정(비즈니스별) 메트릭을 구성할 수도 있습니다. 레이크하우스 모니터링은 지정된 일정에 따라 메트릭을 새로 고치고 대시보드를 최신 상태로 유지합니다. 모든 지표는 델타 테이블에 저장되어 임시 분석, 사용자 지정 시각화 및 경고를 가능하게 합니다.      

Configuring Monitoring

Databricks UI(AWS | Azure) 또는 API(AWS | Azure)를 사용하여 소유하고 있는 모든 테이블에 대해 모니터링을 설정할 수 있습니다. 데이터 파이프라인이나 모델에서 원하는 모니터링 프로필 유형을 선택하세요:

  1. 스냅샷 프로필: 시간 경과에 따라 전체 테이블을 모니터링하거나 현재 데이터를 이전 버전 또는 알려진 기준선과 비교하려는 경우 스냅샷 프로필이 가장 효과적입니다. 그러면 테이블의 모든 데이터에 대한 지표를 계산하고 모니터가 새로 고쳐질 때마다 지표를 업데이트합니다.
  2. 시계열 프로필: 테이블에 이벤트 타임스탬프가 포함되어 있고 일정 기간(시간별, 일별, 주별 등)에 걸쳐 데이터 분포를 비교하려는 경우 시계열 프로필이 가장 효과적입니다. 모니터가 새로 고쳐질 때마다 증분 처리를 받을 수 있도록 데이터 피드 변경(AWS | Azure)을 켜는 것이 좋습니다. 참고: 이 프로필을 구성하려면 타임스탬프 열이 필요합니다.
  3. 추론 로그 프로필: 시간에 따른 모델 성능을 비교하거나 모델 입력 및 예측이 시간에 따라 어떻게 변화하는지 추적하려는 경우 추론 프로필이 가장 효과적입니다. ML 분류 또는 회귀 모델의 입력과 출력이 포함된 추론 테이블(AWS | Azure)이 필요합니다. 드리프트 계산을 위한 기준값 레이블과 공정성 및 편향성 지표를 얻기 위한 인구 통계 정보 등의 기타 메타데이터를 선택적으로 포함할 수도 있습니다. 

모니터링 서비스를 얼마나 자주 실행할지 선택할 수 있습니다. 많은 고객들이 데이터의 최신성과 관련성을 보장하기 위해 일별 또는 시간별 일정을 선택합니다. 데이터 파이프라인 실행이 끝날 때 자동으로 모니터링이 실행되도록 하려면 API를 호출하여 워크플로우에서 직접 모니터링을 새로 고칠 수도 있습니다.

모니터링을 추가로 사용자 지정하려면 테이블 전체뿐만 아니라 테이블의 기능 하위 집합을 모니터링하도록 슬라이싱 표현식을 설정할 수 있습니다. 특정 열(예: 인종, 성별)을 슬라이스하여 공정성 및 편향성 지표를 생성할 수 있습니다. 기본 테이블의 열을 기반으로 사용자 지정 지표를 정의하거나 기본 제공 지표 위에 사용자 지정 지표를 정의할 수도 있습니다. 자세한 내용은 사용자 지정 메트릭 사용 방법(AWS | Azure)을 참조하세요.

Visualize Quality

새로 고침의 일환으로 테이블과 모델을 스캔하여 시간 경과에 따른 품질을 추적하는 지표를 생성합니다. 두 가지 유형의 메트릭을 계산하여 델타 테이블에 저장합니다:

  • 프로필 지표: 프로필 지표는 데이터에 대한 요약 통계를 제공합니다. 예를 들어 테이블의 0과 0의 수 또는 모델의 정확도 메트릭을 추적할 수 있습니다. 자세한 내용은 프로필 메트릭 테이블 스키마(AWS | Azure)를 참조하세요.
  • 드리프트 메트릭: 기준 테이블과 비교할 수 있는 통계적 드리프트 메트릭을 제공합니다. 자세한 내용은 드리프트 메트릭 테이블 스키마(AWS | Azure)를 참조하세요.

이러한 모든 메트릭을 시각화하기 위해 레이크하우스 모니터링은 완전히 사용자 정의할 수 있는 기본 제공 대시보드를 제공합니다. 또한 임계값 위반, 데이터 배포 변경, 기준 테이블에서의 드리프트에 대한 알림을 받기 위해 Databricks SQL 알림(AWS | Azure)을 만들 수도 있습니다.

Setting up Alerts

데이터 테이블을 모니터링하든 모델을 모니터링하든, 계산된 메트릭에 알림을 설정하면 잠재적인 오류를 알려주고 다운스트림 위험을 방지하는 데 도움이 됩니다.

0과 0의 비율이 특정 임계값을 초과하거나 시간이 지남에 따라 변경되는 경우 알림을 받을 수 있습니다. 모델을 모니터링하는 경우 독성 또는 드리프트와 같은 모델 성능 메트릭이 특정 품질 임계값에 미달하는 경우 알림을 받을 수 있습니다.

이제 알림에서 도출된 인사이트를 통해 모델에 재교육이 필요한지 또는 소스 데이터에 잠재적인 문제가 있는지 여부를 파악할 수 있습니다. 문제를 해결한 후에는 새로 고침 API를 수동으로 호출하여 업데이트된 파이프라인에 대한 최신 메트릭을 얻을 수 있습니다. 레이크하우스 모니터링은 데이터와 모델의 전반적인 상태와 안정성을 유지하기 위해 선제적으로 조치를 취할 수 있도록 도와줍니다.

lakehouse-monitoring-alert

Monitor LLM Quality

레이크하우스 모니터링은 검색 증강 생성(RAG) 애플리케이션을 위한 완전 관리형 품질 솔루션을 제공합니다. 애플리케이션 출력에서 유해하거나 안전하지 않은 콘텐츠를 스캔합니다. 오래된 데이터 파이프라인이나 예기치 않은 모델 동작과 관련된 오류를 신속하게 진단할 수 있습니다. 레이크하우스 모니터링은 모니터링 파이프라인을 완벽하게 관리하므로 개발자는 애플리케이션에 집중할 수 있습니다.

quality-dashboard

What’s coming next? 

레이크하우스 모니터링의 미래에 대한 기대가 크며 많은 지원을 부탁드립니다:

  • 데이터 분류/PII 탐지 - 여기에서 비공개 미리 보기에 등록하세요!
  • 데이터 품질 규칙을 자동으로 적용하고 파이프라인을 오케스트레이션할 수 있을 것으로 기대됩니다.
  • 모니터에 대한 전체적인 보기를 통해 테이블 전반의 품질과 상태를 요약할 수 있습니다.

레이크하우스 모니터링에 대해 자세히 알아보고 지금 바로 시작하려면 제품 설명서(AWS | Azure)를 참조하세요. 또한 고품질 RAG 애플리케이션을 만드는 방법에 대한 최근 발표 내용을 확인하고 GenAI 웨비나에 참여하세요.