데이터 옵저버빌리티란 무엇인가요?
데이터 옵저버빌리티(Data Observability)는 조직이 비즈니스에 영향을 미치기 전에 데이터 문제를 감지, 진단 및 예방할 수 있도록 수집 파이프라인에서 스토리지 계층, 다운스트림 분석에 이르기까지 데이터 시스템 전반의 상태, 품질, 안정성 및 성능을 지속적으로 모니터링하는 관행 및 관련 프로세스입니다. 이는 자동화된 모니터링, 이상 탐지, 근본 원인 분석, 데이터 리니지 추적과 같은 활동을 통해 라이프사이클 전반에 걸쳐 데이터 상태를 파악하는 데 중점을 둡니다. 이러한 활동은 조직이 데이터 다운타임을 방지하고 정확하고 신뢰할 수 있으며 품질이 우수한 데이터를 보장하는 데 도움이 됩니다.
자세히 보기
데이터 관측성이 중요한 이유
데이터 관측성은 신뢰 할 수 있는 데이터 파이프라인을 구축하는 데 도움이 됩니다. 내부 및 외부 분산 데이터 소스에 의존하는 데이터 파이프라인의 복잡성이 증가하고 있기 때문에 오늘날의 데이터 기반 조직에게 데이터 관측성은 중요합니다. 오늘날의 데이터 환경에서는 여러 팀이 여러 수집 도구를 사용하고 데이터를 데이터 레이크, 웨어하우스 및 레이크하우스에 저장할 수 있습니다. 데이터 관측성은 오래된 데이터, 누락된 레코드, 스키마 변경, 예상치 못한 볼륨 증가, 잘못된 변환과 같은 문제를 조기에 감지하는 데 도움을 주어 데이터 품질에 큰 영향을 미칩니다.
데이터 문제를 조기에 감지하고 엔드투엔드 리니지 가시성을 확보하면 다운스트림 분석, 운영 및 의사 결정을 개선하고 데이터 신뢰성 문제가 사용자나 소비자에게 도달하기 전에 방지할 수 있습니다. 옵저버빌리티는 데이터의 안정성을 보장하는 데 도움이 될 뿐만 아니라 수익을 증대하고 고객 경험을 개선하며 혁신을 가속화할 수 있습니다.
데이터 관측성의 5가지 핵심 요소
산업에서는 종종 5개의 핵심 요소를 사용하여 관측 가능성을 설명합니다.
- 최신성: 데이터가 최신 상태인가요? 파이프라인이 예상대로 실행되나요? 옵저버빌리티는 테이블이 오래되었는지, 작업이 실패했는지 또는 수집이 지연되었는지를 감지할 수 있습니다.
- 볼륨: 데이터가 예상 데이터 크기 범위 내에 있나요? 관측 가능성은 누락된 레코드, 중복 데이터, 예상치 못한 볼륨 급증 또는 감소와 같은 이상 현상을 감지할 수 있습니다.
- 분포: 통계적 속성의 변화를 식별할 수 있나요? 값이 정상적으로 보이나요? 관측 가능성을 통해 비즈니스 측정항목의 이상치, 결측치 비율 변화, 드리프트 및 모든 이상 현상을 감지할 수 있습니다.
- 스키마: 예상치 못한 구조적 변경이 있나요? 관측 가능성을 통해 열 추가 또는 제거, 유형 변경, 다운스트림 테이블 또는 대시보드에 영향을 미치는 변경 사항을 감지할 수 있습니다.
- 계보: 데이터는 시스템을 통해 그리고 시스템 간에 어떻게 흐르나요? 관측성은 업스트림 및 다운스트림 종속성, 어떤 대시보드나 머신 러닝 모델에 문제가 생길지, 데이터 장애의 근본 원인을 파악하는 데 도움이 될 수 있습니다.
데이터 관측 가능성의 작동 방식
데이터 관측성은 자동화된 통계 검사, 메타데이터 분석, 리니지 매핑을 사용하여 데이터 시스템을 지속적으로 모니터링함으로써 실시간으로 데이터 문제를 감지하고 진단합니다. 이는 데이터 상태의 5가지 주요 차원(최신성, 볼륨, 스키마, 분포, 리니지)을 모니터링하는 데 사용되는 신호와 텔레메트리를 수집합니다. 테이블 업데이트, 쿼리 로그, 작업 상태, 알림, 스키마 메타데이터, 행 수, 종속성 그래프 정보와 같은 신호를 수집하고 분석합니다.
기록 패턴, 통계 모델, 머신러닝 및 탐지 알고리즘을 사용하여 자동화된 데이터 품질 검사를 수행하여 파이프라인, 웨어하우스 및 애플리케이션 전반에 대한 엔드투엔드 가시성을 제공합니다. 데이터에 문제가 발생하면 관측 가능성 도구는 파이프라인 장애, 스키마 변경, 볼륨 감소, 코드 배포, 업스트림 중단을 분석하고 가장 가능성이 높은 원인을 자동으로 파악 하여 알림을 보냅니다.
대시보드와 지속적인 모니터링을 통해 데이터에 대한 서비스 수준 계약을 지원 및 시행하고 조직 전체에서 데이터에 대한 신뢰를 유지할 수 있습니다.
데이터 옵저버빌리티 vs. 데이터 모니터링 vs. 데이터 품질
관측 가능성과 기존 모니터링은 관련이 있지만, 기존 모니터링 도구는 알려진 장애에 중점을 두는 반면 관측 가능성은 시스템 동작에 대한 가시성을 제공하여 새로운 종류의 장애를 식별 및 진단하고 근본 원인 분석을 가능하게 합니다. 다시 말해, 모니터링은 증상을 감지하고 관측 가능성은 문제가 발생하는 이유를 보여주는 원시 신호만이 아니라 맥락을 제공하기 위해 더 깊은 인사이트를 제공합니다.
기존 모니터링은 사후 대응적이며, 알려진 메트릭을 추적하고 규칙 기반 검사를 제공합니다. 따라서 시스템이 예측 가능할 때 가장 잘 작동합니다. 데이터 옵저버빌리티는 다음과 같은 세 가지 주요 차원에 걸쳐 프로파일링, 이상 탐지, 알림(PPA) query를 수행합니다.
- 범위 – 관측성 시스템이 전체 데이터 에코시스템에 걸쳐 데이터 문제를 얼마나 광범위하게 파악할 수 있는지입니다.
- 깊이 – 시스템이 데이터, 메타데이터, 파이프라인 동작을 얼마나 심층적으로 분석하는지를 나타냅니다.
- 자동화 – 수동 규칙 작성이나 개입을 통해 시스템이 자동으로 수행하는 작업량입니다.
데이터 관측성은 사전 예방적이며, 통계적 프로파일링 및 ML 기반 감지를 사용하여 최종 사용자가 문제를 인지하기 전에 자동으로 세분화된 실시간 인사이트와 알림을 제공함으로써 테스트나 데이터 품질 규칙의 범위를 넘어섭니다.
데이 터 관측성, 데이터 모니터링, 데이터 품질 도구는 각기 다른 목적을 수행하지만, 신뢰할 수 있고 안정적이며 고품질인 데이터를 보장하기 위해 전체적으로 함께 작동합니다. 모니터링은 알려진 문제를 감지하는 데 필요합니다. 데이터 품질 도구는 규칙을 사용하여 데이터가 정확하고, 완전하며, 정밀하고, 유효한지 확인함으로써 데이터의 내용을 검증합니다. 데이터 관측성은 알려지지 않은 문제를 감지하고 근본 원인을 진단할 수 있습니다. 따라서 모니터링은 문제를 포착하고, 관측성은 더 깊은 가시성을 제공하며, 데이터 품질은 비즈니스 규칙에 따른 정확성을 보장합니다.
데이터 관측 가능성 시스템의 핵심 구성 요소
데이터 관측성 시스템은 메타데이터 모니터링, 통계 분석, 이상 탐지, 계보(lineage), 알림, 근본 원인 분석 및 워크플로 통합을 결합하여 전체 에코시스템에 걸쳐 데이터의 상태와 신뢰성에 대한 지속적인 가시성을 보장합니다. 시스템의 핵심 구성 요소는 다음과 같습니다.
- 메타데이터 수집 – 모든 데이터 시스템에서 신호를 수집합니다.
- 프로파일링 및 기준선 을 통해 정상적인 데이터 동작을 파악합니다.
- 이상 탐지 를 통해 예상치 못한 문제를 자동으로 식별합니다.
- 파이프라인이 중단되기 전에 drift를 포착하는 스키마 변경 모니터링
- 리니지 추적 을 통해 종속성을 파악하고 문제를 진단합니다.
- 알림 및 통지 를 통해 적절한 담당자에게 문제를 알립니다.
- 문제 발생 원인을 파악하기 위한 근본 원인 분석.
- 영향 분석 을 통해 영향을 받는 다운스트림 자산 을 식별합니다.
- 대응, SLA 및 워크플로를 지원하는 인시던트 관리 입니다.
- 데이터 품질: 규칙과 통계적 검사를 결합합니다.
- 대시보드 및 시각화 를 통해 전반적인 데이터 상태를 모니터링합니다.
- 거버넌스 통합 을 통해 소유권, 문서화 및 규정 준수를 강화합니다.
- 자동화된 수정: 자가 치유 기능으로 다운타임을 줄입니다.
데이터 관측성을 통해 식별할 수 있는 일반적인 데이터 문제
데이터 옵저버빌리티는 기존 모니터링에서는 간과될 수 있는 광범위한 데이터 문제를 식별하는 데 도움이 됩니다. 이는 파이프라인, 스토리지 시스템, 변환 및 다운스트림 분석 전반에 걸쳐 예상되는 문제와 예상치 못한 문제를 모두 포착할 수 있습니다.
파이프라인 오류, 중단된 작업, 지연된 워크플로로 인해 데이터가 제시간에 도착하지 않을 때 데이터 최신성 문제 를 발견할 수 있습니다.
관측성은 누락되거나 불완전한 데이터, 행 수의 갑작스러운 감소, 파티션 또는 파일 누락, 중복 행과 같은 볼륨 문제 를 감지합니다.
스키마 드리프트 와 예기치 않은 필드 변경은 다운스트림 작업에 영향을 미치는 파이프라인 중단의 주요 원인입니다.
데이터 내용이 과거 패턴에서 벗어날 때 이상치, 분포 변화 및 통계적 이상 을 유발하는 부정확한 레코드가 발생할 수 있습니다.
옵저버빌리티는 전체 데이터 파이프라인의 신뢰성을 저하시키는 신뢰할 수 없거나 일관되지 않은 업스트림 소스 와 파이프라인 운영 장애를 포착할 수 있습니다.
데이터 옵저버빌리티의 실제 사용 사례
조직은 데이터 관측성을 사용하여 데이터 다운타임을 방지하고, 분석에 대한 신뢰도를 높이고, 중요한 파이프라인을 보호하며, 문제 해결에 드는 비용과 노력을 줄입니다. 다음은 몇 가지 실제 사례입니다.
- 신뢰할 수 있는 분석 및 보고 보장 – 팀이 자체 대시보드를 구축할 때 새 대시보드로 인해 종속성이 깨지고, 반복적인 쿼리로 인해 파이프라인이 느려지며, 사용자가 오래되거나 잘못된 데이터를 가져올 수 있습니다. 옵저버빌리티는 다운스트림 가시성을 제공하고 공유 데이터세트 상태를 추적하며 타사 데이터 소스의 신뢰성을 보장할 수 있습니다. 데이터 최신성 문제와 실패한 업스트림 작업을 즉시 감지하고 사용자가 알아차리기 전에 알림을 보낼 수 있습니다.
- 데이터 품질 인시던트 감지 및 예방 – 대시보드와 보고서에 갑자기 이상 징후가 표시되면 데이터 관측성을 통해 드리프트, null 값 급증, 무결성 문제, 업스트림 장애를 식별할 수 있습니다. 경우에 따라 파이프라인이 성공적으로 실행되더라도 잘못된 출력을 생성할 수 있습니다. 관측성은 행 볼륨을 모니터링하고 조인 및 관계를 추적하며 분포 이상에 대한 알림을 보낼 수 있습니다.
- ML 모델 및 AI 시스템에 대한 신뢰도 향상 – ML 및 AI 모델은 데이터 드리프트와 누락된 피처에 매우 민감하여 잘못된 결정으로 이어질 수 있습니다. 옵저버빌리티는 피처 상태를 추적하고, 드리프트를 감지하며, 누락되거나 지연된 데이터 및 예상치 못한 범주로 인해 발생하는 업스트림 오류를 식별할 수 있습니다.
- 데이터 거버넌스 노력 지원 – 데이터 신뢰는 의료 및 금융과 같은 규제 대상 부문에서 필수적입니다. 관측 가능성은 데이터 SLA를 추적하고, 리니지를 제공하며, 데이터 상태 기록을 보여주고, 소유권을 문서화하고, 최종 사용자가 보기 전에 이상을 드러냄으로써 신뢰를 향상시킵니다.
- 다운타임 및 운영 비용 절감 – 데이터 관측성은 문제를 조기에 감지하고, 해결 시간을 단축하며, 잘못된 데이터가 확산되는 것을 방지하는 데 핵심적인 역할을 할 수 있습니다. 이 모든 것은 조직 전체의 다운타임과 비용 증가로 이어질 수 있습니다.
데이터 관측성 도구 및 플랫폼
데이터 관측 가능성 도구와 플랫폼은 중점 분야, 기능, 데이터 스택 내 위치에 따라 여러 카테고리로 분류할 수 있습니다. 또한 기능, 비용, 배포, 확장성, 사용 편의성, 이상적인 사용 사례가 각기 다른 상용, 오픈 소스, 클라우드 네이티브 옵션이 있습니다.
- 엔드투엔드 데이터 옵저버빌리티 플랫폼 은 전체 시스템에 대한 옵저버빌리티를 제공합니다. 주요 플랫폼의 공통적인 기능으로는 최신성 모니터링, 자동화된 리니지, 메트릭, 대시보드, 메타데이터 모니터링, 업스트림 및 다운스트림 자동화 리니지, 인시던트 알림, 파이프라인 신뢰성 인사이트, 전체 데이터 수명 주기에 걸친 근본 원인 분석 등이 있습니다. 이는 전체 기능, 지원, 자동화를 갖추고 공급업체에서 구축했으며, 5가지 옵저버빌리티 요소를 모두 포괄하는 가장 종합적인 옵저버빌리티 플랫폼입니다. 완전 관리형 SaaS(Software as a Service)이므로 인프라가 필요하지 않아 배포 및 온보딩이 더 빠릅니다.
- 데이터 품질 + 관측 가능성 도구 는 기존의 규칙 기반 데이터 품질과 최신 관측 가능성 기능을 결합하여 맞춤형 데이터 테스트 및 자동화된 이상 탐지, 프로파일링 및 유효성 검사, 메타데이터 기반 모니터링 및 테스트 오케스트레이션을 제공합니다. 이러한 플랫폼은 조직이 수동 품질 규칙과 자동화된 관측 가능성을 함께 사용하고자 할 때 사용됩니다.
- 파이프라인 오케스트레이션 옵저버빌리티 도구 는 컴퓨팅 계층, 파이프라인 성능 및 작업 안정성 모니터링에 중점을 둡니다. 주요 기능에는 작업 수준 장애 감지, 지연 시간 모니터링, 재시도 분석, 종속성 추적 및 오케스트레이션 도구와의 통합이 포함됩니다. 이러한 도구는 파이프라인 상태 관리에는 강력하지만 심층적인 데이터 수준의 인사이트는 부족할 수 있습니다.
- 리니지 중심 도구 는 엔드투엔드 데이터 흐름을 매핑하여 근본 원인 및 영향 분석을 가능하게 합니다. 이러한 도구는 리니지에 탁월하며, 흐름에 옵저버빌리티 신호를 포함하는 경우가 많습니다.
- 오픈 소스 관측 가능성 프레임워크 는 자체 호스팅 및 맞춤화를 위한 유연성을 제공하며 맞춤형 데이터 스택으로의 확장성 및 통합을 허용합니다. 이러한 커뮤니티 기반 프레임워크는 무료이지만 자체적으로 유지 관리해야 하며, 종종 엔지니어링 리소스와 더 높은 운영 오버헤드를 필요로 하는 통합, 수동 설정 및 규칙 생성이 필요합니다.
- 데이터 관측성 확장이 포함된 클라우드 네이티브 모니터링 도구 는 팀이 인프라와 데이터 모두에서 관측성을 확보하고자 할 때 사용되기도 합니다. 기능이 데이터 플랫폼 내에 포함되어 있으므로 배포가 필요 없으며 운영 부담이 가장 적습니다. 일반적으로 웨어하우스 및 데이터 레이크 관련 관측성에 중점을 둡니다. 일반 적으로 비용은 사용량 기반이며 클라우드 공급업체에서 지원하므로, 예산이 적거나 이미 웨어하우스를 구매한 팀에 가장 적합합니다.
데이터 옵저버빌리티 구현
데이터 관측성에 필요한 프로세스, 도구, 아키텍처, 문화를 구축하는 과정에는 전략 수립, 모범 사례 적용, 도구 선택이 포함됩니다. 다음은 관측성 관행을 도입하는 조직을 위한 몇 가지 기본 단계입니다.
- 관측 가능성 구현 목표와 우선순위에 대해 합의하세요.
- 영향이 크거나 위험도가 높은 테이블과 파이프라인부터 시작하여 중요한 데이터 자산을 식별하세요.
- 모델(오픈 소스, 상용 또는 클라우드 네이티브)을 선택하세요.
- 메타데이터 소스(파이프라인, warehouse 및 레이크, 오케스트레이션, 변환 프레임워크, BI 도구, 스트리밍 시스템을 포함한 모든 신호)를 통합하세요.
- 관측성의 5가지 핵심 요소(최신성, 볼륨, 스키마, 분포, 계보)에 걸쳐 지속적인 모니터링을 구현하세요.
- ML 및 통계 모델을 사용하여 자동화된 이상 탐지를 배포하세요.
- 지속 가능한 관행을 위해 옵저버빌리티를 중심으로 DataOps 문화를 구축하세요.
- 일반적으로 추적되는 주요 메트릭 및 상태 지표에는 5가지 요소에 대한 메트릭과 더불어 데이터 무결성 메트릭, 파이프라인 운영 메트릭, 데이터 품질 메트릭, 비용 및 리소스 사용량 메트릭, ML 피처 및 모델 상태가 포함됩니다.
과제 및 고려 사항
팀이 데이터 관측성을 도입하기 전과 도입하는 동안 이해해야 할 주요 기술적, 문화적, 운영상의 과제와 고려 사항은 다음과 같습니다.
- 대규모 데이터 생태계의 복잡성과 무분별한 확장 은 완전한 관측 가능성을 달성하 기 어렵게 만듭니다. 데이터 스택마다 다른 통합 접근 방식이 필요한 경우가 많습니다. 먼저 영향력이 큰 파이프라인에 집중하세요. 데이터 리니지에 투자하여 종속성을 이해하고 도메인 전반에 걸쳐 소유권을 설정하세요.
- 종속성 관리 와 업스트림/다운스트림에 대한 영향은 어려운 과제가 될 수 있습니다. 파이프라인 한 부분의 아주 작은 변경 사항이라도 대시보드, ML 모델, 운영 체제 전반에 걸쳐 연쇄적인 장애를 일으킬 수 있습니다. 조직에 데이터 리니지 및 소유권에 대한 전체 맵이 없는 경우, 종속성은 종종 구전 지식이 됩니다.
- 대량 데이터 볼륨 모니터링 비용 은 대규모 웨어하우스 및 레이크를 모니터링할 때 증가할 수 있습니다. 메타데이터가 증가하여 메타데이터 및 logs의 스토리지 비용이 늘어날 수 있습니다. 또한 테이블이 추가될 때마다 모니터링 비용이 점진적으로 증가합니다. 중요도에 따라 자산을 분류하고 비즈니스에 중요한 자산에는 더 심층적인 모니터링을 적용하세요.
- 비용을 절감하려면 운영 오버헤드와 세분성의 균형 을 맞추는 것이 필수적입니다. 모든 데이터에 심층적인 관측성이 필요한 것은 아닙니다. 가치가 낮은 자산에 대한 고빈도 모니터링은 높은 컴퓨팅 비용을 초래할 수 있습니다. 여러 기능을 갖춘 단일 플랫폼은 중복된 기능을 가진 3~4개의 소규모 도구보다 비용이 적게 드는 경우가 많습니다.
요약
데이터는 미션 크리티컬한 자산이 되었고 데이터 시스템은 점점 더 복잡해지고, 분산되고, 빠르게 변화하고 있습니다. 조직은 더 이상 신뢰할 수 없는 파이프라인, 손상된 대시보드, 부정확한 메트릭 또는 드리프트되는 ML 모델을 감당할 수 없습니다. 데이터 옵저버빌리티(데이터 수집 파이프라인부터 스토리지 계층, 다운스트림 분석에 이르기까지 데이터 시스템 전반의 데이터 상태, 품질, 안정성 및 성능을 지속적으로 모니터링하는 관행 및 관련 프로세스)는 조직이 데이터 생태계 전반에서 비즈니스에 영향을 미치기 전에 데이터 문제를 감지, 진단, 예방할 수 있도록 하는 데 필수적입니다.
데이터 옵저버빌리티는 문제를 조기에 감지하여 다운스트림 분석, 운영 및 의사 결정을 개선하고, 데이터 신뢰 문제가 사용자나 소비자에게 도달하기 전에 이를 방지하는 데 도움이 될 수 있습니다. 옵저버빌리티는 데이터의 안정성을 보장하는 데 도움이 될 뿐만 아니라 수익을 증대하고 고객 경험을 개선하며 혁신을 가속화할 수 있습니다.


