주요 컨텐츠로 이동
제품

Genie ZeroOps 소개: 데이터 및 AI 운영을 자동화하세요

프로덕션 워크로드를 모니터링하고, 문제를 조사하며, 검증 가능한 해결책을 제안하는 AI 백그라운드 에이전트

작성자: Bilal Aslam, Lennart Kats, Ray Zhu, 마이크 델 발소 , Ori Zohar

  • 데이터 팀은 구축이 아닌 유지 관리에 대부분의 시간을 소비하며, AI로 인해 파이프라인과 모델을 더 빠르게 배포할 수 있게 되면서 그 부담은 더욱 커지고 있습니다.
  • 코딩 에이전트는 구축을 돕지만, 데이터 플랫폼의 일부가 아니며 메트릭, 로그 및 리니지에 액세스할 수 없기 때문에 운영을 자동화할 수 없습니다. 특히 프로덕션 데이터에 안전하게 액세스할 수 없습니다.
  • Genie ZeroOps는 Databricks에 내장된 백그라운드 에이전트로, 파이프라인, 작업, 테이블, ML 모델 등과 같은 데이터 및 AI 자산을 자율적으로 모니터링, 조사 및 수정 제안을 수행합니다.

데이터 및 AI 작업에는 항상 유지 관리 문제가 따랐습니다. 데이터 파이프라인은 코드 문제뿐만 아니라 업스트림 스키마 변경이나 지연 도달 데이터와 같은 데이터 문제로 인해 수시로 중단됩니다. ML 모델은 드리프트 현상이 발생하며, 성능이 저하된 모델은 에러가 발생하기 훨씬 전부터 확신에 찬 잘못된 답변을 계속 제공합니다. 프로덕션 환경에서 데이터 및 AI 자산을 계속 실행해야 하는 부담은 데이터 팀의 몫이 되고 있으며, 그 부담은 점점 더 커지고 있습니다. LLM과 에이전트 도구의 등장으로 파이프라인을 구축하고 모델을 배포하는 속도가 그 어느 때보다 빨라졌습니다. 그 결과, 데이터 팀은 구축 작업보다 문제를 해결하는 데 대부분의 시간을 소비하고 있다고 보고합니다.

Genie ZeroOps를 통한 에이전트 기반 운영

데이터 팀의 이러한 운영 부담을 덜어주기 위해 Databricks는 파이프라인, 작업, 테이블, ML 모델 등 데이터 및 AI 자산을 자율적으로 모니터링하고 문제가 발생하기 전이나 발생했을 때 조치를 취하는 자율 백그라운드 에이전트인 Genie ZeroOps를 구축했습니다. Genie ZeroOps는 Databricks 내부에서 실행되므로 다음에 안전하고 쉽게 액세스할 수 있습니다.

  • 전체 관측 가능성(Full observability): 플랫폼의 관측 가능성 레이어에서 제공하는 메트릭, 이벤트, 로그 및 실행 기록입니다.
  • Unity Catalog를 통한 데이터 리니지: 모든 자산의 완전한 종속성 그래프를 제공하여 실패의 실제 근본 원인을 추적할 수 있습니다.
  • 샌드박스 환경: Genie ZeroOps는 프로덕션 데이터를 격리된 환경으로 얕은 복제(shallow clone, 기본 데이터를 복제하지 않고 메타데이터를 사용하여 테이블 클론 생성)하고, 권한 가드레일 및 네트워크 격리를 적용하며, 프로덕션에 영향을 주지 않고 실제 데이터를 대상으로 제안된 수정 사항을 검증합니다.

모든 실패에 대해 수행되는 프로세스는 다음과 같습니다.

  1. 감지(Detect): 플랫폼 관측 가능성에 액세스하여 지속적으로 모니터링합니다. 여기에는 에러가 발생하기 전에 데이터 품질 메트릭에 나타나는 감지하기 어려운 자동 실패(silent failure)도 포함됩니다.
  2. 평가(Assess): Unity Catalog 리니지는 Genie ZeroOps에 완전한 종속성 그래프를 제공합니다. 이를 통해 코드 버그, 세 단계 업스트림 테이블의 스키마 변경 또는 다른 파이프라인에서 유입된 잘못된 데이터까지 실패 원인을 추적할 수 있습니다.
  3. 해결(Remediate): 에이전트 기반 코드 생성을 통해 개발 워크플로(GitHub PR, Jira 티켓)를 컨텍스트로 삼아 수정 사항을 생성합니다.
  4. 검증(Verify): Genie ZeroOps는 데이터의 제로 카피 클론, 범위가 지정된 권한 및 네트워크 격리를 갖춘 안전한 샌드박스를 실행합니다. 제안된 수정 사항은 프로덕션이 아닌 실제 데이터를 대상으로 실행되며, 사용자가 승인할 때까지 아무것도 적용되지 않습니다.
image2.png
심각도 순으로 정렬된 인시던트를 보여주는 Genie ZeroOps 인박스 UI
image4.png
영향을 받는 자산의 시각화 및 리니지 데이터를 사용하여 수행된 근본 원인 분석을 보여주는 Genie ZeroOps
image1.png
샌드박스 검증 표시와 함께 제공되는 제안된 수정 사항

코딩 에이전트가 데이터 및 AI 운영을 해결할 수 없는 이유

왜 데이터 및 AI 운영을 위해 특별히 제작된 에이전트가 필요할까요? 소프트웨어 구축을 돕는 동일한 코딩 에이전트를 사용하여 동일한 결과를 얻을 수는 없을까요? 대답은 '아니요, 그렇지 않습니다'입니다.

코딩 에이전트는 소프트웨어 엔지니어링을 위해 구축되었지만, 데이터 엔지니어링과 AI는 근본적으로 다릅니다:

  • 컨텍스트에는 코드뿐만 아니라 데이터도 포함됩니다. 파이프라인 실패는 업스트림의 스키마 변경, 종속성 체인을 통해 전파되는 잘못된 데이터 또는 감지되지 않는 손상으로 인해 발생하는 경우가 많습니다. 코드만으로는 이러한 문제를 파악할 수 없습니다.
  • 실패는 감지되지 않고 영구적일 수 있습니다. 데이터 버그는 프로덕션 테이블에 몇 주 동안 조용히 남아 다운스트림 소비자에게 악영향을 미칠 수 있습니다. 이를 발견할 때쯤에는 이미 비즈니스에 부정적인 영향이 발생한 후입니다.
  • 프로덕션 데이터는 민감하며 거버넌스의 적용을 받습니다. 코드와 달리 자유롭게 복사하거나 공유하거나 외부 도구에 전달할 수 없습니다.

문제가 발생하면 이를 감지(detect)하고, 근본 원인을 평가(assess)하고, 수정 사항으로 해결(remediate)하고, 부작용 없이 작동하는지 검증(verify)해야 합니다.

각 단계를 살펴보면 코딩 에이전트가 대개 부족하다는 것을 알 수 있습니다. 감지 단계의 경우, 원격 측정(telemetry)과 같은 컨텍스트가 부족하거나 Apache Spark™ 로그와 같이 극도로 큰 컨텍스트를 처리하는 데 어려움을 겪을 수 있습니다. 근본 원인과 그 영향을 찾는 평가 단계의 경우, 리니지 데이터에 액세스하지 못하는 경우가 많습니다. 또한 데이터 및 AI 작업을 위해 특별히 제작된 하네스가 없어 프로세스 비용과 시간이 더 많이 소요됩니다. 코딩 에이전트는 해결을 위한 코드를 작성할 수 있지만, 올바르게 작성하기 위한 컨텍스트가 부족한 경우가 많으며 데이터 관련 문제는 해결할 수 없습니다. 하지만 코딩 에이전트에게 가장 어려운 단계는 검증입니다.

검증을 위해서는 격리된 환경에서 실제 프로덕션 데이터를 대상으로 코드 수정 사항을 테스트해야 합니다. 외부 에이전트에게 프로덕션 데이터에 대한 액세스 권한을 부여할 수 없으며, 부여하더라도 해당 데이터를 대상으로 코드를 실행하면 치명적인 결과를 초래할 수 있는 부작용의 위험이 있습니다.

에이전트가 검증 단계를 안전하게 처리하려면 데이터 플랫폼 자체의 일부여야 합니다. Genie ZeroOps는 Databricks 플랫폼의 일부이며, 이것이 바로 코딩 에이전트가 실패하는 지점에서 Genie ZeroOps가 성공할 수 있는 이유입니다.

특히 머신러닝 워크로드는 운영 작업을 위해 특별히 제작된 에이전트의 이점을 잘 보여줍니다.

머신러닝을 위한 Genie ZeroOps

프로덕션 ML은 데이터 엔지니어링에 몇 가지 추가적인 과제를 안겨줍니다. 모델에 파이프라인 에러가 없더라도 여전히 잘못된 예측을 생성할 수 있으므로, 파이프라인을 계속 실행하는 것만으로는 충분하지 않으며 모델의 출력이 여전히 신뢰할 수 있는지 모니터링해야 합니다.

신뢰할 수 없는 경우, Genie ZeroOps는 원인을 진단하고 수정된 후보를 생성하며 실시간 트래픽에 적용하기 전에 이를 검증합니다. 파이프라인 수정의 경우 테이블의 얕은 복제(shallow clone)를 대상으로 검증합니다. 모델의 경우 수정된 피처를 기반으로 후보를 학습시키고 일반적인 벤치마크가 아닌 프로덕션 모델이 거쳤던 것과 동일한 평가 제품군 및 기준을 바탕으로 평가합니다. 측정 가능한 수준으로 더 나은 경우에만 후보를 노출하며, 기존 모델을 대체하기 전에 실시간 트래픽에서 점진적으로 적용(ramp)할 수 있도록 합니다.

이러한 수정 사항을 신뢰할 수 있게 만드는 것은 바로 컨텍스트입니다. ML용 Genie ZeroOps는 Genie Code, Genie Ontology 및 Databricks ML 스택(Feature Store, MLflow, 모델 서빙, 노트북)과의 네이티브 통합과 동일한 기반 위에 구축되었습니다. 모델이 어떤 피처를 사용하는지, 팀에서 모델을 어떻게 평가하는지, 비즈니스에 '좋은 것'이 무엇인지 알고 있으므로 숙련된 ML 엔지니어처럼 추론합니다.

제어 권한 유지

사용자는 Genie ZeroOps가 모니터링할 자산과 권한을 구성합니다. 모든 작업은 Unity Catalog 거버넌스 하에 실행되므로 사용자의 자격 증명이 허용하는 데이터에만 액세스할 수 있습니다. 문제는 심각도에 따라 우선순위가 지정되어 인박스 스타일의 UI에 표시되며, 각각 근본 원인 분석과 제안된 수정 사항이 함께 제공됩니다. 사용자의 승인 없이는 프로덕션에 아무것도 적용되지 않습니다.

샌드박스는 기술적 신뢰 레이어입니다. 얕은 복제(Shallow cloning)를 사용하면 실제 데이터로 수정 사항을 테스트하지만 프로덕션에는 절대 영향을 주지 않습니다. 범위가 지정된 권한과 네트워크 격리는 샌드박스 환경이 그 경계 외부로 접근할 수 없음을 의미합니다. 테스트된 내용이 그대로 적용됩니다.

이것이 바로 Genie ZeroOps의 가치입니다. 운영을 안전하게 확장할 수 있도록 지원합니다. 사용자가 제어 권한을 유지하는 동안 번거로운 작업을 대신 처리해 줍니다.

Genie ZeroOps 출시 예정

Genie ZeroOps는 향후 몇 주 내에 프라이빗 프리뷰로 제공될 예정이며, 작업, 파이프라인, 테이블 및 ML 워크로드에 대한 지원부터 시작됩니다. 앱 및 Lakebase 데이터베이스도 로드맵에 포함되어 있습니다.

조기 액세스를 요청하려면 Databricks 어카운트 팀에 문의하세요. 그동안 Genie OneGenie Code와 같은 Genie 제품군의 다른 제품도 살펴보세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.