주요 컨텐츠로 이동
제품

Genie Code 및 Lakeflow를 활용한 에이전트 기반 데이터 엔지니어링

Genie Code는 데이터 파이프라인 개발, 오케스트레이션 및 배포를 간소화합니다.

작성자: 갈 오시리, 카미엘 스틴스트라, Lennart Kats , 조안나 주후르

  • Genie Code는 데이터 전용으로 구축된 자율 AI 파트너입니다.
  • 데이터 엔지니어는 파이프라인 편집기에서 파이프라인을 구축하는 것부터 Lakeflow Jobs에서 워크플로를 오케스트레이션하는 것까지 Lakeflow 내에서 Genie Code를 직접 사용할 수 있습니다.
  • Genie Code는 개발 및 오케스트레이션부터 모니터링 및 디버깅까지 전체 데이터 엔지니어링 수명 주기를 단일 에이전트 환경 내에서 지원합니다.

Genie Code를 통해 데이터 엔지니어는 자연어를 사용하여 프로덕션 준비가 된 데이터 파이프라인을 생성하고, 작업을 통해 오케스트레이션하며, 오류를 디버그할 수 있습니다. 데이터 검색, 변환 구축, 작업 연결, 오류 수정 등 몇 주가 걸리던 작업들을 이제 거버넌스 및 운영 표준을 준수하면서 몇 시간 내에 완료할 수 있습니다.

아래에서는 단일 대화로 데이터 검색, 파이프라인 구축, 작업 오케스트레이션, 오류 디버깅 등 실제로 어떻게 작동하는지 살펴보겠습니다.

자연어를 사용하여 완벽한 프로덕션 준비 파이프라인 및 작업 구축 및 오케스트레이션

Genie Code는 이제 단일 스레드에서 탐색부터 예약된 파이프라인 및 작업까지 지원하며, 엔드투엔드로 작성하고 운영하는 데 도움을 줍니다.

Lakeflow Spark 선언적 파이프라인 개발을 가속화하고 Lakeflow Jobs를 통해 파이프라인 및 노트북이 오케스트레이션되고 실행되는 방식을 간소화합니다. Genie Code는 코드, 구성 및 실행 결과에 액세스하여 파이프라인 및 작업 컨텍스트를 이해합니다.

Genie Code는 데이터 엔지니어링 수명 주기의 주요 단계에서 도움을 줍니다.

  • 코드뿐만 아니라 데이터 자산 검색: Genie Code는 인기, 계보, 코드 샘플 및 Unity Catalog 메타데이터를 사용하여 작업에 가장 관련성 높은 데이터셋을 식별합니다. 예를 들어, Genie Code에 테이블이 어떻게 관련되어 있는지 설명하거나 파이프라인을 통해 데이터가 어떻게 흐르는지 추적하도록 요청할 수 있습니다. SiriusXM에서는 팀이 Genie Code를 사용하여 테이블 관계를 더 빠르게 이해합니다.
  • 파이프라인 구축 및 수정: 메달리온 아키텍처를 기반으로 구축된 사기 탐지 파이프라인과 같이 원하는 파이프라인을 일반 언어로 설명하는 것으로 시작합니다. Genie Code는 소스, 변환, 데이터 품질 기대치 및 출력을 포함하는 Bronze, Silver, Gold 계층으로 Spark 선언적 파이프라인을 생성합니다. 거기에서 변경 사항을 요청하고, 제안된 차이점을 검토하며, 파이프라인을 실행하고 테스트할 수 있습니다.
    Lakeflow Spark 선언적 파이프라인
  • 작업 정의 및 오케스트레이션: 오케스트레이션 로직을 수동으로 정의하고 유지할 필요가 없습니다. 작업, 종속성 및 일정을 포함하여 원하는 작업을 설명합니다. Genie Code가 이를 구성하고, 자연어로 오케스트레이션 문제를 수정, 디버그 및 해결하는 데 도움을 줍니다.
    작업 오케스트레이션
  • 기존 워크플로 확장 및 발전: 요구 사항이 변경됨에 따라 Genie Code는 새로운 데이터셋 및 변환으로 파이프라인 및 작업을 업데이트하는 데 도움을 줍니다. Genie Code는 파이프라인의 현재 구조와 결과를 이해하며, 변경 데이터 캡처를 위한 AutoCDC 흐름 작성, Auto Loader 구성, 데이터 품질 기대치 적용, 메달리온 아키텍처를 따름으로써 파이프라인을 확장할 수 있습니다.
  • 선언적 자동화 번들(DAB)을 통한 모범 사례 채택: Genie Code는 기존 DAB 프로젝트 내에서 직접 작동하여 리소스를 추가하고, 구성을 업데이트하며, 번들을 검증하고, 대상에 배포할 수 있습니다. 따라서 YAML을 직접 작성하지 않고도 데이터 프로젝트에 소스 제어, 테스트 및 CI/CD와 같은 소프트웨어 엔지니어링 모범 사례를 적용할 수 있습니다.
  • 표준을 낮추지 않고 더 빠르게 작업: 이러한 기능은 수동 작업을 줄이면서 워크플로를 엔터프라이즈 요구 사항에 맞게 유지합니다. 파이프라인은 Unity Catalog를 통해 관리되며 성능 및 데이터 품질에 대한 확립된 패턴을 따르고, 작업은 스케줄링, 재시도 및 종속성에 대한 일관된 구성을 상속합니다. 데이터 엔지니어는 제어권을 유지하면서 반복적인 작업에 소요되는 시간을 줄입니다.

파이프라인 및 작업 모니터링, 진단 및 디버그

  • 파이프라인 동작 이해 및 개선: Genie Code는 데이터셋 및 파이프라인 출력을 검사하여 파이프라인을 엔드투엔드로 이해하는 데 도움을 줄 수 있습니다. 예를 들어, 변환을 요약하고, 데이터가 다운스트림 테이블로 어떻게 흐르는지 추적하며, 행 수 또는 스키마의 예기치 않은 변경 사항을 강조 표시할 수 있습니다.
  • 작업 및 파이프라인 실패 디버그 및 진단: 파이프라인 또는 작업이 실패할 경우 Genie Code는 문제를 해결하는 데 도움을 줍니다. 오류를 분석하고, 관련 파일 전반에 걸쳐 업데이트를 제안하며, 변경 사항을 적용하기 전에 차이점을 보여줍니다. 각 업데이트를 검토하고 진행할 내용을 결정할 수 있습니다. 이는 길고 수동적인 디버그 주기를 더 빠른 안내식 반복으로 전환합니다.
    파이프라인 및 작업 디버그
  • Genie Code 확장 및 사용자 지정: Genie Code는 내장된 기능에만 국한되지 않습니다. 팀은 사용자 지정 지침, 에이전트 스킬로 확장하고 MCP 서버를 통해 외부 시스템을 통합하여 Genie Code가 도메인별 로직, 내부 도구 및 사용자 지정 워크플로에서 작동하도록 할 수 있습니다. 이를 통해 Genie Code는 사용자의 환경 및 도메인 지식에 적응합니다.

다음 단계

파이프라인, 작업 및 더 넓은 플랫폼 전반에 걸쳐 Genie Code를 확장하기 위한 더 많은 기능이 출시될 예정입니다. 곧 출시될 흥미로운 기능 중 하나는 AI 최적화 워크로드입니다. 앞으로 Genie Code가 백그라운드에서 실행되어 플랫폼을 효율적으로 유지하도록 허용하여 반복적이고 시간이 많이 소요되는 작업을 위임할 수 있습니다. 여기에는 작업 실패에 대한 응답 및 정기적인 업그레이드 관리뿐만 아니라 클러스터 사용량을 자동으로 적정 규모로 조정하는 것도 포함됩니다.

이러한 업데이트 및 모범 사례에 대해 더 자세히 알고 싶으신가요? Data+AI Summit에 등록하여 Genie Code, Lakeflow 및 기타 다양한 주제를 다루는 수백 개의 세션을 확인하세요!

Genie Code의 데이터 엔지니어링 기능 사용해 보기

에이전트 모드에서 Genie Code를 열고 파이프라인 및 작업을 구축하거나 업데이트하도록 요청하세요. 자세한 내용은 데모를 확인하세요.

자세한 내용은 설명서를 검토하세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.