데이터 엔지니어는 파이프라인 편집기에서 파이프라인을 구축하는 것부터 Lakeflow Jobs에서 워크플로를 오케스트레이션하는 것까지 Lakeflow 내에서 Genie Code를 직접 사용할 수 있습니다.
Genie Code는 개발 및 오케스트레이션부터 모니터링 및 디버깅까지 전체 데이터 엔지니어링 수명 주기를 단일 에이전트 환경 내에서 지원합니다.
Genie Code를 통해 데이터 엔지니어는 자연어를 사용하여 프로덕션 준비가 된 데이터 파이프라인을 생성하고, 작업을 통해 오케스트레이션하며, 오류를 디버그할 수 있습니다. 데이터 검색, 변환 구축, 작업 연결, 오류 수정 등 몇 주가 걸리던 작업들을 이제 거버넌스 및 운영 표준을 준수하면서 몇 시간 내에 완료할 수 있습니다.
아래에서는 단일 대화로 데이터 검색, 파이프라인 구축, 작업 오케스트레이션, 오류 디버깅 등 실제로 어떻게 작동하는지 살펴보겠습니다.
자연어를 사용하여 완벽한 프로덕션 준비 파이프라인 및 작업 구축 및 오케스트레이션
Genie Code는 이제 단일 스레드에서 탐색부터 예약된 파이프라인 및 작업까지 지원하며, 엔드투엔드로 작성하고 운영하는 데 도움을 줍니다.
Lakeflow Spark 선언적 파이프라인 개발을 가속화하고 Lakeflow Jobs를 통해 파이프라인 및 노트북이 오케스트레이션되고 실행되는 방식을 간소화합니다. Genie Code는 코드, 구성 및 실행 결과에 액세스하여 파이프라인 및 작업 컨텍스트를 이해합니다.
Genie Code는 데이터 엔지니어링 수명 주기의 주요 단계에서 도움을 줍니다.
코드뿐만 아니라 데이터 자산 검색: Genie Code는 인기, 계보, 코드 샘플 및 Unity Catalog 메타데이터를 사용하여 작업에 가장 관련성 높은 데이터셋을 식별합니다. 예를 들어, Genie Code에 테이블이 어떻게 관련되어 있는지 설명하거나 파이프라인을 통해 데이터가 어떻게 흐르는지 추적하도록 요청할 수 있습니다. SiriusXM에서는 팀이 Genie Code를 사용하여 테이블 관계를 더 빠르게 이해합니다.
파이프라인 구축 및 수정: 메달리온 아키텍처를 기반으로 구축된 사기 탐지 파이프라인과 같이 원하는 파이프라인을 일반 언어로 설명하는 것으로 시작합니다. Genie Code는 소스, 변환, 데이터 품질 기대치 및 출력을 포함하는 Bronze, Silver, Gold 계층으로 Spark 선언적 파이프라인을 생성합니다. 거기에서 변경 사항을 요청하고, 제안된 차이점을 검토하며, 파이프라인을 실행하고 테스트할 수 있습니다.
작업 정의 및 오케스트레이션: 오케스트레이션 로직을 수동으로 정의하고 유지할 필요가 없습니다. 작업, 종속성 및 일정을 포함하여 원하는 작업을 설명합니다. Genie Code가 이를 구성하고, 자연어로 오케스트레이션 문제를 수정, 디버그 및 해결하는 데 도움을 줍니다.
기존 워크플로 확장 및 발전: 요구 사항이 변경됨에 따라 Genie Code는 새로운 데이터셋 및 변환으로 파이프라인 및 작업을 업데이트하는 데 도움을 줍니다. Genie Code는 파이프라인의 현재 구조와 결과를 이해하며, 변경 데이터 캡처를 위한 AutoCDC 흐름 작성, Auto Loader 구성, 데이터 품질 기대치 적용, 메달리온 아키텍처를 따름으로써 파이프라인을 확장할 수 있습니다.
선언적 자동화 번들(DAB)을 통한 모범 사례 채택: Genie Code는 기존 DAB 프로젝트 내에서 직접 작동하여 리소스를 추가하고, 구성을 업데이트하며, 번들을 검증하고, 대상에 배포할 수 있습니다. 따라서 YAML을 직접 작성하지 않고도 데이터 프로젝트에 소스 제어, 테스트 및 CI/CD와 같은 소프트웨어 엔지니어링 모범 사례를 적용할 수 있습니다.
표준을 낮추지 않고 더 빠르게 작업: 이러한 기능은 수동 작업을 줄이면서 워크플로를 엔터프라이즈 요구 사항에 맞게 유지합니다. 파이프라인은 Unity Catalog를 통해 관리되며 성능 및 데이터 품질에 대한 확립된 패턴을 따르고, 작업은 스케 줄링, 재시도 및 종속성에 대한 일관된 구성을 상속합니다. 데이터 엔지니어는 제어권을 유지하면서 반복적인 작업에 소요되는 시간을 줄입니다.
파이프라인 및 작업 모니터링, 진단 및 디버그
파이프라인 동작 이해 및 개선: Genie Code는 데이터셋 및 파이프라인 출력을 검사하여 파이프라인을 엔드투엔드로 이해하는 데 도움을 줄 수 있습니다. 예를 들어, 변환을 요약하고, 데이터가 다운스트림 테이블로 어떻게 흐르는지 추적하며, 행 수 또는 스키마의 예기치 않은 변경 사항을 강조 표시할 수 있습니다.
작업 및 파이프라인 실패 디버그 및 진단: 파이프라인 또는 작업이 실패할 경우 Genie Code는 문제를 해결하는 데 도움을 줍니다. 오류를 분석하고, 관련 파일 전반에 걸쳐 업데이트를 제안하며, 변경 사항을 적용하기 전에 차이점을 보여줍니다. 각 업데이트를 검토하고 진행할 내용을 결정할 수 있습니다. 이는 길고 수동적인 디버그 주기를 더 빠른 안내식 반복으로 전환합니다.
Genie Code 확장 및 사용자 지정: Genie Code는 내장된 기능에만 국한되지 않습니다. 팀은 사용자 지정 지침, 에이전트 스킬로 확장하고 MCP 서버를 통해 외부 시스템을 통합하여 Genie Code가 도메인별 로직, 내부 도구 및 사용자 지정 워크플로에서 작동하도록 할 수 있습니다. 이를 통해 Genie Code는 사용자의 환경 및 도메인 지식에 적응합니다.
다음 단계
파이프라인, 작업 및 더 넓은 플랫폼 전반에 걸쳐 Genie Code를 확장하기 위한 더 많은 기능이 출시될 예정입니다. 곧 출시될 흥미로운 기능 중 하나는 AI 최적화 워크로드입니다. 앞으로 Genie Code가 백그라운드에서 실행되어 플랫폼을 효율적으로 유지하도록 허용하여 반복적이고 시간이 많이 소요되는 작업을 위임할 수 있습니다. 여기에는 작업 실패에 대한 응답 및 정기적인 업그레이드 관리뿐만 아니라 클러스터 사용량을 자동으로 적정 규모로 조정하는 것도 포함됩니다.
이러한 업데이트 및 모범 사례에 대해 더 자세히 알고 싶으신가요? Data+AI Summit에 등록하여 Genie Code, Lakeflow 및 기타 다양한 주제를 다루는 수백 개의 세션을 확인하세요!
Genie Code의 데이터 엔지니어링 기능 사용해 보기
에이전트 모드에서 Genie Code를 열고 파이프라인 및 작업을 구축하거나 업데이트하도록 요청하세요. 자세한 내용은 데모를 확인하세요.