Lakeflow Spark 선언형 파이프라인 작성을 위해 특별히 제작된 새로운 개발자 환경
작성자: Adriana Ispas, Lennart Kats, 카미엘 스틴스트라 , Monica Alvarez Vicente
올해 Data + AI Summit에서 저희는 데이터 엔지니어링 IDE를 선보였습니다. Databricks Workspace 내에서 직접 데이터 파이프라인을 작성하기 위해 특별히 설계된 새로운 개발 환경입니다. 새로운 기본 개발 환경으로서 이 IDE는 데이터 엔지니어링에 대한 저희의 확고한 접근 방식을 반영합니다. 즉, 기본적으로 선언적이고, 구조적으로 모듈화되며, Git 통합 및 AI 지원 기능을 갖추고 있습니다.
간단히 말해, 데이터 엔지니어링 IDE는 데이터 파이프라인을 작성하고 테스트하는 데 필요한 모든 것을 한 곳에서 제공합니다.
Public Preview로 제공되는 이 새로운 개발 환경을 통해, 선언적 파이프라인이 전용 IDE 환경으로부터 어떻게 이점을 얻는지 설명하고 파이프라인 개발을 더 빠르고 체계적이며 디버깅하기 쉽게 만드는 주요 기능을 강조하고자 합니다.
선언적 파이프라인은 구축 방법에 대한 단계별 지침을 작성하는 대신 달성하고자 하는 바를 선언함으로써 데이터 엔지니어링을 단순화합니다. 선언적 프로그래밍은 데이터 파이프라인 구축에 매우 강력한 접근 방식이지만, 여러 데이터 세트를 다루고 전체 개발 수명 주기를 관리하는 것은 전용 도구 없이는 다루기 어려워질 수 있습니다.
이것이 바로 저희가 Databricks Workspace 내에서 선언적 파이프라인을 위한 완전한 IDE 환경을 구축한 이유입니다. Lakeflow Spark Declarative Pipelines를 위한 새로운 편집기로 제공되며, 파일을 사용하여 데이터 세트와 품질 제약 조건을 선언하고, 폴더로 구성하고, 코드와 함께 표시되는 자동 생성된 종속성 그래프를 통해 연결을 볼 수 있습니다. 편집기는 파일을 평가하여 가장 효율적인 실행 계획을 결정하고, 단일 파일, 변경된 데이터 세트 집합 또는 전체 파이프라인을 다시 실행하여 빠르게 반복할 수 있도록 합니다.

이 편집기는 또한 실행 인사이트를 제공하고, 내장된 데이터 미리보기를 제공하며, 코드를 미세 조정하는 데 도움이 되는 디버깅 도구를 포함합니다. 또한 버전 관리 및 Lakeflow Jobs를 사용한 예약 실행과 통합됩니다. 따라서 단일 환경에서 파이프라인과 관련된 모든 작업을 수행할 수 있습니다.
이러한 모든 기능을 단일 IDE와 유사한 환경으로 통합함으로써, 이 편집기는 선언적 패러다임을 유지하면서 데이터 엔지니어가 최신 IDE에서 기대하는 관행과 생산성을 제공합니다.
아래에 포함된 동영상은 이러한 기능이 작동하는 모습을 보여주며, 다음 섹션에서 더 자세한 내용을 다룹니다.
"새로운 편집기는 코드, 파이프라인 그래프, 결과, 구성 및 문제 해결 등 모든 것을 한 곳으로 가져옵니다. 더 이상 브라우저 탭을 바꾸거나 컨텍스트를 잃을 필요가 없습니다. 개발이 더 집중적이고 효율적으로 느껴집니다. 각 코드 변경의 영향을 직접 확인할 수 있습 니다. 클릭 한 번으로 정확한 오류 줄로 이동할 수 있어 디버깅이 빨라집니다. 모든 것이 연결됩니다. 코드와 데이터; 코드와 테이블; 테이블과 코드. 파이프라인 간 전환이 쉽고, 자동 구성된 유틸리티 폴더와 같은 기능은 복잡성을 제거합니다. 이것이 파이프라인 개발이 작동해야 하는 방식처럼 느껴집니다."— Chris Sharratt, 데이터 엔지니어, Rolls-Royce
"제 생각에 새로운 파이프라인 편집기는 엄청난 개선입니다. 멀티 소프트 탭 환경 덕분에 복잡한 폴더 구조를 관리하고 파일 간에 전환하는 것이 훨씬 쉽습니다. 통합 DAG 보기는 복잡한 파이프라인을 파악하는 데 정말 도움이 되며, 향상된 오류 처리는 게임 체인저입니다. 문제를 신속하게 파악하는 데 도움이 되고 개발 워크플로우를 간소화합니다."— Matt Adams, 수석 데이터 플랫폼 개발자, PacificSource Health Plans
선언적 패러다임이 처음인 사용자도 첫 파이프라인을 빠르게 구축할 수 있도록 편집기를 설계했습니다.

이러한 기능은 사용자가 빠르게 생산성을 높이고 작업을 프로덕션 준비 파이프라인으로 전환하는 데 도움이 됩니다.
파이프라인 구축은 반복적인 프로세스입니다. 편집기는 작성 작업을 단순화하고 논리를 테스트하고 개선하는 것을 더 빠르게 만드는 기능으로 이 프로세스를 간소화합니다.

이러한 기능은 컨텍스트 전환을 줄이고 개발자가 파이프라인 논리 구축에 집중하도록 합니다.
파이프라인 개발은 코드 작성 이상의 것을 포함합니다. 새로운 개발 환경은 유지 관리를 위한 코드 모듈화부터 자동화 및 관찰 가능성 설정까지 모든 관련 작업을 단일 환경으로 가져옵니다.
이러한 기능을 통합함으로써 이 편집기는 일상적인 개발과 장기적인 파이프라인 운영을 모두 간소화합니다.
이 모든 기능이 작동하는 모습에 대한 자세한 내용은 아래 동영상을 확인하세요.
저희는 여기서 멈추지 않습니다. 현재 탐색 중인 내용의 미리보기입니다.
더 보고 싶은 것이 있다면 알려주세요. 여러분의 피드백이 저희가 구축하는 것을 이끌어갑니다.
데이터 엔지니어링 IDE는 모든 클라우드에서 사용할 수 있습니다. 활성화하려면 기존 파이프라인과 관련된 파일을 열고 'Lakeflow Pipelines Editor: OFF' 배너를 클릭한 다음 토글을 켭니다. 유사한 토글을 사용하거나 사용자 설정 페이지에서 파이프라인 생성 중에 활성화할 수도 있습니다.
이러한 리소스를 사용하여 자세히 알아보세요.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.