올해 Data + AI Summit에서 Databricks는 데이터 엔지니어링용 IDE를 소개했습니다. 이는 Databricks Workspace 내에서 직접 데이터 파이프라인을 작성하기 위해 특별히 제작된 새로운 개발자 경험입니다. 새로운 default 개발 환경인 IDE는 선언적 default, 모듈식 구조, Git 통합, AI 지원 등 데이터 엔지니어링에 대한 저희의 독자적인 접근 방식을 반영합니다.
간단히 말해, 데이터 엔지니어링용 IDE는 데이터 파이프라인을 작성하고 테스트하는 데 필요한 모든 것을 한곳에서 제공합니다.
Public Preview로 제공되는 이 새로운 개발 환경을 통해 이 블로그에서는 선언적 파이프라인에 전용 IDE 환경이 유용한 이유를 설명하고, 파이프라인 개발을 더 빠르고 체계적이며 디버그하기 쉽게 만드는 주요 기능을 중점적으로 소개하고자 합니다.
선언형 파이프라인은 구축 방법에 대한 자세한 단계별 지침을 작성하는 대신, 달성하려는 목표를 선언하도록 하여 데이터 엔지니어링을 간소화합니다. 선언적 프로그래밍은 데이터 파이프라인을 구축하는 매우 강력한 접근 방식이지만, 전용 툴링 없이는 여러 데이터 세트를 사용하고 전체 개발 수명 주기를 관리하기가 어려울 수 있습니다.
이것이 바로 저희가 Databricks Workspace에 직접 선언적 파이프라인을 위한 완전한 IDE 환경을 구축한 이유입니다. Lakeflow Spark 선언적 파이프라인의 새로운 편집기로 제공되는 이 기능을 사용하면 파일에 데이터세트와 품질 제약 조건을 선언하고, 폴더로 정리하며, 코드와 함께 표시되는 자동 생성 종속성 그래프를 통해 연결을 볼 수 있습니다. 편집기는 파일을 평가하여 가장 효율적인 실행 계획을 결정하며, 단일 파일, 변경된 데이터 세트 집합 또는 전체 파이프라인을 다시 실행하여 빠른 반복 작업을 지원합니다.
또한 에디터는 실행 인사이트를 표시하고, 기본 내장 데이터 미리 보기를 제공하며, 코드를 미세 조정하는 데 도움이 되는 디버깅 도구를 포함합니다. 또한 Lakeflow Jobs를 사용한 버전 관리 및 예약 실행과도 통합됩니다. 따라서 단일 화면에서 파이프라인 관련 모든 작업을 수행할 수 있습니다.
이 모든 기능을 단일 IDE와 같은 화면에 통합함으로써, 편집기는 선언형 패러다임의 본질을 유지하면서 데이터 엔지니어가 최신 IDE에서 기대하는 방식의 작업과 생산성을 구현할 수 있도록 합니다.
아래에 포함된 동영상은 이러한 기능이 실제로 작동하는 모습을 보여주며, 자세한 내용은 다음 섹션에서 다룹니다.
"새로운 에디터는 코드, 파이프라인 그래프, 결과, 구성, 문제 해결 등 모든 것을 한곳에 모았습니다. 더 이상 여러 브라우저 tab을 오가거나 컨텍스트를 잃을 필요가 없습니다. 개발이 더 집중되고 효율적으로 느껴집니다. 각 코드 변경 사항의 영향을 직접 확인할 수 있습니다. 클릭 한 번으로 정확한 오류 라인으로 이동할 수 있어 디버깅이 더 빨라집니다. 모든 것이 연결됩니다. 코드는 데이터에, 코드는 테이블에, 그리고 테이블은 코드에 연결됩니다. 파이프라인 간 전환이 쉽고, 자동 구성 유틸리티 폴더와 같은 기능이 복잡성을 줄여줍니다. 이것이야말로 파이프라인 개발의 올바른 방식이라고 생각합니다."— Chris Sharratt, 데이터 엔지니어, Rolls-Royce
"제 생각에 새로운 파이프라인 Editor는 크게 개선되었습니다. 다중 소프트 tab 환경 덕분에 복잡한 폴더 구조를 관리하고 파일 간에 전환하기가 훨씬 쉬워졌습니다. 통합된 DAG 뷰는 복잡한 파이프라인을 파악하는 데 정말 도움이 되며, 향상된 오류 처리는 획기적입니다. 이를 통해 문제를 신속하게 파악하고 개발 워크플로를 간소화할 수 있습니다."— Matt Adams, PacificSource Health Plans 수석 데이터 플랫폼 개발자
선언적 패러다임이 처음인 사용자도 첫 파이프라인을 빠르게 구축할 수 있도록 에디터를 설계했습니다.
이러한 기능 덕분에 사용자는 빠르게 생산성을 높이고 작업을 프로덕션용 파이프라인으로 전환할 수 있습니다.
파이프라인 구축은 반복적인 프로세스입니다. 에디터는 작성을 간소화하고 로직 테스트 및 정제 속도를 높이는 기능으로 이 프로세스를 효율화합니다.
이러한 기능은 컨텍스트 전환을 줄여 개발자가 파이프라인 로직 구축에 집중할 수 있도록 지원합니다.
파이프라인 개발에는 코드 작성 이상의 작업이 포함됩니다. 새로운 개발 환경은 유지 관리를 위한 코드 모듈화부터 자동화 및 관찰 가능성 설정에 이르기까지 모든 관련 작업을 단일 화면으로 통합합니다.
