Databricks에서 파이프라인을 구축하는 새로운 방법: 데이터 엔지니어링용 IDE를 소개합니다

Lakeflow Spark 선언형 파이프라인 작성을 위해 특별히 제작된 새로운 개발자 경험

발행일: 2025년 11월 19일

공지사항Less than a minute

작성자: Adriana Ispas, Lennart Kats, 카미엘 스틴스트라 , Monica Alvarez Vicente

Summary

Spark 선언적 파이프라인은 이제 Databricks Workspace에서 전용 IDE 개발자 환경을 제공합니다.
새로운 IDE는 종속성 그래프, 미리 보기 및 실행 인사이트와 같은 기능을 통해 생산성과 디버깅을 개선합니다.
IDE는 빠른 온보딩과 Git 통합, CI/CD 및 관찰 가능성과 같은 고급 사용 사례를 모두 지원합니다.

올해 Data + AI Summit에서 Databricks는 데이터 엔지니어링용 IDE를 소개했습니다. 이는 Databricks Workspace 내에서 직접 데이터 파이프라인을 작성하기 위해 특별히 제작된 새로운 개발자 경험입니다. 새로운 default 개발 환경인 IDE는 선언적 default, 모듈식 구조, Git 통합, AI 지원 등 데이터 엔지니어링에 대한 저희의 독자적인 접근 방식을 반영합니다.

간단히 말해, 데이터 엔지니어링용 IDE는 데이터 파이프라인을 작성하고 테스트하는 데 필요한 모든 것을 한곳에서 제공합니다.

Public Preview로 제공되는 이 새로운 개발 환경을 통해 이 블로그에서는 선언적 파이프라인에 전용 IDE 환경이 유용한 이유를 설명하고, 파이프라인 개발을 더 빠르고 체계적이며 디버그하기 쉽게 만드는 주요 기능을 중점적으로 소개하고자 합니다.

선언적 데이터 엔지니어링을 위한 전용 개발자 환경이 제공됩니다

선언형 파이프라인은 구축 방법에 대한 자세한 단계별 지침을 작성하는 대신, 달성하려는 목표를 선언하도록 하여 데이터 엔지니어링을 간소화합니다. 선언적 프로그래밍은 데이터 파이프라인을 구축하는 매우 강력한 접근 방식이지만, 전용 툴링 없이는 여러 데이터 세트를 사용하고 전체 개발 수명 주기를 관리하기가 어려울 수 있습니다.

이것이 바로 저희가 Databricks Workspace에 직접 선언적 파이프라인을 위한 완전한 IDE 환경을 구축한 이유입니다. Lakeflow Spark 선언적 파이프라인의 새로운 편집기로 제공되는 이 기능을 사용하면 파일에 데이터세트와 품질 제약 조건을 선언하고, 폴더로 정리하며, 코드와 함께 표시되는 자동 생성 종속성 그래프를 통해 연결을 볼 수 있습니다. 편집기는 파일을 평가하여 가장 효율적인 실행 계획을 결정하며, 단일 파일, 변경된 데이터 세트 집합 또는 전체 파이프라인을 다시 실행하여 빠른 반복 작업을 지원합니다.

또한 에디터는 실행 인사이트를 표시하고, 기본 내장 데이터 미리 보기를 제공하며, 코드를 미세 조정하는 데 도움이 되는 디버깅 도구를 포함합니다. 또한 Lakeflow Jobs를 사용한 버전 관리 및 예약 실행과도 통합됩니다. 따라서 단일 화면에서 파이프라인 관련 모든 작업을 수행할 수 있습니다.

이 모든 기능을 단일 IDE와 같은 화면에 통합함으로써, 편집기는 선언형 패러다임의 본질을 유지하면서 데이터 엔지니어가 최신 IDE에서 기대하는 방식의 작업과 생산성을 구현할 수 있도록 합니다.

아래에 포함된 동영상은 이러한 기능이 실제로 작동하는 모습을 보여주며, 자세한 내용은 다음 섹션에서 다룹니다.

손쉬운 시작

선언적 패러다임이 처음인 사용자도 첫 파이프라인을 빠르게 구축할 수 있도록 에디터를 설계했습니다.

가이드 설정 을 통해 신규 사용자는 샘플 코드로 시작할 수 있으며, 기존 사용자는 Databricks Asset Bundles를 통해 CI/CD가 통합된 파이프라인과 같은 고급 설정을 구성할 수 있습니다.
추천 폴더 구조 는 엄격한 규칙을 강요하지 않으면서 자산을 정리하기 위한 시작점을 제공하므로, 팀은 자체적으로 정립한 조직 패턴을 구현할 수도 있습니다. 예를 들어, 각 메달리온 단계의 변환을 폴더로 그룹화하고 파일당 하나의 데이터세트를 포함할 수 있습니다
Default 설정 덕분에 사용자는 복잡한 사전 구성 부담 없이 첫 코드를 작성하고 실행할 수 있으며, 엔드투엔드 워크로드가 정의되면 나중에 설정을 조정할 수 있습니다.

이러한 기능 덕분에 사용자는 빠르게 생산성을 높이고 작업을 프로덕션용 파이프라인으로 전환할 수 있습니다.

내부 개발 루프의 효율성

파이프라인 구축은 반복적인 프로세스입니다. 에디터는 작성을 간소화하고 로직 테스트 및 정제 속도를 높이는 기능으로 이 프로세스를 효율화합니다.

AI 기반 코드 생성 및 코드 Template 은 코드 데이터세트 정의 및 데이터 품질 제약 조건의 속도를 높이고 반복적인 단계를 제거합니다.
선택적 실행 을 통해 단일 테이블, 파일 내 모든 테이블 또는 전체 파이프라인을 실행할 수 있습니다.
인터랙티브 파이프라인 그래프 는 데이터 세트 종속성에 대한 개요를 제공하며 데이터 미리보기, 재실행, 코드로 이동, 자동 생성된 보일러플레이트로 새 데이터 세트 추가와 같은 빠른 작업을 지원합니다.
기본 내장 데이터 미리 보기 를 사용하면 편집기를 나가지 않고도 테이블 데이터를 검사할 수 있습니다.
상황별 오류 는 관련 코드와 함께 표시되며, Databricks Assistant에서 제안하는 수정 사항을 제공합니다.
실행 인사이트 패널 에는 데이터세트 측정항목, 예상, query 성능이 표시되며, 성능 튜닝을 위해 query 프로필 에 액세스할 수 있습니다.

이러한 기능은 컨텍스트 전환을 줄여 개발자가 파이프라인 로직 구축에 집중할 수 있도록 지원합니다.

모든 작업을 한곳에서

파이프라인 개발에는 코드 작성 이상의 작업이 포함됩니다. 새로운 개발 환경은 유지 관리를 위한 코드 모듈화부터 자동화 및 관찰 가능성 설정에 이르기까지 모든 관련 작업을 단일 화면으로 통합합니다.

탐색용 노트북이나 재사용 가능한 Python 모듈과 같은 인접 코드를 전용 폴더로 구성 하고, 여러 tab에서 파일을 편집하며, 파이프라인 로직과 별도로 실행할 수 있습니다. 이렇게 하면 관련 코드를 쉽게 찾을 수 있고 파이프라인을 깔끔하게 유지할 수 있습니다.
Git 폴더를 통한 통합 버전 관리 는 안전하고 격리된 작업, 코드 리뷰, 공유 repository로의 풀 리퀘스트를 지원합니다.
파이프라인을 위한 Databricks Asset Bundles를 지원하는 CI/CD 는 내부 루프 개발과 배포를 연결합니다. 데이터 관리자는 Template과 구성 파일을 사용하여 데이터 실무자의 워크플로에 복잡성을 더하지 않으면서 테스트를 강제하고 프로덕션으로의 승격을 자동화할 수 있습니다.
기본 내장 자동화 및 관찰 가능성 은 예약된 파이프라인 실행을 지원하며, 모니터링 및 문제 해결을 위해 과거 실행 기록에 빠르게 액세스할 수 있는 기능을 제공합니다.

이러한 기능을 통합함으로써 에디터는 일상적인 개발과 장기적인 파이프라인 운영을 모두 효율화합니다.

이러한 모든 기능이 실제로 작동하는 모습에 대한 자세한 내용은 아래 동영상을 확인하세요.

다음은 무엇인가요?

여기서 멈추지 않습니다. 현재 탐색 중인 기능은 다음과 같습니다.

Lakeflow Spark 선언형 파이프라인의 데이터 테스트 및 편집기의 테스트 러너에 대한 기본 지원
검증 속도를 높이는 AI 지원 테스트 생성
Lakeflow Spark 선언적 파이프라인을 위한 에이전트 기반 환경.

또 어떤 기능을 원하시는지 알려주세요. 여러분의 피드백은 저희의 제품 개발에 큰 원동력이 됩니다.

지금 바로 새로운 개발자 환경을 시작해 보세요

데이터 엔지니어링용 IDE는 모든 클라우드에서 사용할 수 있습니다. 활성화하려면 기존 파이프라인과 연결된 파일을 열고 'Lakeflow Pipelines Editor: OFF' 배너를 클릭한 후 켜기로 전환하세요. 파이프라인 생성 중 유사한 토글을 사용하거나 사용자 설정 페이지에서도 이 기능을 활성화할 수 있습니다.

다음 리소스를 통해 더 자세히 알아보세요.

문서를 확인해 보세요.
Data + AI Summit 2025에서 진행되는 새로운 에디터로 데이터 파이프라인 작성하기 강연을 시청하세요.
Data + AI Summit 2025에서 Lakeflow in Production: CI/CD, Testing and 모니터링 at Scale 세션을 확인해 보세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

다음은 무엇인가요?

2025년 1월 27일/1분 이내 소요

Databricks로의 마이그레이션 탐색: 아키텍처와 전략적 접근법

2025년 1월 31일/1분 이내 소요

Summary

선언적 데이터 엔지니어링을 위한 전용 개발자 환경이 제공됩니다

손쉬운 시작

내부 개발 루프의 효율성

Gartner®: Databricks 클라우드 데이터베이스 리더

모든 작업을 한곳에서

다음은 무엇인가요?

지금 바로 새로운 개발자 환경을 시작해 보세요

게시물을 놓치지 마세요

Sign up

다음은 무엇인가요?

Databricks로의 마이그레이션 탐색: 아키텍처와 전략적 접근법

DeepSeek R1 on Databricks