작성자: 인드라지트 로이
Databricks는 데이터 및 AI 분야에서 가능한 것의 한계를 지속적으로 넓히며 엔지니어링 혁신을 선도하고 있습니다. Spark Declarative Pipelines에 대한 저희의 작업이 SIGMOD 2026에서 소개될 예정이며, 해당 작업이 학회에서 우수 논문상(honorable mention award)을 수상하게 되었음을 발표하게 되어 기쁩니다. 저희는 다가오는 6월 1일부터 5일까지 플래티넘 스폰서로 SIGMOD에 참가합니다. SIGMOD는 인도 방갈로르에서 개최될 예정이며, 이곳은 Databricks의 주요 R&D 허브이기도 합니다.
데이터 엔지니어링에 대한 저희의 최신 논문들은 Databricks가 고객을 위해 점진적 데이터 처리를 어떻게 간소화했는지 보여줍니다. Spark Declarative Pipelines(SDP)에서 점진적 프로그램을 작성하는 두 가지 방법이 있으며, 고객은 파이프라인 내에서 이 두 가지를 혼합하여 사용할 수 있습니다:
Enzyme 논문과 팀이 작업해 온 내용에 대한 미리보기를 확인해 보세요:
회사에서 분석가라고 가정해 봅시다. 특정 지역에서 판매된 총 주문 수를 분석하고 싶습니다. 아래의 materialized view가 답을 제공합니다.
CREATE MATERIALIZED VIEW order_report as
SELECT region, sum(orders)
FROM customer_and_order_table
GROUP by region
새로운 주문이 추가됨에 따라 materialized view가 최신 상태로 유지되기를 기대할 것입니다. 이 데이터 유지 관리는 본질적으로 점진적 뷰 유지 관리 문제입니다. 위의 간단한 MV를 최신 상태로 유지하는 것은 간단해 보이지만, MV가 여러 테이블의 데이터를 조인해야 하거나 창 함수가 포함되어 있거나 LLM 함수를 호출해야 한다고 상상해 보세요.
Materialized views(MVs)는 데이터 웨어하우스에 있는 데이터를 기반으로 대시보드를 가속화하는 쿼리 가속화에 인기가 있습니다. Spark Declarative Pipelines를 생성할 때, 저희는 쿼리 가속화를 넘어서 materialized views를 extract-transform-load(ETL) 사용 사례에 적용하기로 결정했습니다. 저희의 핵심 관찰은 MV를 효율적이고 점진적으로 유지 관리할 수 있다면, 복잡한 사용자 정의 코드를 작성해야 하는 ETL 워크로드를 크게 간소화할 수 있다는 것입니다.
Enzyme은 점진적으로 materialized views를 유지 관리하는 풍부한 문헌에 기여하며, 프로덕션 워크로드에서 이러한 기술을 확장하는 방법을 보여줍니다. 팀이 작업한 혁신 중 일부는 다음과 같습니다:

그림 1: Enzyme은 다른 경쟁 업계 솔루션(라이선스 제한으로 인해 CV-IVM으로 익명 처리됨)보다 훨씬 뛰어난 성능을 보여줍니다.
더 자세히 알고 싶으신가요? 논문을 확인하시고, SIGMOD에 참석하신다면 더 자세한 내용을 위해 저희 발표에 참석해 주세요.
저희 부스에 들러 팀을 만나고 Databricks에서 진행 중인 혁신에 대해 자세히 알아보세요. 또한, Ritwik Yadav의 SIGMOD 발표를 직접 들을 수 있는 기회를 놓치지 마세요!
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.