2025년 6월 16일

Databricks at SIGMOD 2025

Databricks는 독일 베를린에서 열리는 SIGMOD 2025의 플래티넘 스폰서가 되어 자랑스럽습니다. 우리가 수용한 논문과 엔지니어링 기회에 대해 더 알아보세요.

Databricks는 SIGMOD 2025의 플래티넘 스폰서입니다
우리의 부스를 방문하여 팀을 만나보세요
우리가 수용한 출판물에 대한 리뷰

Databricks는 SIGMOD 2025의 플래티넘 스폰서가 되어 자랑스럽습니다. 이 컨퍼런스는 6월 22일부터 27일까지 독일 베를린에서 진행됩니다.

SIGMOD 2025의 개최 도시인 베를린은 Databricks의 유럽 내 4개의 R&D 허브 중 하나이며, 아루스, 암스테르담, 베오그라드와 함께 있습니다.

베를린 사무소는 Databricks의 연구에서 중추적인 역할을 하며, 그 일부는 SIGMOD에서 선보이며, 우리가 수용한 세 편의 논문에 기여하고 있습니다. 주요 엔지니어 Martin Grund 는 두 편의 논문의 주 저자이며, 베를린 사이트 리드 Tim Januschowski는 여러 베를린 기반 엔지니어들과 함께 Unity Catalog에 대한 논문을 공동 저술하였습니다. 이러한 기여들은 베를린에서 진행되는 핵심 시스템과 전략적 작업에 대한 일부를 보여주며, 우리는 모든 경험 수준에서 적극적으로 채용하고 있습니다.

우리의 부스를 방문하세요

6월 22일부터 27일까지 부스 #3을 방문하여 팀 멤버들을 만나고, 우리의 최신 작업과 독특하게 협업적인 Databricks 문화에 대해 알아보고, 데이터 시스템의 미래에 대해 이야기해 보세요!

수용된 출판물

수용된 산업 논문

Databricks Lakeguard: Apache Spark 작업 부하에 대한 세분화된 접근 제어 및 다중 사용자 기능 지원.

기업들은 점점 복잡해지는 데이터 거버넌스 요구 사항을 관리하기 위해 세분화된 접근 제어 정책을 적용하고자 합니다. 이러한 풍부한 정책들은 그들의 모든 작업 부하에 일관되게 적용되어야 합니다. 이 논문에서는 우리가 구현한 통합 거버넌스 시스템인 Databricks Lakeguard를 소개합니다. 이 시스템은 세분화된 데이터 접근 정책, 행 수준 필터, 열 마스크를 기업의 모든 데이터 및 AI 작업 부하에 적용합니다. Lakeguard는 두 가지 주요 구성 요소를 기반으로 합니다: 첫째, 클라이언트 애플리케이션과 서버를 분리하고 버전 호환성을 보장하는 JDBC와 유사한 실행 프로토콜인 Spark Connect를 사용합니다. 둘째, Databricks의 클러스터 관리자에서 컨테이너 격리를 활용하여 사용자 코드를 핵심 Spark 엔진으로부터 안전하게 격리합니다. Lakeguard를 사용하면, 사용자의 권한은 SQL, Python, Scala, R 등 지원되는 모든 언어에서의 모든 작업 부하에 대해 적용됩니다. 이 작업은 세분화된 접근 제어가 SQL 작업 부하에만 적용될 수 있었던, 분산된 거버넌스 솔루션을 극복하였습니다. 반면에 Apache Spark와 같은 프레임워크를 사용한 빅 데이터 처리는 클러스터에 바인딩된 데이터 접근을 가진 파일 수준의 대략적인 거버넌스에 의존하였습니다.

Unity Catalog: 레이크하우스와 그 이상을 위한 개방적이고 보편적인 거버넌스

기업들은 유연성, 낮은 비용, 높은 성능 때문에 자신들의 데이터 자산을 관리하기 위해 점점 더 레이크하우스 아키텍처를 채택하고 있습니다. 카탈로그가 이 아키텍처에서 중추적인 역할을 하는 동안, 그것은 아직 탐구되지 않았으며, 현재의 Lakehouse 카탈로그는 일관성 없는 거버넌스, 좁은 상호 운용성, 데이터 발견 지원 부족 등의 주요 제한을 보여줍니다. 또한, 기존 카탈로그가 처리할 수 없는 비구조화된 데이터와 AI 모델과 같은 테이블 형식의 데이터를 넘어서 더 넓은 범위의 자산을 관리하려는 수요가 증가하고 있습니다. 이러한 도전을 해결하기 위해, 우리는 다양한 자산과 작업 부하를 지원하고, 일관된 거버넌스를 제공하며, 외부 시스템과 효율적으로 통합되는, 모두 강력한 성능 보장과 함께 Databricks에서 개발된 개방적이고 보편적인 레이크하우스 카탈로그인 Unity Catalog (UC)를 소개합니다. 우리는 주요 설계 도전과 UC의 아키텍처가 이를 어떻게 충족하는지를 설명하고, 그 설계 선택을 검증하는 수천 개의 고객 배포에서의 사용 경험을 공유합니다. UC의 핵심 API와 서버 및 클라이언트 구현은 2024년 6월 이후로 오픈 소스로 사용 가능했습니다.

승인된 데모 논문들

두 번 깜박이세요 - 재시도를 사용한 Versionless Apache Spark에 대한 자동 작업 고정 및 회귀 감지.

Apache Spark의 많은 사용자들에게 Spark 버전 업그레이드 관리는 일반적으로 시간이 많이 소요되는 코드 이전을 포함하는 중요한 중단입니다. 이는 주로 Spark에서 애플리케이션 코드와 엔진 코드 사이에 명확한 구분이 없어 독립적으로 관리하기 어렵기 때문입니다(의존성 충돌, 내부 API 사용). Databricks의 Serverless Spark 제공에서는 Spark Connect를 활용하여 클라이언트 애플리케이션을 Spark 엔진에서 완전히 분리하여 Spark 엔진 버전을 원활하게 업그레이드할 수 있도록 Versionless Spark를 도입했습니다. 이 논문에서는 Spark Connect를 중심으로 구축된 인프라가 어떻게 자동으로 Spark 작업 부하를 업그레이드하고 실패를 복구하는지 보여줍니다. Versionless Spark를 사용하면, Databricks 사용자의 Spark 작업 부하는 무한정 실행되며, Apache Spark의 프로그래밍 가능성을 거의 모두 유지하면서 완전히 관리되는 경험에 기반한 최신 버전에서 항상 실행됩니다.

우리 팀에 참여하세요

우리는 채용 중입니다! 우리의 직업 공고를 확인하세요 그리고 전 세계에서 성장하는 엔지니어링 팀에 참여하세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)