2026년 3월 20일

멀티 클라우드 과제, 지능형 로드 밸런싱 및 AI 기반 워크플로: SRECon 2026의 Databricks

Databricks 엔지니어들은 오픈 소스 기여를 통해 인프라 안정성과 효율성을 발전시키고 있습니다. SREcon 2026에서 팀이 주도하는 작업에 대해 자세히 알아보세요.
멀티 클라우드 환경의 Kubernetes를 위한 클라이언트 측 로드 밸런싱 및 대규모 데이터베이스 인스턴스를 위한 AI 기반 디버깅을 포함한 복잡한 인프라 과제에 대한 Databricks의 접근 방식을 알아보세요.
Unity Catalog와 같은 중요 서비스의 가용성과 성능을 데이터 배포 최적화를 통해 향상시키는 오픈 소스 자동 샤딩 시스템인 Dicer를 탐색해 보세요.

Databricks 인프라 엔지니어들이 3월 24일 시애틀에서 열리는 SRECon 2026에 참가합니다. Databricks 플랫폼의 기반이 되는 인프라를 확장, 운영 및 발전시키기 위해 저희가 수행해 온 작업에 대해 공유하게 되어 기쁩니다.

서비스 메시, 트래픽 라우팅, 구성 관리 및 상태 저장 서비스 실행을 담당하는 Bricksters를 포함한 인프라 팀의 엔지니어들과 대화에 참여하세요. 이는 엔지니어들이 해결하고 있는 가장 큰 문제와 그들이 주도하는 인프라 혁신을 탐색할 수 있는 좋은 기회입니다.

또한, 이 기술 세션들을 놓치지 마세요!

Databricks의 지능형 Kubernetes 로드 밸런싱

Databricks는 AWS, Azure 및 GCP 전반에 걸쳐 수천 개의 마이크로서비스를 실행합니다. 이 규모에서는 Kubernetes의 기본 로드 밸런싱이 제대로 작동하지 않습니다. 내장된 kube-proxy 및 ClusterIP 모델은 레이어 4에서 작동하여 요청이 아닌 연결을 분산합니다. 장기 실행 HTTP/2 연결이 있는 gRPC 서비스의 경우, 이는 심각한 트래픽 불균형으로 이어집니다. 즉, 일부 파드는 과부하되고 다른 파드는 유휴 상태가 됩니다. 그 결과 지연 시간 급증, 컴퓨팅 낭비 및 예측 불가능한 서비스 동작이 발생합니다.

저희는 이 문제를 해결하기 위해 맞춤형 솔루션을 구축했으며, 이 발표에서는 아키텍처, 고려했던 절충점(Istio 또는 전체 서비스 메시 채택을 피한 이유 포함) 및 멀티 클라우드 환경 전반에 걸쳐 이를 배포하면서 얻은 교훈을 공유할 것입니다.

더 자세한 기술 정보는 이전 블로그 게시물을 참조하세요: Databricks의 지능형 Kubernetes 로드 밸런싱.

AI를 사용하여 수천 개의 데이터베이스를 디버깅하는 방법

Databricks는 세 개의 클라우드와 수백 개의 지역에 걸쳐 수천 개의 OLTP 데이터베이스 인스턴스를 운영합니다. 문제가 발생하면 엔지니어들은 과거에 Grafana 대시보드, CLI 도구, 클라우드 공급자 콘솔 및 내부 런북에서 신호를 취합해야 했습니다. 디버깅 경험은 파편화되고 느렸으며 부족한 지식에 크게 의존했습니다. 신규 엔지니어는 데이터베이스 문제를 진단하는 데 효과적이 되기까지 몇 주가 걸릴 수 있었습니다.

저희는 이를 바꾸기 위해 AI 지원 플랫폼을 구축했습니다. 해커톤 프로토타입에서 시작하여 프로덕션 시스템으로 성장시켰습니다. 이 발표에서는 제로에서 프로덕션까지의 여정, 이를 성공시킨 아키텍처 결정 및 대규모 AI 기반 운영 도구 구축에 대해 배운 점을 공유할 것입니다.

더 자세한 내용은 이전 블로그 게시물을 참조하세요: Databricks에서 AI를 사용하여 수천 개의 데이터베이스를 디버깅하는 방법.

네트워킹 이벤트: Dicer 심층 분석

올해 초, 저희는 고가용성, 저지연 샤딩 서비스를 구축하기 위한 자동 샤딩 시스템인 Dicer를 오픈 소싱했습니다. Dicer는 분산 시스템의 근본적인 긴장 관계를 해결합니다. 상태 비저장 아키텍처는 간단하지만 비용이 많이 들고(모든 요청이 데이터베이스 또는 원격 캐시에 도달), 정적 샤딩 아키텍처는 효율적이지만 취약합니다(다시 시작하면 가용성이 떨어지고, 핫 키는 불균형을 유발하며, 확장은 수동 개입이 필요합니다).

Dicer는 샤드 할당을 지속적이고 동적으로 관리하여 이를 해결합니다. 과부하된 샤드를 분할하고, 사용량이 적은 샤드를 병합하며, 가용성을 위해 중요 데이터를 복제하고, 롤링 재시작 중에 샤드를 이동하여 캐시 적중률을 유지합니다. Databricks에서 Dicer는 가장 중요한 서비스 중 일부를 지원합니다. Unity Catalog는 Dicer를 사용하여 90-95%의 캐시 적중률을 달성하고, SQL 쿼리 오케스트레이션 엔진은 재시작 중 가용성 저하를 제거하며, 원격 캐시는 롤링 배포를 통해서도 적중률을 유지합니다.

SRECon 기간 동안 Dicer에 대해 더 깊이 논의할 전용 네트워킹 이벤트를 개최합니다. Dicer의 작동 방식, 프로덕션에서의 사용 방법 및 자체 인프라에서 사용하는 방법을 다룰 것입니다. 이는 공식 발표가 아닌 음료와 애피타이저를 곁들인 대화형 세션입니다. 샤딩, 캐싱 및 대규모 상태 저장 서비스 구축에 대한 질문을 가져오세요.

좌석이 제한되어 있습니다. 여기에서 등록하세요: SRECon 2026 Databricks 네트워킹 이벤트

인프라 팀이 작업 중인 내용

발표 및 네트워킹 이벤트 외에도 저희 인프라 팀은 멀티 클라우드 운영에서 가장 어려운 문제들을 해결하고 있습니다. 저희가 기대하는 몇 가지 영역은 다음과 같습니다.

멀티 클라우드 서비스 제공: Databricks는 AWS, Azure 및 GCP에서 동시에 실행됩니다. 모든 서비스, 모든 구성, 모든 배포 파이프라인은 세 클라우드와 해당 정부 및 국가별 리전 모두에서 작동해야 합니다. 저희 팀은 통합된 배치 구성(서비스가 실행되는 위치를 정의)부터 클라우드 공급자 간의 차이를 처리하는 배포 파이프라인까지, 이를 관리 가능하게 만드는 도구와 추상화를 구축하고 있습니다.

서비스 메시 및 트래픽 라우팅: 서비스 플릿이 증가함에 따라 트래픽을 효율적이고 안정적으로 라우팅하는 것이 점점 더 복잡해지고 있습니다. 저희는 서비스 검색, 클러스터 간 및 지역 간 라우팅, 로드 밸런싱 및 샤딩 시스템 간의 통합에 투자하고 있습니다. 플릿이 성장함에 따라 문제 영역은 단일 클러스터 내 트래픽 최적화에서 클러스터 간, 지역 간, 심지어 클라우드 공급자 간 라우팅으로 확장되었습니다.

대규모 구성 관리: 수천 개의 서비스, 여러 클라우드 및 다양한 환경(개발, 스테이징, 프로덕션, 정부 리전) 전반의 구성을 관리하는 것은 새로운 서비스와 새로운 리전이 추가될 때마다 복잡해지는 문제입니다. 저희 팀은 구성 변경을 안전하고 감사 가능하며 일관성 있게 만드는 시스템을 구축하고 있습니다. 이전 블로그 게시물을 참조하세요: Databricks의 고가용성 기능 플래깅.

SRECon에서 만나세요

Databricks는 실버 스폰서입니다. 엑스포 플로어의 부스 #214에서 저희를 찾아주세요. 서비스 메시, 트래픽 라우팅, 구성 관리 및 상태 저장 서비스 실행을 담당하는 Bricksters를 포함한 인프라 팀의 여러 엔지니어들이 있을 것입니다. 저희가 해결하고 있는 문제와 구축 중인 시스템에 대해 이야기하기 위해 찾아오세요.

SREcon에서 저희를 놓치고 저희 팀에 합류하는 데 관심이 있으시면 최신 채용 정보를 보려면 채용 사이트를 방문하세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)