주요 컨텐츠로 이동
제품

Databricks 오픈소스 JDBC 드라이버로 더 빨라진 쿼리와 새로운 기능

Databricks에 어떤 도구든 안정적이고 쉽게 연결하세요. Databricks 오픈 소스 JDBC 드라이버를 사용하면 됩니다.

작성자: Toussaint Webb, Gopal Lal , Kaitlin Baumgardner

  • 성능: 레거시 Databricks JDBC 드라이버 대비 대규모 결과 검색 속도 최대 30% 향상
  • 새로운 기능: 다중 문 트랜잭션, 저장 프로시저, JDK16+와의 화살표 호환성, 비동기 실행, Unity Catalog 메트릭 뷰, 스트림 기반 UC 볼륨 수집, 복잡한 데이터 유형 및 지리 공간 데이터 유형과 같은 새로운 기능 지원
  • 미래 보장, 오픈 소스 연결성: Databricks가 완전히 소유한 오픈 소스로, 더 빠른 수정, 코드 투명성, 외부 코드 기여 및 더 긴밀한 플랫폼 통합을 가능하게 합니다.

현대적인 워크플로우는 빠르고 안정적인 데이터 연결에 달려 있습니다. 대시보드를 새로고침하거나, 스프레드시트에서 데이터를 분석하거나, 애플리케이션에 전원을 공급하는 등 연결 계층은 성능과 사용자 경험에 직접적인 영향을 미칩니다.

Databricks 연결성 개선을 위한 지속적인 노력의 일환으로, Databricks 오픈소스 JDBC 드라이버의 개선 사항을 공유하게 되어 기쁩니다. 릴리스 3.x 이상은 레거시 2.x 드라이버에 비해 파트너 및 고객에게 상당한 개선 사항을 제공합니다.

  • 더 나은 성능: 레거시 JDBC 드라이버에 비해 대규모 결과 검색 속도가 최대 30% 더 빠릅니다.
  • 개선된 아키텍처: JDK 16 이상에서 Arrow 지원, 비동기 문 실행, 스트리밍 기반 볼륨 수집과 같은 새로운 기능을 지원합니다.
  • 새로운 SQL 기능: UC 메트릭 뷰, 저장 프로시저, 다중 문 트랜잭션 및 쿼리 태그에 대한 지원이 추가되었습니다.
  • 향상된 관찰 가능성: 쿼리 지연 시간, 연결 이벤트 및 오류를 캡처하는 내장 클라이언트 원격 분석을 통해 근본 원인 분석을 더 빠르게 수행할 수 있습니다.
  • 미래 보장형 연결성: Databricks가 완전히 소유하고 오픈소스로 제공되어 더 빠른 수정, 코드 투명성, 외부 코드 기여 및 더 긴밀한 플랫폼 통합이 가능합니다.
작년에 Databricks가 OSS JDBC 드라이버를 출시했을 때 저희에게는 마이그레이션이 원활했습니다. 새로운 기능, 역량 및 수정 사항에 더 빠르게 액세스하면서 이전 버전과의 호환성을 유지할 수 있었습니다. 이를 통해 시장 출시 시간을 단축하고 UC 비즈니스 의미 체계를 포함한 새로운 Databricks 혁신에 대한 지원을 고객에게 더 빠르게 제공할 수 있었습니다. —Jamie Davidson, President & Co-founder, Omni

가장 중요한 부분에서의 성능 향상

많은 BI 및 애플리케이션 워크로드에서 대규모 데이터 세트를 검색하는 것이 가장 큰 성능 병목 현상입니다. OSS JDBC 드라이버는 이러한 시나리오에서 성능을 크게 향상시킵니다.

대규모 쿼리 결과를 반환할 때 새 드라이버는 레거시 JDBC 드라이버보다 최대 30% 더 빠른 성능을 제공합니다.

이러한 개선 사항은 Databricks에서 운영 분석 또는 대량 보고 워크로드를 실행하는 조직에 특히 중요합니다.

개선된 아키텍처

새로운 Databricks JDBC 드라이버는 기본 아키텍처에서 개선되었습니다.

  • JDK 16 이상용 Arrow 호환성: 최신 JVM에서 별도의 해결 방법 없이 전체 Arrow 기반 데이터 전송을 지원하므로 고객 및 파트너는 Arrow를 계속 활성화하고 성능 향상의 이점을 누릴 수 있습니다.
  • 비동기 실행 인터페이스: 첫 번째 클래스 비동기 API로 JDBC를 확장하므로 애플리케이션은 쿼리를 제출하고 결과가 계산되는 동안 계속 작업할 수 있어 더 반응성이 뛰어난 아키텍처와 더 나은 리소스 활용이 가능합니다.
  • 스트림 기반 볼륨 수집: 로컬 스테이징 없이 Databricks 볼륨으로 대량 데이터를 직접 스트리밍하여 디스크 I/O 병목 현상을 제거하고 앱, 파이프라인 및 ETL 도구 전반에서 대규모 수집 워크플로우를 더 빠르고 쉽게 만듭니다.
  • 문 실행 API: Databricks의 문 실행 API와 통합되어 실행 수명 주기를 더 잘 제어하면서 직접 프로그래밍 방식으로 쿼리 실행을 지원하므로 반응성이 뛰어난 애플리케이션을 구축하고 워크플로우를 자동화하기가 더 쉬워집니다.

최신 애플리케이션을 위한 확장된 SQL 기능

새로운 Databricks JDBC 드라이버는 더 풍부한 데이터베이스 스타일 워크플로우와 더 정교한 통합을 지원하는 새로운 기능을 도입합니다.

새로운 기능에는 다음이 포함됩니다.

  • 저장 프로시저를 통해 비즈니스 로직을 캡슐화하고 애플리케이션 개발을 간소화합니다.
  • 다중 문 트랜잭션을 통해 트랜잭션 보장을 갖춘 더 복잡한 워크플로우를 지원합니다.
  • Unity Catalog 메트릭 뷰, 고객이 타사 도구에서 의미 계층과 원활하게 상호 작용할 수 있도록 지원합니다.
  • 쿼리 태그, 사용자가 쿼리를 레이블 지정하고 추적하여 관찰 가능성, 비용 할당 및 워크로드 관리를 개선할 수 있도록 지원합니다.
  • 지리 공간 데이터 유형, 위치 기반 데이터를 기본적으로 저장하고 분석하여 더 풍부한 공간 인사이트와 사용 사례를 지원합니다.
  • 복잡한 데이터 유형, 익숙한 Java 스타일 의미 체계를 사용하여 맵, 배열 및 구조체를 기본적으로 처리하여 더 유연한 데이터 모델링 및 처리를 지원합니다.

이러한 기능은 팀이 Databricks의 최신 혁신을 최대한 활용하는 더 나은 애플리케이션을 구축하는 데 도움이 됩니다.

더 나은 관찰 가능성

새로운 Databricks OSS JDBC 드라이버에는 거의 실시간으로 쿼리 지연 시간, 메트릭 및 오류를 캡처하는 내장 클라이언트 원격 분석 기능이 포함되어 있으며 쿼리 성능에 영향을 미치지 않습니다. 고객 및 파트너의 경우 지원 사례에 대한 처리 시간이 단축되고, 더 정확한 수정이 이루어지며, 실제 사용 패턴이 모든 릴리스에 반영되어 시간이 지남에 따라 측정 가능하게 개선되는 드라이버를 얻을 수 있습니다.

더 미래 보장형 연결 계층

이 릴리스의 가장 큰 장기적인 이점 중 하나는 Databricks가 JDBC 드라이버 코드베이스를 소유하고 유지 관리한다는 것입니다. 레거시 JDBC 드라이버와 비교할 때 이는 다음을 의미합니다.

  • 더 빠른 버그 수정
  • 새로운 기능의 더 빠른 제공
  • 플랫폼 기능과의 더 긴밀한 조정
  • 오픈소스 코드 투명성 및 커뮤니티 기여

이를 통해 Databricks 플랫폼과 동일한 속도로 발전하는 연결 계층을 얻을 수 있습니다.

시작하기

오픈소스 Databricks JDBC 드라이버는 Databricks 연결성을 위한 중요한 발전입니다. 개선된 아키텍처, 더 빠른 성능, 확장된 SQL 기능 및 더 깊은 플랫폼 통합을 통해 Databricks에서 더 안정적인 데이터 환경을 구축할 수 있습니다.

최신 업데이트 전체 목록을 보려면 최신 릴리스 노트를 검토하고, Maven을 통해 드라이버에 액세스하거나, 지금 바로 환경에서 새 드라이버를 사용해 보세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.