주요 컨텐츠로 이동

새로운 기능: Zerobus 및 기타 발표로 Lakeflow Connect의 데이터 수집 기능 향상

Lakeflow Connect는 데이터 소스 적용 범위를 확장하고 Zerobus는 낮은 지연 시간으로 고처리량 직접 쓰기 API를 도입합니다.

Lakeflow Connect: New releases expand data sources and improve ingestion capabilities

발행일: 2025년 7월 23일

제품Less than a minute

Summary

  • Lakeflow Connect는 데이터베이스용 새 쿼리 기반 커넥터를 포함하여 데이터 수집 소스의 범위를 확장합니다.
  • Zerobus는 IoT, 클릭스트림, 원격 측정 및 기타 유사한 사용 사례에 대한 수집을 단순화하는 직접 쓰기 API입니다.
  • Jobs의 Lakeflow Connect는 두 도구 간의 원활하고 직관적인 통합을 제공하여 통합된 엔드투엔드 경험으로 사용자의 시간을 절약할 수 있도록 돕습니다.

모든 것은 좋은 데이터에서 시작되므로, 인사이트를 얻기 위한 첫 단계는 종종 데이터 수집입니다. 하지만 데이터 수집은 각 데이터 소스의 복잡성에 대한 이해도를 높이고, 변경되는 소스를 추적하며, 이 모든 과정을 관리하는 데 어려움이 따릅니다.

Lakeflow Connect는 클릭만 하면 되는 UI, 간단한 API, 그리고 Data Intelligence Platform과의 깊은 통합을 통해 효율적인 데이터 수집을 쉽게 만들어 줍니다. 작년에 2,000명 이상의 고객이 Lakeflow Connect를 사용하여 데이터에서 가치를 창출했습니다. 

이 블로그에서는 Lakeflow Connect의 기본 사항을 살펴보고 2025 Data + AI Summit의 최신 발표 내용을 요약해 보겠습니다.

Lakeflow Connect로 모든 데이터를 한곳에서 수집하세요

Lakeflow Connect는 애플리케이션, 데이터베이스, 클라우드 스토리지, 메시지 버스 등을 위한 간단한 수집 커넥터를 제공합니다. 내부적으로는 증분 업데이트와 최적화된 API 사용을 통해 효율적인 수집이 이루어집니다. 관리되는 파이프라인이 실행되는 동안 스키마 변경, 타사 API 업그레이드, 내장 알림을 통한 포괄적인 모니터링을 저희가 처리합니다. 

Data + AI Summit 2025 발표

올해 Data + AI Summit에서 Databricks는 수집, 변환 및 오케스트레이션을 통합하는 데이터 엔지니어링 접근 방식인 Lakeflow의 일반 공급(General Availability)을 발표했습니다. 이의 일환으로 Lakeflow Connect는 IoT, 클릭스트림, 텔레메트리 및 유사한 사용 사례에 대한 수집을 단순화하는 직접 쓰기 API인 Zerobus를 발표했습니다. 또한 엔터프라이즈 애플리케이션, 파일 소스, 데이터베이스 및 데이터 웨어하우스뿐만 아니라 클라우드 객체 스토리지의 데이터에 대한 더 많은 내장 커넥터를 통해 지원되는 데이터 소스의 범위를 확장했습니다.

Zerobus: 이벤트 데이터를 Lakehouse로 직접 푸시하는 새로운 방법

데이터 소스에 더 가까이 다가갈 수 있도록 하는 혁신적인 새로운 접근 방식인 Zerobus를 소개하게 되어 기쁩니다. 데이터 이동을 제거하고 운영 부담을 줄임으로써 Zerobus는 낮은 지연 시간으로 높은 처리량의 직접 쓰기를 제공하여 대규모에서 거의 실시간에 가까운 성능을 제공합니다.

이전에는 일부 조직에서 Kafka와 같은 메시지 버스를 Lakehouse로의 전송 계층으로 사용했습니다. Kafka는 데이터 생산자가 데이터를 보내는 데 있어 내구성이 있고 지연 시간이 짧은 방법을 제공하며, 여러 대상에 쓸 때 인기 있는 선택입니다. 그러나 이는 추가적인 복잡성과 비용을 발생시키고, 또 다른 데이터 복사본을 관리해야 하는 부담을 주므로, Lakehouse가 유일한 대상일 경우에는 비효율적입니다. Zerobus는 이러한 경우에 간단한 솔루션을 제공합니다. 

Zerobus가 메시지 버스 없이 데이터 생산자가 이벤트를 Unity Catalog로 푸시할 수 있도록 하는 직접 쓰기 API임을 보여주는 다이어그램
Zerobus는 메시지 버스 없이 데이터 생산자가 이벤트를 Unity Catalog로 푸시할 수 있도록 하는 직접 쓰기 API로, 높은 처리량, 거의 실시간 지연 시간 및 낮은 TCO를 제공합니다.

Joby Aviation은 이미 Zerobus를 사용하여 텔레메트리 데이터를 Databricks로 직접 푸시하고 있습니다.

Joby는 제조 에이전트를 Zerobus와 함께 사용하여 분당 기가바이트의 텔레메트리 데이터를 Lakehouse로 직접 푸시하여 인사이트 도출 시간을 단축할 수 있었습니다. 이 모든 것이 Databricks Lakeflow와 Data Intelligence Platform을 통해 가능했습니다.” — Dominik Müller, Factory Systems Lead, Joby Aviation, Inc.

Lakeflow Connect의 일부인 Zerobus는 Databricks Platform과 통합되어 있어 즉시 더 광범위한 분석 및 AI 기능을 활용할 수 있습니다. Zerobus는 현재 비공개 미리보기(Private Preview) 상태이며, 조기 액세스를 원하시면 계정 팀에 문의하십시오.

🎥 Zerobus에 대해 더 알아보기: Data + AI Summit의 브레이크아웃 세션, Joby Aviation이 참여한 "Lakeflow Connect: 스트리밍 아키텍처의 이동 제거"

가이드

최신 분석을 위한 컴팩트 가이드

Lakeflow Connect, 수집 기능 및 데이터 소스 확장

Google Analytics, ServiceNow, 그리고 최초의 데이터베이스 커넥터인 SQL Server를 포함한 다양한 릴리스 상태의 완전 관리형 커넥터가 계속 출시되고 있습니다(전체 목록은 아래 참조). 이들은 모두 공개 미리보기(Public Preview) 상태이며 곧 일반 공급될 예정입니다.

또한 더 많은 사용자 지정 옵션을 원하고 기존 수집 솔루션인 Auto Loader를 사용하는 고객을 위해 계속 혁신해 왔습니다. Auto Loader는 클라우드 스토리지에 도착하는 새 데이터 파일을 점진적이고 효율적으로 처리합니다. Auto Loader에 대한 몇 가지 주요 비용 및 성능 개선 사항을 릴리스했으며, 여기에는 3배 더 빠른 디렉터리 목록 및 “CleanSource”를 통한 자동 정리 기능이 포함됩니다. 이 두 기능은 이제 일반 공급되며, 파일 이벤트를 사용한 더 스마트하고 비용 효율적인 파일 검색 기능도 함께 제공됩니다. 또한 Excel 파일 수집 및 SFTP 서버에서의 데이터 수집에 대한 기본 지원을 발표했으며, 이 두 기능은 현재 비공개 미리보기(Private Preview) 상태이며 조기 액세스를 위해 요청 시 이용 가능합니다.

Lakeflow Connect 데이터 소스
Lakeflow Connect는 애플리케이션, 데이터베이스, 클라우드 스토리지, 메시지 버스 등을 위한 간단한 수집 커넥터를 제공합니다.

지원되는 데이터 소스:

  • 애플리케이션: Salesforce, Workday, ServiceNow, Google Analytics, Microsoft Dynamics 365, Oracle NetSuite 
  • 파일 소스: S3, ADLS, GCS, SFTP, SharePoint
  • 데이터베이스: SQL Server, Oracle Database, MySQL, PostgreSQL
  • 데이터 웨어하우스: Snowflake, Amazon Redshift, Google BigQuery

확장된 커넥터 제공 범위 내에서 쿼리 기반 커넥터를 도입하여 데이터 수집을 단순화하고 있습니다. 이 새로운 커넥터를 사용하면 데이터베이스 수정 없이 소스 시스템에서 직접 데이터를 가져올 수 있으며, 변경 데이터 캡처(CDC) 로그를 사용할 수 없는 경우 읽기 복제본과 함께 작동합니다. 이 기능은 현재 비공개 미리보기(Private Preview) 상태이며, 조기 액세스를 원하시면 계정 팀에 문의하십시오.

쿼리 기반 커넥터 다이어그램
Lakeflow Connect 쿼리 기반 커넥터를 사용하면 CDC 대신 쿼리를 사용하여 데이터베이스 및 데이터 웨어하우스 소스에서 데이터를 수집할 수 있습니다. 

🎥 Lakeflow Connect에 대해 더 알아보기: Data + AI Summit의 브레이크아웃 세션, “Lakeflow Connect 시작하기” 

🎥 엔터프라이즈 SaaS 애플리케이션에서 수집하는 방법에 대해 더 알아보기: Data + AI Summit의 브레이크아웃 세션, Databricks 고객인 Porsche Holding이 참여한 "Lakeflow Connect: 엔터프라이즈 앱에서 원활한 데이터 수집"

🎥 데이터베이스 커넥터에 대해 더 알아보기: Data + AI Summit의 브레이크아웃 세션, "Lakeflow Connect: 데이터베이스에서 쉽고 효율적인 수집"

Lakeflow Connect in Jobs, 이제 일반 공급

Lakeflow의 통합 데이터 엔지니어링 경험의 일부로서, 데이터 파이프라인을 구축할 때 수집 커넥터를 더 쉽게 사용할 수 있도록 기능을 계속 개발하고 있습니다. Databricks는 최근 Lakeflow Jobs 내에서 수집 파이프라인을 생성할 수 있는 Lakeflow Connect in Jobs를 발표했습니다. 따라서 ETL 프로세스의 중심이 작업이라면, 이 원활한 통합은 수집 관리를 위한 더 직관적이고 통합된 경험을 제공합니다.

Lakeflow Connect in Jobs, now generally available
Lakeflow Connect in Jobs는 Lakeflow Jobs UI 내에서 새로운 수집 파이프라인을 생성하여 고객의 시간을 절약하는 데 도움이 됩니다. 

고객은 수집부터 변환까지 엔드투엔드 워크로드를 한 곳에서 정의하고 관리할 수 있습니다. 이제 Lakeflow Connect in Jobs를 정식으로 사용할 수 있습니다. 

🎥 Lakeflow Jobs에 대해 더 자세히 알아보기: Data + AI Summit의 발표 세션 "Lakeflow Jobs를 사용한 오케스트레이션"

Lakeflow Connect: 2025년 이후에도 계속 발전할 기능

Databricks는 분석 및 AI 도구를 사용하여 데이터로 혁신을 주도하는 데이터 엔지니어와 조직의 요구를 이해합니다. 이를 위해 Lakeflow Connect는 더욱 맞춤화된 기능과 API를 위한 완전 관리형 커넥터를 통해 강력하고 효율적인 수집 기능을 지속적으로 구축해 왔습니다. 

Lakeflow Connect는 이제 막 시작 단계입니다. 올해 말에 더 많은 발표를 기대해 주시거나 Databricks 계정 팀에 문의하여 미리 액세스할 수 있는 미리 보기 프로그램에 참여하세요.

Lakeflow Connect를 사용해 보려면 설명서를 검토하거나 데모 센터를 확인하세요.  

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요