주요 컨텐츠로 이동

새로운 소식: Zerobus 및 기타 공지사항이 Lakeflow Connect의 데이터 수집을 개선

Lakeflow Connect는 데이터 소스의 범위를 확장하고, Zerobus는 낮은 지연 시간을 가진 고처리량 직접 쓰기 API를 도입합니다

Lakeflow Connect: New releases expand data sources and improve ingestion capabilities

Published: July 23, 2025

제품1분 이내 소요

Summary

  • Lakeflow Connect는 데이터 수집 소스의 범위를 확장하며, 데이터베이스를 위한 새로운 쿼리 기반 커넥터를 포함합니다.
  • Zerobus는 IoT, 클릭스트림, 텔레메트리 및 기타 유사한 사용 사례에 대한 수집을 단순화하는 직접 쓰기 API입니다.
  • Jobs에서의 Lakeflow Connect는 두 도구 간의 원활하고 직관적인 통합을 제공하여 사용자가 통합된 종단간 경험을 통해 시간을 절약할 수 있도록 돕습니다.

모든 것은 좋은 데이터로부터 시작되므로, 통찰력을 발휘하는 첫 단계는 종종 데이터 수집입니다. 그러나 데이터 수집은 각 데이터 소스의 복잡성을 파악하고, 그 소스들이 변화하는 것을 추적하며, 이 모든 것을 도중에 관리하는 등의 도전을 제시합니다.

Lakeflow Connect 는 포인트 앤 클릭 UI, 간단한 API, 그리고 데이터 인텔리전스 플랫폼과의 깊은 통합을 통해 효율적인 데이터 수집을 쉽게 만듭니다. 지난해에는 2,000명 이상의 고객이 Lakeflow Connect를 사용하여 데이터에서 가치를 찾아냈습니다. 

이 블로그에서는 Lakeflow Connect의 기본 사항을 검토하고 2025 Data + AI Summit에서의 최신 발표를 요약해 보겠습니다.

Lakeflow Connect를 사용하여 모든 데이터를 한 곳에 수집하세요

Lakeflow Connect는 애플리케이션, 데이터베이스, 클라우드 저장소, 메시지 버스 등에 대한 간단한 수집 커넥터를 제공합니다. 내부적으로, 데이터 수집은 증분 업데이트와 최적화된 API 사용으로 효율적입니다. 관리되는 파이프라인이 실행되는 동안, 우리는 스키마 진화, 원활한 제3자 API 업그레이드, 그리고 내장된 알림을 통한 종합적인 관찰 가능성을 책임집니다. 

Data + AI Summit 2025 발표

올해의 Data + AI Summit에서 Databricks는 Lakeflow의 일반 사용 가능성을 발표했습니다. 이것은 데이터 엔지니어링의 통합 접근 방식을 수집, 변환, 조정 전반에 걸쳐 제공합니다. 이에 따라, Lakeflow Connect는 IoT, 클릭스트림, 텔레메트리 및 기타 유사한 사용 사례에 대한 수집을 단순화하는 직접 쓰기 API인 Zerobus를 발표했습니다. 또한, 기업 애플리케이션, 파일 소스, 데이터베이스, 데이터 웨어하우스, 그리고 클라우드 객체 저장소에서의 데이터를 포함하여 지원되는 데이터 소스의 범위를 확대 하였습니다.

Zerobus: 이벤트 데이터를 직접적으로 당신의 레이크하우스로 푸시하는 새로운 방법

우리는 Zerobus라는 새로운 혁신적인 접근법을 소개하는 흥미로운 발표를 했습니다. 이는 이벤트 데이터를 직접 당신의 레이크하우스로 밀어넣어 데이터 소스에 더 가깝게 가져다 줍니다.  데이터 홉을 제거하고 운영 부담을 줄이는 것은 Zerobus가 낮은 지연 시간으로 고처리량 직접 쓰기를 제공하게 하며, 이는 대규모에서 거의 실시간 성능을 제공합니다.

이전에는 일부 조직들이 Kafka와 같은 메시지 버스를 레이크하우스로의 전송 계층으로 사용했습니다. Kafka 는 데이터 생산자가 데이터를 보내는 데 있어서 내구성이 있고, 지연 시간이 짧은 방법을 제공하며, 여러 수신처에 쓰일 때 인기 있는 선택입니다. 그러나 이는 추가적인 복잡성과 비용을 더하며, 또 다른 데이터 복사본을 관리하는 부담을 더하므로, 당신의 유일한 목적지가 Lakehouse일 때는 비효율적입니다. Zerobus는 이러한 경우에 간단한 해결책을 제공합니다. 

Zerobus라는 직접 쓰기 API가 어떻게 데이터 생산자가 Unity 카탈로그로 이벤트를 푸시하는지에 대한 다이어그��램
Zerobus, a direct write API, allows data producers to push events into Unity Catalog without requiring a message bus in the middle, delivering high throughput, near real-time latency and low TCO.

Joby Aviation 은 이미 Zerobus를 사용하여 텔레메트리 데이터를 Databricks에 직접 푸시하고 있습니다.

Joby는 Zerobus와 함께 우리의 제조 대리점을 사용하여 텔레메트리 데이터를 분당 기가바이트 단위로 우리의 레이크하우스에 직접 푸시함으로써 인사이트를 얻는 시간을 단축시킬 수 있습니다 -- 모두 Databricks Lakeflow와 Data Intelligence Platform을 사용하여. — 도미닉 뮬러, 공장 시스템 리드, Joby Aviation, Inc.

Lakeflow Connect의 일부인 Zerobus는 Databricks 플랫폼과도 통합되어 있어, 더 넓은 분석 및 AI 기능을 바로 활용할 수 있습니다. Zerobus는 현재 사적 미리보기 상태에 있습니다; 조기 접근을 위해 계정 팀에 문의하십시오.

🎥 Zerobus에 대해 더 알아보세요: 데이터 + AI 서밋에서의 브레이크아웃 세션, Joby Aviation을 특징으로 하는 "Lakeflow Connect: 스트리밍 아키텍처에서의 홉 제거"

Lakeflow Connect는 데이터 소스와 데이터 수집 능력을 확장합니다

새로운 완전히 관리되는 커넥터들이 계속해서 다양한 릴리즈 상태에서 출시되고 있습니다(아래에 전체 목록 참조), 이에는 Google AnalyticsServiceNow, 그리고 SQL Server - 첫 번째 데이터베이스 커넥터가 포함되어 있으며, 모두 현재 Public Preview에 있으며 곧 일반 사용 가능 상태가 될 예정입니다.

또한, 우리는 더 많은 사용자 정의 옵션을 원하고 기존의 데이터 수집 솔루션인 Auto Loader를 사용하는 고객들을 위한 혁신을 계속하고 있습니다. 클라우드 저장소에 새로운 데이터 파일이 도착하면 점진적이고 효율적으로 처리합니다. 우리는 Auto Loader에 대한 주요 비용 및 성능 개선을 발표했습니다. 이에는 3배 빠른 디렉토리 목록과 "CleanSource"를 이용한 자동 정리가 포함되어 있으며, 이제 일반적으로 사용할 수 있습니다. 또한 파일 이벤트를 사용한 더 스마트하고 비용 효율적인 파일 발견 기능도 제공됩니다. 또한, Excel 파일을 수집하는 네이티브 지원과 SFTP 서버에서 데이터를 수집하는 기능을 발표했습니다. 이 두 기능은 사적 미리보기에서 사용할 수 있으며, 조기 접근을 위해 요청하실 수 있습니다.

Lakeflow Connect 데이터 소스
Lakeflow Connect offers simple ingestion connectors for applications, databases, cloud storage, message buses, and more.

지원되는 데이터 소스:

  • 응용 프로그램: Salesforce, Workday, ServiceNow, Google Analytics, Microsoft Dynamics 365, Oracle NetSuite 
  • 파일 소스: S3, ADLS, GCS, SFTP, SharePoint
  • 데이터베이스: SQL 서버, Oracle 데이터베이스, MySQL, PostgreSQL
  • 데이터 웨어하우스: Snowflake, Amazon Redshift, Google BigQuery

확장된 커넥터 제공 내에서, 우리는 데이터 수집을 단순화하는 쿼리 기반 커넥터를 도입하고 있습니다. 이 새로운 커넥터들은 데이터베이스 수정 없이 소스 시스템에서 직접 데이터를 끌어올 수 있게 해주며, 변경 데이터 캡처(CDC) 로그가 사용할 수 없는 곳에서 읽기 복제본과 함께 작업할 수 있습니다. 이는 현재 사적 미리보기 단계에 있으며, 조기 접근을 위해 계정 팀에 문의하십시오.

쿼리 기반 커넥터의 다이어그램
Lakeflow Connect query-based connectors allow you to ingest from database and data warehouse sources using queries rather than CDC. 

🎥 Lakeflow Connect에 대해 더 알아보세요: Data + AI Summit에서의 분과 세션, “Lakeflow Connect 시작하기” 

🎥 엔터프라이즈 SaaS 애플리케이션에서 수집하는 방법에 대해 더 알아보세요: Databricks 고객인 Porsche Holding이 참여한 Data + AI Summit의 분과 회의, "Lakeflow Connect: 엔터프라이즈 앱에서 원활한 데이터 수집"

🎥 데이터베이스 커넥터에 대해 더 알아보세요: Data + AI Summit에서의 분과 세션, "Lakeflow Connect: 데이터베이스로부터의 쉽고 효율적인 수집"

작업에서의 Lakeflow Connect, 이제 일반적으로 사용 가능

우리는 Lakeflow의 통합 데이터 엔지니어링 경험의 일부로 데이터 파이프라인을 구축하면서 우리의 수집 커넥터를 사용하기 쉽게 만드는 기능을 계속 개발하고 있습니다. Databricks는 최근에 Jobs에서 Lakeflow Connect를 발표했는데, 이를 통해 Lakeflow Jobs 내에서 수집 파이프라인을 생성할 수 있습니다. 따라서 ETL 프로세스의 중심에 작업이 있다면, 이 원활한 통합은 취득을 관리하는 데 더 직관적이고 통합된 경험을 제공합니다. 

이제 일반적으로 사용 가능한 Jobs에서의 Lakeflow Connect 애니메이션
Lakeflow Connect in Jobs helps customers save time by creating new ingestion pipelines from within the Lakeflow Jobs UI. 

고객들은 데이터 수집부터 변환까지의 엔드-투-엔드 작업 부하를 한 곳에서 정의하고 관리할 수 있습니다. Jobs에서의 Lakeflow Connect는 이제 일반적으로 사용 가능합니다. 

🎥 Lakeflow Jobs에 대해 더 알아보고 보십시오: Data + AI Summit에서의 분석 세션 "Lakeflow Jobs와 함께하는 오케스트레이션"

Lakeflow Connect: 2025년 이후에 더 많은 것이 예정되어 있습니다

Databricks는 데이터 엔지니어와 분석 및 AI 도구를 사용하여 데이터로 혁신을 주도하는 조직의 필요성을 이해합니다. 이를 위해, Lakeflow Connect는 완전히 관리되는 커넥터를 통해 강력하고 효율적인 수집 기능을 계속해서 구축하고 있으며, 더 많은 사용자 정의 기능과 API를 제공합니다. 

우리는 Lakeflow Connect를 시작하는 단계에 있습니다. 올해 후반에 더 많은 발표를 기대하시거나, Databricks 계정 팀에 연락하여 미리보기에 참여하실 수 있습니다.

Lakeflow Connect를 시도해 보려면, 문서를 검토하거나 데모 센터를 확인해 보세요.  

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?