OLTP 데이터베이스를 다른 엔진에 개방
작성자: Pranav Aurora, Cheng Chen , Hristo Stoyanov
운영 데이터베이스에서 데이터를 이동하는 것은 전통적으로 각 소스에서 각 대상까지 파이프라인을 설정하고 모니터링하는 것을 의미했습니다. 대부분의 팀에게 이는 취약하고, 거버넌스가 없으며, O(n)의 인적 노력이 필요한 작업입니다.
오늘, 저희는 이 접근 방식을 바꾸고 있습니다. 현재 공개 미리 보기로 제공되는 Lakebase는 Unity Catalog 관리 테이블에 저장되고 거버넌스되는 변경 데이터 피드(CDF)를 특징으로 합니다. 피드를 한 번만 활성화하면 모든 엔진, 모델 및 에이전트가 직접 읽을 수 있습니다.

Lakeflow Connect는 Lakehouse로의 데이터 수집을 매우 간편하게 만들었지만, OLTP 데이터베이스에서 데이터를 가져오는 것은 여전히 수동적이고 마찰이 많은 프로세스입니다. 변경 데이터 캡처(CDC)를 추출하면 팀은 데이터베이스 커넥터를 구성하고, 복제 상태를 감시하고, 성능 영향을 완화하고, 분리된 도구를 통해 오류를 추적해야 합니다. 이 모델은 빠른 데이터 분기에 의존하는 에이전트 우선 개발에서 무너집니다. 모든 새 분기에서 모든 대상으로 복잡하고 거버넌스가 없는 추출 파이프라인을 유지하는 것은 지속 가능하지 않습니다.
Lakehouse는 데이터를 개방형 형식(Apache Iceberg™, Delta Lake)으로 한 번 저장하여 분석을 위한 추출 파이프라인을 제거했습니다. 다운스트림 복제를 위한 표준으로 변경 데이터 피드(CDF)를 설정하여 ETL, 스트리밍 워크플로 및 감사 로그를 지원했습니다.

이제 Lakebase에서 이 CDF를 네이티브로 설정할 수 있습니다. 활성화하는 데 1분도 채 걸리지 않으며 프로젝트 내의 모든 테이블에 적용됩니다. 이 단일 피드에서 SDP를 사용하여 스트리밍 파이프라인을 구축하거나, DBSQL을 사용하여 구체화된 뷰를 생성하거나, 에이전트 브릭을 사용하여 임베딩을 계산하고 저장할 수 있습니다. 모든 다운스트림 소비자는 기본 운영 워크로드와 완전히 격리된 정확히 동일한 피드를 구독합니다.
Lakebase를 사용하면 운영 데이터가 더 이상 Lakehouse와 분리되지 않습니다. Lakebase는 이미 동기화된 테이블을 제공하여 골드 데이터셋을 애플리케이션에 직접 제공하는 패턴을 설정했습니다. Lakebase CDF는 아키텍처를 완성합니다. 운영 데이터베이스는 이제 기본 브론즈 계층이 되 어 데이터를 Lakehouse에 랜딩하기 위한 별도의 파이프라인이나 추출 작업이 필요 없습니다. 대신 Unity Catalog를 통해 데이터 수명 주기 전반에 걸쳐 완전한 거버넌스와 계보를 얻을 수 있습니다.
이것은 시작에 불과합니다. 저희는 여러분이 Lakehouse에서 사랑하는 개방성을 Lakebase로 직접 가져오고 있습니다. Data and AI Summit를 기대해 주시고, 이 아키텍처에 대한 저희 주제 세션에 참여해 주세요.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.