작성자: Databricks 직원
운영 데이터베이스 — 또는 온라인 트랜잭션 처리(OLTP) 데이터베이스 — 는 일상적인 비즈니스 운영을 지원하는 실시간 트랜잭션을 처리하도록 설계되었습니다. 운영 데이터베이스는 데이터를 신속하게 저장하고 검색하도록 설계되었으며, 애플리케이션을 계속 실행하는 생성, 읽기, 업데이트 및 삭제의 지속적인 흐름을 처리하고 트랜잭션이 정확하고 안정적으로 완료되도록 보장합니다.
이 가이드에서는 운영 데이터베이스가 작동하는 방식, 분석 시스템과의 차이점, 그리고 최신 클라우드 및 분산 환경에서 높은 처리량과 낮은 지연 시간의 워크로드를 위해 설계하는 데 필요한 사항에 대해 다룹니다.
운영 데이터베이스는 실시간 운영을 위해 트랜잭션 데이터를 효율적이고 안정적으로 저장 및 업데이트하도록 설계되었습니다. 운영 데이터베이스를 정의하는 핵심 특징은 다음과 같습니다.
운영 데이터베이스는 조직의 지속적인 운영을 지원하기 위해 실시간 데이터를 저장하고 관리하도록 설계되었습니다. 반면, 데이터 웨어하우스는 비즈니스 인텔리전스 및 분석을 위한 데이터를 제공하는 구조화된 저장소입니다. 데이터는 쿼리 및 분석에 최적화된 스키마로 정리, 변환 및 통합됩니다.
운영 데이터베이스와 데이터 웨어하우스 모두 비즈니스 데이터를 저장하지만, 작동 방식과 목적이 다릅니다.
| 차원 | 운영 데이터베이스 | 데이터 웨어하우스 |
|---|---|---|
| 주요 목적 | 실시간 트랜잭션 처리 | 과거 분석 및 보고 |
| 데이터 최신성 | 지속적으로 업데이트되는 현재 데이터 | 주기적으로 로드되는 과거 데이터 |
| 쿼리 패턴 | 단순하고 빈번함 (한 번에 한 행) | 복잡하고 드물게 발생함 (수백만 행에 대한 집계) |
| 스키마 설계 | 정규화됨 (중복 최소화) | 비정규화/스타 스키마 (읽기 속도 최적화) |
| 동시성 | 수천 명의 동시 사용자 | 수십 명에서 수백 명의 동시 분석가 |
| 지연 시간 | 밀리초 | 초에서 분 |
| 최적화 | 쓰기 중심, 낮은 지연 시간의 삽입/업데이트 | 읽기 중심, 빠른 집계 및 검색 |
| 예시 시스템 | PostgreSQL, MySQL, MongoDB, DynamoDB | Snowflake, BigQuery, Redshift, Databricks SQL |
대부분의 조직에게는 둘 중 하나를 선택하는 문제가 아니라 두 가지 유형의 데이터 시스템이 모두 필요합니다. 운영 데이터베이스는 미션 크리티컬 트랜잭션을 촉진하고 해당 트랜잭션의 데이터를 캡처하며, 이 데이터는 종종 더 많은 분석 및 인사이트를 위해 데이터 웨어하우스로 공급됩니다. 점점 더 많은 경우에, 레이크하우스 아키텍처가 단일 플랫폼에서 운영 및 분석 워크로드를 통합함에 따라 운영 데이터베이스와 데이터 웨어하우스 간의 경계가 흐려지고 있습니다. 이러한 융합을 통해 조직은 배치 보고에서 거의 실시간 분석으로 전환하여 트랜잭션과 인사이트 간의 시간을 단축할 수 있습니다.
OLTP 및 온라인 분석 처리(OLAP) 모델 모두 대량의 데이터를 관리하고 분석하는 데 필수적이지만, 서로 다른 작업을 위해 설계되었으며 뚜렷한 목적을 수행합니다. OLTP는 실시간 운영을 위해 트랜잭션 데이터를 효율적이고 안정적으로 저장 및 업데이트하는 데 중점을 두는 반면, OLAP는 비즈니스 인텔리전스, 데이터 마이닝 및 분석 보고를 위해 설계되었습니다.
OLTP 시스템은 짧은 트랜잭션을 처리하고 행 수준 작업을 수행하여 일상적인 비즈니스 활동을 효율적으로 처리합니다. 쓰기 중심 워크로드에 최적화되어 있으며, 속도와 데이터 무결성을 유지하면서 많은 수의 작고 동시적인 트랜잭션을 처리하는 데 중점을 둡니다. 일반적으로 데이터 무결성을 유지하고 중복을 줄이기 위해 정규화된 스키마를 사용합니다.
반면에 OLAP 시스템은 복잡한 쿼리를 실행하고 열 수준 스캔을 수행하여 대량의 데이터를 분석하는 데 탁월합니다. 집계 및 분석과 같은 읽기 중심 작업에 최적화되어 있으며, 쿼리 성능을 향상시키기 위해 비정규화된 스키마를 일반적으로 사용합니다.
조직은 포괄적인 비즈니스 인텔리전스를 위해 OLTP 및 OLAP 데이터 처리를 모두 사용하는 경우가 많습니다. OLTP-OLAP 파이프라인은 운영 데이터베이스에서 생성된 트랜잭션 데이터를 추출, 변환, 로드(ETL) 또는 변경 데이터 캡처(CDC) 프로세스를 통해 데이터 웨어하우스 또는 레이크하우스로 이동시키고, 분석가는 의사 결정을 지원하기 위해 이를 쿼리합니다. 운영 데이터 저장소(ODS) — 또 다른 아키텍처 구성 요소 — 는 전체 웨어하우스 로드의 지연 시간 없이 운영 보고를 위해 여러 소스의 거의 실시간 데이터를 통합하기 위해 OLTP 및 OLAP 시스템 사이에 위치할 수 있습니다.
OLTP 시스템은 분석 또는 AI 기반 워크로드보다는 빠르고 안정적인 트랜잭션 처리를 위해 설계되었습니다. 그러나 최신 애플리케이션은 실시간 분석, 유연한 데이터 액세스 및 AI 시스템과의 통합을 요구하여 기존 OLTP 아키텍처의 강점과 최신 시스템의 요구 사항 간의 격차를 만듭니다. 하이브리드 솔루션이 이 격차를 해소하는 데 도움이 될 수 있습니다.
기존 OLTP 데이터베이스는 최신 AI 및 지능형 애플리케이션을 완전히 지원할 기능을 갖추고 있지 않습니다. 종종 분석 및 AI 워크로드와 분리되어 데이터를 사용하기 전에 느린 ETL 파이프라인을 통해 이동해야 합니다. 구조화된 데이터를 위해 설계되었으며, 최신 AI 시스템의 기반이 되는 임베딩, 벡터 검색 또는 비정구조화된 형식에 대한 기본 지원이 없습니다. 엄격한 스키마는 빠르게 발전하는 에이전트 및 AI 애플리케이션에 중요한 빠른 반복을 어렵게 만듭니다. 확장성 측면에서 수직 확장은 빠르게 실질적인 한계에 도달하는 반면, 샤딩을 통한 수평 확장은 운영 복잡성을 더합니다. 기존 OLTP 시스템은 또한 세분화된 액세스 제어, 계보 추적 및 규정 준수 기능과 같이 책임감 있는 AI 배포에 필요한 중요한 데이터 거버넌스 기능이 부족한 경우가 많습니다.
최신 데이터 애플리케이션은 배치 파이프라인 지연 없이 운영 및 분석 워크로드를 통합하여 최신 데이터에 실시간으로 액세스할 수 있는 플랫폼을 요구합니다. 다양한 사용 사례를 지원하기 위해 단일 시스템 내에서 구조화된, 반구조화된, 비정구조화된, 벡터 데이터를 포함한 광범위한 데이터 유형을 지원해야 합니다. 거버넌스, 보안 및 계보는 나중에 추가되는 것이 아니라 내장되어야 합니다. 이러한 애플리케이션은 또한 예측 불가능한 워크로드를 효율적으로 처리하기 위한 탄력적이고 서버리스적인 확장성과 지능적이고 반응적인 시스템을 지원하기 위해 AI/ML 파이프라인, 피처 스토어 및 에이전트 기반 컨텍스트와의 낮은 지연 시간 통합을 요구하며, 지속적으로 진화하는 데이터에서 작동합니다.
Lakebase는 기존 OLTP 시스템의 한계를 해결합니다. Lakebase의 주요 기능은 다음과 같습니다.
운영 데이터는 AI 에이전트, 실시간 의사 결정 및 지능형 애플리케이션을 구동하기 때문에 가치가 있습니다. 기존 운영 데이터베이스는 실시간 데이터를 효율적으로 저장하고 처리할 수 있지만 오늘날의 요구 사항을 충족하도록 설계되지는 않았습니다. Databricks Lakebase는 조직이 AI 기반 애플리케이션을 위해 운영 데이터의 전체 가치를 활용할 수 있도록 지원합니다.
조직 내의 모든 트랜잭션은 AI 모델, 에이전트 결정 및 예측 분석에 활용될 수 있는 데이터를 생성합니다. Databricks Lakebase는 운영 시스템에서 데이터 웨어하우스로 데이터를 이동하는 데 따르는 지연을 제거하여 운영 데이터를 거의 실시간으로 AI에 사용할 수 있도록 합니다. 결과적으로 조직은 실시간 재고에 따라 작동하는 AI 에이전트, 발생 시 트랜잭션을 평가하는 사기 탐지 시스템, 최신 계정 데이터에서 작동하는 코파일럿과 같은 사용 사례를 실현할 수 있습니다.
Lakebase는 데이터, 분석 및 AI를 단일 플랫폼으로 통합하는 Databricks Platform을 기반으로 구축되었습니다.
Databricks Lakebase를 시작하려면 CDC 또는 스트리밍 파이프라인을 통해 기존 OLTP 시스템을 Delta Lake에 연결하여 배치 지향 데이터 이동의 필요성을 없애십시오. 수집되면 운영 데이터는 플랫폼 전체에서 즉시 사용할 수 있게 되어 SQL 분석, BI 대시보드, ML 워크플로 및 AI 에이전트가 최신 상태로 지속적으로 업데이트되는 데이터에서 작동할 수 있습니다. 이 간소화된 접근 방식을 통해 팀은 별도의 시스템의 기존 지연 또는 복잡성 없이 수집에서 인사이트 및 조치까지 신속하게 이동할 수 있습니다.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.