주요 컨텐츠로 이동

운영 데이터베이스: 작동 방식 및 사용 시기

작성자: Databricks 직원

  • 운영 데이터베이스는 속도와 정확성을 위해 구축됩니다. 실시간 처리를 최적화하여 사용자가 애플리케이션과 상호 작용할 때 동시 트랜잭션을 처리하며 대규모 분석 쿼리는 처리하지 않습니다.
  • 운영 데이터베이스는 현대의 요구 사항을 충족하는 데 어려움을 겪습니다. 레거시 아키텍처는 비정형 데이터 및 AI 워크로드를 위해 설계되지 않았으므로, 데이터가 있는 곳과 필요한 곳 사이로 데이터를 이동시키기 위해 느린 ETL 파이프라인을 통해 데이터를 처리해야 합니다.
  • 새로운 유형의 데이터베이스가 등장하고 있습니다. Lakebase는 트랜잭션 데이터베이스의 최상의 요소와 데이터 레이크의 유연성 및 경제성을 결합한 새롭고 개방적인 아키텍처입니다.

운영 데이터베이스 — 또는 온라인 트랜잭션 처리(OLTP) 데이터베이스 — 는 일상적인 비즈니스 운영을 지원하는 실시간 트랜잭션을 처리하도록 설계되었습니다. 운영 데이터베이스는 데이터를 신속하게 저장하고 검색하도록 설계되었으며, 애플리케이션을 계속 실행하는 생성, 읽기, 업데이트 및 삭제의 지속적인 흐름을 처리하고 트랜잭션이 정확하고 안정적으로 완료되도록 보장합니다.

이 가이드에서는 운영 데이터베이스가 작동하는 방식, 분석 시스템과의 차이점, 그리고 최신 클라우드 및 분산 환경에서 높은 처리량과 낮은 지연 시간의 워크로드를 위해 설계하는 데 필요한 사항에 대해 다룹니다.

운영 데이터베이스의 핵심 특징

운영 데이터베이스는 실시간 운영을 위해 트랜잭션 데이터를 효율적이고 안정적으로 저장 및 업데이트하도록 설계되었습니다. 운영 데이터베이스를 정의하는 핵심 특징은 다음과 같습니다.

  • 실시간 처리: 데이터는 일괄 처리되지 않고 즉시 기록되고 사용할 수 있습니다. 트랜잭션은 밀리초 단위로 커밋되어 애플리케이션이 항상 비즈니스의 최신 상태를 반영하도록 합니다.
  • CRUD 작업: 생성, 읽기, 업데이트, 삭제의 네 가지 기본 작업은 트랜잭션 애플리케이션을 지원합니다. 양식 제출부터 결제 완료까지 모든 사용자 상호 작용은 이러한 작업 중 하나 이상을 트리거합니다.
  • 데이터 최신성: 데이터베이스는 현재 상태의 데이터를 저장합니다. 예를 들어 재고 운영에서는 데이터가 지난 분기 데이터가 아닌 현재 재고 수량을 반영합니다. 이는 운영 의사 결정 및 고객 대면 시스템에 매우 중요합니다.
  • 높은 동시성: 동시성 제어 메커니즘은 중첩된 트랜잭션이 공유 데이터를 손상시키지 않도록 보장합니다. 수천 명의 사용자가 충돌이나 오류 없이 동시에 읽고 쓸 수 있습니다.
  • ACID 보장: 데이터베이스는 ACID(원자성, 일관성, 격리성, 지속성) 속성을 강제하여 유효하고 완료된 트랜잭션만 저장하고 데이터 무결성을 유지하도록 합니다. 모든 트랜잭션은 올바르게 완료되거나 전혀 완료되지 않습니다.

운영 데이터베이스 대 데이터 웨어하우스

운영 데이터베이스는 조직의 지속적인 운영을 지원하기 위해 실시간 데이터를 저장하고 관리하도록 설계되었습니다. 반면, 데이터 웨어하우스는 비즈니스 인텔리전스 및 분석을 위한 데이터를 제공하는 구조화된 저장소입니다. 데이터는 쿼리 및 분석에 최적화된 스키마로 정리, 변환 및 통합됩니다.

운영 데이터베이스와 데이터 웨어하우스 모두 비즈니스 데이터를 저장하지만, 작동 방식과 목적이 다릅니다.

차원운영 데이터베이스데이터 웨어하우스
주요 목적실시간 트랜잭션 처리과거 분석 및 보고
데이터 최신성지속적으로 업데이트되는 현재 데이터주기적으로 로드되는 과거 데이터
쿼리 패턴단순하고 빈번함 (한 번에 한 행)복잡하고 드물게 발생함 (수백만 행에 대한 집계)
스키마 설계정규화됨 (중복 최소화)비정규화/스타 스키마 (읽기 속도 최적화)
동시성수천 명의 동시 사용자수십 명에서 수백 명의 동시 분석가
지연 시간밀리초초에서 분
최적화쓰기 중심, 낮은 지연 시간의 삽입/업데이트읽기 중심, 빠른 집계 및 검색
예시 시스템PostgreSQL, MySQL, MongoDB, DynamoDBSnowflake, BigQuery, Redshift, Databricks SQL

대부분의 조직에게는 둘 중 하나를 선택하는 문제가 아니라 두 가지 유형의 데이터 시스템이 모두 필요합니다. 운영 데이터베이스는 미션 크리티컬 트랜잭션을 촉진하고 해당 트랜잭션의 데이터를 캡처하며, 이 데이터는 종종 더 많은 분석 및 인사이트를 위해 데이터 웨어하우스로 공급됩니다. 점점 더 많은 경우에, 레이크하우스 아키텍처가 단일 플랫폼에서 운영 및 분석 워크로드를 통합함에 따라 운영 데이터베이스와 데이터 웨어하우스 간의 경계가 흐려지고 있습니다. 이러한 융합을 통해 조직은 배치 보고에서 거의 실시간 분석으로 전환하여 트랜잭션과 인사이트 간의 시간을 단축할 수 있습니다.

보고서

기업을 위한 에이전틱 AI 플레이북

OLTP 대 OLAP: 처리 모델 이해

OLTP 및 온라인 분석 처리(OLAP) 모델 모두 대량의 데이터를 관리하고 분석하는 데 필수적이지만, 서로 다른 작업을 위해 설계되었으며 뚜렷한 목적을 수행합니다. OLTP는 실시간 운영을 위해 트랜잭션 데이터를 효율적이고 안정적으로 저장 및 업데이트하는 데 중점을 두는 반면, OLAP는 비즈니스 인텔리전스, 데이터 마이닝 및 분석 보고를 위해 설계되었습니다.

OLTP 시스템은 짧은 트랜잭션을 처리하고 행 수준 작업을 수행하여 일상적인 비즈니스 활동을 효율적으로 처리합니다. 쓰기 중심 워크로드에 최적화되어 있으며, 속도와 데이터 무결성을 유지하면서 많은 수의 작고 동시적인 트랜잭션을 처리하는 데 중점을 둡니다. 일반적으로 데이터 무결성을 유지하고 중복을 줄이기 위해 정규화된 스키마를 사용합니다.

반면에 OLAP 시스템은 복잡한 쿼리를 실행하고 열 수준 스캔을 수행하여 대량의 데이터를 분석하는 데 탁월합니다. 집계 및 분석과 같은 읽기 중심 작업에 최적화되어 있으며, 쿼리 성능을 향상시키기 위해 비정규화된 스키마를 일반적으로 사용합니다.

조직은 포괄적인 비즈니스 인텔리전스를 위해 OLTP 및 OLAP 데이터 처리를 모두 사용하는 경우가 많습니다. OLTP-OLAP 파이프라인은 운영 데이터베이스에서 생성된 트랜잭션 데이터를 추출, 변환, 로드(ETL) 또는 변경 데이터 캡처(CDC) 프로세스를 통해 데이터 웨어하우스 또는 레이크하우스로 이동시키고, 분석가는 의사 결정을 지원하기 위해 이를 쿼리합니다. 운영 데이터 저장소(ODS) — 또 다른 아키텍처 구성 요소 — 는 전체 웨어하우스 로드의 지연 시간 없이 운영 보고를 위해 여러 소스의 거의 실시간 데이터를 통합하기 위해 OLTP 및 OLAP 시스템 사이에 위치할 수 있습니다.

기존 OLTP 데이터베이스가 최신 워크로드에 부족한 이유

OLTP 시스템은 분석 또는 AI 기반 워크로드보다는 빠르고 안정적인 트랜잭션 처리를 위해 설계되었습니다. 그러나 최신 애플리케이션은 실시간 분석, 유연한 데이터 액세스 및 AI 시스템과의 통합을 요구하여 기존 OLTP 아키텍처의 강점과 최신 시스템의 요구 사항 간의 격차를 만듭니다. 하이브리드 솔루션이 이 격차를 해소하는 데 도움이 될 수 있습니다.

AI 및 지능형 애플리케이션을 위한 OLTP 데이터베이스의 한계

기존 OLTP 데이터베이스는 최신 AI 및 지능형 애플리케이션을 완전히 지원할 기능을 갖추고 있지 않습니다. 종종 분석 및 AI 워크로드와 분리되어 데이터를 사용하기 전에 느린 ETL 파이프라인을 통해 이동해야 합니다. 구조화된 데이터를 위해 설계되었으며, 최신 AI 시스템의 기반이 되는 임베딩, 벡터 검색 또는 비정구조화된 형식에 대한 기본 지원이 없습니다. 엄격한 스키마는 빠르게 발전하는 에이전트 및 AI 애플리케이션에 중요한 빠른 반복을 어렵게 만듭니다. 확장성 측면에서 수직 확장은 빠르게 실질적인 한계에 도달하는 반면, 샤딩을 통한 수평 확장은 운영 복잡성을 더합니다. 기존 OLTP 시스템은 또한 세분화된 액세스 제어, 계보 추적 및 규정 준수 기능과 같이 책임감 있는 AI 배포에 필요한 중요한 데이터 거버넌스 기능이 부족한 경우가 많습니다.

최신 데이터 애플리케이션 요구 사항

최신 데이터 애플리케이션은 배치 파이프라인 지연 없이 운영 및 분석 워크로드를 통합하여 최신 데이터에 실시간으로 액세스할 수 있는 플랫폼을 요구합니다. 다양한 사용 사례를 지원하기 위해 단일 시스템 내에서 구조화된, 반구조화된, 비정구조화된, 벡터 데이터를 포함한 광범위한 데이터 유형을 지원해야 합니다. 거버넌스, 보안 및 계보는 나중에 추가되는 것이 아니라 내장되어야 합니다. 이러한 애플리케이션은 또한 예측 불가능한 워크로드를 효율적으로 처리하기 위한 탄력적이고 서버리스적인 확장성과 지능적이고 반응적인 시스템을 지원하기 위해 AI/ML 파이프라인, 피처 스토어 및 에이전트 기반 컨텍스트와의 낮은 지연 시간 통합을 요구하며, 지속적으로 진화하는 데이터에서 작동합니다.

Databricks Lakebase가 격차를 해소하는 방법

Lakebase는 기존 OLTP 시스템의 한계를 해결합니다. Lakebase의 주요 기능은 다음과 같습니다.

  • 저장소 및 컴퓨팅 분리: 데이터는 클라우드 객체 저장소에 저렴하게 저장되고, 컴퓨팅은 독립적이고 탄력적으로 실행됩니다. 이를 통해 대규모 확장, 높은 동시성 및 1초 미만으로 제로까지 축소할 수 있습니다.
  • 무제한, 저렴한 비용, 내구성 있는 저장소: 데이터가 레이크에 있으므로, 고정 용량 인프라를 요구하는 기존 데이터베이스 시스템보다 저장소 비용이 훨씬 저렴합니다. 그리고 저장소는 클라우드 객체 저장소의 내구성으로 지원됩니다.
  • 탄력적이고 서버리스적인 Postgres 컴퓨팅: 수요에 따라 즉시 확장되고 유휴 상태일 때 축소되는 완전 관리형 서버리스 Postgres를 제공합니다.
  • 즉각적인 브랜칭, 복제 및 복구: 데이터베이스는 개발자가 코드를 브랜치하는 방식으로 브랜치하고 복제할 수 있습니다.
  • 통합된 트랜잭션 및 분석 워크로드: Lakebase는 Lakehouse와 원활하게 통합되어 OLTP 및 OLAP 간에 동일한 저장소 계층을 공유합니다.
  • 개방형 및 멀티 클라우드 설계: 개방형 형식으로 저장된 데이터는 독점적인 종속성을 피하고 클라우드 간의 진정한 이식성을 가능하게 합니다.

운영 데이터에서 지능형 애플리케이션으로

운영 데이터는 AI 에이전트, 실시간 의사 결정 및 지능형 애플리케이션을 구동하기 때문에 가치가 있습니다. 기존 운영 데이터베이스는 실시간 데이터를 효율적으로 저장하고 처리할 수 있지만 오늘날의 요구 사항을 충족하도록 설계되지는 않았습니다. Databricks Lakebase는 조직이 AI 기반 애플리케이션을 위해 운영 데이터의 전체 가치를 활용할 수 있도록 지원합니다.

AI의 기반으로서의 운영 데이터

조직 내의 모든 트랜잭션은 AI 모델, 에이전트 결정 및 예측 분석에 활용될 수 있는 데이터를 생성합니다. Databricks Lakebase는 운영 시스템에서 데이터 웨어하우스로 데이터를 이동하는 데 따르는 지연을 제거하여 운영 데이터를 거의 실시간으로 AI에 사용할 수 있도록 합니다. 결과적으로 조직은 실시간 재고에 따라 작동하는 AI 에이전트, 발생 시 트랜잭션을 평가하는 사기 탐지 시스템, 최신 계정 데이터에서 작동하는 코파일럿과 같은 사용 사례를 실현할 수 있습니다.

Databricks Platform 기반 구축

Lakebase는 데이터, 분석 및 AI를 단일 플랫폼으로 통합하는 Databricks Platform을 기반으로 구축되었습니다.

  • Delta Lake는 신뢰할 수 있고 유연한 운영 데이터를 위해 ACID 트랜잭션, 타임 트래블 및 스키마 적용 기능을 레이크하우스 규모로 제공하여 안정적인 기반을 제공합니다.
  • Mosaic AI는 운영 데이터를 모델 학습, 미세 조정, 에이전트 및 RAG에 직접 연결하여 실시간 데이터에 대한 원활한 AI 개발을 가능하게 합니다.
  • Unity Catalog는 모든 데이터에 걸쳐 통합된 권한 및 엔드투엔드 계보를 갖춘 단일하고 일관된 거버넌스 계층을 제공합니다.
  • 서버리스 SQL 및 내장 스트리밍은 인프라를 관리할 필요 없이 실시간 쿼리 및 지속적인 수집을 지원합니다.

Databricks Lakebase 시작하기

Databricks Lakebase를 시작하려면 CDC 또는 스트리밍 파이프라인을 통해 기존 OLTP 시스템을 Delta Lake에 연결하여 배치 지향 데이터 이동의 필요성을 없애십시오. 수집되면 운영 데이터는 플랫폼 전체에서 즉시 사용할 수 있게 되어 SQL 분석, BI 대시보드, ML 워크플로 및 AI 에이전트가 최신 상태로 지속적으로 업데이트되는 데이터에서 작동할 수 있습니다. 이 간소화된 접근 방식을 통해 팀은 별도의 시스템의 기존 지연 또는 복잡성 없이 수집에서 인사이트 및 조치까지 신속하게 이동할 수 있습니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.