주요 컨텐츠로 이동

Lakebase란 무엇인가요?

Lakebase

Summary

  • 운영 데이터베이스는 오늘날의 AI 주도 애플리케이션을 위해 설계되지 않았습니다. 그들은 분석 및 AI 스택 외부에 위치하며, 수동 통합이 필요하고, 현대 개발 워크플로우에 필요한 유연성이 부족합니다.
  • Lakebase는 OLTP 데이터베이스에 대한 새로운 아키텍처를 도입하며, 이에는 독립적인 스케일링과 분기를 위한 컴퓨트와 스토리지의 분리가 포함됩니다.
  • Lakehouse와 깊게 통합된 Lakebase는 운영 데이터 워크플로우를 단순화합니다. 이것은 불안정한 ETL 파이프라인과 복잡한 인프라를 제거함으로써, 팀들이 더 빠르게 움직이고 통합 데이터 플랫폼에서 지능형 애플리케이션을 제공할 수 있게 합니다.

이 블로그에서는 OLTP 데이터베이스를 위한 새로운 아키텍처인 레이크베이스를 제안합니다. 레이크베이스는 다음과 같이 정의됩니다:

  • 개방성: Lakebases는 오픈 소스 표준, 예를 들어 Postgres를 기반으로 구축되었습니다.
  • 저장소와 컴퓨팅의 분리: 레이크베이스는 데이터를 현대적인 데이터 레이크(객체 저장소)에 열린 형식으로 저장하여, 컴퓨팅과 저장소를 별도로 확장할 수 있게 하며, 이로 인해 TCO가 감소하고 락인이 제거됩니다.
  • 서버리스: 레이크베이스는 가볍고, 즉시 탄력적으로 확장 및 축소가 가능하며, 이는 0까지 가능합니다. 0에서의 레이크베이스의 비용은 저렴한 데이터 레이크에 데이터를 저장하는 비용에 불과합니다.
  • 현대 개발 워크플로우: 데이터베이스를 분기하는 것은 코드 저장소를 분기하는 것처럼 쉽고, 거의 즉시 이루어져야 합니다.
  • AI 에이전트를 위해 구축: Lakebases는 기계 속도로 작동하는 대량의 AI 에이전트를 지원하도록 설계되었으며, 그들의 분기 및 체크포인트 기능은 AI 에이전트가 실험하고 되감기를 할 수 있게 합니다.
  • 레이크하우스 통합: 레이크베이스는 복잡한 ETL 파이프라인 없이 운영, 분석, AI 시스템을 쉽게 결합할 수 있어야 합니다.

개방성.

대부분의 기술들은 어느 정도의 락인을 가지고 있지만, 전통적인 OLTP 데이터베이스보다 더 많은 락인을 가진 것은 없습니다. 그 결과, 수십 년 동안 이 분야에서는 거의 혁신이 없었습니다. OLTP 데이터베이스는 일체형이며 비용이 많이 들며, 상당한 벤더 락인이 있습니다.

그 기본적인 구조에서, 레이크베이스는 검증된 오픈 소스 기술에 기반을 두고 있습니다. 이것은 다양한 도구와 개발자 워크플로우와의 호환성을 보장합니다. 독점적인 시스템과 달리, 레이크베이스는 투명성, 이식성, 그리고 커뮤니티 주도형 혁신을 촉진합니다. 이들은 조직들에게 데이터 아키텍처가 단일 공급업체나 플랫폼에 종속되지 않을 것이라는 확신을 줍니다.

Postgres는 데이터베이스의 선도적인 오픈 소스 표준입니다. DB-Engines에서 가장 빠르게 성장하는 OLTP 데이터베이스이며 StackOverflow 개발자 설문조사에서 가장 인기 있는 데이터베이스로 선두를 차지하고 있습니다 광범위한 마진으로 가장 인기 있는 데이터베이스로서, 성숙한 엔진과 풍부한 확장 생태계를 가지고 있습니다.

스토리지와 컴퓨트의 분리

레이크하우스의 가장 기본적인 기술적 기둥 중 하나는 저장소와 계산의 분리입니다. 컴퓨팅 리소스와 스토리지 리소스의 독립적인 확장을 가능하게 합니다. 레이크베이스는 동일한 아키텍처를 공유합니다. 이것은 더 어려운 구축 과제입니다. 왜냐하면 저렴한 데이터 레이크는 처음에 OLTP 데이터베이스가 실행하는 엄격한 작업 부하를 위해 설계되지 않았기 때문입니다. 예를 들어, 단일 자릿수 밀리초의 지연 시간과 초당 수백만 건의 트랜잭션 처리량. 

몇몇 하이퍼스케일러 Postgres 제품과 같은 다양한 독점 데이터베이스에 의해 스토리지와 컴퓨트의 분리에 대한 초기 시도가 있었음을 알아두세요. 이것들은 본질적으로 더 비싼 비용을 수반하며 오픈 스토리지를 노출시키지 않는 독점적인, 폐쇄적인 저장 시스템에 기반을 두고 있습니다.

Lakebases는 저렴한 데이터 레이크와 진정으로 개방된 형식을 활용하려는 이전의 시도를 바탕으로 발전하였습니다. 데이터는 개방형 형식(예: .)에서 객체 저장소에 지속적으로 저장됩니다. Postgres 페이지), 그리고 컴퓨트 인스턴스는 데이터 레이크에서 직접 읽지만 성능을 향상시키기 위해 소프트 상태를 가진 중간 계층을 활용합니다.

서버리스 경험

전통적인 데이터베이스는 많은 관리를 필요로 하는 무거운 인프라입니다. 일단 프로비저닝되면, 그들은 일반적으로 수년 동안 실행됩니다. 과다하게 프로비저닝하면 필요한 것보다 더 많은 비용을 지출하게 됩니다. 만약 과소 프로비저닝된다면, 데이터베이스는 애플리케이션의 요구 사항에 맞게 확장할 수 있는 용량이 없을 것이며, 확장을 위해 다운타임을 겪을 수 있습니다.

레이크베이스는 경량이며 서버리스입니다. 필요할 때 즉시 시작되고, 더 이상 필요하지 않을 때는 0까지 축소됩니다. 부하가 변경됨에 따라 자동으로 스케일링됩니다. 이 모든 기능은 저장소와 컴퓨트 아키텍처의 분리로 가능해집니다.

레이크하우스 통합

전통적인 아키텍처에서는 운영 데이터베이스와 분석 시스템이 완전히 격리되어 있습니다. 그들 사이에서 데이터를 이동시키는 것은 사용자 정의 ETL 파이프라인, 수동 스키마 관리, 별도의 접근 제어 세트가 필요합니다. 이런 단편화는 개발을 느리게 하고, 지연시간을 초래하며, 데이터와 플랫폼 팀 모두에게 운영 오버헤드를 만들어냅니다. 

레이크베이스는 레이크하우스에 깊게 통합되어 운영 및 분석 계층 간에 거의 실시간 동기화를 가능하게 함으로써 이 문제를 해결합니다. 결과적으로, 데이터는 애플리케이션에서 빠르게 사용 가능하게 되며, 운영 변경 사항은 복잡한 워크플로우, 중복된 인프라, 데이터 이동으로 인한 이그레스 비용 없이 레이크하우스로 다시 흘러들어갈 수 있습니다. 레이크하우스와의 통합은 일관된 데이터 권한 및 보안을 통해 거버넌스를 단순화합니다.

현대 개발 워크플로우

오늘날, 거의 모든 엔지니어의 코드베이스를 수정하는 첫 단계는 저장소의 새로운 git 브랜치를 생성하는 것입니다. 엔지니어는 브랜치에 변경사항을 만들고 테스트할 수 있으며, 이는 프로덕션 브랜치로부터 완전히 격리되어 있습니다. 이 워크플로우는 데이터베이스에서는 실패합니다. 전통적인 데이터베이스에는 "git checkout -b"와 같은 동등한 것이 없으며, 결과적으로 데이터베이스 변경은 소프트웨어 개발 수명주기에서 가장 오류가 발생하기 쉬운 부분 중 하나입니다.

저장소와 컴퓨팅 아키텍처의 분리로부터 파생된 쓰기 시 복사 기법을 활용하여, 레이크베이스는 스키마와 데이터를 포함한 전체 데이터베이스의 분기를 가능하게 하여, 고품질의 개발과 테스팅을 가능하게 합니다. 이 새로운 브랜치는 즉시 생성되며, 비용이 매우 낮아서 "git checkout -b"가 필요할 때마다 사용할 수 있습니다.

AI 에이전트를 위해 구축됨

Neon의 데이터에 따르면 지난 해 동안 AI 에이전트가 생성한 데이터베이스는 30%에서 80% 이상으로 증가했습니다. 이는 오늘날의 AI 에이전트가 인간 데이터베이스를 4배로 초과하여 생성한다는 것을 의미합니다. 이 트렌드가 계속되면, 가까운 미래에 99%의 데이터베이스는 AI 에이전트에 의해 생성되고 운영될 것이며, 종종 인간이 루프에 참여하게 될 것입니다. 이것은 데이터베이스 디자인의 요구사항에 깊은 영향을 미칠 것이며, 우리는 레이크베이스가 이러한 AI 에이전트를 가장 잘 지원할 위치에 있을 것이라고 생각합니다. 

1년 미만의 시간 동안, 에이전트가 생성한 Neon 데이터베이스의 비율이 30%에서 80%로 증가하였고, 이제는 사람보다 4대 1로 더 많이 생성합니다.

AI 에이전트를 고속의 주니어 개발자 팀(포텐셜리 "시니어 개발자에 의해 멘토링 받는")으로 생각한다면, 레이크베이스의 위에서 언급한 기능들은 AI 에이전트에게 매우 도움이 될 것입니다:

  • 오픈 소스 생태계: 모든 프론티어 LLM은 Postgres와 같은 인기 있는 오픈 소스 생태계에 대한 대량의 공개 정보를 통해 훈련되었으므로, 모든 AI 에이전트는 이미 이러한 시스템의 전문가입니다.
  • 속도: 전통적인 데이터베이스는 사람들이 제공하고 운영할 수 있도록 설계되었습니다. 데이터베이스를 구동하는 데 몇 분이 걸려도 괜찮았습니다. AI 에이전트가 기계 속도로 작동하기 때문에, 초고속 프로비저닝 시간이 중요해집니다.
  • 탄력적인 스케일링과 가격: 스토리지와 컴퓨트의 분리를 가능하게 하는 서버리스 아키텍처는 매우 저렴한 Postgres 인스턴스를 가능하게 합니다. 이제 수천 또는 수백만의 에이전트를 그들만의 데이터베이스와 함께 비용 효율적으로 실행할 수 있으며, 스테이징 환경을 유지/지원하기 위해 특수 엔지니어(예: DBA)가 필요하지 않아 TCO를 줄입니다.
  • 브랜칭과 포킹: AI 에이전트는 비결정적일 수 있으며, "vibes"는 확인 및 검증이 필요합니다. 데이터베이스의 전체 복사본을 즉시 생성할 수 있는 능력, 스키마뿐만 아니라 데이터에 대해서도, 이 모든 AI 에이전트가 고해상도로 실험 및 검증을 위해 자신만의 고립된 데이터베이스 인스턴스에서 작동하게 합니다.

전망

오늘, 우리는 또한 Public Preview 를 통해 우리의 새로운 데이터베이스 제공 서비스인 Lakebase를 발표하게 되었습니다..

그러나 제품 발표보다 더 중요한 것은, 레이크베이스는 전통적인 데이터베이스 아키텍처보다 훨씬 우수한 새로운 OLTP 데이터베이스 아키텍처입니다. 우리는 이것이 미래에 모든 OLTP 데이터베이스 시스템이 구축되어야 하는 방식이라고 믿습니다.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요