Direkt zum Hauptinhalt

Ankündigung der öffentlichen Vorschau von Lakebase

Vollständig verwaltetes Postgres für Datenanwendungen und KI-Agenten

Databricks Lakebase: Postgres for data apps and AI agents

Veröffentlicht: 11. Juni 2025

Ankündigungen7 min Lesezeit

Summary

  • Traditionelle Datenbanken sind langsam und teuer in der Bereitstellung, lassen sich nicht gut skalieren, sind von Analyseplattformen isoliert und passen nicht in einen modernen Entwickler-Workflow.
  • Lakebase ist eine vollständig verwaltete Postgres-Datenbank, die in das Lakehouse integriert und für KI entwickelt wurde.
  • Unternehmen nutzen Lakebase, um Daten und Features aus dem Lakehouse bereitzustellen, eigenständige intelligente Anwendungen zu betreiben und operative Daten im Lakehouse zu analysieren.

Auf dem Data and AI Summit haben wir eine neue Kategorie von operativen Datenbanken namens Lakebases für die Entwicklung intelligenter Anwendungen vorgestellt. Heute freuen wir uns, die Public Preview von Databricks Lakebase anzukündigen, der ersten vollständig verwalteten Postgres-Datenbank, die für Daten-Apps und KI entwickelt wurde. 

Kunden kombinieren ihre operativen und analytischen Daten, um intelligente Anwendungen zu entwickeln: Bereitstellung von Features und Modellen, Erstellung von Standalone-Anwendungen oder Analyse operativer Daten in einem Lakehouse. Sie haben jedoch weiterhin mit der Bereitstellung, Skalierung und dem Fehlen einer modernen Entwicklungsumgebung für Daten zu kämpfen, da Datenbanken in den letzten Jahrzehnten kaum Innovationen erfahren haben. 

Lakebases bieten eine Lösung für das KI-Zeitalter. In diesem Blog stellen wir die wichtigsten Funktionen und Vorteile von Databricks Lakebase vor und zeigen, wie Kunden Lakebase bereits heute nutzen.

Einführung in Lakebase

OLTP-Datenbanken haben sich seit den 90er Jahren nicht grundlegend verändert. Selbst bei der Bereitstellung in der Cloud sind diese Legacy-Datenbanken langsam und teuer in der Bereitstellung und Verwaltung. Operative Datenbanken werden in der Regel in einem separaten Stack von der Analyseplattform bereitgestellt, wodurch Silos zwischen Transaktions- und Analysedaten entstehen. Darüber hinaus passen diese Datenbanken auch nicht in einen modernen Entwicklungs-Workflow, der für die KI-Entwicklung erforderlich ist. Die traditionelle Architektur umfasst in der Regel separate Datenbanken für Entwicklungs-, Test-, Staging- und Produktionsumgebungen, die jeweils separat bereitgestellt, gefüllt und verwaltet werden.

Databricks Lakebase ist eine einzigartige Datenbank, die auf Open-Source-Standards basiert, mit einer hochskalierbaren Architektur, die auf der Trennung von Compute und Storage basiert und speziell für die moderne Anwendungsentwicklung entwickelt wurde. Lakebase ist tief in das Lakehouse integriert, um die Kombination von operativen, analytischen und KI-Stacks zu vereinfachen.

Basiert auf Open-Source-Postgres 

In den letzten 7 Jahren hat sich Postgres zur beliebtesten Datenbank in der Entwickler-Community entwickelt und ist die De-facto-Datenbank für moderne Anwendungen. Sie ist Open Source, verfügt über ein lebendiges Ökosystem von Erweiterungen und wird von einer robusten Community von Bibliotheken, Tools und Frameworks unterstützt. Ingenieure wissen bereits, wie man damit arbeitet, und alle grundlegenden Modelle werden auf riesigen Datenmengen trainiert, die für das Postgres-Ökosystem verfügbar sind, was sie für intelligente Anwendungen und Agenten sehr zugänglich macht.

Mit der Unterstützung für beliebte Erweiterungen wie PostGIS und pgvector sowie einem breiten Ökosystem von Treibern und Tools bietet Lakebase eine Vielzahl von Funktionen, die Entwicklungsteams vertraut sein werden. 

Trennung von Compute und Storage

Lakebase nutzt eine Architektur, die Compute und Storage trennt, was eine unabhängige Skalierung ermöglicht und gleichzeitig Transaktionen mit geringer Latenz (<10 ms) und hoher Parallelität (>10k qps) unterstützt.

Lakebase wird vollständig von Databricks verwaltet, was bedeutet, dass keine Infrastruktur bereitgestellt oder gewartet werden muss. Das Ergebnis ist ein Datenbankdienst, der sowohl die Infrastruktur als auch die Entwicklungsprozesse vereinfacht, sodass Teams schneller vorankommen, ohne Kompromisse bei Kontrolle oder Zuverlässigkeit einzugehen.

  • Hohe Verfügbarkeit mit lesbaren sekundären Instanzen: Die hohe Verfügbarkeit in mehreren Zonen schützt vor zonalen Ausfällen, indem sekundäre Compute-Ressourcen über Zonen hinweg bereitgestellt werden. Sekundäre Instanzen können optional lesbar sein, um die Isolation und horizontale Skalierung von Lese-Workloads zu ermöglichen.
  • Datenspeicherung und -wiederherstellung: Alle Transaktionen werden in einem verschlüsselten Speicher gespeichert, der regional dauerhaft ist und somit vor Ausfällen einzelner Zonen geschützt ist. Die Point-in-Time-Wiederherstellung ist über ein Datenschutzfenster verfügbar, das bis zu 35 Tage Wiederherstellungszeit bietet.
  • Branching für eine isolierte Testumgebung oder Point-in-Time-Wiederherstellung: Lakebase verwendet Copy-on-Write-Branching, um einen sofortigen Zero-Copy-Klon der Datenbank zusammen mit dedizierter Rechenleistung für den Betrieb auf diesem Branch zu erstellen. Der Child-Branch wird unabhängig vom Haupt-Parent-Branch verwaltet und kann basierend auf den Daten im Parent zum aktuellen Zeitpunkt oder zu einem früheren Zeitpunkt oder einer Log Sequence Number (LSN) erstellt werden. Dies kann verwendet werden, um eine isolierte Testumgebung mit Produktionsdaten oder für Point-in-Time-Wiederherstellungsvorgänge zu erstellen.

Moderne DevEx, entwickelt für KI

Lakebase basiert auf der Neon-Technologie, die Copy-on-Write-Branching und Autoscaling Serverless Compute bietet. Copy-on-Write-Branching ermöglicht es, sofort eine neue Datenbank mit den gleichen Daten und dem gleichen Schema wie eine bestehende Datenbank zu erstellen, ohne die ursprüngliche Datenbank zu beeinträchtigen. Diese neue Datenbank ist wirtschaftlich, da sie die zugrunde liegenden Daten nicht dupliziert.  Serverless Compute Autoscaling sorgt für Startzeiten im Subsekundenbereich und skaliert je nach Bedarf, wobei die Skalierung auf Null eine kostengünstige Compute-Auslastung ermöglicht.

Die Kombination aus Serverless Autoscaling von Compute und Branching-Funktionen verändert das Entwicklungsparadigma für Anwendungen vollständig. Entwickler können sofort einen Datenbank-Branch erstellen, der zu jedem Git-Branch passt, und müssen sich keine Gedanken über das Hochfahren neuer Datenbankinstanzen, das Sampling von Daten für Entwicklungs- oder Testumgebungen oder das Hydrieren mehrerer Datenbanken machen.

Für Entwickler und Agenten bedeutet dies, dass ephemere Datenbankumgebungen schnell, kostengünstig und mit minimalem Aufwand erstellt, genutzt und außer Betrieb genommen werden können.

Die vollständige Neon-Entwicklungsumgebung in Lakebase und viele weitere aufregende Funktionen werden in Kürze verfügbar sein.

Integriert in das Lakehouse

Lakebase integriert eine transaktionale Datenbankebene in das Lakehouse und übernimmt die operative Reife der Databricks-Plattform, einschließlich Observability, Sicherheit und Zugriffskontrollen. Lakebase synchronisiert sich mit Unity Catalog-verwalteten Tabellen, wodurch es schnell und einfach ist, operative, analytische und KI-Workloads ohne benutzerdefinierte ETL-Pipelines zu kombinieren. Infolgedessen können Sie intelligente Anwendungen erstellen, die im Lakehouse generierte Features oder Vorhersagen nutzen und die Analyseschicht mit aktuellen operativen Daten aktualisieren, alles innerhalb einer einheitlichen Plattform.

  • Vollständig verwaltete Datensynchronisierung: Einfach zu konfigurierende Datensynchronisierungs-Pipelines bieten eine einfache, skalierbare Möglichkeit, Daten zwischen Unity Catalog-verwalteten Tabellen und Lakebase zu verwalten. Zu den Optionen für die Datensynchronisierungsfrequenz gehören einmalige Snapshots, Triggered oder Continuous.
  • Feature- und Modellbereitstellung: Stellen Sie Machine-Learning-Features und -Modelle für Anwendungen mit Lakebase als Online-Feature-Store und dem Lakehouse als Offline-Store für Training und Analyse bereit.
  • Unified Governance: Nutzen Sie die native Integration mit Unity Catalog und der Databricks-Identität, um die Zugriffskontrolle über die gesamte Plattform zu vereinfachen. Nutzen Sie Databricks Identity und OAuth, um eine konsistente Identität für Ihre operativen und analytischen Benutzer zu gewährleisten. Registrieren Sie eine Postgres-Datenbank in Unity Catalog, um eine einheitliche Governance und Zugriffskontrolle für Analysebenutzer zu ermöglichen.
  • Databricks Apps-Integration: Erstellen und stellen Sie Full-Stack-Anwendungen auf Databricks bereit, wobei Lakebase transaktionale Interaktionen ermöglicht. Databricks Apps unterstützen Lakebase als nativen Ressourcentyp.
  • Unified Development Environment: Verwenden Sie den Databricks SQL Editor, um Lakebase direkt abzufragen und Daten zu durchsuchen.
  • Integrierte Überwachung: Bietet wichtige Datenbankmetriken wie Transaktionen pro Sekunde, die Anzahl offener Verbindungen und die Ressourcenauslastung.
  • Netzwerksicherheit: Lakebase ist in die Enterprise-Netzwerksicherheitsfunktionen von Databricks integriert, einschließlich PrivateLink und IP ACLs, um eine konsistente Netzwerksicherheit zu gewährleisten.
  • Multi-Cloud: Lakebase ist über Cloud-Anbieter hinweg ohne Replatforming verfügbar. In der Public Preview ist Lakebase auf Azure und AWS verfügbar, die Unterstützung für die Google Cloud Platform wird in Zukunft hinzugefügt.

Kunden nutzen Lakebase

Mit Hunderten von Kunden im Private Preview-Programm war es spannend, die Vielfalt der Anwendungsfälle zu sehen, darunter:

  • Bereitstellung von Daten und/oder Features aus dem Lakehouse für Anwendungen wie personalisierte Empfehlungen oder Kundensegmentierung,
  • Erstellung von Anwendungen und Agenten für die Auftragsabwicklung, interaktive Workflow-Sign-offs und Chatbots.
  • Analysieren Sie operative Daten im Lakehouse, indem Sie Daten zur historischen Auftragsanalyse oder zum Chatbot-Verlauf für Trainingsdaten mit dem Lakehouse synchronisieren.
Bei Heineken ist es unser Ziel, der am besten vernetzte Brauer zu werden. Dazu brauchten wir eine Möglichkeit, alle unsere Datensätze zu vereinheitlichen, um den Weg von Daten zum Wert zu beschleunigen. Databricks ist seit langem unsere Grundlage für Analysen und liefert Erkenntnisse wie Produktempfehlungen und Verbesserungen der Lieferkette. Unsere analytische Datenplattform entwickelt sich nun zu einer operativen KI-Datenplattform und muss diese Erkenntnisse mit geringer Latenz an Anwendungen liefern. —Jelle Van Etten, Head of Global Data Platform, Heineken
Bei Tibber erfordert die Befähigung der Kunden, die Kontrolle über ihren Energieverbrauch zu übernehmen, eine flexible Dateninfrastruktur. Die Integration von Lakebase in Databricks macht es einfach, analytische und transaktionale Daten bereitzustellen, was uns hilft, unseren Kunden Echtzeit-Einblicke zu liefern. — Niklas Nordansjö, Data Platform Lead, Tibber AS

Ein starkes Partnernetzwerk hilft Lakebase-Kunden, mit ihren bestehenden Technologiepartnern und Systemintegratoren für Datenintegration, Business Intelligence und Governance zusammenzuarbeiten. Wir freuen uns über eine großartige Gruppe von Branchen-Launchpartnern für Lakebase.

Lakebase Launchpartner

 

Bei dbt Labs verändern wir die Art und Weise, wie Data Engineering betrieben wird. Mit der neuen Lakebase von Databricks können unsere gemeinsamen Kunden jetzt transaktionale Daten mit geringer Latenz und analytische Daten in einer Plattform auf Databricks kombinieren. Dies wird uns beiden helfen, KI im Unternehmensmaßstab für unsere Kunden bereitzustellen. Wir können es kaum erwarten, mit Databricks die neue Ära der Analytik einzuleiten. — Ryan Segar, Chief Product Officer, dbt Labs

Zusammenfassung

Lakebase kombiniert die Vertrautheit und Erweiterbarkeit von Postgres, die Skalierbarkeit einer modernen Serverless-Architektur, eine moderne Entwicklungsumgebung mit der einheitlichen Datenerfahrung des Lakehouse und die operative Reife der Databricks Data Intelligence Platform. Durch die Kombination dieser Elemente in einem einzigen, vollständig verwalteten Angebot ermöglicht Lakebase Teams die Entwicklung intelligenter, datengesteuerter Anwendungen ohne die operative Komplexität, die traditionell mit Transaktionssystemen verbunden ist.

Lakebase ist in Public Preview mit Preisinformationen hier verfügbar. Wenn Sie Anwendungen entwickeln möchten, die Analysen und KI beinhalten, ist dies das fehlende Teil Ihres Stacks, das bereit ist, die Entwicklung zu beschleunigen und den Betrieb zu vereinfachen. Wenn Sie ein Workspace- oder Account-Administrator sind, können Sie es direkt aktivieren von Ihrem Databricks Workspace aus. Probieren Sie es noch heute aus!

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Verpassen Sie keinen Beitrag von Databricks

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.