Direkt zum Hauptinhalt

Ankündigung der öffentlichen Vorschau von Lakebase

Vollständig verwaltetes Postgres für Daten-Apps und KI-Agenten

Databricks Lakebase: Postgres for data apps and AI agents

Veröffentlicht: 11. Juni 2025

Ankündigungen7 min Lesezeit

Summary

  • Herkömmliche Datenbanken sind langsam und teuer in der Bereitstellung, skalieren schlecht, sind von Analyseplattformen isoliert und passen nicht in einen modernen Entwickler-Workflow.
  • Lakebase ist eine vollständig verwaltete Postgres-Datenbank, die in das Lakehouse integriert und für KI entwickelt wurde.
  • Unternehmen nutzen Lakebase, um Daten und Features aus dem Lakehouse bereitzustellen, eigenständige intelligente Anwendungen zu betreiben und operative Daten im Lakehouse zu analysieren.

Auf dem Data and AI Summit haben wir eine neue Kategorie von operativen Datenbanken namens Lakebases zur Erstellung intelligenter Anwendungen vorgestellt. Heute freuen wir uns, die Public Preview von Databricks Lakebase anzukündigen, der ersten vollständig verwalteten Postgres-Datenbank, die für Daten-Apps und KI entwickelt wurde. 

Kunden kombinieren ihre operativen und analytischen Daten, um intelligente Anwendungen zu erstellen: Bereitstellung von Features und Modellen, Erstellung eigenständiger Anwendungen oder Analyse operativer Daten in einem Lakehouse. Sie haben jedoch weiterhin Probleme mit der Bereitstellung, Skalierung und dem Mangel an modernen Entwicklererfahrungen für Daten, da Datenbanken in den letzten Jahrzehnten kaum Innovationen erfahren haben. 

Lakebases bieten eine Lösung für das KI-Zeitalter. In diesem Blog stellen wir die wichtigsten Funktionen und Vorteile von Databricks Lakebase vor und erläutern, wie Kunden Lakebase bereits heute nutzen.

Lakebase vorstellen

OLTP-Datenbanken haben sich seit den 90er Jahren nicht grundlegend verändert. Selbst wenn sie in der Cloud bereitgestellt werden, sind diese Legacy-Datenbanken langsam und teuer in der Bereitstellung und Verwaltung. Operative Datenbanken werden typischerweise in einem separaten Stack von der Analyseplattform bereitgestellt, was zu Silos zwischen transaktionalen und analytischen Daten führt. Darüber hinaus passen diese Datenbanken nicht in einen modernen Entwicklungs-Workflow, der für die KI-Entwicklung benötigt wird. Die traditionelle Architektur umfasst typischerweise separate Datenbanken für Entwicklungs-, Test-, Staging- und Produktionsumgebungen – jede wird separat bereitgestellt, gefüllt und gewartet.

Databricks Lakebase ist eine Datenbank, die auf offenen Standards basiert, mit einer hoch skalierbaren Architektur, die auf der Trennung von Compute und Storage basiert, und speziell für die moderne Anwendungsentwicklung entwickelt wurde. Lakebase ist tief in das Lakehouse integriert, um die Kombination von operativen, analytischen und KI-Stacks zu erleichtern.

Auf Open-Source-Postgres basierend 

In den letzten 7 Jahren hat sich Postgres zur beliebtesten Datenbank in der Entwickler-Community entwickelt und ist die De-facto-Datenbankwahl für moderne Anwendungen. Sie ist Open Source, verfügt über ein lebendiges Ökosystem von Erweiterungen und wird von einer robusten Community von Bibliotheken, Tools und Frameworks unterstützt. Ingenieure wissen bereits, wie sie damit arbeiten, und alle grundlegenden Modelle werden auf riesigen Datenmengen trainiert, die für das Postgres-Ökosystem verfügbar sind, was sie für intelligente Anwendungen und Agenten sehr zugänglich macht.

Mit Unterstützung für beliebte Erweiterungen wie PostGIS und pgvector sowie einem breiten Ökosystem von Treibern und Tools bietet Lakebase eine reichhaltige Palette von Funktionen, die Entwicklungsteams vertraut sein werden. 

Trennung von Compute und Storage

Lakebase nutzt eine Architektur, die Compute und Storage trennt, was eine unabhängige Skalierung bei gleichzeitiger Unterstützung von Transaktionen mit geringer Latenz (<10ms) und hoher Nebenläufigkeit (>10k qps) ermöglicht.

Lakebase wird vollständig von Databricks verwaltet, was bedeutet, dass keine Infrastruktur bereitgestellt oder gewartet werden muss. Das Ergebnis ist ein Datenbankdienst, der Reibungsverluste sowohl bei der Infrastruktur als auch bei den Entwicklungsprozessen beseitigt, sodass Teams schneller arbeiten können, ohne Kompromisse bei Kontrolle oder Zuverlässigkeit einzugehen.

  • Hohe Verfügbarkeit mit lesbaren Replikaten: Multi-Zonen-Hochverfügbarkeit schützt vor Zonenfehlern durch die Bereitstellung von sekundären Compute-Ressourcen über Zonen hinweg. Replikate können optional lesbar sein, um Isolation und horizontale Skalierung von Lese-Workloads zu ermöglichen.
  • Datenspeicherung und Wiederherstellung: Alle Transaktionen werden in verschlüsseltem Speicher gespeichert, der regional langlebig und somit vor Ausfällen einzelner Zonen geschützt ist. Die Wiederherstellung zu einem bestimmten Zeitpunkt ist über ein Datensicherungswenster verfügbar, das eine Wiederherstellungszeit von bis zu 35 Tagen bietet.
  • Branching für eine isolierte Testumgebung oder Wiederherstellung zu einem bestimmten Zeitpunkt: Lakebase verwendet Copy-on-Write-Branching, um einen sofortigen Zero-Copy-Klon der Datenbank zu erstellen, zusammen mit dediziertem Compute, um auf diesem Branch zu arbeiten. Der Child-Branch wird unabhängig vom Haupt-Parent-Branch verwaltet und kann basierend auf den Daten im Parent zum aktuellen Zeitpunkt, zu einem früheren Zeitpunkt oder einer früheren Log Sequence Number (LSN) erstellt werden. Dies kann zur Erstellung einer isolierten Testumgebung mit Produktionsdaten oder für Wiederherstellungsoperationen zu einem bestimmten Zeitpunkt verwendet werden.

Modernes DevEx, für KI entwickelt

Lakebase basiert auf der Neon-Technologie, die Copy-on-Write-Branching und autoskalierbares Serverless Compute bietet. Copy-on-Write-Branching ermöglicht die sofortige Erstellung einer neuen Datenbank mit denselben Daten und demselben Schema wie eine vorhandene Datenbank, ohne die Originaldaten zu beeinträchtigen. Diese neue Datenbank ist wirtschaftlich vorteilhaft, da sie die zugrunde liegenden Daten nicht dupliziert.  Serverless Compute Autoscaling bietet Startzeiten von unter einer Sekunde und skaliert bedarfsgerecht, wobei das Skalieren auf Null eine kostengünstige Compute-Nutzung ermöglicht.

Zusammen verändern das Serverless Autoscaling von Compute und die Branching-Funktionen das Entwicklungsparadigma für Anwendungen grundlegend. Entwickler können sofort einen Datenbank-Branch erstellen, der jedem Git-Branch entspricht, und müssen sich keine Gedanken über das Einrichten neuer Datenbankinstanzen, das Stichprobenziehen von Daten für Entwicklungs- oder Testumgebungen oder das Hydrieren mehrerer Datenbanken machen.

Für Entwickler und Agenten bedeutet dies, dass ephemere Datenbankumgebungen schnell, kostengünstig und mit praktisch keinem Aufwand erstellt, genutzt und stillgelegt werden können.

Das vollständige Neon-Entwicklererlebnis in Lakebase und viele weitere spannende Funktionen werden bald verfügbar sein.

In das Lakehouse integriert

Lakebase integriert eine transaktionale Datenbankschicht mit dem Lakehouse und übernimmt die operative Reife der Databricks Platform, einschließlich Beobachtbarkeit, Sicherheit und Zugriffskontrollen. Lakebase synchronisiert sich mit Unity Catalog-verwalteten Tabellen, wodurch es schnell und einfach ist, operative, analytische und KI-Workloads ohne benutzerdefinierte ETL-Pipelines zu kombinieren. Infolgedessen können Sie intelligente Anwendungen erstellen, die im Lakehouse generierte Features oder Vorhersagen nutzen und die analytische Schicht mit aktuellen operativen Daten aktualisieren, alles innerhalb einer einheitlichen Plattform.

  • Vollständig verwaltete Datensynchronisierung: Einfach zu konfigurierende Datensynchronisierungspipelines bieten eine einfache, skalierbare Möglichkeit, Daten zwischen Unity Catalog-verwalteten Tabellen und Lakebase zu verwalten. Die Optionen für die Häufigkeit der Datensynchronisierung umfassen einmalige Snapshots, Triggered oder Continuous.
  • Feature- und Modell-Serving: Bereitstellung von Machine-Learning-Features und -Modellen für Anwendungen mit Lakebase als Online-Feature-Store und dem Lakehouse als Offline-Store für Training und Analyse.
  • Einheitliche Governance: Nutzen Sie die native Integration mit Unity Catalog und Databricks Identity, um die Zugriffskontrolle auf der gesamten Plattform zu vereinfachen. Nutzen Sie Databricks Identity und OAuth, um eine konsistente Identität über Ihre operativen und analytischen Benutzer hinweg aufrechtzuerhalten. Registrieren Sie eine Postgres-Datenbank in Unity Catalog, um eine einheitliche Governance und Zugriffskontrolle für Analysebenutzer bereitzustellen.
  • Integration mit Databricks Apps: Erstellen und stellen Sie Full-Stack-Anwendungen auf Databricks bereit, wobei Lakebase transaktionale Interaktionen ermöglicht. Databricks Apps unterstützen Lakebase als nativen Ressourcentyp.
  • Einheitliche Entwicklungsumgebung: Verwenden Sie den Databricks SQL Editor, um direkt auf Lakebase zuzugreifen und Daten zu durchsuchen.
  • Integrierte Überwachung: Bietet wichtige Datenbankmetriken wie Transaktionen pro Sekunde, Anzahl der offenen Verbindungen und Ressourcenauslastung.
  • Netzwerksicherheit: Lakebase ist in die unternehmensweiten Netzwerksicherheitsfunktionen von Databricks integriert, einschließlich PrivateLink und IP ACLs, um eine konsistente Netzwerksicherheit zu gewährleisten.
  • Multi-Cloud: Lakebase ist auf verschiedenen Cloud-Anbietern verfügbar, ohne dass eine Neuplattformierung erforderlich ist. In der Public Preview ist Lakebase auf Azure und AWS verfügbar, die Unterstützung für die Google Cloud Platform wird später hinzugefügt.

Kunden nutzen Lakebase

Mit Hunderten von Kunden im Private Preview-Programm war es spannend, die Vielfalt der Anwendungsfälle zu sehen, darunter:

  • Bereitstellung von Daten und/oder Features aus dem Lakehouse für Anwendungen wie personalisierte Empfehlungen oder Kundensegmentierung,
  • Erstellung von Anwendungen und Agenten für Auftragsabwicklung, interaktive Workflow-Genehmigung und Chatbots.
  • Analyse operativer Daten im Lakehouse durch Synchronisierung von Daten mit dem Lakehouse für historische Auftragsanalysen oder Chatbot-Verlauf für Trainingsdaten.
Bei Heineken ist es unser Ziel, der am besten vernetzte Brauer zu werden. Dazu benötigten wir eine Möglichkeit, all unsere Datensätze zu vereinheitlichen, um den Weg von Daten zu Wert zu beschleunigen. Databricks ist seit langem unsere Grundlage für Analysen und liefert Erkenntnisse wie Produktempfehlungen und Verbesserungen der Lieferkette. Unsere analytische Datenplattform entwickelt sich nun zu einer operativen KI-Datenplattform und muss diese Erkenntnisse mit geringer Latenz an Anwendungen liefern. — Jelle Van Etten, Head of Global Data Platform, Heineken
Bei Tibber erfordert die Ermächtigung der Kunden, die Kontrolle über ihren Energieverbrauch zu übernehmen, eine flexible Dateninfrastruktur. Die Integration von Lakebase mit Databricks erleichtert die Bereitstellung von analytischen und transaktionalen Daten und hilft uns, unseren Kunden Echtzeit-Einblicke zu liefern. — Niklas Nordansjö, Data Platform Lead, Tibber AS

Ein starkes Partnernetzwerk hilft Lakebase-Kunden, mit ihren bestehenden Technologiepartnern und Systemintegratoren für Datenintegration, Business Intelligence und Governance zusammenzuarbeiten. Wir freuen uns über eine beeindruckende Gruppe von Branchen-Launchpartnern für Lakebase.

Lakebase launch partners

 

Bei dbt Labs verändern wir die Art und Weise, wie Data Engineering betrieben wird. Mit dem neuen Lakebase von Databricks können unsere gemeinsamen Kunden nun latenzarme, transaktionale Daten und analytische Daten auf einer einzigen Plattform auf Databricks kombinieren. Dies wird uns beiden helfen, unternehmensweite KI für unsere Kunden bereitzustellen. Wir können es kaum erwarten, mit Databricks das neue Zeitalter der Analytik einzuläuten. — Ryan Segar, Chief Product Officer, dbt Labs

Zusammenfassung

Lakebase kombiniert die Vertrautheit und Erweiterbarkeit von Postgres, die Skalierbarkeit einer modernen serverlosen Architektur, eine moderne Entwicklererfahrung mit der einheitlichen Datenerfahrung des Lakehouse und der operativen Reife der Databricks Data Intelligence Platform. Durch die Kombination dieser Elemente zu einem einzigen, vollständig verwalteten Angebot ermöglicht Lakebase Teams den Aufbau intelligenter, datengesteuerter Anwendungen, ohne die operative Komplexität, die traditionell mit transaktionalen Systemen verbunden ist.

Lakebase ist in der öffentlichen Vorschau verfügbar, die Preisgestaltung finden Sie hier. Wenn Sie Anwendungen erstellen möchten, die Analysen und KI integrieren, ist es das fehlende Stück Ihres Stacks, das bereit ist, die Entwicklung zu beschleunigen und den Betrieb zu vereinfachen. Wenn Sie ein Workspace- oder Account-Administrator sind, können Sie es direkt über Ihren Databricks Workspace aktivieren. Probieren Sie es noch heute aus!

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Verpassen Sie keinen Beitrag von Databricks

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.