Direkt zum Hauptinhalt

Ankündigung der allgemeinen Verfügbarkeit des Echtzeitmodus für Apache Spark Structured Streaming auf Databricks

Beschleunigen Sie Ihre zeitkritischsten Workloads, von der Betrugserkennung bis zur Personalisierung, mit Latenzzeiten unter einer Sekunde.

Spark RTM delivers sub-second speed to unlock operational workloads

Veröffentlicht: 19. März 2026

Ankündigungen2 min Lesezeit

Summary

  • Latenz im Sub-Sekunden-Bereich auf Spark: Der Echtzeitmodus (RTM) in Apache Spark Structured Streaming ist jetzt allgemein verfügbar. Er bietet eine durchgängige Millisekunden-Performance für bekannte Spark-APIs und macht spezialisierte Engines wie Apache Flink überflüssig.
  • Architektonische Innovation: RTM erreicht Verarbeitungsgeschwindigkeiten von unter 100 ms durch drei Innovationen: kontinuierlicher Datenfluss, Pipeline-Scheduling und Streaming-Shuffle.
  • In der Praxis bewährt: Branchenführer wie Coinbase, DraftKings und MakeMyTrip nutzen RTM für geschäftskritische operative Anwendungsfälle und erzielen teilweise eine Latenzreduzierung von über 80 %.

Hier sind die Neuerungen dieser GA-Version:

  • OSS-Unterstützung in Apache Spark 4.1 (stateless transformations): RTM für zustandslose Transformationen ist jetzt in Open-Source Apache Spark 4.1 verfügbar. Teams, die auf OSS Spark aufbauen, können den Echtzeitmodus für Projektions-, Filter- und UDF-basierte Pipelines nutzen.
  • Unterstützung für den Standard-Zugriffsmodus: RTM funktioniert jetzt sowohl in dedizierten als auch in Standard-Zugriffsmodi in klassischem Compute in Python, was Teams mehr Flexibilität bei der Nutzung von Compute-Ressourcen für Streaming-Workloads bietet.
  • Asynchrones State-Checkpointing und Fortschrittsverfolgung: Die Übernahme von Zustands- und Abfragefortschritt-Checkpoints erfolgt nun asynchron, getrennt vom kritischen Pfad der Ereignisverarbeitung. Dies verbessert die Latenz des Echtzeitmodus für zustandslose und zustandsbehaftete Pipelines.
  • Initialer Ladevorgang des Zustands in transformWithState: transformWithState ist ein leistungsstarker Spark Structured Streaming-Operator zum Erstellen benutzerdefinierter zustandsbehafteter Logik. Benutzer können nun den Anfangszustand aus dem Checkpoint einer bereits vorhandenen Abfrage oder aus einer Delta-Tabelle laden, wenn sie transformWithState mit dem Echtzeitmodus verwenden. Diese Funktion ist entscheidend für zustandsbehaftetes Feature Engineering und ermöglicht es Ihnen, Online-Abfragen mit historischem Kontext vorab zu befüllen, ohne "bei Null anzufangen".
  • Verbesserte Metriken und Beobachtbarkeit für UDFs: Genauere Latenzmetriken für die Ausführung von Python-UDFs, die über den StreamingQueryProgress Listener angezeigt werden.
  • Leistungsverbesserungen für Python Stateful UDFs: Optimierungen wurden hinzugefügt, um die Leistung von zustandsbehafteten Operationen in Python transformWithState, insbesondere für RTM-Abfragen, zu verbessern.

Fazit

RTM erweitert Apache Spark Structured Streaming auf eine neue Klasse von Workloads – operative, latenzempfindliche Anwendungen, die eine sofortige Reaktion auf Streaming-Daten erfordern. Indem es die Latenz von unter einer Sekunde in die Spark-APIs bringt, die Ihr Team bereits verwendet, entfällt die Notwendigkeit, eine separate spezialisierte Engine für Ihre zeitkritischsten Pipelines zu betreiben. Egal, ob Sie Betrugserkennungs-Pipelines, Personalisierungs-Engines oder ML-Feature-Berechnungssysteme erstellen, der Echtzeitmodus bietet Ihnen die Latenz, die Ihre Anwendung benötigt, mit der Einfachheit und dem breiten Ökosystem von Spark.

5-FACHER LEADER

Gartner®: Databricks als Leader für Cloud-Datenbanken

Technische Ressourcen

Sehen Sie sich die folgenden Ressourcen an, um noch heute mit RTM zu beginnen:

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Verpassen Sie keinen Beitrag von Databricks

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.