Hier sind die Neuerungen dieser GA-Version:
- OSS-Unterstützung in Apache Spark 4.1 (stateless transformations): RTM für zustandslose Transformationen ist jetzt in Open-Source Apache Spark 4.1 verfügbar. Teams, die auf OSS Spark aufbauen, können den Echtzeitmodus für Projektions-, Filter- und UDF-basierte Pipelines nutzen.
- Unterstützung für den Standard-Zugriffsmodus: RTM funktioniert jetzt sowohl in dedizierten als auch in Standard-Zugriffsmodi in klassischem Compute in Python, was Teams mehr Flexibilität bei der Nutzung von Compute-Ressourcen für Streaming-Workloads bietet.
- Asynchrones State-Checkpointing und Fortschrittsverfolgung: Die Übernahme von Zustands- und Abfragefortschritt-Checkpoints erfolgt nun asynchron, getrennt vom kritischen Pfad der Ereignisverarbeitung. Dies verbessert die Latenz des Echtzeitmodus für zustandslose und zustandsbehaftete Pipelines.
- Initialer Ladevorgang des Zustands in transformWithState: transformWithState ist ein leistungsstarker Spark Structured Streaming-Operator zum Erstellen benutzerdefinierter zustandsbehafteter Logik. Benutzer können nun den Anfangszustand aus dem Checkpoint einer bereits vorhandenen Abfrage oder aus einer Delta-Tabelle laden, wenn sie transformWithState mit dem Echtzeitmodus verwenden. Diese Funktion ist entscheidend für zustandsbehaftetes Feature Engineering und ermöglicht es Ihnen, Online-Abfragen mit historischem Kontext vorab zu befüllen, ohne "bei Null anzufangen".
- Verbesserte Metriken und Beobachtbarkeit für UDFs: Genauere Latenzmetriken für die Ausführung von Python-UDFs, die über den StreamingQueryProgress Listener angezeigt werden.
- Leistungsverbesserungen für Python Stateful UDFs: Optimierungen wurden hinzugefügt, um die Leistung von zustandsbehafteten Operationen in Python transformWithState, insbesondere für RTM-Abfragen, zu verbessern.
Fazit
RTM erweitert Apache Spark Structured Streaming auf eine neue Klasse von Workloads – operative, latenzempfindliche Anwendungen, die eine sofortige Reaktion auf Streaming-Daten erfordern. Indem es die Latenz von unter einer Sekunde in die Spark-APIs bringt, die Ihr Team bereits verwendet, entfällt die Notwendigkeit, eine separate spezialisierte Engine für Ihre zeitkritischsten Pipelines zu betreiben. Egal, ob Sie Betrugserkennungs-Pipelines, Personalisierungs-Engines oder ML-Feature-Berechnungssysteme erstellen, der Echtzeitmodus bietet Ihnen die Latenz, die Ihre Anwendung benötigt, mit der Einfachheit und dem breiten Ökosystem von Spark.
Technische Ressourcen
Sehen Sie sich die folgenden Ressourcen an, um noch heute mit RTM zu beginnen:
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag