Auf der diesjährigen Data + AI Summit haben wir die IDE für Data Engineering vorgestellt: eine neue Entwicklungsumgebung, die speziell für die Erstellung von Datenpipelines direkt in der Databricks Workspace entwickelt wurde. Als neue Standard-Entwicklungsumgebung spiegelt die IDE unseren zielgerichteten Ansatz für Data Engineering wider: standardmäßig deklarativ, modular im Aufbau, Git-integriert und KI-gestützt.
Kurz gesagt, die IDE für Data Engineering ist alles, was Sie brauchen, um Datenpipelines zu erstellen und zu testen – alles an einem Ort.
Da diese neue Entwicklungsumgebung in der Public Preview verfügbar ist, möchten wir diesen Blogbeitrag nutzen, um zu erklären, warum deklarative Pipelines von einer dedizierten IDE-Erfahrung profitieren, und die wichtigsten Funktionen hervorzuheben, die die Pipeline-Entwicklung schneller, organisierter und einfacher zu debuggen machen.
Deklarative Pipelines vereinfachen Data Engineering, indem sie es Ihnen ermöglichen, zu deklarieren, was Sie erreichen möchten, anstatt detaillierte Schritt-für-Schritt-Anweisungen zu schreiben, wie Sie es aufbauen. Obwohl deklaratives Programmieren ein äußerst leistungsfähiger Ansatz für den Aufbau von Datenpipelines ist, kann die Arbeit mit mehreren Datensätzen und die Verwaltung des gesamten Entwicklungslebenszyklus ohne dedizierte Tools schwierig werden.
Deshalb haben wir eine vollständige IDE-Erfahrung für deklarative Pipelines direkt in der Databricks Workspace entwickelt. Verfügbar als neuer Editor für Lakeflow Spark Declarative Pipelines, ermöglicht er Ihnen, Datensätze und Qualitätsbeschränkungen in Dateien zu deklarieren, sie in Ordnern zu organisieren und die Verbindungen über einen automatisch generierten Abhängigkeitsgraphen anzuzeigen, der neben Ihrem Code dargestellt wird. Der Editor wertet Ihre Dateien aus, um den effizientesten Ausführungsplan zu ermitteln, und ermöglicht es Ihnen, schnell zu iterieren, indem Sie einzelne Dateien, eine Reihe von geänderten Datensätzen oder die gesamte Pipeline erneut ausführen.
Der Editor zeigt auch Ausführungseinblicke, bietet integrierte Datenvorschau und enthält Debugging-Tools, die Ihnen helfen, Ihren Code zu optimieren. Er integriert sich auch mit Versionskontrolle und geplanter Ausführung mit Lakeflow Jobs. So können Sie alle Aufgaben im Zusammenhang mit Ihrer Pipeline von einer einzigen Oberfläche aus erledigen.
Durch die Konsolidierung all dieser Funktionen in einer einzigen IDE-ähnlichen Oberfläche ermöglicht der Editor die Praktiken und die Produktivität, die Data Engineers von einer modernen IDE erwarten, und bleibt dabei dem deklarativen Paradigma treu.
Das unten eingebettete Video zeigt diese Funktionen in Aktion, weitere Details werden in den folgenden Abschnitten behandelt.
"Der neue Editor bringt alles an einen Ort – Code, Pipeline-Graph, Ergebnisse, Konfiguration und Fehlerbehebung. Kein Jonglieren mehr mit Browser-Tabs oder Verlust des Kontexts. Die Entwicklung fühlt sich fokussierter und effizienter an. Ich kann die Auswirkungen jeder Codeänderung direkt sehen. Ein Klick bringt mich zur genauen Fehlerzeile, was das Debugging beschleunigt. Alles ist verbunden – Code zu Daten; Code zu Tabellen; Tabellen zum Code. Der Wechsel zwischen Pipelines ist einfach, und Funktionen wie automatisch konfigurierte Utility-Ordner reduzieren die Komplexität. Dies fühlt sich an, als ob die Pipeline-Entwicklung funktionieren sollte."— Chris Sharratt, Data Engineer, Rolls-Royce
"Meiner Meinung nach ist der neue Pipelines Editor eine enorme Verbesserung. Ich finde es viel einfacher, komplexe Ordnerstrukturen zu verwalten und dank der Multi-Soft-Tab-Erfahrung zwischen Dateien zu wechseln. Die integrierte DAG-Ansicht hilft mir wirklich, komplexe Pipelines im Griff zu behalten, und die verbesserte Fehlerbehandlung ist ein Gamechanger – sie hilft mir, Probleme schnell zu identifizieren und optimiert meinen Entwicklungs-Workflow."— Matt Adams, Senior Data Platforms Developer, PacificSource Health Plans
Wir haben den Editor so gestaltet, dass auch Benutzer, die neu im deklarativen Paradigma sind, schnell ihre erste Pipeline erstellen können.
Diese Funktionen helfen Benutzern, schnell produktiv zu werden und ihre Arbeit in produktionsreife Pipelines zu überführen.
Der Aufbau von Pipelines ist ein iterativer Prozess. Der Editor optimiert diesen Prozess mit Funktionen, die die Erstellung vereinfachen und das Testen und Verfeinern von Logik beschleunigen:
Diese Funktionen reduzieren den Kontextwechsel und halten Entwickler auf die Erstellung von Pipeline-Logik konzentriert.
Pipeline-Entwicklung ist mehr als nur Code schreiben. Die neue Entwicklungsumgebung bringt alle zugehörigen Aufgaben auf eine einzige Oberfläche, von der Modularisierung von Code für die Wartbarkeit bis hin zur Einrichtung von Automatisierung und Beobachtbarkeit:
Durch die Vereinheitlichung dieser Funktionen optimiert der Editor sowohl die tägliche Entwicklung als auch den langfristigen Pipeline-Betrieb.
Sehen Sie sich das Video unten an, um weitere Details zu all diesen Funktionen in Aktion zu erhalten.
Wir hören hier nicht auf. Hier ist ein Vorschau auf das, was wir derzeit erforschen:
Lassen Sie uns wissen, was Sie sich sonst noch wünschen – Ihr Feedback bestimmt, was wir entwickeln.
Die IDE für Data Engineering ist in allen Clouds verfügbar. Um sie zu aktivieren, öffnen Sie eine Datei, die mit einer vorhandenen Pipeline verknüpft ist, klicken Sie auf das Banner 'Lakeflow Pipelines Editor: AUS' und schalten Sie sie ein. Sie können sie auch während der Pipeline-Erstellung mit einem ähnlichen Schalter oder auf der Seite Benutzereinstellungen aktivieren.
Erfahren Sie mehr mit diesen Ressourcen:
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
