Wir freuen uns, Ihnen mitteilen zu können, dass Sie dank neuer Sicherheits- und Governance-Funktionen in Unity Catalog noch mehr Workloads auf den hocheffizienten Multi-User-Clustern von Databricks ausführen können. Datenteams können jetzt SQL-, Python- und Scala-Workloads sicher auf gemeinsam genutzten Rechenressourcen entwickeln und ausführen. Damit ist Databricks die einzige Plattform in der Branche, die eine feingranulare Zugriffskontrolle auf gemeinsam genutzten Rechenressourcen für Scala-, Python- und SQL-Spark-Workloads bietet.
Ab Databricks Runtime 13.3 LTS können Sie Ihre Workloads dank der folgenden Funktionen, die auf gemeinsam genutzten Clustern verfügbar sind, nahtlos auf gemeinsam genutzte Cluster verschieben:
Beim Erstellen eines Clusters zur Arbeit mit von Unity Catalog verwalteten Daten können Sie zwischen zwei Zugriffsmodi wählen:
Während Single-User-Cluster der traditionellen Spark-Architektur folgen, bei der Benutzercode auf Spark mit privilegiertem Zugriff auf die zugrunde liegende Maschine ausgeführt wird, stellen gemeinsam genutzte Cluster die Benutzerisolation dieses Codes sicher. Die folgende Abbildung veranschaulicht die Architektur und die Isolationsprimitive, die für gemeinsam genutzte Cluster einzigartig sind: Jeder clientseitige Benutzercode (Python, Scala) wird vollständig isoliert ausgeführt, und UDFs, die auf Spark-Executors ausgeführt werden, laufen in isolierten Umgebungen. Mit dieser Architektur können wir Workloads sicher auf denselben Rechenressourcen multiplexen und gleichzeitig eine kollaborative, kosteneffiziente und sichere Lösung anbieten.

Cluster-Bibliotheken ermöglichen es Ihnen, Bibliotheken für einen Cluster oder sogar für mehrere Cluster nahtlos zu teilen und zu verwalten, um konsistente Versionen sicherzustellen und den Bedarf an wiederholten Installationen zu reduzieren. Egal, ob Sie Machine-Learning-Frameworks, Datenbankkonnektoren oder andere wesentliche Komponenten in Ihre Cluster integrieren müssen, Cluster-Bibliotheken bieten eine zentralisierte und mühelose Lösung, die jetzt auf gemeinsam genutzten Clustern verfügbar ist.
Bibliotheken können von Unity Catalog-Volumes (AWS, Azure, GCP), Workspace-Dateien (AWS, Azure, GCP), PyPI/Maven und Cloud-Speicherorten installiert werden, indem die vorhandene Cluster-UI oder API verwendet wird.

Mithilfe von Init-Skripten können Sie als Cluster-Administrator benutzerdefinierte Skripte während des Cluster-Erstellungsprozesses ausführen, um Aufgaben wie die Einrichtung von Authentifizierungsmechanismen, die Konfiguration von Netzwerkeinstellungen oder die Initialisierung von Datenquellen zu automatisieren.
Init-Skripte können auf gemeinsam genutzten Clustern installiert werden, entweder direkt während der Cluster-Erstellung oder für eine Flotte von Clustern mithilfe von Cluster-Richtlinien (AWS, Azure, GCP). Für maximale Flexibilität können Sie wählen, ob Sie ein Init-Skript aus Unity Catalog-Volumes (AWS, Azure, GCP) oder Cloud-Speicher verwenden möchten.

Als zusätzliche Sicherheitsebene führen wir eine Zulassungsliste (Allowlist) (AWS, Azure, GCP) ein, die die Installation von Cluster-Bibliotheken (JARs) und Init-Skripten regelt. Dies gibt Administratoren die Kontrolle über deren Verwaltung auf gemeinsam genutzten Clustern. Für jeden Metastore kann der Metastore-Administrator die Volumes und Cloud-Speicherorte konfigurieren, von denen Bibliotheken (JARs) und Init-Skripte installiert werden können. Dies bietet ein zentrales Repository vertrauenswürdiger Ressourcen und verhindert unbefugte Installationen. Dies ermöglicht eine granularere Kontrolle über die Cluster-Konfigurationen und hilft, die Konsistenz über die Daten-Workflows Ihrer Organisation hinweg aufrechtzuerhalten.

Scala wird jetzt auf gemeinsam genutzten Clustern unterstützt, die von Unity Catalog verwaltet werden. Dateningenieure können die Flexibilität und Leistung von Scala nutzen, um alle Arten von Big-Data-Herausforderungen gemeinsam auf demselben Cluster zu bewältigen und vom Unity Catalog-Governance-Modell zu profitieren.
Die Integration von Scala in Ihren bestehenden Databricks-Workflow ist ein Kinderspiel. Wählen Sie einfach Databricks Runtime 13.3 LTS oder höher bei der Erstellung eines gemeinsam genutzten Clusters aus, und Sie können Scala-Code neben anderen unterstützten Sprachen schreiben und ausführen.

Das ist noch nicht alles! Wir freuen uns, weitere bahnbrechende Fortschritte für gemeinsam genutzte Cluster vorstellen zu können.
Unterstützung für Python- und Pandas-User-Defined Functions (UDFs): Sie können jetzt die Leistung von Python- und (skalaren) Pandas-UDFs auch auf gemeinsam genutzten Clustern nutzen. Bringen Sie Ihre Workloads einfach nahtlos auf gemeinsam genutzte Cluster – keine Codeanpassungen erforderlich. Durch die Isolierung der Ausführung von UDF-Benutzercode auf Spark-Executors in einer Sandbox-Umgebung bieten gemeinsam genutzte Cluster eine zusätzliche Schutzschicht für Ihre Daten und verhindern unbefugten Zugriff und potenzielle Sicherheitsverletzungen.
Unterstützung für alle gängigen ML-Bibliotheken über den Spark-Treiberknoten und MLflow: Egal, ob Sie mit Scikit-learn, XGBoost, Prophet und anderen beliebten ML-Bibliotheken arbeiten, Sie können jetzt Machine-Learning-Modelle direkt auf gemeinsam genutzten Clustern nahtlos erstellen, trainieren und bereitstellen. Um ML-Bibliotheken für alle Benutzer zu installieren, können Sie die neuen Cluster-Bibliotheken verwenden. Mit der integrierten Unterstützung für MLflow (2.2.0 oder höher) war die Verwaltung des End-to-End-Machine-Learning-Lebenszyklus noch nie einfacher.
Structured Streaming ist jetzt auch auf gemeinsam genutzten Clustern verfügbar, die von Unity Catalog verwaltet werden. Diese transformative Ergänzung ermöglicht die Echtzeit-Datenverarbeitung und -analyse und revolutioniert die Art und Weise, wie Ihre Datenteams Streaming-Workloads kollaborativ verwalten.
Entdecken Sie die Leistung von Scala, Cluster-Bibliotheken, Python-UDFs, Single-Node-ML und Streaming auf gemeinsam genutzten Clustern noch heute, indem Sie einfach Databricks Runtime 13.3 LTS oder höher verwenden. Weitere Informationen und der Beginn Ihrer Reise zur Datengüte finden Sie in den Schnellstartanleitungen (AWS, Azure, GCP).
In den kommenden Wochen und Monaten werden wir die Compute-Architektur des Unity Catalog weiter vereinheitlichen und die Arbeit mit Unity Catalog noch einfacher gestalten!
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
