Veröffentlicht: 21. März 2024
von Ganesh Rajagopal, Bruce Nelson und Bhavin Kukadia
Zuletzt aktualisiert am: 30. Oktober 2025
Bitte stellen Sie sicher, dass Sie mit diesen Themen vertraut sind, bevor Sie beginnen
Die Azure Databricks Lakehouse Platform bietet eine einheitliche Sammlung von Tools zum Erstellen, Bereitstellen, Teilen und Verwalten von unternehmensgerechten Datenlösungen in großem Maßstab. Databricks integriert sich in den Cloud-Speicher und die Sicherheit in Ihrem Cloud-Konto und verwaltet und stellt Cloud-Infrastruktur in Ihrem Namen bereit.
Das übergeordnete Ziel dieses Artikels ist es, die folgenden Risiken zu mindern:
Azure Databricks ist ein First-Party-Dienst und unterstützt die nativen Tools und Dienste von Azure, die Daten während der Übertragung und im Ruhezustand schützen. Azure Databricks unterstützt Netzwerksicherheitskontrollen wie benutzerdefinierte Routen, Firewall-Regeln und Network Security Groups.
Zusätzlich zu den technischen Zielen dieses Blogs möchten wir sicherstellen, dass die von uns vorgestellten Konzepte Folgendes berücksichtigen:
Wir werden Bereiche für Kosteneinsparungen oder Kostenbedenken aufzeigen und versuchen zu klären, warum und wie die Dinge funktionieren, wann immer wir können.
Bevor wir beginnen, werfen wir einen kurzen Blick auf die Azure Databricks-Bereitstellungsarchitektur hier:
Azure Databricks ist so strukturiert, dass eine sichere Zusammenarbeit zwischen Teams gefördert wird, während es die Verwaltung vieler Backend-Dienste übernimmt, sodass Sie sich auf Data Science, Datenanalyse und Data Engineering konzentrieren können.
Azure Databricks ist um zwei Schlüsselkomponenten herum aufgebaut: die Steuerungsebene (Control Plane) und die Rechenebene (Compute Plane).
Steuerungsebene (Control Plane):
Die Azure Databricks-Steuerungsebene, die von Databricks in seinem eigenen Azure-Konto verwaltet wird, fungiert als Kernintelligenz der Plattform. Sie stellt Backend-Dienste für die Benutzerauthentifizierung, die Cluster- und Job-Orchestrierung sowie die Workspace-Verwaltung bereit und bietet die Webschnittstelle und API-Endpunkte für die Service-Interaktion.
Während sie den Lebenszyklus von Computeressourcen orchestriert, verarbeitet sie keine Daten direkt. Stattdessen leitet die Steuerungsebene die Datenverarbeitung an die separate Rechenebene weiter, die entweder innerhalb des Azure-Abonnements des Kunden oder im Databricks-Mandanten für serverlose Bereitstellungen betrieben wird. Notebook-Befehle und viele andere Workspace-Konfigurationen werden in der Steuerungsebene gespeichert und verschlüsselt im Ruhezustand.
Rechenebene (Compute Plane):
Die Rechenebene ist für die Verarbeitung Ihrer Daten verantwortlich. Die spezifische Art der verwendeten Rechenleistung, serverlos oder klassisch, hängt von Ihren gewählten Computeressourcen und Ihrer Workspace-Konfiguration ab. Sowohl serverlose als auch klassische Rechenleistung teilen sich einige Ressourcen wie den standardmäßigen Workspace-Speicher (dbfs) und verwaltete Identitäten, die an Ihren Azure-Mandanten gebunden sind.
Serverless Compute
Bei serverloser Rechenleistung laufen Ressourcen in einer von Databricks verwalteten Compute-Ebene in Azure. Azure Databricks kümmert sich um fast die gesamte zugrunde liegende Infrastruktur, einschließlich Bereitstellung, Skalierung und Wartung. Dieser Ansatz bietet:
Serverlose Ressourcen stehen nach Bedarf zur Verfügung, wodurch Kosten für Leerlaufzeiten reduziert werden. Sie laufen auch innerhalb einer sicheren Netzwerkgrenze im Azure Databricks-Konto mit mehreren Ebenen von Sicherheits- und Netzwerksteuerungen.
Klassische Azure Databricks Compute
Bei klassischer Azure Databricks-Rechenleistung befinden sich die Ressourcen in Ihrem Azure Cloud-Mandanten. Dies bietet vom Kunden verwaltete Rechenleistung, bei der Databricks-Cluster auf Ressourcen in Ihrem Azure-Abonnement und nicht im Databricks-Mandanten ausgeführt werden. Dies bietet:
Wichtiger Hinweis: Klassische Cluster, einschließlich klassischer SQL-Warehouses, können aufgrund der Notwendigkeit, Ressourcen aus Ihrem Azure-Abonnement bereitzustellen, längere Startzeiten als serverlose Optionen aufweisen.
Nur Serverless Databricks Workspace-Bereitstellung (neu): Serverless-only Workspaces sind Workspaces, die nur serverlose Rechenleistung ausführen können. Es gibt keine klassische Rechenleistung, sodass alle Systemressourcen von Azure Databricks verwaltet werden, das die gesamte zugrunde liegende Infrastruktur, einschließlich des standardmäßigen Workspace-Speichers, verwaltet.

Lassen Sie uns den Kommunikationspfad verstehen, den wir sichern möchten. Azure Databricks kann auf verschiedene Weise von Benutzern und Anwendungen genutzt werden, wie unten gezeigt:

Eine Databricks-Workspace-Bereitstellung umfasst die folgenden Netzwerkpfade, die Sie sichern können:
Aus Sicht des Endbenutzers erfordert Punkt 1 Ingress-Steuerungen, und die Punkte 2 bis 6 erfordern Egress-Steuerungen.
In diesem Artikel konzentrieren wir uns auf die Sicherung des Egress-Datenverkehrs von Ihren Databricks-Workloads, geben dem Leser eine präskriptive Anleitung zur vorgeschlagenen Bereitstellungsarchitektur und teilen dabei Best Practices zur Sicherung des Ingress-Datenverkehrs (Benutzer/Client zu Databricks).
Es gibt mehrere Optionen, um eine sichere Azure Databricks-Arbeitsumgebung zu erstellen, auf die von lokalen oder VPN-Verbindungen aus zugegriffen werden kann (kein Internetzugang). Als bewährte Methode empfehlen wir die Sicherung des Zugriffs auf die Arbeitsumgebung mittels privater Endpunkte (Private Link), entweder über eine Standard- oder vereinfachte Bereitstellung. Die empfohlene Option ist die Standard-Bereitstellung. Die Arbeitsumgebung kann über das Azure Portal oder All-in-One-ARM-Vorlagen oder mithilfe von Terraform-Vorlagen für die Security Reference Architecture (SRA) bereitgestellt werden, die die Bereitstellung von Databricks-Arbeitsumgebungen und Cloud-Infrastrukturen ermöglicht, die mit bewährten Sicherheitspraktiken konfiguriert sind.
Front-End vs. Back-End Private Link: Front-End Private Link, auch bekannt als Benutzer zu Arbeitsumgebung. Back-End Private Link, auch bekannt als Compute-Ebene zu Steuerebene:
Standardbereitstellung (empfohlen): Für verbesserte Sicherheit empfiehlt Databricks die Verwendung eines separaten privaten Endpunkts für Ihre Front-End-Verbindungen (Client) von einem separaten Transit-VNet. Sie können sowohl Front-End- als auch Back-End-Private-Link-Verbindungen implementieren oder nur die Back-End-Verbindung. Verwenden Sie ein separates VNet, um den Benutzerzugriff zu kapseln, getrennt von dem VNet, das Sie für Ihre Compute-Ressourcen in der klassischen Datenebene verwenden. Erstellen Sie separate Private-Link-Endpunkte für den Back-End- und Front-End-Zugriff. Befolgen Sie die Anweisungen unter Azure Private Link als Standardbereitstellung aktivieren.
Für System-Speicher, Messaging und Metadatenzugriff von der Compute-Ebene sind zusätzliche Überlegungen erforderlich, da auf diese Dienste nicht über den Back-End-privaten Endpunkt zugegriffen werden kann.
Vom System verwaltete Speicherkonten (nur klassische Compute-Ebene): Diese Speicherkonten werden zum Booten und Überwachen von Databricks-Clustern benötigt. Diese Speicherkonten befinden sich im Databricks-Mandanten und müssen über Service-Endpunkt-Richtlinien (empfohlen) zugelassen werden. Alternativen wären die Verwendung von Storage-Service-Tags, die tendenziell zu breit gefasst sind und die Datenexfiltration erleichtern, oder die individuelle Zulassung der FQDN oder IP-Adressen (nicht empfohlen):
Standard-Speicher der Arbeitsumgebung (DBFS): Gemeinsames verteiltes Dateisystem, das für Scratch-Bereiche, Dienste, temporäre SQL-Ergebnisse (Cloud-Abruf) und Treiber verwendet wird. Kann über private Endpunkte mit der privaten DBFS-Funktion für die klassische Compute-Ebene und Service-Endpunkt oder privaten Endpunkt für serverlose Compute-Ebene gesichert werden.
Messaging: (Event Hub, nur klassische Compute-Ebene) Dies ist eine öffentlich zugängliche Ressource, die für die Nachverfolgung von Datenherkunft und andere leichte Nachrichten verwendet wird. Kann über das EventHub-Service-Tag bei der UDR und/oder Firewall zugelassen werden.
Metadaten: (SQL, nur klassische Compute-Ebene): Dies ist eine öffentlich zugängliche Ressource, die für den Legacy-Hive-Metastore-Verkehr verwendet wird.
Speicherkontozugriff auf Benutzerebene: ALDS- und Blob-Speicherkonten, die für Kundendaten im Gegensatz zu Systemdaten verwendet werden.
First-Party-Ressourcen: Cosmos DB, Azure SQL, DataFactory usw.
Externe Ressourcen: S3, BigQuery, Snowflake usw.
Wir empfehlen eine Hub-and-Spoke-Referenzarchitektur. In diesem Modell hostet das Hub-virtuelle Netzwerk die gemeinsam genutzte Infrastruktur, die für die Verbindung mit validierten Quellen und optional mit lokalen Umgebungen erforderlich ist. Die Spoke-virtuellen Netzwerke werden mit dem Hub verbunden und enthalten isolierte Azure Databricks-Arbeitsumgebungen für verschiedene Geschäftseinheiten oder Teams.
Diese Hub-and-Spoke-Architektur ermöglicht die Erstellung mehrerer Spoke-VNets, die für verschiedene Zwecke und Teams zugeschnitten sind. Die Isolierung kann auch durch die Erstellung separater Subnetze für verschiedene Teams innerhalb eines einzelnen, großen virtuellen Netzwerks erreicht werden. In diesen Fällen können Sie mehrere isolierte Azure Databricks-Arbeitsumgebungen einrichten, jede innerhalb ihres eigenen Subnetzpaares, und Azure Firewall in einem separaten Subnetz innerhalb desselben virtuellen Netzwerks bereitstellen.
| Element | Details |
|---|---|
| Virtuelles Netzwerk |
|
| Subnetze | Drei Subnetze: Host (öffentlich), Container (privat) und Private Endpoint Subnet (zum Speichern privater Endpunkte für Speicher, DBFS und andere Azure-Dienste, die Sie möglicherweise verwenden) |
| Routing-Tabellen | Leiten Sie den ausgehenden Datenverkehr von den Databricks-Subnetzen an die Netzwerk-Appliance, das Internet oder lokale Datenquellen weiter. |
| Azure Firewall | Überprüfen Sie den ausgehenden Datenverkehr und ergreifen Sie Maßnahmen gemäß den Zulassungs-/Ablehnungsrichtlinien. |
| Private DNS-Zonen | Bieten Sie einen zuverlässigen und sicheren DNS-Dienst zur Verwaltung und Auflösung von Domänennamen in einem virtuellen Netzwerk (können während der Bereitstellung automatisch erstellt werden, falls nicht vorhanden). |
| Service-Endpunkt-Richtlinien | Richtlinien für den Zugriff auf alle Speicherkonten, die keine privaten Endpunkte verwenden, einschließlich Systemspeicher für das Speicherkonto der Arbeitsumgebung (DBFS), Artefakt- und Protokollierungsspeicher sowie Systemtabellen. |
| Azure Key Vault | Speichert die CMK zur Verschlüsselung von DBFS, Managed Disk und Managed Services. |
| Azure Databricks Access Connector | Erforderlich, wenn Unity Catalog aktiviert ist. Zum Verbinden von verwalteten Identitäten mit einem Azure Databricks-Konto, um auf in Unity Catalog registrierte Daten zuzugreifen. |
| Liste der Azure Databricks-Dienste, die in der Firewall zugelassen werden sollen | Bitte folgen Sie diesem öffentlichen Dokument und erstellen Sie eine Liste aller IP-Adressen und Domänennamen, die für Ihre Databricks-Bereitstellung relevant sind. |

Stellen Sie Azure Firewall (oder eine andere Network Virtual Appliance) in einem Hub-Virtual-Network bereit. Mit Azure Firewall können Sie Folgendes konfigurieren:
Wenn Sie eine Firewall-Appliance eines Drittanbieters anstelle von Azure Firewall verwenden, funktioniert das ebenfalls. Beachten Sie jedoch, dass jedes Produkt seine eigenen Besonderheiten hat und es am besten ist, die entsprechenden Produkt-Support- und Netzwerksicherheitsteams zu konsultieren, um etwaige relevante Probleme zu beheben.
Nicht-lokaler Netzwerkverkehr von den Databricks Compute Plane-Subnetzen sollte über ein Egress-Gerät wie Azure Firewall mittels einer benutzerdefinierten Route (z. B. eine Standardroute 0.0.0.0/0) geleitet werden. Dies stellt sicher, dass der gesamte ausgehende Datenverkehr inspiziert wird. Der Egress zur Control Plane, der Private Endpoints nutzt, umgeht jedoch diese Routentabellen und Egress-Geräte. Andere Control Plane-Komponenten wie SQL, Event Hubs und Speicher werden jedoch über Ihr Egress-Gerät geleitet.
Wichtiger Hinweis: Bitte beachten Sie, dass dies den Egress zu Speicherkonten und Diensten in der gesamten Region ermöglicht und nicht nur zu denen, die Sie erreichen möchten. Dies ist ein kritischer Faktor, der bei der Gestaltung Ihrer Sicherheitsarchitektur sorgfältig berücksichtigt werden muss.
Ja, Service Endpoints bieten eine sichere und direkte Konnektivität zu von Kunden verwalteten Azure-Diensten (z. B. ADLS Gen2, Azure KeyVault oder Eventhub) über eine optimierte Route im Azure Backbone-Netzwerk. Service Endpoints können verwendet werden, um die Konnektivität zu externen Azure-Ressourcen nur auf Ihr virtuelles Netzwerk zu beschränken.
Ja, Service Endpoint Policies sind ab dem 01.10.2025 in der öffentlichen Vorschau verfügbar. Siehe: Konfigurieren von Azure Virtual Network Service Endpoint Policies für den Speicherzugriff von Classic Compute
Ja, Sie können eine NVA eines Drittanbieters verwenden, solange die Netzwerkverkehrsregeln wie in diesem Artikel beschrieben konfiguriert sind. Bitte beachten Sie, dass wir dieses Setup nur mit Azure Firewall getestet haben, obwohl einige unserer Kunden andere Appliances von Drittanbietern verwenden. Es ist ideal, die Appliance in der Cloud bereitzustellen, anstatt sie On-Premises zu haben.
Ja, das können Sie. Gemäß der Azure Referenzarchitektur ist es ratsam, eine Hub-Spoke-Virtual-Network-Topologie zu verwenden, um besser für die Zukunft zu planen. Wenn Sie das Azure Firewall-Subnetz im selben virtuellen Netzwerk wie die Azure Databricks-Arbeitsbereich-Subnetze erstellen, müssen Sie kein Virtual Network Peering konfigurieren, wie in Schritt 6 oben beschrieben.
Ja, das können Sie, aber wir möchten Sie bitten, Folgendes zu beachten:
Ja, für diese Anforderung empfehlen wir die Verwendung von Azure Firewall Logs und Metriken.
Ja, eine verwaltete Databricks-Bereitstellung kann aktualisiert werden, um eine VNet-Injected-Arbeitsbereich-Instanz zu werden.
Eine Arbeitsbereich-Instanz benötigt zwei Subnetze, die allgemein als „Host“ (auch „öffentlich“) und „Container“ (auch „privat“) bekannt sind. Jedes Subnetz stellt eine IP-Adresse für den Host (Azure VM) und den Container (Databricks Laufzeit, auch dbr genannt) bereit, der innerhalb der VM ausgeführt wird.
Nein, wenn Sie eine Arbeitsbereich-Instanz mit Secure Cluster Connectivity (SCC) erstellen, haben keine der Databricks-Subnetze öffentliche IP-Adressen. Es ist nur so, dass der Standardname des Host-Subnetzes public-subnet ist. SCC stellt sicher, dass kein Netzwerkverkehr von außerhalb Ihres Netzwerks in die Databricks-Compute-Instanzen der Arbeitsbereich-Instanz gelangt, z. B. per SSH.
Ja, es ist möglich, die Subnetzgrößen nach der Bereitstellung zu ändern. Es ist auch möglich, das virtuelle Netzwerk zu ändern oder die Subnetznamen zu ändern (gated public preview). Bitte wenden Sie sich an den Azure-Support und reichen Sie einen Supportfall für die Größenänderung der Subnetze ein.
Ja, bitte beachten Sie die öffentlichen Dokumente.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
