von Andrew Weaver, Bhavin Kukadia und Michael Saltzman
Obwohl diese Anleitung wertvolle Cloud-spezifische technische Details enthält, empfehlen wir jetzt unseren Unified Approach to Data Exfiltration Protection on Databricks, der ein umfassendes Framework für AWS, Azure und GCP mit priorisierten Kontrollen und Implementierungsanleitungen bietet.
Die Databricks Lakehouse Platform bietet eine einheitliche Sammlung von Tools zum Erstellen, Bereitstellen, Teilen und Verwalten von unternehmensgerechten Datenlösungen in großem Maßstab. Databricks integriert sich in den Cloud-Speicher und die Sicherheit in Ihrem Cloud-Konto und verwaltet und stellt Cloud-Infrastruktur in Ihrem Namen bereit.
Das übergeordnete Ziel dieses Artikels ist es, die folgenden Risiken zu mindern:
Databricks unterstützt verschiedene native AWS-Tools und -Dienste, die zum Schutz von Daten während der Übertragung und im Ruhezustand beitragen.
Sicherheitsgruppen
Sicherheitsgruppen sind zustandsbehaftete virtuelle Firewalls, die an EC2-Instanzen angehängt sind. Sie ermöglichen es Ihnen zu definieren, welcher eingehende und ausgehende Datenverkehr zulässig ist. Durch die Einschränkung von Egress-Regeln (ausgehende Regeln) wird verhindert, dass EC2-Instanzen Daten an nicht autorisierte IP-Adressen oder das öffentliche Internet senden, wodurch unbeabsichtigte Datenlecks effektiv blockiert werden.
VPC-Endpunktrichtlinien
VPC-Endpunktrichtlinien steuern den Zugriff auf AWS-Dienste über VPC-Endpunkte. Indem nur erforderliche Operationen für bestimmte AWS-Ressourcen (wie S3-Buckets) zugelassen werden, können Sie verhindern, dass Databricks-Workspaces Daten in andere AWS-Konten oder -Dienste exfiltrieren.
VPC-Endpunkte
VPC-Endpunkte stellen private Verbindungen zwischen Ihrer VPC und anderen AWS-Diensten her, ohne das öffentliche Internet zu durchlaufen. Dies stellt sicher, dass sensible Daten niemals externen Netzwerken ausgesetzt werden, und reduziert so das Risiko der Datenexfiltration über Internetrouten.
IAM-Rollen
IAM-Rollen ermöglichen es Ihnen zu steuern, auf welche AWS-Ressourcen Databricks zugreifen kann und welche Aktionen es ausführen kann. Die sorgfältige Verwendung von Vertrauens- und Berechtigungsrichtlinien stellt sicher, dass Databricks-Benutzer und -Cluster nur mit explizit autorisierten Ressourcen interagieren können, wodurch die Verwendung von nicht autorisierten S3-Buckets oder externen Diensten blockiert wird.
Routentabellen
Routentabellen bestimmen den Netzwerkverkehrsfluss innerhalb Ihrer VPC. Indem ausgehende Routen zum Internet verhindert (oder nur notwendige Ziele zugelassen) werden, steuern Sie, wohin Daten reisen können, und reduzieren das Risiko, dass Daten an unsichere Orte geleitet werden.
AWS PrivateLink
AWS PrivateLink ermöglicht private Konnektivität zwischen VPCs und AWS-Diensten über verschlüsselte, dedizierte Netzwerkschnittstellen und eliminiert die Exposition gegenüber dem öffentlichen Internet. Dies bietet einen sicheren Pfad für Databricks-Steuerungs- und Datenebenen und erschwert die Exfiltration von Daten aus AWS.
Private Subnetze
Private Subnetze haben keine direkte Route zum Internet, was bedeutet, dass Ressourcen darin keine ausgehenden Verbindungen zum Internet initiieren können. Diese architektonische Barriere blockiert Cluster und Knoten daran, Daten direkt außerhalb von AWS zu senden.
KMS-Schlüssel
AWS Key Management Service (KMS) ermöglicht die Verschlüsselung von Daten im Ruhezustand, einschließlich S3-Buckets. Selbst wenn auf Daten zugegriffen wird, bleiben sie geschützt, es sei denn, der Angreifer hat auch Zugriff auf die Verschlüsselungsschlüssel.
S3-Bucket-Richtlinien
Diese Ressourcenrichtlinien gewähren oder verweigern den Zugriff auf bestimmte S3-Buckets. Indem der Zugriff nur von genehmigten Quellen (wie von der Databricks-VPC oder bestimmten IAM-Rollen) eingeschränkt wird, wird sichergestellt, dass selbst wenn jemand eine Exfiltration versucht, er keine sensiblen Daten außerhalb kontrollierter Buckets schreiben oder kopieren kann.
Jede dieser Kontrollen, einzeln und zusammen, erzwingt einen Defense-in-Depth-Ansatz gegen Datenexfiltration und stellt sicher, dass es mehrere Kontrollpunkte gibt, bevor Daten Ihre geschützte Umgebung verlassen könnten.
Verschlüsselung ist eine weitere wichtige Komponente des Datenschutzes. Databricks unterstützt verschiedene Verschlüsselungsoptionen, einschließlich kundenseitig verwalteter Verschlüsselungsschlüssel, Schlüsselrotation, Verschlüsselung im Ruhezustand und während der Übertragung. Von Databricks verwaltete Verschlüsselungsschlüssel werden standardmäßig verwendet und sind sofort einsatzbereit. Kunden können auch ihre eigenen Verschlüsselungsschlüssel mitbringen.
Audit-Protokollierung ist eine grundlegende Sicherheits- und Compliance-Funktion, die es Organisationen ermöglicht, Benutzeraktivitäten, administrative Aktionen und Systemereignisse in der gesamten Databricks-Umgebung zu verfolgen. Im Kontext der Datenexfiltration spielen Audit-Protokolle eine entscheidende Rolle bei der Erkennung, Untersuchung und Reaktion auf potenzielle Bedrohungen oder unangemessenes Verhalten.
Audit-Protokolle helfen bei der Beantwortung grundlegender Fragen wie:
Durch die Verfolgung dieser Ereignisse unterstützen Audit-Protokolle sowohl die Sicherheitsüberwachung als auch die Compliance-Berichterstattung.
Databricks Audit Logging-Funktionen
Databricks bietet robuste Audit-Logging-Funktionen auf Arbeitsbereichs- und Kontoebene. Zu den wichtigsten Funktionen gehören:
Audit-Protokolle können nahezu in Echtzeit an einen vom Kunden bestimmten Amazon S3-Bucket geliefert werden. Sie können direkt in SIEM- oder Sicherheitsanalysesysteme integriert werden, um kontinuierliche Überwachung und Alarmierung zu ermöglichen.
Bevor wir beginnen, werfen wir einen kurzen Blick auf die Databricks-Bereitstellungsarchitektur hier:
Databricks ist so strukturiert, dass eine sichere funktionsübergreifende Teamkollaboration ermöglicht wird, während ein erheblicher Teil der Backend-Dienste von Databricks verwaltet wird, damit Sie sich auf Ihre Data Science-, Data Analytics- und Data Engineering-Aufgaben konzentrieren können.
Databricks arbeitet mit einer Control Plane und einer Compute Plane.
Um die Sicherheitsmaßnahmen zu verstehen, die wir implementieren wollen, betrachten wir die verschiedenen Möglichkeiten, wie Benutzer und Anwendungen mit Databricks interagieren, wie unten dargestellt.
Eine Databricks Workspace-Bereitstellung umfasst die folgenden Netzwerkpfade, die Sie sichern können.
Aus Sicht der Endbenutzer erfordert 1 eingehende Steuerelemente und 2, 3, 4, 5, 6 ausgehende Steuerelemente.
In diesem Artikel konzentrieren wir uns darauf, ausgehende Verbindungen von Ihren Databricks-Workloads zu sichern, dem Leser eine präskriptive Anleitung zur vorgeschlagenen Bereitstellungsarchitektur zu geben und dabei auch Best Practices zur Sicherung eingehender Verbindungen (Benutzer/Client zu Databricks) zu teilen.
Die sichere Bereitstellung von Databricks auf AWS kann komplex sein. Sie benötigen VPCs, IAM-Rollen, private Netzwerke, Unity Catalog und Leitplanken, die den Unternehmenssicherheitsanforderungen entsprechen. Die Databricks Security Reference Architecture (SRA) für AWS bündelt diese Best Practices in sofort einsatzbereiten Terraform-Vorlagen und bietet Teams einen gehärteten Ausgangspunkt für Produktionsbereitstellungen.
Was es ist
Warum es wichtig ist
Struktur des High-Level-Repos
Was Sie erhalten
Anwendung
Hinweise
Wenn Sie Internetzugang für pypi oder maven benötigen, empfehlen wir die folgende Architektur, damit Sie jeglichen Datenverkehr, der Ihre VPC verlässt, scannen können. Eine Reihe von AWS-Diensten kann verwendet werden, um ausgehenden Datenverkehr zu Ihrer VPC zu scannen. Zum Beispiel AWS Network Firewall oder Gateway Load Balancer. Wir empfehlen, die AWS-Dokumentation zu befolgen, zum Beispiel hier, um mit Ihrer AWS Network Firewall-Einrichtung zu beginnen.
Implementieren Sie zusätzlich zur Überwachung des ausgehenden Datenverkehrs die folgenden Steuerelemente, um Ihre Databricks-Umgebung gegen Datenexfiltration zu härten. Bitte beachten Sie, dass einige Funktionen, wie z. B. Private Link, nur in der Enterprise-Version von Databricks unterstützt werden:
Automatisieren Sie die Verwaltung des Benutzer- und Gruppenlebenszyklus von Ihrem IdP in Databricks.
SCIM Provisioning Guide
Erfordern Sie eine zentralisierte Authentifizierung über Ihren Identitätsanbieter (SAML oder OIDC).
SSO-Konfiguration
Erzwingen Sie MFA auf IdP-Ebene, um eine zusätzliche Sicherheitsebene für die Anmeldung zu schaffen.
Multi-Faktor-Authentifizierung
Beschränken Sie den Zugriff auf die Databricks-Account-Konsole, indem Sie zulässige IP-Bereiche definieren.
IP-Zugriffslisten
Stellen Sie sicher, dass der Workspace-Datenverkehr nur über private Endpunkte fließt (kein öffentliches Internet).
Netzwerkkonnektivitätskonfiguration
Wenden Sie Beschränkungen an, um externe Ziele von Databricks Serverless Compute einzuschränken.
Serverless Compute Security
Speichern Sie keine sensiblen Datensätze in DBFS; verwenden Sie sichere Speicher (z. B. S3, ADLS).
DBFS Übersicht
Verkürzen Sie die Token-Gültigkeit für Delta Sharing, um die Exposition bei Leckage zu reduzieren.
Delta Sharing Security
Verwenden Sie separate VPCs/Subnetze, um Workloads logisch und physisch zu isolieren.
Stellen Sie mehrere Workspaces (Produktion, Entwicklung, Test) bereit, um die Umgebungs trennung zu erzwingen.
Multi-Workspace-Strategie
Verwenden Sie OIDC-Federation, um kurzlebige Tokens sicher auszutauschen, wenn CI/CD-Pipelines mit Databricks interagieren.
OIDC Token Federation
Die Anwendung dieser Steuerelemente bietet eine mehrschichtige Verteidigung und minimiert das Risiko einer versehentlichen oder böswilligen Datenleckage.
Add-Ons mit verbesserter Sicherheitskonformität und Überwachung:
Wenn Ihre Organisation erhöhte Sicherheitsanforderungen hat, z. B. die Unterstützung von HIPAA, PCI oder ähnlich strengen Standards, sollten Sie die Aktivierung von Enhanced Security Monitoring für Ihre Databricks-Workloads in Betracht ziehen.
Diese erweiterte Funktion baut auf den Kern-Sicherheitsfunktionen von Databricks auf und bietet tiefere Einblicke, proaktive Bedrohungserkennung und zusätzliche Härtung für klassische und serverlose Compute-Umgebungen. Enhanced Security Monitoring bietet Vorteile wie Canonical Ubuntu mit CIS Level 1 Härtung, kontinuierliche verhaltensbasierte Malware- und Dateiintegritätsüberwachung, umfassendes Malware- und Antiviren-Scanning sowie detaillierte Schwachstellenberichte für das Host-Betriebssystem.
Wenn diese Funktionalität aktiviert ist (über das Compliance-Sicherheitsprofil), werden Sicherheitsprotokolle, einschließlich Warnungen bei Privilegienerweiterungen, verdächtigen interaktiven Shells, nicht autorisierten ausgehenden Verbindungen, unerwarteten Systemdateiänderungen oder potenziellen Exfiltrationsversuchen, automatisch aufgezeichnet. Diese Protokolle werden zusammen mit den Standard-Databricks-Auditprotokollen geliefert und liefern Ihrer SIEM-Lösung oder innerhalb von Databricks selbst umfangreiche, kontextbezogene Informationen. Dies ermöglicht es Sicherheitsexperten, anomales oder riskantes Verhalten schnell zu verfolgen und darauf zu reagieren, was eine sofortige Erkennung und eine schnelle Reaktion auf Vorfälle ohne umfangreiche Untersuchungen ermöglicht.
Eine starke Abwehr gegen Datenexfiltration für Databricks auf AWS ist keine einmalige Einrichtung, sondern erfordert kontinuierliche Verbesserung. Über die Implementierung von Architekturkontrollen hinaus sollten Sie kontinuierliche Überwachung, strenge Audits und proaktives Änderungsmanagement zu einem zentralen Bestandteil Ihrer Sicherheitspraxis machen. Regelmäßige Überprüfung von Auditprotokollen, Aktualisierung von Zugriffs- und Netzwerkrichtlinien sowie die Zusammenarbeit mit Sicherheits- und Compliance-Teams helfen sicherzustellen, dass Schutzmaßnahmen weiterentwickelt werden, um aufkommenden Bedrohungen entgegenzuwirken. Um Ihre Strategie zu vertiefen, lesen Sie anerkannte Ressourcen zu Best Practices für Cloud-Monitoring und Audit-Protokollierung. Diese Referenzen helfen Ihnen, Wachsamkeit und Widerstandsfähigkeit zu bewahren, während Ihre Datenlandschaft und Ihre Risiken wachsen.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
