Bien que ce guide contienne des détails techniques précieux spécifiques au cloud, nous recommandons désormais notre Approche unifiée pour la protection contre l’exfiltration de données sur Databricks, qui fournit un cadre complet sur AWS, Azure et GCP avec des contrôles prioritaires et des conseils de mise en œuvre.
La Databricks Lakehouse Platform fournit un ensemble unifié d’outils pour construire, déployer, partager et maintenir des solutions de données de niveau entreprise à grande échelle. Databricks s’intègre au stockage cloud et à la sécurité de votre compte cloud, et gère et déploie l’infrastructure cloud en votre nom.
L’objectif principal de cet article est d’atténuer les risques suivants :
Databricks prend en charge plusieurs outils et services natifs AWS qui aident à protéger les données en transit et au repos.
Groupes de sécurité
Les groupes de sécurité sont des pare-feu virtuels avec état attachés aux instances EC2. Ils vous permettent de définir le trafic entrant et sortant autorisé. Le rétrécissement des règles de sortie (sortant) restreint l’envoi de données par les instances EC2 vers des adresses IP non autorisées ou Internet, bloquant ainsi efficacement les fuites de données involontaires.
Stratégies de point de terminaison VPC
Les stratégies de point de terminaison VPC contrôlent l’accès aux services AWS via les points de terminaison VPC. En autorisant uniquement les opérations requises sur des ressources AWS spécifiques (comme les buckets S3), vous pouvez empêcher les espaces de travail Databricks d’exfiltrer des données vers d’autres comptes ou services AWS.
Points de terminaison VPC
Les points de terminaison VPC établissent des connexions privées entre votre VPC et d’autres services AWS sans traverser Internet. Cela garantit que les données sensibles ne sont jamais exposées aux réseaux externes, atténuant ainsi les risques d’exfiltration de données via les routes Internet.
Rôles IAM
Les rôles IAM vous permettent de contrôler quelles ressources AWS Databricks peut accéder et quelles actions il peut effectuer. Une utilisation prudente des stratégies de confiance et d’autorisation garantit que les utilisateurs et les clusters Databricks ne peuvent interagir qu’avec des ressources explicitement autorisées, bloquant l’utilisation de buckets S3 ou de services externes non autorisés.
Tables de routage
Les tables de routage déterminent le flux du trafic réseau au sein de votre VPC. En empêchant les routes sortantes vers Internet (ou en n’autorisant que les destinations nécessaires), vous contrôlez où les données peuvent voyager, réduisant ainsi le risque que les données soient acheminées vers des emplacements non sécurisés.
AWS PrivateLink
AWS PrivateLink permet une connectivité privée entre les VPC et les services AWS via des interfaces réseau cryptées et dédiées, éliminant l’exposition à Internet. Cela fournit un chemin sécurisé pour les plans de contrôle et de données de Databricks, rendant plus difficile la fuite de données en dehors d’AWS.
Sous-réseaux privés
Les sous-réseaux privés n’ont pas de route directe vers Internet, ce qui signifie que les ressources internes ne peuvent pas initier de connexions sortantes vers Internet. Cette barrière architecturale empêche les clusters et les nœuds d’envoyer directement des données en dehors d’AWS.
Clés KMS
AWS Key Management Service (KMS) vous permet de chiffrer les données au repos, y compris dans les buckets S3. Même si les données sont accessibles, elles restent protégées à moins que l’attaquant n’ait également accès aux clés de chiffrement.
Stratégies de bucket S3
Ces stratégies de ressources accordent ou refusent l’accès à des buckets S3 spécifiques. En limitant l’accès uniquement à partir de sources approuvées (telles que le VPC Databricks ou des rôles IAM spécifiques), elles garantissent que même si quelqu’un tente une exfiltration, il ne peut pas écrire ou copier de données sensibles en dehors des buckets contrôlés.
Chacun de ces contrôles, individuellement et collectivement, applique une approche de défense en profondeur contre l’exfiltration de données, garantissant plusieurs points de contrôle avant que les données ne puissent quitter votre environnement protégé.
Le chiffrement est une autre composante importante de la protection des données. Databricks prend en charge plusieurs options de chiffrement, notamment les clés de chiffrement gérées par le client, la rotation des clés, le chiffrement au repos et en transit. Les clés de chiffrement gérées par Databricks sont utilisées par défaut et activées dès la sortie de la boîte ; les clients peuvent également apporter leurs propres clés de chiffrement.
La journalisation d’audit est une capacité fondamentale de sécurité et de conformité, permettant aux organisations de suivre l’activité des utilisateurs, les actions administratives et les événements système dans l’environnement Databricks. Dans le contexte de l’exfiltration de données, les journaux d’audit jouent un rôle essentiel en permettant la détection, l’enquête et la réponse aux menaces potentielles ou aux comportements inappropriés.
Les journaux d’audit aident à répondre à des questions fondamentales telles que :
En suivant ces événements, les journaux d’audit prennent en charge la surveillance de la sécurité et la génération de rapports de conformité.
Capacités de journalisation d’audit de Databricks
Databricks fournit des fonctionnalités robustes de journalisation d’audit aux niveaux de l’espace de travail et du compte. Les principales capacités comprennent :
Les journaux d’audit peuvent être livrés à un bucket Amazon S3 désigné par le client en temps quasi réel. Ils peuvent être intégrés directement aux systèmes d’analyse de sécurité ou SIEM pour une surveillance et des alertes continues.
Avant de commencer, jetons un coup d’œil rapide à l’architecture de déploiement Databricks ici :
Databricks est structuré pour permettre une collaboration interfonctionnelle sécurisée tout en gardant une quantité significative de services backend gérés par Databricks afin que vous puissiez vous concentrer sur vos tâches de science des données, d’analyse de données et d’ingénierie des données.
Databricks fonctionne à partir d’un plan de contrôle et d’un plan de calcul.
Pour comprendre les mesures de sécurité que nous visons à mettre en œuvre, examinons les différentes manières dont les utilisateurs et les applications interagissent avec Databricks, comme illustré ci-dessous.
Un déploiement d'espace de travail Databricks comprend les chemins réseau suivants que vous pouvez sécuriser.
Du point de vue des utilisateurs finaux, 1 nécessite des contrôles d'entrée et 2, 3, 4, 5, 6 des contrôles de sortie.
Dans cet article, notre objectif est de sécuriser le trafic sortant de vos charges de travail Databricks, de fournir au lecteur des conseils prescriptifs sur l'architecture de déploiement proposée et, pendant que nous y sommes, nous partagerons également les meilleures pratiques pour sécuriser le trafic entrant (utilisateur/client vers Databricks).
Déployer Databricks en toute sécurité sur AWS peut sembler complexe ; vous avez besoin de VPC, de rôles IAM, de mise en réseau privée, d'Unity Catalog et de garde-fous qui s'alignent sur la sécurité de l'entreprise. Le Databricks Security Reference Architecture (SRA) pour AWS regroupe ces meilleures pratiques dans des modèles Terraform prêts à l'emploi, offrant aux équipes un point de départ renforcé pour les déploiements en production.
Ce que c'est
Pourquoi c'est important
Structure générale du dépôt
Ce que vous obtenez
Comment l'utiliser
Mises en garde
Si vous avez besoin d'un accès à Internet pour pypi ou maven, nous recommandons l'architecture suivante pour scanner tout trafic quittant votre VPC afin de pouvoir analyser tout trafic sortant. Un certain nombre de services AWS peuvent être utilisés pour analyser le trafic sortant vers votre VPC. Par exemple, AWS Network Firewall ou Gateway Load Balancer. Nous vous recommandons de suivre la documentation AWS, par exemple ici, pour commencer avec votre configuration AWS Network Firewall.
En plus de la surveillance du trafic sortant, implémentez les contrôles suivants pour renforcer votre environnement Databricks contre l'exfiltration de données. Veuillez noter que certaines fonctionnalités, telles que le lien privé, ne sont prises en charge que dans le niveau Enterprise de Databricks :
Automatisez la gestion du cycle de vie des utilisateurs et des groupes de votre IdP vers Databricks.
Guide de provisionnement SCIM
Exigez une authentification centralisée via votre fournisseur d'identité (SAML ou OIDC).
Configuration SSO
Appliquez la MFA au niveau de l'IdP pour ajouter une couche de sécurité de connexion supplémentaire.
Authentification multifacteur
Restreignez l'accès à la console de compte Databricks en définissant des plages d'adresses IP autorisées.
Listes d'accès IP
Assurez-vous que le trafic de l'espace de travail ne transite que par des points de terminaison privés (pas d'Internet public).
Configuration de la connectivité réseau
Appliquez des restrictions pour limiter les destinations externes du calcul serverless Databricks.
Sécurité du calcul serverless
Ne persistez pas les jeux de données sensibles dans DBFS ; utilisez un stockage sécurisé (par exemple, S3, ADLS).
Présentation de DBFS
Raccourcissez la validité des jetons pour Delta Sharing afin de réduire l'exposition en cas de fuite.
Sécurité Delta Sharing
Utilisez des VPC/sous-réseaux distincts pour isoler logiquement et physiquement les charges de travail.
Déployez plusieurs espaces de travail (prod, dev, test) pour appliquer la séparation des environnements.
Stratégie multi-espaces de travail
Utilisez la fédération OIDC pour échanger en toute sécurité des jetons de courte durée lorsque les pipelines CI/CD interagissent avec Databricks.
Fédération de jetons OIDC
L'application combinée de ces contrôles fournit une défense en profondeur multicouche, minimisant le risque de fuite de données accidentelle ou malveillante.
Modules complémentaires avec conformité de sécurité et surveillance améliorées :
Si votre organisation a des exigences de sécurité accrues, telles que la nécessité de prendre en charge HIPAA, PCI ou des normes similaires, envisagez d'activer la surveillance de sécurité améliorée pour vos charges de travail Databricks.
Cette fonctionnalité avancée s'appuie sur les capacités de sécurité fondamentales de Databricks en offrant une visibilité plus approfondie, une détection proactive des menaces et un renforcement supplémentaire pour les environnements de calcul classiques et serverless. La surveillance de sécurité améliorée offre des avantages tels qu'Ubuntu Canonical avec le renforcement de niveau 1 CIS, une surveillance continue du comportement des logiciels malveillants et de l'intégrité des fichiers, une analyse complète des logiciels malveillants et antivirus, ainsi que des rapports détaillés sur les vulnérabilités du système d'exploitation hôte.
Avec cette fonctionnalité activée (via le profil de sécurité de conformité), les journaux d'événements de sécurité, y compris les alertes d'escalades de privilèges, les shells interactifs suspects, les connexions sortantes non autorisées, les modifications inattendues des fichiers système ou les tentatives potentielles d'exfiltration sont automatiquement enregistrés. Ces journaux sont livrés aux côtés des journaux d'audit Databricks standard, fournissant des informations riches et contextuelles à votre SIEM organisationnel ou au sein de Databricks lui-même. Cela permet aux analystes de sécurité de retracer et de répondre rapidement aux comportements anormaux ou risqués, soutenant la détection immédiate et la réponse rapide aux incidents sans nécessiter d'enquêtes approfondies.
Une défense solide contre l'exfiltration de données pour Databricks sur AWS n'est pas une configuration ponctuelle, elle nécessite une amélioration continue. Au-delà du déploiement de contrôles architecturaux, faites de la surveillance continue, de l'audit rigoureux et de la gestion proactive des changements des éléments centraux de votre pratique de sécurité. L'examen régulier des journaux d'audit, la mise à jour des politiques d'accès et de réseau, et la collaboration avec les équipes de sécurité et de conformité aident à garantir que les protections évoluent pour contrer les menaces émergentes. Pour approfondir votre stratégie, consultez des ressources réputées sur les meilleures pratiques de surveillance cloud et l'journalisation d'audit. Ces références vous aideront à maintenir votre vigilance et votre résilience à mesure que votre paysage de données et vos risques augmentent.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
