Dernière mise à jour le : 30 octobre 2025
Avant de commencer, assurez-vous de connaître ces sujets
La plateforme Lakehouse Azure Databricks fournit un ensemble unifié d'outils pour construire, déployer, partager et maintenir des solutions de données de niveau entreprise à grande échelle. Databricks s'intègre au stockage cloud et à la sécurité de votre compte cloud, et gère et déploie l'infrastructure cloud en votre nom.
L'objectif principal de cet article est d'atténuer les risques suivants :
Azure Databricks est un service de première partie et prend en charge les outils et services natifs d'Azure qui aident à protéger les données en transit et au repos. Azure Databricks prend en charge les contrôles de sécurité réseau, tels que les routes définies par l'utilisateur, les règles de pare-feu et les groupes de sécurité réseau.
En plus des objectifs techniques de ce blog, nous voulons également nous assurer que les concepts que nous présentons tiennent compte de :
Nous soulignerons les domaines d'économies ou les préoccupations de coûts tout en essayant de clarifier pourquoi et comment les choses fonctionnent chaque fois que nous le pouvons.
Avant de commencer, jetons un coup d'œil rapide à l'architecture de déploiement Azure Databricks ici :
Azure Databricks est structuré pour faciliter la collaboration sécurisée entre les équipes, tout en gérant de nombreux services backend, vous permettant de vous concentrer sur la science des données, l'analyse des données et l'ingénierie des données.
Azure Databricks est structuré autour de deux composants clés : le plan de contrôle et le plan de calcul.
Plan de contrôle :
Le plan de contrôle Azure Databricks, géré par Databricks au sein de son propre compte Azure, agit comme l'intelligence centrale de la plateforme. Il fournit les services backend pour l'authentification des utilisateurs, l'orchestration des clusters et des travaux, et la gestion de l'espace de travail, offrant l'interface Web et les points de terminaison API pour l'interaction avec le service.
Bien qu'il orchestre le cycle de vie des ressources de calcul, il ne traite pas directement les données. Au lieu de cela, le plan de contrôle dirige le traitement des données vers le plan de calcul séparé, qui fonctionne soit dans l'abonnement Azure du client, soit dans le locataire Databricks pour les déploiements serverless. Les commandes de notebook et de nombreuses autres configurations d'espace de travail sont stockées dans le plan de contrôle et chiffrées au repos.
Plan de calcul :
Le plan de calcul est responsable du traitement de vos données. Le type spécifique de calcul utilisé, serverless ou classique, dépend des ressources de calcul et de la configuration de l'espace de travail que vous avez choisies. Les calculs serverless et classiques partagent certaines ressources telles que le stockage par défaut de l'espace de travail (dbfs) et les identités managées qui sont liées à votre locataire Azure.
Calcul Serverless
Pour le calcul serverless, les ressources fonctionnent dans un plan de calcul Azure géré par Databricks. Azure Databricks gère la quasi-totalité de l'infrastructure sous-jacente, y compris le provisionnement, la mise à l'échelle et la maintenance. Cette approche offre :
Les ressources serverless sont disponibles à la demande, réduisant les coûts de temps d'inactivité. Elles s'exécutent également dans une limite réseau sécurisée dans le compte Azure Databricks, avec plusieurs couches de sécurité et de contrôles réseau.
Calcul classique Azure Databricks
Avec le calcul classique Azure Databricks, les ressources sont situées dans votre locataire Azure Cloud. Cela fournit un calcul géré par le client, où les clusters Databricks s'exécutent sur des ressources au sein de votre abonnement Azure, et non du locataire Databricks. Cela offre :
Note importante : Les clusters classiques, y compris les entrepôts SQL classiques, peuvent connaître des temps de démarrage plus longs par rapport aux options serverless en raison de la nécessité de provisionner des ressources à partir de votre abonnement Azure.
Déploiement d'espace de travail Databricks uniquement serverless (nouveau) : Les espaces de travail uniquement serverless sont des espaces de travail qui ne peuvent exécuter que du calcul serverless. Il n'y a pas de calcul classique, donc toutes les ressources système sont gérées par Azure Databricks, qui gère la quasi-totalité de l'infrastructure sous-jacente, y compris le stockage par défaut de l'espace de travail.

Comprenons le chemin de communication que nous souhaitons sécuriser. Azure Databricks peut être utilisé par les utilisateurs et les applications de nombreuses manières, comme montré ci-dessous :

Un déploiement d'espace de travail Databricks comprend les chemins réseau suivants que vous pourriez sécuriser :
Du point de vue de l'utilisateur final, l'élément 1 nécessite des contrôles d'entrée, et les éléments 2 à 6 nécessitent des contrôles de sortie.
Dans cet article, notre domaine d'intérêt est de sécuriser le trafic de sortie de vos charges de travail Databricks, de fournir au lecteur des conseils prescriptifs sur l'architecture de déploiement proposée et, pendant que nous y sommes, nous partagerons les meilleures pratiques pour sécuriser également le trafic d'entrée (utilisateur/client vers Databricks).
Il existe plusieurs options pour créer un espace de travail Azure Databricks sécurisé accessible depuis des connexions sur site ou VPN (sans accès Internet). Comme meilleure pratique, nous recommandons de sécuriser l'accès à l'espace de travail en utilisant des points de terminaison privés (Private Link), soit via un déploiement standard, soit via un déploiement simplifié. L'option recommandée est le déploiement standard. L'espace de travail peut être déployé via le portail Azure ou via les modèles ARM tout-en-un, ou en utilisant les modèles Terraform de l'Architecture de Référence de Sécurité (SRA), qui permettent le déploiement d'espaces de travail Databricks et d'infrastructures cloud configurés selon les meilleures pratiques de sécurité.
Private Link Front End vs Back End : Private Link Front End, également appelé connexion utilisateur à espace de travail. Private Link Back End, également appelé plan de calcul vers plan de contrôle :
Déploiement standard (recommandé) : Pour une sécurité améliorée, Databricks vous recommande d'utiliser un point de terminaison privé distinct pour vos connexions front-end (client) à partir d'un VNet de transit séparé. Vous pouvez implémenter des connexions Private Link front-end et back-end, ou uniquement la connexion back-end. Utilisez un VNet séparé pour encapsuler l'accès utilisateur, distinct du VNet que vous utilisez pour vos ressources de calcul dans le plan de données classique. Créez des points de terminaison Private Link séparés pour l'accès back-end et front-end. Suivez les instructions dans Activer Azure Private Link en tant que déploiement standard.
Une considération supplémentaire est nécessaire pour l'accès au stockage système, à la messagerie et aux métadonnées depuis le plan de calcul, car ces services ne sont pas accessibles via le point de terminaison privé back-end.
Comptes de stockage gérés par le système (plan de calcul classique uniquement) : Ces comptes de stockage sont nécessaires pour démarrer et surveiller les clusters Databricks. Ces comptes de stockage se trouvent dans le locataire Databricks et doivent être autorisés via des politiques de point de terminaison de service (recommandé). Les alternatives seraient d'utiliser des balises de service de stockage qui ont tendance à être trop larges et facilitent l'exfiltration de données, ou l'ajout à une liste d'autorisation individuelle du FQDN ou des adresses IP (non recommandé) :
Stockage par défaut de l'espace de travail (DBFS) : Système de fichiers distribué commun utilisé pour l'espace temporaire, les services, les résultats SQL temporaires (récupération cloud), les pilotes. Peut être sécurisé via des points de terminaison privés en utilisant la fonctionnalité DBFS privée pour le calcul classique et le point de terminaison de service ou le point de terminaison privé pour le calcul serverless.
Messagerie : (Event Hub, plan de calcul classique uniquement) Il s'agit d'une ressource publiquement accessible utilisée pour le suivi de lignage et d'autres communications légères. Peut être autorisée via la balise de service EventHub au niveau de l'UDR et/ou du pare-feu.
Métadonnées : (SQL, plan de calcul classique uniquement) Il s'agit d'une ressource publiquement accessible utilisée pour le trafic de métastore Hive hérité.
Accès au compte de stockage utilisateur : Comptes ALDS et Blob Storage utilisés pour les données client par opposition aux données système.
Ressources de première partie : Cosmos DB, Azure SQL, DataFactory, etc…
Ressources externes : S3, BigQuery, Snowflake, etc…
Nous recommandons une architecture de référence hub and spoke. Dans ce modèle, le réseau virtuel hub héberge l'infrastructure partagée nécessaire pour se connecter aux sources validées et, éventuellement, aux environnements sur site. Les réseaux virtuels spoke sont appairés avec le hub et contiennent des espaces de travail Azure Databricks isolés pour différentes unités commerciales ou équipes.
Cette architecture hub-and-spoke permet la création de plusieurs VNet spoke adaptés à divers usages et équipes. L'isolation peut également être obtenue en créant des sous-réseaux séparés pour différentes équipes au sein d'un seul grand réseau virtuel. Dans ces cas, vous pouvez établir plusieurs espaces de travail Azure Databricks isolés, chacun dans sa propre paire de sous-réseaux, et déployer Azure Firewall dans un sous-réseau séparé au sein du même réseau virtuel.
| Élément | Détails |
|---|---|
| Réseau virtuel |
|
| Sous-réseaux | Trois sous-réseaux : Hôte (Public), Conteneur (Privé) et Sous-réseau de point de terminaison privé (pour héberger les points de terminaison privés pour le stockage, DBFS et d'autres services Azure que vous pourriez utiliser) |
| Tables de routage | Canaliser le trafic sortant des sous-réseaux Databricks vers l'appliance réseau, Internet ou les sources de données sur site |
| Azure Firewall | Inspecter tout le trafic sortant et prendre des mesures conformément aux politiques d'autorisation/refus |
| Zones DNS privées | Fournir un service DNS fiable et sécurisé pour gérer et résoudre les noms de domaine dans un réseau virtuel (peuvent être créées automatiquement dans le cadre du déploiement si elles ne sont pas disponibles) |
| Politiques de point de terminaison de service | Politiques pour autoriser l'accès à tous les comptes de stockage ne nécessitant pas de point de terminaison privé, y compris le stockage système pour le compte de stockage de l'espace de travail (dbfs), le stockage d'artefacts et de journaux, et les tables système. |
| Azure Key Vault | Stocke la CMK pour le chiffrement de DBFS, des disques managés et des services managés. |
| Connecteur d'accès Azure Databricks | Requis si Unity Catalog est activé. Pour connecter des identités managées à un compte Azure Databricks afin d'accéder aux données enregistrées dans Unity Catalog |
| Liste des services Azure Databricks à autoriser sur le pare-feu | Veuillez suivre cette documentation publique et dresser une liste de toutes les adresses IP et noms de domaine pertinents pour votre déploiement Databricks |

Déployez Azure Firewall (ou une autre appliance virtuelle réseau) dans un réseau virtuel hub. Avec Azure Firewall, vous pouvez configurer :
Si vous utilisez un appareil de pare-feu tiers au lieu d'Azure Firewall, cela fonctionne également. Veuillez noter que chaque produit a ses propres particularités et qu'il est préférable de faire appel aux équipes de support produit et de sécurité réseau concernées pour résoudre tout problème pertinent.
Le trafic réseau non local des sous-réseaux du plan de calcul Databricks doit être acheminé via un appareil de sortie tel qu'Azure Firewall à l'aide d'une route définie par l'utilisateur (par exemple, une route par défaut 0.0.0.0/0). Cela garantit que tout le trafic sortant est inspecté. Cependant, la sortie vers le plan de contrôle, utilisant des points de terminaison privés, contournera ces tables de routage et ces appareils de sortie. D'autres composants du plan de contrôle, tels que SQL, Event Hubs et le stockage, seront cependant acheminés via votre appareil de sortie.
Considération importante : Veuillez noter que cela permettra la sortie vers des comptes de stockage et des services dans toute la région, et pas seulement vers ceux auxquels vous avez l'intention d'accéder. C'est un facteur critique à considérer attentivement lors de la conception de votre architecture de sécurité.
Oui, les points de terminaison de service fournissent une connectivité sécurisée et directe aux services Azure détenus et gérés par les clients (par exemple, ADLS gen2, Azure KeyVault ou EventHub) via un itinéraire optimisé sur le réseau dorsal d'Azure. Les points de terminaison de service peuvent être utilisés pour sécuriser la connectivité aux ressources Azure externes uniquement à votre réseau virtuel.
Oui, les stratégies de point de terminaison de service sont disponibles en aperçu public à partir du 01/10/2025. Voir : Configurer les stratégies de point de terminaison de service de réseau virtuel Azure pour l'accès au stockage à partir du calcul classique
Oui, vous pouvez utiliser un NVA tiers tant que les règles de trafic réseau sont configurées comme indiqué dans cet article. Veuillez noter que nous avons testé cette configuration uniquement avec Azure Firewall, bien que certains de nos clients utilisent d'autres appareils tiers. Il est idéal de déployer l'appareil dans le cloud plutôt que sur site.
Oui, vous le pouvez. Conformément à l'architecture de référence Azure, il est conseillé d'utiliser une topologie de réseau virtuel hub-spoke pour mieux planifier l'avenir. Si vous choisissez de créer le sous-réseau Azure Firewall dans le même réseau virtuel que les sous-réseaux de l'espace de travail Azure Databricks, vous n'aurez pas besoin de configurer l'appairage de réseaux virtuels comme mentionné à l'étape 6 ci-dessus.
Oui, vous le pouvez, mais nous aimerions que vous gardiez ces points à l'esprit :
Oui, nous vous recommandons d'utiliser les journaux et métriques d'Azure Firewall pour cette exigence.
Oui, le déploiement Databricks géré peut être mis à niveau vers un espace de travail injecté dans un VNet.
Un espace de travail nécessite deux sous-réseaux, populairement connus sous le nom de sous-réseau « hôte » (également appelé « public ») et « conteneur » (également appelé « privé »). Chaque sous-réseau fournit une adresse IP à l'hôte (VM Azure) et au conteneur (runtime Databricks aka dbr) qui s'exécute à l'intérieur de la VM.
Non, lorsque vous créez un espace de travail en utilisant la connectivité de cluster sécurisée aka SCC, aucun des sous-réseaux de Databricks n'a d'adresses IP publiques. C'est juste que le nom par défaut du sous-réseau hôte est public-subnet. SCC garantit qu'aucun trafic réseau provenant de l'extérieur de votre réseau n'entre, par exemple, par SSH dans l'une des instances de calcul de l'espace de travail Databricks.
Oui, il est possible de redimensionner ou de modifier les tailles de sous-réseau après le déploiement. Il est également possible de modifier le réseau virtuel ou de changer les noms de sous-réseau. (aperçu public limité). Veuillez contacter le support Azure et soumettre un cas de support pour le redimensionnement des sous-réseaux.
Oui, veuillez vous référer à la documentation publique.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
