Ultimo aggiornamento: 30 ottobre 2025
Prima di iniziare, assicurati di avere familiarità con questi argomenti
La Piattaforma Lakehouse di Azure Databricks fornisce un set unificato di strumenti per creare, distribuire, condividere e mantenere soluzioni dati di livello enterprise su larga scala. Databricks si integra con l'archiviazione cloud e la sicurezza nel tuo account cloud, e gestisce e distribuisce l'infrastruttura cloud per tuo conto.
L'obiettivo principale di questo articolo è mitigare i seguenti rischi:
Azure Databricks è un servizio di prima parte e supporta gli strumenti e i servizi nativi di Azure che aiutano a proteggere i dati in transito e a riposo. Azure Databricks supporta controlli di sicurezza di rete, come route definite dall'utente, regole del firewall e Network Security Groups.
Oltre agli obiettivi tecnici per questo blog, vogliamo anche assicurarci che i concetti che presentiamo considerino:
Indicheremo aree di risparmio sui costi o preoccupazioni sui costi, cercando al contempo di chiarire perché e come funzionano le cose ogni volta che possiamo.
Prima di iniziare, diamo una rapida occhiata all'architettura di distribuzione di Azure Databricks qui:
Azure Databricks è strutturato per facilitare la collaborazione sicura tra i team, gestendo molti servizi di backend, permettendoti di concentrarti su data science, data analytics e data engineering.
Azure Databricks è strutturato attorno a due componenti chiave: il piano di controllo e il piano di calcolo.
Piano di controllo:
Il piano di controllo di Azure Databricks, gestito da Databricks all'interno del proprio account Azure, funge da intelligenza principale della piattaforma. Fornisce servizi di backend per l'autenticazione utente, l'orchestrazione di cluster e job e la gestione dello spazio di lavoro, offrendo l'interfaccia web e gli endpoint API per l'interazione del servizio.
Mentre orchestra il ciclo di vita delle risorse di calcolo, non elabora direttamente i dati. Invece, il piano di controllo indirizza l'elaborazione dei dati al piano di calcolo separato, che opera all'interno della sottoscrizione Azure del cliente o del tenant Databricks per le distribuzioni serverless. I comandi dei notebook e molte altre configurazioni dello spazio di lavoro sono archiviati nel piano di controllo e crittografati a riposo.
Piano di calcolo:
Il piano di calcolo è responsabile dell'elaborazione dei tuoi dati. Il tipo specifico di calcolo utilizzato, serverless o classico, dipende dalle risorse di calcolo scelte e dalla configurazione dello spazio di lavoro. Sia il calcolo serverless che quello classico condividono alcune risorse come lo storage predefinito dello spazio di lavoro (dbfs) e le identità gestite associate al tuo tenant Azure.
Calcolo Serverless
Per il calcolo serverless, le risorse operano all'interno di un piano di calcolo in Azure gestito da Databricks. Azure Databricks gestisce quasi tutta l'infrastruttura sottostante, inclusi provisioning, scaling e manutenzione. Questo approccio offre:
Le risorse serverless sono disponibili secondo necessità, riducendo i costi di inattività. Eseguono anche all'interno di un confine di rete sicuro nell'account Azure Databricks, con più livelli di sicurezza e controlli di rete.
Calcolo Classico di Azure Databricks
Con il calcolo classico di Azure Databricks, le risorse si trovano all'interno del tuo tenant cloud Azure. Questo fornisce un calcolo gestito dal cliente, in cui i cluster Databricks vengono eseguiti su risorse all'interno della tua sottoscrizione Azure, non del tenant Databricks. Questo offre:
Nota importante: i cluster classici, inclusi i warehouse SQL classici, potrebbero richiedere tempi di avvio più lunghi rispetto alle opzioni serverless a causa della necessità di effettuare il provisioning delle risorse dalla tua sottoscrizione Azure.
Distribuzione di workspace Databricks solo serverless (nuova): i workspace solo serverless sono workspace che possono eseguire solo calcolo serverless. Non c'è calcolo classico, quindi tutte le risorse di sistema sono gestite da Azure Databricks, che gestisce tutta l'infrastruttura sottostante, incluso lo storage predefinito del workspace.

Comprendiamo il percorso di comunicazione che vorremmo proteggere. Azure Databricks può essere utilizzato da utenti e applicazioni in numerosi modi, come mostrato di seguito:

Una distribuzione di workspace Databricks include i seguenti percorsi di rete che potresti proteggere:
Dal punto di vista dell'utente finale, l'elemento 1 richiede controlli in ingresso e gli elementi da 2 a 6 richiedono controlli in uscita.
In questo articolo, la nostra area di interesse è proteggere il traffico in uscita dai tuoi carichi di lavoro Databricks, fornire al lettore una guida prescrittiva sull'architettura di distribuzione proposta e, mentre ci siamo, condivideremo anche le best practice per proteggere il traffico in ingresso (utente/client verso Databricks).
Sono disponibili diverse opzioni per creare un'area di lavoro Azure Databricks sicura accessibile da connessioni on-premise o VPN (senza accesso a Internet). Come best practice, consigliamo di proteggere l'accesso all'area di lavoro utilizzando endpoint privati (Private Link) con una distribuzione standard o semplificata. L'opzione consigliata è la distribuzione standard. L'area di lavoro può essere distribuita tramite il portale di Azure o modelli ARM All-in-one o utilizzando i modelli Terraform Security Reference Architecture (SRA) che consentono la distribuzione di aree di lavoro Databricks e infrastrutture cloud configurate con le best practice di sicurezza.
Private Link front-end vs back-end: Private Link front-end, noto anche come utente verso area di lavoro. Private Link back-end, noto anche come piano di calcolo verso piano di controllo:
Distribuzione standard (consigliata): Per una maggiore sicurezza, Databricks consiglia di utilizzare un endpoint privato separato per le connessioni front-end (client) da una VNet di transito separata. È possibile implementare connessioni Private Link sia front-end che back-end o solo la connessione back-end. Utilizzare una VNet separata per incapsulare l'accesso utente, separato dalla VNet utilizzata per le risorse di calcolo nel piano dati classico. Creare endpoint Private Link separati per l'accesso back-end e front-end. Seguire le istruzioni in Abilita Azure Private Link come distribuzione standard.
È necessaria un'ulteriore considerazione per l'archiviazione di sistema, la messaggistica e l'accesso ai metadati dal piano di calcolo, poiché questi servizi non sono accessibili tramite l'endpoint privato back-end.
Account di archiviazione gestiti dal sistema (solo piano di calcolo classico): Questi account di archiviazione sono necessari per avviare e monitorare i cluster Databricks. Questi account di archiviazione si trovano nel tenant Databricks e devono essere consentiti tramite policy di endpoint di servizio (consigliato), le alternative sarebbero l'utilizzo di tag di servizio di archiviazione che tendono ad essere troppo ampi e facilitano l'esfiltrazione di dati, o l'elenco di consenti individuale dell'FQDN o degli indirizzi IP (non consigliato):
Archiviazione predefinita dell'area di lavoro (DBFS): File system distribuito comune utilizzato per lo spazio di lavoro temporaneo, i servizi, i risultati SQL temporanei (recupero cloud), i driver. Può essere protetto tramite endpoint privati utilizzando la funzionalità DBFS privata per il calcolo classico e l'endpoint di servizio o l'endpoint privato per il calcolo serverless.
Messaggistica: (Event Hub, solo piano di calcolo classico) Questa è una risorsa accessibile pubblicamente utilizzata per il tracciamento della discendenza e altre messaggistiche leggere. Può essere consentita tramite il tag di servizio EventHub nell'UDR e/o nel Firewall.
Metadati: (SQL, solo piano di calcolo classico): Questa è una risorsa accessibile pubblicamente utilizzata per il traffico legacy del metastore Hive.
Accesso all'account di archiviazione a livello utente: Account ALDS e Blob Storage utilizzati per i dati del cliente anziché per i dati di sistema.
Risorse di prima parte: Cosmos DB, Azure SQL, DataFactory ecc…
Risorse esterne: S3, BigQuery, Snowflake ecc…
Consigliamo un'architettura di riferimento hub and spoke. In questo modello, la rete virtuale hub ospita l'infrastruttura condivisa necessaria per connettersi a origini validate e, facoltativamente, ad ambienti on-premise. Le reti virtuali spoke si connettono in peering con l'hub e contengono aree di lavoro Azure Databricks isolate per diverse unità aziendali o team.
Questa architettura hub-and-spoke consente la creazione di più VNet spoke personalizzate per vari scopi e team. L'isolamento può essere ottenuto anche creando subnet separate per team diversi all'interno di un'unica, grande rete virtuale. In questi casi, è possibile stabilire più aree di lavoro Azure Databricks isolate, ciascuna nella propria coppia di subnet, e distribuire Azure Firewall in una subnet separata all'interno della stessa rete virtuale.
| Elemento | Dettagli |
|---|---|
| Rete Virtuale |
|
| Subnet | Tre subnet: Host (Pubblica), Container (Privata) e Subnet endpoint privato (per contenere endpoint privati per l'archiviazione, DBFS e altri servizi Azure che potresti utilizzare) |
| Tabelle di routing | Instrada il traffico in uscita dalle subnet Databricks verso l'appliance di rete, Internet o le origini dati On-prem |
| Azure Firewall | Ispeziona qualsiasi traffico in uscita e intraprende azioni in base alle policy di consenti/nega |
| Zone DNS private | Fornisce un servizio DNS affidabile e sicuro per gestire e risolvere i nomi di dominio in una rete virtuale (può essere creato automaticamente come parte della distribuzione se non disponibile) |
| Policy di endpoint di servizio | Policy per consentire l'accesso a qualsiasi account di archiviazione non basato su endpoint privato, inclusa l'archiviazione di sistema per l'account di archiviazione dell'area di lavoro (dbfs), l'archiviazione di artefatti e registri e le tabelle di sistema. |
| Azure Key Vault | Memorizza la CMK per la crittografia di DBFS, disco gestito e servizi gestiti. |
| Connettore di accesso Azure Databricks | Richiesto se si abilita Unity Catalog. Per connettere identità gestite a un account Azure Databricks allo scopo di accedere ai dati registrati in Unity Catalog |
| Elenco dei servizi Azure Databricks da consentire nel Firewall | Si prega di seguire questa documentazione pubblica e creare un elenco di tutti gli IP e nomi di dominio pertinenti alla tua distribuzione databricks |

Distribuisci Azure Firewall (o un'altra Network Virtual Appliance) in una rete virtuale hub. Con Azure Firewall, potresti configurare:
Se utilizzi un'appliance firewall di terze parti anziché Azure Firewall, funziona ugualmente. Tieni presente che ogni prodotto ha le sue sfumature ed è meglio coinvolgere i team di supporto prodotto e di sicurezza di rete pertinenti per risolvere eventuali problemi specifici.
Il traffico di rete non locale dai subnet del piano di calcolo di Databricks dovrebbe essere instradato attraverso un'appliance di uscita come Azure Firewall utilizzando un route definito dall'utente (ad esempio, una route predefinita 0.0.0.0/0). Ciò garantisce che tutto il traffico in uscita venga ispezionato. Tuttavia, l'uscita verso il piano di controllo, utilizzando endpoint privati, bypasserà queste tabelle di route e le appliance di uscita. Altri componenti del piano di controllo, come SQL, Event Hubs e archiviazione, verranno tuttavia instradati attraverso la tua appliance di uscita.
Considerazione Importante: Tieni presente che questo consentirà l'uscita verso account e servizi di archiviazione in tutta la regione, non solo verso quelli a cui intendi accedere. Questo è un fattore critico da considerare attentamente quando si progetta la propria architettura di sicurezza.
Sì, i Service Endpoint forniscono una connettività sicura e diretta ai servizi Azure posseduti e gestiti dai clienti (ad es. ADLS gen2, Azure KeyVault o eventhub) tramite un percorso ottimizzato sulla rete backbone di Azure. I Service Endpoint possono essere utilizzati per proteggere la connettività alle risorse Azure esterne solo alla tua rete virtuale.
Sì, le Service Endpoint Policy sono disponibili in anteprima pubblica dal 01/10/2025. Vedi: Configura le policy dei service endpoint di rete virtuale Azure per l'accesso allo storage dal calcolo classico
Sì, puoi utilizzare un'NVA di terze parti purché le regole del traffico di rete siano configurate come discusso in questo articolo. Tieni presente che abbiamo testato questa configurazione solo con Azure Firewall, sebbene alcuni dei nostri clienti utilizzino altre appliance di terze parti. È ideale distribuire l'appliance nel cloud piuttosto che averla on-premises.
Sì, puoi. Secondo l'architettura di riferimento Azure, è consigliabile utilizzare una topologia di rete virtuale hub-spoke per pianificare meglio il futuro. Se scegli di creare la subnet di Azure Firewall nella stessa rete virtuale delle subnet dell'area di lavoro di Azure Databricks, non avrai bisogno di configurare il peering di rete virtuale come discusso nel Passaggio 6 sopra.
Sì, puoi, ma vorremmo che tenessi a mente questi punti:
Sì, per questo requisito consigliamo di utilizzare i log e le metriche di Azure Firewall.
Sì, una distribuzione Databricks gestita può essere aggiornata a un'area di lavoro VNet Injected.
Un'area di lavoro richiede due subnet, comunemente note come subnet "host" (o "pubblica") e "container" (o "privata"). Ogni subnet fornisce un indirizzo IP all'host (Azure VM) e al container (Databricks runtime, noto anche come dbr) che viene eseguito all'interno della VM.
No, quando si crea un'area di lavoro utilizzando secure cluster connectivity (SCC), nessuna delle subnet di Databricks dispone di indirizzi IP pubblici. È solo che il nome predefinito della subnet host è public-subnet. SCC garantisce che nessun traffico di rete dall'esterno della rete entri, ad esempio tramite SSH, in una delle istanze di calcolo dell'area di lavoro Databricks.
Sì, è possibile ridimensionare o modificare le dimensioni delle subnet dopo la distribuzione. È anche possibile modificare la rete virtuale o i nomi delle subnet (anteprima pubblica con limitazioni). Contattare il supporto Azure e inviare un caso di supporto per il ridimensionamento delle subnet.
Sì, fare riferimento alla documentazione pubblica.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
