Última actualización: 30 de octubre de 2025
Antes de empezar, asegúrate de estar familiarizado con estos temas.
La Plataforma Lakehouse de Azure Databricks proporciona un conjunto unificado de herramientas para crear, implementar, compartir y mantener soluciones de datos de nivel empresarial a escala. Databricks se integra con el almacenamiento y la seguridad en la nube de tu cuenta, y administra e implementa la infraestructura en la nube en tu nombre.
El objetivo principal de este artículo es mitigar los siguientes riesgos:
Azure Databricks es un servicio de primera clase y es compatible con las herramientas y servicios nativos de Azure que ayudan a proteger los datos en tránsito y en reposo. Azure Databricks admite controles de seguridad de red, como rutas definidas por el usuario, reglas de firewall y Network Security Groups.
Además de los objetivos técnicos de este blog, también queremos asegurarnos de que los conceptos que presentamos tengan en cuenta:
Señalarémos áreas de ahorro o preocupación de costos, al tiempo que intentaremos aclarar por qué y cómo funcionan las cosas siempre que sea posible.
Antes de empezar, echemos un vistazo rápido a la arquitectura de implementación de Azure Databricks aquí:
Azure Databricks está estructurado para facilitar la colaboración segura entre equipos, mientras administra muchos servicios de back-end, lo que te permite concentrarte en la ciencia de datos, el análisis de datos y la ingeniería de datos.
Azure Databricks está estructurado en torno a dos componentes clave: el plano de control y el plano de cómputo.
Plano de control:
El plano de control de Azure Databricks, administrado por Databricks dentro de su propia cuenta de Azure, actúa como la inteligencia central de la plataforma. Proporciona servicios de back-end para la autenticación de usuarios, la orquestación de clústeres y trabajos, y la administración del espacio de trabajo, ofreciendo la interfaz web y los puntos de conexión de API para la interacción del servicio.
Si bien orquesta el ciclo de vida de los recursos de cómputo, no procesa datos directamente. En cambio, el plano de control dirige el procesamiento de datos al plano de cómputo separado, que opera dentro de la suscripción de Azure del cliente o en el tenant de Databricks para implementaciones sin servidor. Los comandos de notebook y muchas otras configuraciones del espacio de trabajo se almacenan en el plano de control y se cifran en reposo.
Plano de cómputo:
El plano de cómputo es responsable de procesar tus datos. El tipo específico de cómputo utilizado, sin servidor o clásico, depende de los recursos de cómputo y la configuración del espacio de trabajo elegidos. Tanto el cómputo sin servidor como el clásico comparten algunos recursos, como el almacenamiento predeterminado del espacio de trabajo (dbfs) y las identidades administradas que están vinculadas a tu tenant de Azure.
Cómputo sin servidor
Para el cómputo sin servidor, los recursos operan dentro de un plano de cómputo en Azure administrado por Databricks. Azure Databricks maneja casi toda la infraestructura subyacente, incluida la provisión, el escalado y el mantenimiento. Este enfoque ofrece:
Los recursos sin servidor están disponibles según sea necesario, lo que reduce los costos de tiempo de inactividad. También se ejecutan dentro de un límite de red seguro en la cuenta de Azure Databricks, con múltiples capas de seguridad y controles de red.
Cómputo clásico de Azure Databricks
Con el cómputo clásico de Azure Databricks, los recursos se encuentran dentro de tu tenant de Azure Cloud. Esto proporciona cómputo administrado por el cliente, donde los clústeres de Databricks se ejecutan en recursos dentro de tu suscripción de Azure, no en el tenant de Databricks. Esto ofrece:
Nota importante: Los clústeres clásicos, incluidos los almacenes SQL clásicos, pueden experimentar tiempos de inicio más largos en comparación con las opciones sin servidor debido al requisito de aprovisionar recursos de tu suscripción de Azure.
Implementación de espacio de trabajo de Databricks solo sin servidor (nuevo): Los espacios de trabajo solo sin servidor son espacios de trabajo que solo pueden ejecutar cómputo sin servidor. No hay cómputo clásico, por lo que todos los recursos del sistema son administrados por Azure Databricks, que se encarga de toda la infraestructura subyacente, incluido el almacenamiento predeterminado del espacio de trabajo.

Comprendamos la ruta de comunicación que nos gustaría proteger. Azure Databricks puede ser consumido por usuarios y aplicaciones de numerosas maneras, como se muestra a continuación:

Una implementación de espacio de trabajo de Databricks incluye las siguientes rutas de red que podrías asegurar:
Desde la perspectiva del usuario final, el elemento 1 requiere controles de entrada y los elementos 2 a 6 requieren controles de salida.
En este artículo, nuestra área de enfoque es asegurar el tráfico de salida desde tus cargas de trabajo de Databricks, proporcionar al lector una guía prescriptiva sobre la arquitectura de implementación propuesta y, mientras lo hacemos, compartiremos las mejores prácticas para asegurar también el tráfico de entrada (usuario/cliente a Databricks).
Hay varias opciones disponibles para crear un espacio de trabajo seguro de Azure Databricks accesible desde conexiones locales o VPN (sin acceso a Internet). Como práctica recomendada, recomendamos proteger el acceso al espacio de trabajo usando puntos de conexión privados (Private Link), ya sea mediante una implementación estándar o simplificada. La opción recomendada es la implementación estándar. El espacio de trabajo se puede implementar a través del Portal de Azure o mediante las plantillas de ARM "Todo en uno" o utilizando las plantillas de Terraform de la Arquitectura de Referencia de Seguridad (SRA), que permiten la implementación de espacios de trabajo de Databricks y la infraestructura en la nube configurada con las mejores prácticas de seguridad.
Private Link de front-end frente a back-end: Private Link de front-end, también conocido como de usuario a espacio de trabajo. Private Link de back-end, también conocido como del plano de cómputo al plano de control:
Implementación estándar (recomendada): Para mejorar la seguridad, Databricks recomienda usar un punto de conexión privado separado para las conexiones de front-end (cliente) desde una VNet de tránsito separada. Puede implementar conexiones Private Link tanto de front-end como de back-end, o solo la conexión de back-end. Use una VNet separada para encapsular el acceso del usuario, separada de la VNet que utiliza para sus recursos de cómputo en el plano de datos clásico. Cree puntos de conexión Private Link separados para el acceso de back-end y front-end. Siga las instrucciones en Habilitar Azure Private Link como implementación estándar.
Se necesita consideración adicional para el acceso al almacenamiento del sistema, la mensajería y los metadatos desde el plano de cómputo, ya que no se puede acceder a estos servicios a través del punto de conexión privado de back-end.
Cuentas de almacenamiento administradas por el sistema (solo plano de cómputo clásico): Estas cuentas de almacenamiento son necesarias para iniciar y supervisar clústeres de Databricks. Estas cuentas de almacenamiento se encuentran en el tenant de Databricks y deben permitirse a través de políticas de puntos de conexión de servicio (recomendado); las alternativas serían usar etiquetas de servicio de almacenamiento, que tienden a ser demasiado amplias y facilitan la exfiltración de datos, o la lista de permitidos individual del FQDN o las direcciones IP (no recomendado):
Almacenamiento predeterminado del espacio de trabajo (DBFS): Sistema de archivos distribuido común utilizado para espacio temporal, servicios, resultados temporales de SQL (recuperación en la nube), controladores. Se puede proteger mediante puntos de conexión privados utilizando la función DBFS privada para el plano de cómputo clásico y el punto de conexión de servicio o el punto de conexión privado para el cómputo sin servidor.
Mensajería: (Event Hub, solo plano de cómputo clásico) Este es un recurso accesible públicamente utilizado para el seguimiento del linaje y otra mensajería ligera. Se puede permitir a través de la etiqueta de servicio EventHub en la UDR y/o el Firewall.
Metadatos: (SQL, solo plano de cómputo clásico): Este es un recurso accesible públicamente utilizado para el tráfico heredado del metastore de Hive.
Acceso a la cuenta de almacenamiento del nivel de usuario: Cuentas ALDS y Blob Storage utilizadas para datos del cliente en contraposición a datos del sistema.
Recursos de primera parte: Cosmos DB, Azure SQL, DataFactory, etc…
Recursos externos: S3, BigQuery, Snowflake, etc…
Recomendamos una arquitectura de referencia de hub y spoke. En este modelo, la red virtual hub aloja la infraestructura compartida necesaria para conectarse a orígenes validados y, opcionalmente, a entornos locales. Las redes virtuales spoke se emparejan con el hub y contienen espacios de trabajo aislados de Azure Databricks para diferentes unidades de negocio o equipos.
Esta arquitectura de hub-and-spoke permite la creación de múltiples VNets de spoke adaptadas a diversos propósitos y equipos. El aislamiento también se puede lograr creando subredes separadas para diferentes equipos dentro de una única y gran red virtual. En estos casos, puede establecer múltiples espacios de trabajo aislados de Azure Databricks, cada uno dentro de su propio par de subredes, y desplegar Azure Firewall en una subred separada dentro de la misma red virtual.
| Elemento | Detalles |
|---|---|
| Red Virtual |
|
| Subredes | Tres subredes: Host (Pública), Contenedor (Privada) y Subred de punto de conexión privado (para alojar puntos de conexión privados para el almacenamiento, DBFS y otros servicios de Azure que pueda utilizar) |
| Tablas de Rutas | Canalizar el tráfico de salida desde las subredes de Databricks hacia el dispositivo de red, Internet o las fuentes de datos locales |
| Azure Firewall | Inspeccionar cualquier tráfico de salida y tomar acciones de acuerdo con las políticas de permitir/denegar |
| Zonas DNS Privadas | Proporcionar un servicio DNS fiable y seguro para administrar y resolver nombres de dominio en una red virtual (se pueden crear automáticamente como parte de la implementación si no están disponibles) |
| Políticas de Puntos de Conexión de Servicio | Políticas para permitir el acceso a cualquier cuenta de almacenamiento que no sea de punto de conexión privado, incluido el almacenamiento del sistema para la cuenta de almacenamiento del espacio de trabajo (dbfs), el almacenamiento de artefactos y registros, y las tablas del sistema. |
| Azure Key Vault | Almacena la CMK para cifrar DBFS, Disco Administrado y Servicios Administrados. |
| Conector de Acceso de Azure Databricks | Requerido si se habilita Unity Catalog. Para conectar identidades administradas a una cuenta de Azure Databricks con el fin de acceder a los datos registrados en Unity Catalog |
| Lista de servicios de Azure Databricks para permitir en el Firewall | Siga esta documentación pública y cree una lista de todas las IP y nombres de dominio relevantes para su implementación de Databricks |

Implementa Azure Firewall (u otro Dispositivo de Red Virtual) en una red virtual de concentrador. Con Azure Firewall, podrías configurar:
Si utilizas un dispositivo de firewall de terceros en lugar de Azure Firewall, eso también funciona. Sin embargo, ten en cuenta que cada producto tiene sus propios matices y es mejor involucrar a los equipos de soporte de productos y seguridad de red relevantes para solucionar cualquier problema pertinente.
El tráfico de red no local desde las subredes del plano de cómputo de Databricks debe enrutarse a través de un dispositivo de egreso como Azure Firewall utilizando una ruta definida por el usuario (por ejemplo, una ruta predeterminada 0.0.0.0/0). Esto asegura que todo el tráfico saliente sea inspeccionado. Sin embargo, el egreso al plano de control, utilizando puntos de conexión privados, omitirá estas tablas de ruta y los dispositivos de egreso. Otros componentes del plano de control, como SQL, Event Hubs y almacenamiento, se enrutarán a través de tu dispositivo de egreso.
Consideración importante: Ten en cuenta que esto permitirá el egreso a cuentas y servicios de almacenamiento en toda la región, no solo a aquellos a los que pretendes acceder. Este es un factor crítico a considerar cuidadosamente al diseñar tu arquitectura de seguridad.
Sí, Service Endpoints proporcionan conectividad segura y directa a servicios de Azure propiedad y administrados por clientes (por ejemplo, ADLS gen2, Azure KeyVault o Event Hub) a través de una ruta optimizada en la red troncal de Azure. Service Endpoints se pueden usar para asegurar la conectividad a recursos externos de Azure solo a tu red virtual.
Sí, Service Endpoint Policies están disponibles en vista previa pública a partir del 10/1/2025. Ver: Configurar políticas de Service Endpoint de Azure Virtual Network para el acceso al almacenamiento desde cómputo clásico
Sí, puedes usar un NVA de terceros siempre que las reglas de tráfico de red est én configuradas como se describe en este artículo. Ten en cuenta que hemos probado esta configuración solo con Azure Firewall, aunque algunos de nuestros clientes utilizan otros dispositivos de terceros. Es ideal implementar el dispositivo en la nube en lugar de tenerlo en las instalaciones.
Sí, puedes. Según la arquitectura de referencia de Azure, es aconsejable utilizar una topología de red virtual de concentrador y radios para planificar mejor el futuro. Si eliges crear la subred de Azure Firewall en la misma red virtual que las subredes del espacio de trabajo de Azure Databricks, no necesitarás configurar el peering de red virtual como se describe en el Paso 6 anterior.
Sí, puedes, pero nos gustaría que tuvieras en cuenta estos puntos:
Sí, recomendamos usar los Registros y métricas de Azure Firewall para ese requisito.
Sí, el despliegue administrado de Databricks se puede actualizar a un área de trabajo Inyectada en VNet.
Un área de trabajo requiere dos subredes, conocidas popularmente como subredes de "host" (también conocidas como "públicas") y "contenedor" (también conocidas como "privadas"). Cada subred proporciona una dirección IP al host (Azure VM) y al contenedor (el runtime de Databricks, también conocido como dbr) que se ejecuta dentro de la VM.
No, cuando crea un área de trabajo utilizando la conectividad segura de clúster, también conocida como SCC, ninguna de las subredes de Databricks tiene direcciones IP públicas. Es solo que el nombre predeterminado de la subred de host es subred-pública. SCC se asegura de que ningún tráfico de red desde fuera de su red entre, por ejemplo, por SSH a una de las instancias de cómputo del área de trabajo de Databricks.
Sí, es posible cambiar el tamaño o modificar los tamaños de las subredes después del despliegue. También es posible cambiar la red virtual o cambiar los nombres de las subredes (vista previa pública controlada). Comuníquese con el soporte de Azure y envíe un caso de soporte para cambiar el tamaño de las subredes.
Sí, consulte la documentación pública.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
