16 de mayo de 2025

Mejores Prácticas: Iniciar flujos de trabajo de Databricks de forma nativa en Azure Data Factory

Los clientes de Azure Data Factory ahora pueden aprovechar al máximo la Plataforma de Inteligencia de Datos de Databricks utilizando los Flujos de trabajo de Databricks

por Leo Furlong y Prashanth Babu Velanati Venkata

La actividad de trabajos de Databricks en Azure Data Factory es el método recomendado para orquestar trabajos en Databricks.
Esta integración proporciona valor comercial inmediato y ahorros de costos al dar acceso a toda la Plataforma de Inteligencia de Datos.
Los usuarios con marcos de ETL que utilizan actividades de Notebook deben migrar a Flujos de trabajo de Databricks y a la actividad de trabajos de Databricks de ADF.

Azure Databricks es un servicio de Microsoft de primera clase, integrado de forma nativa con el ecosistema de Azure para unificar datos e IA con análisis de alto rendimiento y soporte de herramientas avanzadas. Esta estrecha integración ahora incluye una actividad nativa de trabajos de Databricks en Azure Data Factory (ADF), lo que facilita más que nunca la activación de flujos de trabajo de Databricks directamente dentro de ADF.

Esta nueva actividad en ADF es una mejora inmediata, y todos los usuarios de ADF y Azure Databricks deberían considerar migrar a este patrón.

La nueva actividad Trabajos de Databricks es muy sencilla de usar:

En tu canalización de ADF, arrastra la actividad Trabajos de Databricks a la pantalla
En la pestaña de Azure Databricks, selecciona un servicio vinculado de Databricks para la autenticación en el espacio de trabajo de Azure Databricks
- Puedes autenticarte usando una de estas opciones:
  - un token PAT
  - la identidad administrada asignada por el sistema de ADF, o
  - una identidad administrada asignada por el usuario
- Aunque el servicio vinculado requiere que configures un clúster, este clúster no se crea ni se utiliza al ejecutar esta actividad. Se conserva para compatibilidad con otros tipos de actividad

jobs activity

3. En la pestaña de configuración, selecciona un flujo de trabajo de Databricks para ejecutar en la lista desplegable de trabajos (solo verás los trabajos a los que tu principal autenticado tiene acceso). En la sección de parámetros del trabajo a continuación, configura los parámetros del trabajo (si los hay) para enviarlos al flujo de trabajo de Databricks. Para saber más sobre los parámetros de trabajos de Databricks, consulta la documentación.

Ten en cuenta que el trabajo y los parámetros del trabajo se pueden configurar con contenido dinámico

job parameter

Eso es todo. ADF iniciará tu flujo de trabajo de Databricks y devolverá el ID de ejecución del trabajo y la URL. ADF luego esperará a que la ejecución del trabajo se complete. Lee más abajo para saber por qué este nuevo patrón es un clásico instantáneo.

gif pbi

Iniciar flujos de trabajo de Databricks desde ADF te permite sacar más provecho de tu inversión en Azure Databricks

Usar Azure Data Factory y Azure Databricks juntos ha sido un patrón de disponibilidad general (GA) desde 2018, cuando se lanzó con esta publicación de blog. Desde entonces, la integración ha sido un pilar para los clientes de Azure que han seguido principalmente este patrón simple:

Usar ADF para cargar datos en Azure Storage a través de sus más de 100 conectores utilizando un Integration Runtime autoalojado para conexiones privadas o locales
Orquestar cuadernos de Databricks a través de la actividad nativa de cuadernos de Databricks para implementar transformaciones de datos escalables en Databricks utilizando tablas de Delta Lake en ADLS

Si bien este patrón ha sido extremadamente valioso a lo largo del tiempo, ha limitado a los clientes a los siguientes modos de operación, que les privan del valor completo de Databricks:

Usar cómputo de propósito general para ejecutar trabajos y evitar tiempos de lanzamiento de clústeres -> encontrarse con problemas de vecinos ruidosos y pagar por cómputo de propósito general para trabajos automatizados
Esperar lanzamientos de clústeres por ejecución de cuaderno al usar cómputo de trabajos -> los clústeres clásicos se inician por ejecución de cuaderno, incurriendo en tiempo de lanzamiento de clúster para cada uno, incluso para un DAG de cuadernos
Gestionar pools para reducir los tiempos de lanzamiento de clústeres de trabajos -> los pools pueden ser difíciles de gestionar y a menudo pueden llevar a pagar por VMs que no se están utilizando
Usar un patrón de permisos excesivamente permisivo para la integración entre ADF y Azure Databricks -> la integración requiere administrador del espacio de trabajo O el permiso de creación de clúster
Sin capacidad para usar nuevas funciones en Databricks como Databricks SQL, DLT o Serverless

Si bien este patrón es escalable y nativo de Azure Data Factory y Azure Databricks, las herramientas y capacidades que ofrece han permanecido iguales desde su lanzamiento en 2018, a pesar de que Databricks ha crecido enormemente hasta convertirse en la Plataforma de Inteligencia de Datos líder en el mercado en todas las nubes.

Azure Databricks va más allá de los análisis tradicionales para ofrecer una Plataforma de Inteligencia de Datos unificada en Azure. Combina la arquitectura Lakehouse líder en la industria con IA integrada y gobernanza avanzada para ayudar a los clientes a obtener información más rápido, a menor costo y con seguridad de nivel empresarial. Las capacidades clave incluyen:

Estándares OSS y abiertos
Un catálogo Lakehouse líder en la industria a través de Unity Catalog para asegurar datos e IA en código, lenguajes y cómputo dentro y fuera de Azure Databricks
Rendimiento y relación precio-rendimiento de primer nivel para ETL
Capacidades integradas para ML tradicional y GenAI, incluida la optimización de LLMs, el uso de modelos fundacionales (incluido Claude Sonnet), la creación de aplicaciones de Agentes y el servicio de modelos
DW de primer nivel en el Lakehouse con Databricks SQL
Publicación automatizada e integración con Power BI a través de la funcionalidad Publicar en Power BI que se encuentra en Unity Catalog y Flujos de trabajo

Con el lanzamiento de la actividad nativa de trabajos de Databricks en Azure Data Factory, los clientes ahora pueden ejecutar flujos de trabajo de Databricks y pasar parámetros a las ejecuciones de trabajos. Este nuevo patrón no solo resuelve las limitaciones destacadas anteriormente, sino que también permite el uso de las siguientes características en Databricks que no estaban disponibles previamente en ADF, como:

Programar un DAG de Tareas dentro de Databricks
Usar integraciones de Databricks SQL
Ejecutar pipelines de DLT
Usar la integración de dbt con un SQL Warehouse
Usar la reutilización de Classic Job Cluster para reducir los tiempos de lanzamiento de clústeres
Usar cómputo de Serverless Jobs
Funcionalidad estándar de Databricks Workflows como Ejecutar como, Valores de Tarea, Ejecuciones Condicionales como Si/Entonces y Para Cada, Tarea de IA/BI, Reparar Ejecuciones, Notificaciones/Alertas, integración Git, soporte DABs, linaje incorporado, colas y ejecuciones concurrentes, y mucho más...

Lo más importante es que los clientes ahora pueden usar la actividad Databricks Job de ADF para aprovechar las Tareas de Publicar en Power BI en Databricks Workflows, que publicarán automáticamente Modelos Semánticos en el Servicio Power BI desde esquemas en Unity Catalog y activarán una Importación si hay tablas con modos de almacenamiento que usen Importación o Dual (instrucciones de configuración en la documentación). Una demostración sobre Tareas de Publicar en Power BI en Databricks Workflows se puede encontrar aquí. Para complementar esto, consulta la Hoja de Referencia de Mejores Prácticas de Power BI en Databricks – una guía concisa y práctica que ayuda a los equipos a configurar y optimizar sus informes para el rendimiento, el costo y la experiencia del usuario desde el principio.

pbi task

publish to pbi task
La actividad Databricks Job en ADF es la Nueva Mejor Práctica

Usar la actividad Databricks Job en Azure Data Factory para iniciar Databricks Workflows es la mejor práctica de integración cuando se usan las dos herramientas. Los clientes pueden comenzar a usar este patrón de inmediato para aprovechar todas las capacidades de la Plataforma de Inteligencia de Datos de Databricks. Para los clientes que usan ADF, usar la actividad Databricks Job de ADF resultará en valor comercial inmediato y ahorro de costos. Los clientes con marcos de ETL que usan actividades de Notebook deben migrar sus marcos para usar Databricks Workflows y la nueva actividad Databricks Job de ADF y priorizar esta iniciativa en su hoja de ruta.

Comienza con una Prueba Gratuita de 14 días de Azure Databricks.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.

Ver todos los blogs

Iniciar flujos de trabajo de Databricks desde ADF te permite sacar más provecho de tu inversión en Azure Databricks

Recibe las últimas publicaciones en tu bandeja de entrada

Sign up