Azure Databricks es un servicio de Microsoft de primera clase, integrado de forma nativa con el ecosistema de Azure para unificar datos e IA con análisis de alto rendimiento y soporte de herramientas avanzadas. Esta estrecha integración ahora incluye una actividad nativa de trabajos de Databricks en Azure Data Factory (ADF), lo que facilita más que nunca la activación de flujos de trabajo de Databricks directamente dentro de ADF.
Esta nueva actividad en ADF es una mejora inmediata, y todos los usuarios de ADF y Azure Databricks deberían considerar migrar a este patrón.
La nueva actividad Trabajos de Databricks es muy sencilla de usar:

3. En la pestaña de configuración, selecciona un flujo de trabajo de Databricks para ejecutar en la lista desplegable de trabajos (solo verás los trabajos a los que tu principal autenticado tiene acceso). En la sección de parámetros del trabajo a continuación, configura los parámetros del trabajo (si los hay) para enviarlos al flujo de trabajo de Databricks. Para saber más sobre los parámetros de trabajos de Databricks, consulta la documentación.

Eso es todo. ADF iniciará tu flujo de trabajo de Databricks y devolverá el ID de ejecución del trabajo y la URL. ADF luego esperará a que la ejecución del trabajo se complete. Lee más abajo para saber por qué este nuevo patrón es un clásico instantáneo.

Usar Azure Data Factory y Azure Databricks juntos ha sido un patrón de disponibilidad general (GA) desde 2018, cuando se lanzó con esta publicación de blog. Desde entonces, la integración ha sido un pilar para los clientes de Azure que han seguido principalmente este patrón simple:
Si bien este patrón ha sido extremadamente valioso a lo largo del tiempo, ha limitado a los clientes a los siguientes modos de operación, que les privan del valor completo de Databricks:
Si bien este patrón es escalable y nativo de Azure Data Factory y Azure Databricks, las herramientas y capacidades que ofrece han permanecido iguales desde su lanzamiento en 2018, a pesar de que Databricks ha crecido enormemente hasta convertirse en la Plataforma de Inteligencia de Datos líder en el mercado en todas las nubes.
Azure Databricks va más allá de los análisis tradicionales para ofrecer una Plataforma de Inteligencia de Datos unificada en Azure. Combina la arquitectura Lakehouse líder en la industria con IA integrada y gobernanza avanzada para ayudar a los clientes a obtener información más rápido, a menor costo y con seguridad de nivel empresarial. Las capacidades clave incluyen:
Con el lanzamiento de la actividad nativa de trabajos de Databricks en Azure Data Factory, los clientes ahora pueden ejecutar flujos de trabajo de Databricks y pasar parámetros a las ejecuciones de trabajos. Este nuevo patrón no solo resuelve las limitaciones destacadas anteriormente, sino que también permite el uso de las siguientes características en Databricks que no estaban disponibles previamente en ADF, como:
Lo más importante es que los clientes ahora pueden usar la actividad Databricks Job de ADF para aprovechar las Tareas de Publicar en Power BI en Databricks Workflows, que publicarán automáticamente Modelos Semánticos en el Servicio Power BI desde esquemas en Unity Catalog y activarán una Importación si hay tablas con modos de almacenamiento que usen Importación o Dual (instrucciones de configuración en la documentación). Una demostración sobre Tareas de Publicar en Power BI en Databricks Workflows se puede encontrar aquí. Para complementar esto, consulta la Hoja de Referencia de Mejores Prácticas de Power BI en Databricks – una guía concisa y práctica que ayuda a los equipos a configurar y optimizar sus informes para el rendimiento, el costo y la experiencia del usuario desde el principio.


La actividad Databricks Job en ADF es la Nueva Mejor Práctica
Usar la actividad Databricks Job en Azure Data Factory para iniciar Databricks Workflows es la mejor práctica de integración cuando se usan las dos herramientas. Los clientes pueden comenzar a usar este patrón de inmediato para aprovechar todas las capacidades de la Plataforma de Inteligencia de Datos de Databricks. Para los clientes que usan ADF, usar la actividad Databricks Job de ADF resultará en valor comercial inmediato y ahorro de costos. Los clientes con marcos de ETL que usan actividades de Notebook deben migrar sus marcos para usar Databricks Workflows y la nueva actividad Databricks Job de ADF y priorizar esta iniciativa en su hoja de ruta.
Comienza con una Prueba Gratuita de 14 días de Azure Databricks.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
