Ir al contenido principal

Anunciamos la disponibilidad general de Databricks Lakeflow

El enfoque unificado de la ingeniería de datos en la ingesta, la transformación y la orquestación

Lakeflow GA blog image

Publicado: 12 de junio de 2025

Anuncios10 min de lectura

Summary

  • Databricks Lakeflow resuelve los desafíos de ingeniería de datos que plantean las pilas fragmentadas al ofrecer una solución unificada para la ingesta, la transformación y la orquestación en la plataforma de inteligencia de datos.
  • Lakeflow Connect agrega más conectores a bases de datos, fuentes de archivos, aplicaciones empresariales y almacenes de datos. Zerobus introduce escrituras directas de alto rendimiento con baja latencia.
  • Lakeflow Declarative Pipelines, construido sobre el nuevo estándar abierto Spark Declarative Pipelines, presenta un nuevo IDE para ingenieros de datos para un mejor desarrollo de canalizaciones ETL.

Nos complace anunciar que Lakeflow, la solución unificada de ingeniería de datos de Databricks, ya está disponible de forma general. Incluye conectores de ingesta ampliados para fuentes de datos populares, un nuevo "IDE para la ingeniería de datos" que facilita la creación y depuración de canalizaciones de datos, y capacidades ampliadas para la puesta en marcha y la supervisión de ETL. 
 
En el Data + AI Summit del año pasado, presentamos Lakeflow, nuestra visión del futuro de la ingeniería de datos: una solución integral que incluye tres componentes principales:

  • Lakeflow Connect: Ingesta gestionada y fiable desde aplicaciones empresariales, bases de datos, sistemas de archivos y flujos en tiempo real, sin la sobrecarga de conectores personalizados o servicios externos.
  • Lakeflow Declarative Pipelines: Canalizaciones ETL escalables construidas sobre el estándar abierto de Spark Declarative Pipelines, integradas con la gobernanza y la observabilidad, y que proporcionan una experiencia de desarrollo optimizada a través de un moderno "IDE para la ingeniería de datos".
  • Lakeflow Jobs: Orquestación nativa para la Data Intelligence Platform, que admite flujos de control avanzados, desencadenadores de datos en tiempo real y una supervisión exhaustiva.

Al unificar la ingeniería de datos, Lakeflow elimina la complejidad y el coste de unir diferentes herramientas, lo que permite a los equipos de datos centrarse en la creación de valor para el negocio. Lakeflow Designer, el nuevo generador visual de canalizaciones impulsado por IA, permite a cualquier usuario crear canalizaciones de datos de calidad de producción sin escribir código.

Ha sido un año ajetreado, y estamos muy contentos de compartir las novedades a medida que Lakeflow alcanza la disponibilidad general.

Los equipos de ingeniería de datos tienen dificultades para satisfacer las necesidades de datos de su organización

En todos los sectores, la capacidad de una empresa para extraer valor de sus datos a través del análisis y la IA es su ventaja competitiva. Los datos se utilizan en todas las facetas de la organización: para crear vistas de 360° del cliente y nuevas experiencias de cliente, para habilitar nuevas fuentes de ingresos, para optimizar las operaciones y para capacitar a los empleados. A medida que las organizaciones buscan utilizar sus propios datos, terminan con un mosaico de herramientas. A los ingenieros de datos les resulta difícil abordar la complejidad de las tareas de ingeniería de datos mientras navegan por pilas de herramientas fragmentadas que son difíciles de integrar y costosas de mantener.

Un reto clave es la gobernanza de los datos: la fragmentación de las herramientas dificulta la aplicación de normas, lo que provoca lagunas en el descubrimiento, el linaje y la observabilidad. Un reciente estudio de The Economist reveló que "la mitad de los ingenieros de datos afirman que la gobernanza ocupa más tiempo que cualquier otra cosa". La misma encuesta preguntó a los ingenieros de datos qué reportaría los mayores beneficios para su productividad, e identificaron "simplificar las conexiones de las fuentes de datos para la ingesta de datos", "utilizar una única solución unificada en lugar de múltiples herramientas" y "una mejor visibilidad de las canalizaciones de datos para encontrar y solucionar problemas" entre las principales intervenciones.

Una solución unificada de ingeniería de datos integrada en la Data Intelligence Platform

Lakeflow ayuda a los equipos de datos a afrontar estos retos proporcionando una solución integral de ingeniería de datos en la Data Intelligence Platform. Los clientes de Databricks pueden utilizar Lakeflow para todos los aspectos de la ingeniería de datos: ingesta, transformación y orquestación. Dado que todas estas capacidades están disponibles como parte de una única solución, no se pierde tiempo en integraciones complejas de herramientas ni se incurre en costes adicionales para licenciar herramientas externas.

Además, Lakeflow está integrado en la Data Intelligence Platform y, con ello, vienen formas consistentes de desplegar, gobernar y observar todos los datos y casos de uso de la IA. Por ejemplo, para la gobernanza, Lakeflow se integra con Unity Catalog, la solución de gobernanza unificada para la Data Intelligence Platform. A través de Unity Catalog, los ingenieros de datos obtienen una visibilidad y un control totales sobre cada parte de la canalización de datos, lo que les permite comprender fácilmente dónde se utilizan los datos y solucionar los problemas a medida que surgen.

Ya sea el control de versiones del código, el despliegue de canalizaciones CI/CD, la seguridad de los datos o la observación de métricas operativas en tiempo real, Lakeflow aprovecha la Data Intelligence Platform para proporcionar un lugar único y coherente para gestionar las necesidades de ingeniería de datos de extremo a extremo.

Lakeflow Connect: Más conectores y escrituras directas rápidas en Unity Catalog

El año pasado, hemos visto una fuerte adopción de Lakeflow Connect con más de 2000 clientes que utilizan nuestros conectores de ingesta para desbloquear el valor de sus datos. Un ejemplo es Porsche Holding Salzburg, que ya está viendo los beneficios de utilizar Lakeflow Connect para unificar sus datos de CRM con el análisis para mejorar la experiencia del cliente.

"El uso del conector de Salesforce de Lakeflow Connect nos ayuda a cerrar una brecha crítica para Porsche desde el punto de vista empresarial en cuanto a facilidad de uso y precio. Desde el punto de vista del cliente, podemos crear una experiencia de cliente completamente nueva que fortalece el vínculo entre Porsche y el cliente con un viaje del cliente unificado y no fragmentado".   — Lucas Salzburger, Jefe de Proyecto, Porsche Holding Salzburg

Hoy, estamos ampliando la amplitud de las fuentes de datos admitidas con más conectores integrados para una ingesta sencilla y fiable. Los conectores de Lakeflow están optimizados para una extracción eficiente de datos, incluyendo el uso de métodos de captura de datos de cambio (CDC) personalizados para cada fuente de datos respectiva.

Estos conectores gestionados ahora abarcan aplicaciones empresariales, fuentes de archivos, bases de datos y almacenes de datos, que se están implementando en varios estados de lanzamiento

  • Aplicaciones empresariales: Salesforce, Workday, ServiceNow, Google Analytics, Microsoft Dynamics 365, Oracle NetSuite 
  • Fuentes de archivos: SFTP, SharePoint
  • Bases de datos: Microsoft SQL Server, Oracle Database, MySQL, PostgreSQL
  • Almacenes de datos: Snowflake, Amazon Redshift, Google BigQuery

Además, un caso de uso común que vemos de los clientes es la ingesta de datos de eventos en tiempo real, normalmente con una infraestructura de bus de mensajes alojada fuera de su plataforma de datos. Para simplificar este caso de uso en Databricks, anunciamos Zerobus, una API de Lakeflow Connect que permite a los desarrolladores escribir datos de eventos directamente en su lakehouse con un rendimiento muy alto (100 MB/s) con una latencia casi en tiempo real (<5 segundos). Esta infraestructura de ingesta optimizada proporciona rendimiento a escala y está unificada con la Databricks Platform para que pueda aprovechar de inmediato herramientas de análisis e IA más amplias.

"Joby puede utilizar nuestros agentes de fabricación con Zerobus para enviar gigabytes por minuto de datos de telemetría directamente a nuestro lakehouse, acelerando el tiempo de obtención de información, todo ello con Databricks Lakeflow y la Data Intelligence Platform".  — Dominik Müller, Jefe de Sistemas de Fábrica, Joby Aviation Inc.
LÍDER 5X

Gartner®: Databricks, líder en bases de datos en la nube

Lakeflow Declarative Pipelines: Desarrollo acelerado de ETL basado en estándares abiertos

Después de años de operar y evolucionar DLT con miles de clientes a través de petabytes de datos, hemos tomado todo lo que aprendimos y hemos creado un nuevo estándar abierto: Spark Declarative Pipelines. Esta es la siguiente evolución en el desarrollo de canalizaciones: declarativa, escalable y abierta.

Y hoy, nos complace anunciar la disponibilidad general de Lakeflow Declarative Pipelines, que lleva el poder de Spark Declarative Pipelines a la Databricks Data Intelligence Platform. Es 100% compatible con el código fuente del estándar abierto, por lo que puede desarrollar canalizaciones una vez y ejecutarlas en cualquier lugar. También es 100% compatible con las canalizaciones DLT, por lo que los usuarios existentes pueden adoptar las nuevas capacidades sin reescribir nada. Lakeflow Declarative Pipelines son una experiencia totalmente gestionada en Databricks: computación sin servidor manos libres, integración profunda con Unity Catalog para una gobernanza unificada y un IDE para la ingeniería de datos creado específicamente.

El nuevo IDE para la ingeniería de datos es un entorno moderno e integrado creado para agilizar la experiencia de desarrollo de canalizaciones. Incluye

  • Código y DAG uno al lado del otro, con visualización de dependencias y vistas previas de datos instantáneas
  • Depuración sensible al contexto que muestra los problemas en línea
  • Integración Git integrada para un desarrollo rápido
  • Creación y configuración asistidas por IA

Interfaz de usuario de Lakeflow Declarative Pipelines

"El nuevo editor lo reúne todo en un solo lugar: código, gráfico de canalización, resultados, configuración y solución de problemas. Se acabaron los malabarismos con las pestañas del navegador o la pérdida de contexto. El desarrollo se siente más enfocado y eficiente. Puedo ver directamente el impacto de cada cambio de código. Un solo clic me lleva a la línea de error exacta, lo que agiliza la depuración. Todo se conecta: el código con los datos, el código con las tablas y las tablas con el código. Cambiar entre canalizaciones es fácil, y funciones como las carpetas de utilidades autoconfiguradas eliminan la complejidad. Esta es la forma en que debería funcionar el desarrollo de canalizaciones".  — Chris Sharratt, Ingeniero de Datos, Rolls-Royce

Lakeflow Declarative Pipelines son ahora la forma unificada de construir canalizaciones escalables, gobernadas y continuamente optimizadas en Databricks, ya sea que esté trabajando en código o visualmente a través de Lakeflow Designer, una nueva experiencia sin código que permite a los profesionales de datos de cualquier habilidad técnica construir canalizaciones de datos fiables.

Lakeflow Jobs: Orquestación fiable para todas las cargas de trabajo con observabilidad unificada

Databricks Workflows ha sido durante mucho tiempo de confianza para orquestar flujos de trabajo de misión crítica, con miles de clientes que confían en nuestra plataforma para que las canalizaciones ejecuten más de 110 millones de trabajos cada semana. Con la disponibilidad general de Lakeflow, estamos evolucionando Workflows a Lakeflow Jobs, unificando este orquestador nativo y maduro con el resto de la pila de ingeniería de datos.

Interfaz de usuario de Lakeflow Jobs

Lakeflow Jobs le permite orquestar cualquier proceso en la Data Intelligent Platform con un conjunto creciente de capacidades, incluyendo:

  • Soporte para una colección completa de tipos de tareas para orquestar flujos que incluyen Declarative Pipelines, notebooks, consultas SQL, transformaciones dbt e incluso la publicación de paneles de control de AI/BI o a Power BI.
  • Funciones de flujo de control como la ejecución condicional, los bucles y el establecimiento de parámetros a nivel de tarea o trabajo.
  • Desencadenadores para ejecuciones de trabajos más allá de la simple programación con desencadenadores de llegada de archivos y los nuevos desencadenadores de actualización de tablas, que garantizan que los trabajos solo se ejecuten cuando haya nuevos datos disponibles.
  • Trabajos sin servidor que proporcionan optimizaciones automáticas para un mejor rendimiento y un menor coste.
"Con los Lakeflow Jobs sin servidor, hemos logrado una mejora de 3 a 5 veces en la latencia. Lo que antes tardaba 10 minutos ahora tarda solo 2 o 3 minutos, lo que reduce significativamente los tiempos de procesamiento. Esto nos ha permitido ofrecer bucles de retroalimentación más rápidos para los jugadores y entrenadores, asegurando que obtengan la información que necesitan casi en tiempo real para tomar decisiones procesables".  — Bryce Dugar, Gerente de Ingeniería de Datos, Cincinnati Reds

Como parte de la unificación de Lakeflow, Lakeflow Jobs aporta observabilidad de extremo a extremo en cada capa del ciclo de vida de los datos, desde la ingesta de datos hasta la transformación y la orquestación compleja. Un conjunto de herramientas diverso se adapta a cada necesidad de supervisión: las herramientas de supervisión visual proporcionan búsqueda, estado y seguimiento de un vistazo, las herramientas de depuración como los perfiles de consulta ayudan a optimizar el rendimiento, las alertas y las tablas del sistema ayudan a detectar problemas y ofrecen información histórica y las expectativas de calidad de los datos hacen cumplir las reglas y garantizan altos estándares para las necesidades de su canalización de datos.

Comience a utilizar Lakeflow

Lakeflow Connect, Lakeflow Declarative Pipelines y Lakeflow Jobs están disponibles de forma general para todos los clientes de Databricks hoy mismo. Obtenga más información sobre Lakeflow aquí y visite la documentación oficial para comenzar con Lakeflow para su próximo proyecto de ingeniería de datos.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.