En el Data + AI Summit de este año, presentamos el IDE para Ingeniería de Datos: una nueva experiencia de desarrollador diseñada específicamente para crear pipelines de datos directamente en el Workspace de Databricks. Como la nueva experiencia de desarrollo predeterminada, el IDE refleja nuestro enfoque decidido para la ingeniería de datos: declarativo por defecto, modular en estructura, integrado con Git y asistido por IA.
En resumen, el IDE para Ingeniería de Datos es todo lo que necesitas para crear y probar pipelines de datos, todo en un solo lugar.
Con esta nueva experiencia de desarrollo disponible en Vista Previa Pública, nos gustaría usar este blog para explicar por qué los pipelines declarativos se benefician de una experiencia de IDE dedicada y destacar las características clave que hacen que el desarrollo de pipelines sea más rápido, organizado y fácil de depurar.
Los pipelines declarativos simplifican la ingeniería de datos al permitirte declarar lo que quieres lograr en lugar de escribir instrucciones detalladas paso a paso sobre cómo construirlo. Aunque la programación declarativa es un enfoque extremadamente potente para construir pipelines de datos, trabajar con múltiples conjuntos de datos y gestionar el ciclo de vida completo del desarrollo puede volverse difícil de manejar sin herramientas dedicadas.
Por eso, creamos una experiencia IDE completa para pipelines declarativos directamente en el Workspace de Databricks. Disponible como un nuevo editor para Lakeflow Spark Declarative Pipelines, te permite declarar conjuntos de datos y restricciones de calidad en archivos, organizarlos en carpetas y ver las conexiones a través de un grafo de dependencias generado automáticamente que se muestra junto a tu código. El editor evalúa tus archivos para determinar el plan de ejecución más eficiente y te permite iterar rápidamente al volver a ejecutar archivos individuales, un conjunto de conjuntos de datos modificados o todo el pipeline.
El editor también muestra información de ejecución, proporciona vistas previas de datos integradas e incluye herramientas de depuración para ayudarte a ajustar tu código. También se integra con el control de versiones y la ejecución programada con Lakeflow Jobs. Por lo tanto, puedes realizar todas las tareas relacionadas con tu pipeline desde una única interfaz.
Al consolidar todas estas capacidades en una única interfaz similar a un IDE, el editor permite las prácticas y la productividad que los ingenieros de datos esperan de un IDE moderno, al tiempo que se mantiene fiel al paradigma declarativo.
El video incrustado a continuación muestra estas características en acción, con más detalles cubiertos en las siguientes secciones.
"El nuevo editor lo reúne todo en un solo lugar: código, grafo del pipeline, resultados, configuración y solución de problemas. No más malabarismos con pestañas del navegador o pérdida de contexto. El desarrollo se siente más enfocado y eficiente. Puedo ver directamente el impacto de cada cambio de código. Un clic me lleva a la línea de error exacta, lo que acelera la depuración. Todo está conectado: código a datos; código a tablas; tablas al código. Cambiar entre pipelines es fácil, y características como las carpetas de utilidad autoconfiguradas eliminan la complejidad. Esto se siente como debería ser el desarrollo de pipelines."— Chris Sharratt, Ingeniero de Datos, Rolls-Royce
"En mi opinión, el nuevo Editor de Pipelines es una gran mejora. Me resulta mucho más fácil gestionar estructuras de carpetas complejas y cambiar entre archivos gracias a la experiencia de pestañas múltiples. La vista DAG integrada realmente me ayuda a mantenerme al tanto de pipelines intrincados, y el manejo de errores mejorado cambia las reglas del juego: me ayuda a identificar problemas rápidamente y agiliza mi flujo de trabajo de desarrollo."— Matt Adams, Desarrollador Senior de Plataformas de Datos, PacificSource Health Plans
Diseñamos el editor para que incluso los usuarios nuevos en el paradigma declarativo puedan crear rápidamente su primer pipeline.
Estas características ayudan a los usuarios a ser productivos rápidamente y a transicionar su trabajo a pipelines listos para producción.
Construir pipelines es un proceso iterativo. El editor agiliza este proceso con características que simplifican la creación y hacen que sea más rápido probar y refinar la lógica:
Estas capacidades reducen el cambio de contexto y mantienen a los desarrolladores enfocados en construir la lógica del pipeline.
El desarrollo de pipelines implica más que escribir código. La nueva experiencia de desarrollador reúne todas las tareas relacionadas en una única interfaz, desde la modularización del código para su mantenibilidad hasta la configuración de la automatización y la observabilidad:
Al unificar estas capacidades, el editor agiliza tanto el desarrollo diario como las operaciones de pipeline a largo plazo.
Consulta el video a continuación para obtener más detalles sobre todas estas características en acción.
No nos detenemos aquí. Aquí tienes un adelanto de lo que estamos explorando actualmente:
Haznos saber qué más te gustaría ver: tus comentarios impulsan lo que construimos.
El IDE para ingeniería de datos está disponible en todas las nubes. Para habilitarlo, abre un archivo asociado con un pipeline existente, haz clic en el banner 'Lakeflow Pipelines Editor: OFF' y actívalo. También puedes habilitarlo durante la creación del pipeline con un interruptor similar, o desde la página de Configuración del Usuario.
Obtén más información utilizando estos recursos:
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
