Obtén una vista previa anticipada del nuevo ebook de O'Reilly con la guía paso a paso que necesitas para empezar a usar Delta Lake.
Control de versiones de datos para reproducir experimentos, revertir y auditar datos
Estamos encantados de presentar las capacidades de viaje en el tiempo en Databricks Delta Lake, el motor de análisis unificado de próxima generación construido sobre Apache Spark, para todos nuestros usuarios. Con esta nueva función, Delta versiona automáticamente los big data que almacenas en tu data lake, y puedes acceder a cualquier versión histórica de esos datos. Esta gestión temporal de datos simplifica tu pipeline de datos al facilitar la auditoría, la reversión de datos en caso de escrituras o eliminaciones accidentales incorrectas, y la reproducción de experimentos e informes. Tu organización finalmente puede estandarizarse en un repositorio de big data limpio, centralizado y versionado en tu propio almacenamiento en la nube para tu análisis.
Las capacidades de viaje en el tiempo de Delta simplifican la creación de pipelines de datos para los casos de uso anteriores. A medida que escribes en una tabla o directorio de Delta, cada operación se versiona automáticamente. Puedes acceder a las diferentes versiones de los datos de dos maneras:
1. Usando una marca de tiempo
Sintaxis de Scala:
Puedes proporcionar la marca de tiempo o la cadena de fecha como una opción al lector de DataFrame:
En Python:
Sintaxis SQL:
Si el código del lector está en una biblioteca a la que no tienes acceso, y si estás pasando parámetros de entrada a la biblioteca para leer datos, aún puedes viajar en el tiempo para una tabla pasando la marca de tiempo en formato yyyyMMddHHmmssSSS a la ruta:
2. Usando un número de versión
En Delta, cada escritura tiene un número de versión, y puedes usar el número de versión para viajar en el tiempo también.
Sintaxis de Scala:
Sintaxis de Python:
Sintaxis SQL:
Puedes ver el historial de cambios de la tabla usando el comando DESCRIBE HISTORY o a través de la interfaz de usuario.
El viaje en el tiempo también juega un papel importante en el machine learning y la ciencia de datos. La reproducibilidad de los modelos y experimentos es una consideración clave para los científicos de datos, ya que a menudo crean cientos de modelos antes de poner uno en producción, y en ese proceso que consume mucho tiempo les gustaría volver a modelos anteriores. Sin embargo, dado que la gestión de datos a menudo está separada de las herramientas de ciencia de datos, esto es muy difícil de lograr.
Databricks resuelve este problema de reproducibilidad integrando las capacidades de viaje en el tiempo de Delta con MLflow, una plataforma de c ódigo abierto para el ciclo de vida del machine learning. Para un entrenamiento de machine learning reproducible, puedes simplemente registrar una URL con marca de tiempo en la ruta como un parámetro de MLflow para rastrear qué versión de los datos se utilizó para cada trabajo de entrenamiento. Esto te permite volver a configuraciones y conjuntos de datos anteriores para reproducir modelos anteriores. No necesitas coordinarte con equipos upstream sobre los datos ni preocuparte por clonar datos para diferentes experimentos. Este es el poder del Análisis Unificado, donde la ciencia de datos está estrechamente ligada a la ingeniería de datos.
El viaje en el tiempo también facilita las reversiones en caso de escrituras incorrectas. Por ejemplo, si tu trabajo de pipeline de GDPR tuvo un error que eliminó accidentalmente información del usuario, puedes arreglar fácilmente el pipeline:
También puedes corregir actualizaciones incorrectas de la siguiente manera:
Con las consultas AS OF, ahora puedes fijar la instantánea de una tabla Delta en continua actualización para múltiples trabajos downstream. Considera una situación en la que una tabla Delta se actualiza continuamente, digamos cada 15 segundos, y hay un trabajo downstream que lee periódicamente de esta tabla Delta y actualiza diferentes destinos. En tales escenarios, normalmente deseas una vista consistente de la tabla Delta de origen para que todas las tablas de destino reflejen el mismo estado. Ahora puedes manejar fácilmente tales escenarios de la siguiente manera:
El viaje en el tiempo también simplifica el análisis de series temporales. Por ejemplo, si deseas saber cuántos clientes nuevos agregaste durante la última semana, tu consulta podría ser muy simple como esta:
El viaje en el tiempo en Delta mejora enormemente la productividad de los desarrolladores. Ayuda a:
Las organizaciones finalmente pueden estandarizar un repositorio de big data limpio, centralizado y versionado en su propio almacenamiento en la nube para análisis. Estamos encantados de ver lo que podrán lograr con esta nueva función.
La función está disponible como vista previa pública para todos los usuarios. Obtenga más información sobre la función. Para verla en acción, regístrese para una prueba gratuita de Databricks.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
