Obtenga una vista previa del nuevo libro electrónico de O'Reilly para obtener la guía paso a paso que necesita para comenzar a usar Delta Lake.
Control de versiones de datos para reproducir experimentos, revertir y auditar datos
Nos complace presentar las capacidades de viaje en el tiempo en Databricks Delta Lake, el motor de análisis unificado de última generación construido sobre Apache Spark, para todos nuestros usuarios. Con esta nueva función, Delta versiona automáticamente los macrodatos que almacena en su lago de datos, y puede acceder a cualquier versión histórica de esos datos. Esta administración de datos temporales simplifica su canalización de datos al facilitar la auditoría, la reversión de datos en caso de escrituras o eliminaciones incorrectas accidentales y la reproducción de experimentos e informes. Su organización finalmente puede estandarizar un repositorio de macrodatos limpio, centralizado y con control de versiones en su propio almacenamiento en la nube para sus análisis.
Las capacidades de viaje en el tiempo de Delta simplifican la creación de canalizaciones de datos para los casos de uso anteriores. A medida que escribe en una tabla o directorio de Delta, cada operación se versiona automáticamente. Puede acceder a las diferentes versiones de los datos de dos maneras diferentes:
1. Usando una marca de tiempo
Sintaxis de Scala:
Puede proporcionar la marca de tiempo o la cadena de fecha como una opción para el lector de DataFrame:
En Python:
Sintaxis SQL:
Si el código del lector está en una biblioteca a la que no tiene acceso, y si está pasando parámetros de entrada a la biblioteca para leer datos, aún puede retroceder en el tiempo para una tabla pasando la marca de tiempo en formato yyyyMMddHHmmssSSS a la ruta:
2. Usando un número de versión
En Delta, cada escritura tiene un número de versión, y puede usar el número de versión para retroceder en el tiempo también.
Sintaxis de Scala:
Sintaxis de Python:
Sintaxis SQL:
Puede consultar el historial de cambios de la tabla mediante el comando DESCRIBE HISTORY o a través de la interfaz de usuario.
El viaje en el tiempo también juega un papel importante en el aprendizaje automático y la ciencia de datos. La reproducibilidad de los modelos y experimentos es una consideración clave para los científicos de datos, porque a menudo crean cientos de modelos antes de poner uno en producción, y en ese proceso que requiere mucho tiempo les gustaría volver a los modelos anteriores. Sin embargo, debido a que la administración de datos a menudo está separada de las herramientas de ciencia de datos, esto es realmente difícil de lograr.
Databricks resuelve este problema de reproducibilidad integrando las capacidades de viaje en el tiempo de Delta con MLflow, una plataforma de código abierto para el ciclo de vida del aprendizaje automático. Para el entrenamiento de aprendizaje automático reproducible, simplemente puede registrar una URL con marca de tiempo en la ruta como un parámetro de MLflow para rastrear qué versión de los datos se usó para cada trabajo de entrenamiento. Esto le permite volver a configuraciones y conjuntos de datos anteriores para reproducir modelos anteriores. No necesita coordinarse con los equipos ascendentes en los datos ni preocuparse por la clonación de datos para diferentes experimentos. Este es el poder de Unified Analytics, por el cual la ciencia de datos está estrechamente ligada a la ingeniería de datos.
El viaje en el tiempo también facilita la realización de rollbacks en caso de escrituras incorrectas. Por ejemplo, si su trabajo de canalización GDPR tenía un error que eliminó accidentalmente la información del usuario, puede corregir fácilmente la canalización:
También puede corregir actualizaciones incorrectas de la siguiente manera:
Con las consultas AS OF, ahora puede anclar la instantánea de una tabla Delta que se actualiza continuamente para varios trabajos posteriores. Considere una situación en la que una tabla Delta se actualiza continuamente, digamos cada 15 segundos, y hay un trabajo posterior que lee periódicamente de esta tabla Delta y actualiza diferentes destinos. En tales escenarios, normalmente desea una vista coherente de la tabla Delta de origen para que todas las tablas de destino reflejen el mismo estado. Ahora puede manejar fácilmente tales escenarios de la siguiente manera:
El viaje en el tiempo también simplifica el análisis de series temporales. Por ejemplo, si desea averiguar cuántos clientes nuevos agregó durante la última semana, su consulta podría ser muy simple como esta:
El viaje en el tiempo en Delta mejora enormemente la productividad del desarrollador. Ayuda a:
Las organizaciones finalmente pueden estandarizar un repositorio de macrodatos limpio, centralizado y con control de versiones en su propio almacenamiento en la nube para el análisis. Estamos encantados de ver lo que podrá lograr con esta nueva función.
La función está disponible como vista previa pública para todos los usuarios. Obtenga más información sobre la función. Para verlo en acción, regístrese para una prueba gratuita de Databricks.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
