Linaje de datos
¿Qué es el linaje de datos?
El linaje de datos es el proceso de registro, seguimiento y visualización de datos e IA a lo largo del tiempo, desde el origen hasta el consumo. Un linaje de datos eficaz proporciona a los equipos de datos una vista integral de cómo se transforman y fluyen los datos a través de su patrimonio de datos.

El linaje de datos captura la información relevante y los eventos asociados con los datos en su ciclo de vida, lo que incluye:
- La fuente de los datos
- ¿Qué otros conjuntos de datos se usaron para crearlo?
- ¿Quién lo creó y cuándo?
- ¿Cómo se transformó?
- ¿Qué otros conjuntos de datos lo aprovechan?
- ¿Cómo se pueden emplear los datos?
- ¿Quién es responsable de usar y modificar los datos?
A medida que las organizaciones adoptan una cultura basada en datos y buscan democratizar y ampliar los datos y la IA, el linaje de los datos se convierte en un pilar esencial de la estrategia de gestión y gobernanza de los datos.
Más temas para descubrir
¿Por qué es importante el linaje de datos?
El linaje de datos permite a las empresas ver de dónde provienen los datos, cómo cambian con el tiempo y dónde se almacenan y utilizan, lo que crea transparencia y confianza. Es un factor clave para la comprensión y la integridad de los datos, que permite a las organizaciones tomar decisiones informadas, garantizar el cumplimiento normativo y mejorar la gestión de riesgos.
El linaje de datos es clave para la gobernanza de datos, los principios, las prácticas y las herramientas que una organización usa para gestionar sus activos de datos. El linaje de datos proporciona la visibilidad necesaria para garantizar que los datos se gestionen conforme al marco de gobernanza de datos de la organización, lo que asegura datos de calidad y ofrece la base para obtener valiosos conocimientos sobre los datos.
El linaje de datos permite a las organizaciones validar la precisión y consistencia de los datos para garantizar la calidad de los datos, y el rastro de auditoría granular que proporciona el linaje de datos es fundamental para identificar y depurar rápidamente los errores de datos dentro de un pipeline.
Las prácticas adecuadas de linaje de datos son esenciales para el cumplimiento normativo y permiten a las organizaciones proporcionar un registro de auditoría de dónde se originaron los datos y cómo se manipularon. El linaje de datos también ayuda a las organizaciones a rastrear el flujo de datos confidenciales, lo que garantiza el cumplimiento de las políticas y los controles y ayuda a identificar posibles riesgos.
¿Cuáles son los casos de uso del linaje de datos?
El linaje de datos es esencial para una estrategia eficaz de gestión y gobernanza de datos, ya que las organizaciones buscan democratizar y ampliar los datos y la IA. Los casos de uso comunes incluyen los siguientes:
Análisis de impacto y gestión de riesgos: dado que los datos sufren transformaciones a lo largo de su ciclo de vida, es importante analizar el impacto de estos cambios en los consumidores finales y evaluar los riesgos potenciales. El linaje de datos permite a los equipos de datos ver todos los consumidores finales, como aplicaciones, paneles y modelos de aprendizaje automático, y comprender el impacto de los cambios, además de notificar a las partes interesadas.
Comprensión y transparencia de los datos: comprender mejor el contexto en torno a los datos es fundamental para garantizar su confiabilidad, en especial, ahora que las organizaciones manejan un volumen cada vez mayor de datos procedentes de múltiples fuentes. El linaje de datos permite a los usuarios conocer el contexto mientras analizan los datos, lo que se traduce en resultados de mayor calidad.
Depuración y diagnósticos: el linaje de datos ayuda a los equipos a encontrar la causa raíz de cualquier error en el pipeline de datos, ya que rastrean el error hasta su origen. Esto reduce en gran medida el tiempo de depuración, lo que aumenta la eficiencia.
Cumplimiento y preparación para auditorías: la trazabilidad de los datos es clave para el cumplimiento normativo. Muchas regulaciones de cumplimiento, como el Reglamento General de Protección de Datos (RGPD), la Ley de Privacidad del Consumidor de California (CCPA), la Ley de Portabilidad y Responsabilidad de Seguros Médicos (HIPAA), el Comité de Supervisión Bancaria de Basilea (BCBS) 239 y la Ley Sarbanes-Oxley (SOX), requieren que las organizaciones tengan una comprensión y visibilidad claras del flujo de datos. Con prácticas eficaces de linaje de datos, las organizaciones cuentan con esta información a mano y están preparadas para auditorías.
Modelado de datos: el linaje de datos es útil para el modelado de datos, el proceso de visualizar cómo se organizan y acceden los datos. El linaje de datos puede ayudar a actualizar y perfeccionar los modelos de datos al revelar las relaciones entre los activos de datos y ofrecer contexto sobre los flujos de datos actuales.
Migración de datos: el linaje de datos proporciona información sobre la ubicación y el ciclo de vida de los datos, lo que es importante para las migraciones de datos, es decir, el traslado de datos a nuevos sistemas de software o almacenamiento. Las organizaciones utilizan la información sobre el linaje de los datos para planificar migraciones y reducir riesgos. El linaje de datos también puede ayudar a los equipos a limpiar y reducir la cantidad de datos que deben migrarse.
Mejores prácticas para implementar el linaje de datos
Implementar un linaje de datos efectivo requiere un enfoque estratégico con procesos bien definidos. Estas son las mejores prácticas clave que las organizaciones deben seguir:
- Catálogo unificado de datos e IA: establecer un catálogo centralizado que integre activos de datos e IA, y que permita una visibilidad y gobernanza sin problemas.
- Gobernanza de datos robusta: definir estrategias, procesos y herramientas claras para gestionar los datos de manera efectiva y garantizar la calidad, la seguridad y el cumplimiento.
- Documentación completa: mantener registros detallados de las fuentes de datos, las transformaciones y los cambios para proporcionar un historial completo y preciso.
- Automatización: aprovechar las herramientas automatizadas de seguimiento de linaje para mejorar la precisión, aumentar la eficiencia y reducir el esfuerzo manual en el monitoreo de los flujos de datos hasta el nivel de columna.
- Propiedad clara de los datos: asignar propiedad a los activos de datos para establecer responsabilidad, agilizar la resolución de problemas y fomentar la colaboración.
- Auditoría continua: revisar y actualizar regularmente los registros de linaje para mantener la precisión, la integridad y el cumplimiento con las políticas de gobernanza.
Automatizar el linaje para datos e IA con Databricks Unity Catalog
Unity Catalog proporciona una solución de gobierno unificada para datos, analítica e IA, que permite a los equipos de datos catalogar todos sus datos y activos de IA, definir permisos de acceso detallados, auditar el acceso a los datos y compartir datos en nubes, regiones y plataformas de datos. Con el linaje de datos automatizado en Unity Catalog, los equipos de datos pueden rastrear automáticamente los datos confidenciales hasta el nivel de columna para los requerimientos de cumplimiento de normas y la generación de informes de auditoría, garantizar la calidad de los datos en todas las cargas de trabajo, realizar análisis de impacto o administración de cambios de cualquier cambio de datos en todo el lago y realizar análisis de causa raíz de cualquier error en sus pipelines de datos.


