11 de noviembre de 2024

Silos de datos explicados: problemas que causan y soluciones

¿Qué son los silos de datos?

Los datos son uno de los activos más valiosos de una empresa, pero su valor está ligado a la eficacia con la que una empresa puede aprovecharlos para tomar decisiones empresariales que generen impacto e ingresos. Los silos de datos impiden que las empresas obtengan una visión completa de sus datos, y esas lagunas pueden afectar la capacidad de un líder para tomar decisiones basadas en datos.

El nombre “silo” puede evocar imágenes de silos en una granja, donde diferentes granos se almacenan en contenedores separados. Los silos de datos se refieren a esta misma separación de datos dentro de las empresas. Diferentes equipos a menudo recopilan, gestionan y almacenan sus datos por separado unos de otros, con acceso limitado a los miembros de ciertos grupos. A veces, la separación se organiza en torno a unidades de producto o funciones laborales, pero a veces los silos de datos se crean a través de adquisiciones.

En muchas organizaciones, los datos están aislados por tipo. En este caso, los datos estructurados se almacenan en múltiples almacenes de datos (data warehouses), tanto locales como en la nube. Mientras tanto, los datos no estructurados y de streaming se almacenan por separado en un lago de datos (data lake). Esta separación complica la gestión de datos y limita el valor que las organizaciones pueden extraer de sus datos.

¿Por qué son un problema los silos de datos?

Los silos de datos son un problema porque obstaculizan la visibilidad y el acceso a los datos, aumentan la ineficiencia y los costos, dificultan la gobernanza eficaz y provocan que las organizaciones dejen pasar información importante.

Cuando los datos de una empresa se distribuyen en múltiples sistemas independientes controlados por grupos separados, acceder a todos los datos es un desafío, si no imposible. Analizar datos agregados también es difícil. Los equipos a menudo luchan con datos duplicados que son difíciles de conciliar o datos faltantes que dejan lagunas. Y tener datos estructurados y no estructurados almacenados en lugares diferentes hace que sea difícil implementar capacidades avanzadas de machine learning e iniciativas de GenAI. Las organizaciones también necesitan múltiples modelos de gobernanza para lidiar con datos aislados, lo que aumenta los riesgos de seguridad y cumplimiento.

Eliminar los silos de datos ayuda a los líderes a obtener una visión completa de su empresa, reducir la duplicación y la ineficiencia, optimizar la gobernanza y aprovechar al máximo las capacidades de IA para tomar decisiones basadas en datos.

Costos empresariales de los silos de datos

Pasar de una arquitectura tradicional con silos de datos a una moderna arquitectura de lakehouse de datos (data lakehouse) brinda a las empresas visibilidad sobre sus datos y también puede reducir costos. Cuando los datos están aislados en varios equipos, cada equipo debe asumir el costo de la infraestructura y el personal de TI para respaldar sus necesidades únicas de datos. Centralizar los datos permite a las empresas consolidar su pila tecnológica y reducir el costo de administración y mantenimiento.

Las arquitecturas de datos modernas, como el data lakehouse, ofrecen mayor flexibilidad y escalabilidad para ayudar a las empresas a controlar los costos de cómputo. Realizar la preparación de datos y el análisis ad hoc en una solución en la nube como Databricks, que escala dinámicamente hacia arriba y hacia abajo según los clústeres de cómputo necesarios, asegura que las empresas no paguen por recursos de cómputo no utilizados. Por ejemplo, la migración a Delta Lake y Databricks ayudó a Relogix a reducir sus costos de infraestructura en un 80%.

¿Cómo ocurren los silos de datos?

Los silos de datos a menudo se asemejan a los organigramas de la empresa, y se crean con frecuencia cuando los datos se separan por diferentes unidades de negocio o grupos de productos. Esta separación puede verse reforzada por enfoques conflictivos de gestión de datos o por el deseo de mantener ciertos datos confidenciales. Sin embargo, la confidencialidad de los datos se logra mejor a través de controles de acceso adecuados. Los datos también pueden estar aislados según el tipo de trabajo, ya que disciplinas como ingeniería, marketing y finanzas tienen diferentes necesidades y prioridades de datos.

Algunos equipos simplemente no se comunican lo suficiente como para darse cuenta de que están duplicando esfuerzos. La falta de comunicación también puede hacer que los equipos desconozcan las necesidades de otros equipos y no se den cuenta de que tienen datos que otros equipos podrían beneficiarse de ver. A medida que los equipos desarrollan de forma independiente sus propios enfoques para gestionar y recopilar datos, los silos solo crecen, y al almacenar datos de forma independiente, desarrollan inadvertidamente sistemas que no son compatibles y dificultan el intercambio de datos.

No solo los silos de datos reflejan los silos organizacionales, sino que todos esos datos a menudo se almacenan de forma aislada por tipo. Mientras que los datos estructurados se almacenan en múltiples almacenes de datos locales y en la nube, los datos no estructurados utilizados para IA se almacenan en lagos de datos. Cada uno de estos patrones arquitectónicos requiere su propio modelo de gobernanza, lo que limita la capacidad de una organización para acceder de forma segura a sus datos y utilizarlos para obtener información de IA que impulse la ventaja competitiva.

¿Cómo identificar los silos de datos?

Los silos de datos a menudo se identifican de forma orgánica a través de casos de uso que surgen en las operaciones comerciales diarias. Los equipos se dan cuenta de que carecen de acceso a ciertos datos o no pueden encontrarlos. Los empleados pueden quejarse del tiempo y el esfuerzo manual que se requiere para compilar informes. Los líderes pueden recibir informes similares de diferentes equipos que presentan discrepancias, duplicaciones o lagunas. Los equipos pueden comenzar a almacenar y rastrear datos fuera de las herramientas de datos típicas para tener más control o acceso más rápido a sus datos, lo que lleva a copias duplicadas y fuera de línea de los datos.

Las empresas pueden identificar proactivamente los silos de datos realizando auditorías de datos. Rastrear y documentar cuidadosamente diversas fuentes de datos en toda la empresa brinda a los líderes una comprensión clara de su situación de gestión y almacenamiento de datos. Pueden usar esto como punto de partida para planificar una transición a un modelo de datos centralizado. Una vez que se eliminan los silos y se implementa una arquitectura centralizada, se pueden realizar auditorías de datos más pequeñas de forma regular para detectar cualquier silo nuevo y reintegrarlo rápidamente al repositorio de datos central.

¿Cómo romper los silos de datos?

Una vez identificados los silos de datos, una empresa puede comenzar a tomar medidas para romperlos y avanzar hacia una solución de almacenamiento compartido centralizado.

Las soluciones de almacenamiento en la nube proporcionan una forma escalable de almacenar datos centralizados en una sola ubicación, pero las soluciones en la nube tradicionales como Amazon y Azure a menudo se convierten en un vertedero de almacenamiento: una ubicación compartida para depositar datos sin una estructura organizativa o un entendimiento compartido de cómo se debe utilizar el almacenamiento compartido.

Los almacenes de datos en la nube (Cloud Data Warehouses) aportan una capa adicional de orden y comprensión a través de definiciones de esquemas. Con esquemas definidos, los datos se pueden clasificar y organizar para permitir una mayor información analítica. Sin embargo, definir y mantener estos esquemas puede consumir mucho tiempo y puede ser un desafío dar soporte a todos los tipos de datos que su negocio requiere en un solo esquema.

Los lagos de datos (data lakes) son más flexibles que los almacenes de datos porque no requieren un esquema de datos y pueden admitir todos los tipos de datos, incluidos datos no estructurados y semiestructurados como imágenes, videos, audio y documentos. Esta flexibilidad facilita que los equipos se trasladen a una ubicación de almacenamiento única y central sin necesidad de alterar significativamente sus prácticas de gestión de datos. Los lagos de datos también permiten el análisis de diversos formatos y permiten a los usuarios abordar las preocupaciones sobre el costo y el bloqueo de proveedores de los almacenes de datos.

Los lagos de datos permitieron que algunas empresas pasaran de costosos software propietarios de almacenes de datos a lagos de datos. Los lagos de datos también permitieron a las empresas analizar grandes cantidades de datos no estructurados de una manera que no era posible con los almacenes de datos y también permitieron el machine learning.

Sin embargo, los lagos de datos no admiten transacciones y carecen de las características de seguridad requeridas por muchas empresas. También pueden experimentar problemas de rendimiento a medida que crecen los datos. Si bien los almacenes de datos son más confiables en estas áreas de características, solo admiten datos estructurados y no están disponibles en formatos abiertos como los lagos de datos y los data lakehouses.

Un data lakehouse combina la escala y flexibilidad de los data lakes con el soporte de transacciones y la gobernanza de los data warehouses, lo que permite escenarios avanzados de IA y análisis que realmente rompen los silos de datos. Un data lakehouse permite a los usuarios hacer de todo, desde BI, análisis SQL, ciencia de datos e IA en una sola plataforma. El lakehouse adopta un enfoque decidido para construir lagos de datos agregando atributos de almacén de datos —fiabilidad, rendimiento y calidad—, al tiempo que conserva la apertura y la escala de los lagos de datos.

Los Lakehouses se construyen sobre formatos de tabla de código abierto, como Delta Lake o Apache Iceberg. Esto permite a los equipos almacenar datos estructurados, semiestructurados y no estructurados en un lago de datos, utilizando un formato portátil que evita el bloqueo de proveedores. Estos formatos ofrecen transacciones compatibles con ACID, aplicación de esquemas y validación de datos.

Uno de los desafíos clave que enfrentan las organizaciones al adoptar el data lakehouse abierto es seleccionar el formato óptimo para sus datos. Cualquier formato abierto es mejor que poner sus datos en un formato propietario. Sin embargo, elegir un único formato de almacenamiento para estandarizar puede ser una tarea desalentadora, lo que puede resultar en fatiga de decisión y miedo a consecuencias irreversibles.

Delta UniForm (abreviatura de Delta Lake Universal Format) ofrece una unificación simple, fácil de implementar y fluida de formatos de tabla sin crear copias de datos ni silos adicionales. Con UniForm, las tablas de Delta Lake se pueden leer como tablas de Iceberg, por lo que puede usar cualquier motor de cómputo que funcione con los ecosistemas de Delta Lake o Iceberg.

Otro desafío que crean los silos de datos es la colaboración limitada, tanto interna como externa, lo que restringe el flujo de información e innovación. Al romper estos silos y establecer una fuente de verdad unificada en lagos de datos, bases de datos, almacenes y catálogos, las organizaciones pueden facilitar el acceso fluido a los datos y activos de IA desde cualquier motor de cómputo o herramienta utilizando API abiertas. Aquí es donde Databricks Unity Catalog entra en juego como la única solución de gobernanza unificada y abierta de la industria para datos e IA.

Con Unity Catalog, las organizaciones pueden gobernar de manera fluida los activos de datos e IA, incluidos datos estructurados y no estructurados, modelos de IA y archivos, en cualquier nube o plataforma. Permite el descubrimiento, acceso y colaboración seguros para científicos de datos, analistas e ingenieros, impulsando la productividad a través de la IA. Al promover la interoperabilidad y acelerar las iniciativas de datos, Unity Catalog simplifica el cumplimiento y fomenta la colaboración a escala, todo ello evitando el bloqueo de proveedores.

Herramientas de Extracción, Transformación y Carga

Los procesos de Extracción, Transformación y Carga (ETL) ayudan a los equipos a estandarizar y compartir datos. Las herramientas de ETL se pueden aprovechar para mover datos de silos existentes a una ubicación centralizada como un lakehouse de datos. Los ingenieros pueden crear pipelines de ETL para gestionar la ingesta continua en tiempo real y mantener el control de calidad sobre los datos que ingresan al almacenamiento central compartido.

Cambio Cultural

Romper los silos de datos y evitar que se repitan también requiere un cambio cultural y una planificación cuidadosa sobre cómo migrar sistemas y procesos para usar el almacenamiento de datos centralizado. Comprender qué brechas o desafíos técnicos impiden que los equipos adopten una nueva solución de almacenamiento de datos es clave para lograr que todos participen e informará las decisiones de gestión del cambio. Idealmente, los nuevos procesos también serán escalables y flexibles, y podrán adaptarse a medida que evolucionen los requisitos de la empresa y las necesidades de datos.

Implementar políticas adicionales de gobernanza y gestión de datos ayudará a evitar que surjan nuevos silos de datos en el futuro. La documentación clara sobre políticas, estándares y procedimientos es esencial para que los equipos adopten y continúen gestionando sus datos dentro de un almacenamiento central compartido. La realización de auditorías de datos periódicas puede identificar rápidamente brechas en los procesos o áreas de la empresa que no han realizado el cambio cultural.

Contar con el apoyo ejecutivo y la aprobación de la gerencia son clave para lograr un cambio cultural. Articular beneficios claros, tanto a corto como a largo plazo, ayudará a obtener apoyo para un cambio más amplio. Mapee las tareas de datos actuales que se facilitarán o serán menos costosas y destaque qué nuevas capacidades permiten las arquitecturas modernas.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.

Ver todos los blogs