Ir al contenido principal

Data Mart

¿Qué es un data mart?

Un data mart es una base de datos curada que incluye un conjunto de tablas diseñadas para satisfacer las necesidades específicas de un único equipo de datos, comunidad o línea de negocio, como el departamento de marketing o el de ingeniería. Normalmente, es más pequeño y más enfocado que un almacén de datos y, por lo general, existe como un subconjunto del almacén de datos empresarial más grande de una organización. Los data marts se utilizan comúnmente para analítica, inteligencia de negocios y elaboración de informes. Los data marts fueron el primer paso evolutivo en la realidad física de los almacenes de datos centrales y los lagos de datos. ACNielsen ofreció a sus clientes el primer data mart a principios de la década de 1970 para proporcionarles una forma de almacenar información digitalmente e impulsar sus esfuerzos de ventas.

Características de los data marts

  • Normalmente, se construyen y administran por el equipo de datos de la empresa, aunque también se pueden construir y mantener de manera orgánica por los expertos en la materia de las unidades de negocio.
  • Los administradores de datos del grupo empresarial mantienen el data mart, y los usuarios finales tienen acceso de solo lectura: pueden consultar y ver tablas, pero no pueden modificarlas, para evitar que los usuarios con menos conocimientos técnicos eliminen o modifiquen accidentalmente datos empresariales críticos.
  • Suele utilizar un modelo dimensional y un esquema en estrella.
  • Contienen un subconjunto curado de datos del almacén de datos más grande. Los datos están altamente estructurados, ya que fueron depurados y conformados por el equipo de datos empresarial para facilitar su comprensión y consulta.
  • Se diseñan en torno a las necesidades únicas de una línea de negocio en particular o caso de uso.
  • Los usuarios suelen consultar los datos mediante comandos SQL.

Tipos de data marts: data marts independientes, data marts dependientes y data marts híbridos

Hoy en día, existen tres tipos básicos de data marts:

  • Los data marts independientes no forman parte de un almacén de datos y son muy similares al data mart original propuesto por ACNielsen. Normalmente, se centran en un área de negocios o temática. Las fuentes de datos pueden incluir fuentes externas e internas. Luego se traduce, procesa y carga en el data mart, donde se almacena hasta que se necesita.
  • Los data marts dependientes se crean dentro de un almacén de datos existente. Se usa un enfoque de arriba hacia abajo, lo que permite almacenar todos los datos en una ubicación única. Luego se selecciona una sección de datos claramente definida para fines de investigación.
  • Los data marts híbridos combinan los datos obtenidos de un almacén de datos y de otras fuentes de datos. Esto puede ser útil en una variedad de situaciones, incluida la integración ad hoc con un nuevo grupo o producto que se agregó a una organización. Los data marts híbridos son adecuados para múltiples entornos de bases de datos y proporcionan una rápida respuesta de implementación. Estos sistemas facilitan la limpieza de datos y funcionan bien con aplicaciones más pequeñas centradas en datos.

Beneficios de los data marts

  • Única fuente de verdad: el data mart puede servir como una única fuente de verdad para una línea de negocio en particular, de modo que todos trabajen con los mismos hechos y datos.
  • Simplicidad: los usuarios de negocios que buscan datos pueden visitar el data mart curado para acceder fácilmente a los datos que les interesan, en lugar de tener que recorrer todo el almacén de datos y unir tablas para obtener los datos que necesitan.

Desafíos con los data marts

Los almacenes de datos empresariales se crean con buenas intenciones para satisfacer todas las necesidades de gestión de datos de una empresa. Pero invariablemente, es imposible satisfacer a todos, ya que las distintas unidades de negocio tienen necesidades y objetivos de datos diferentes. Por ello, los departamentos copian y crean sus propios data marts (a veces con ayuda del equipo de TI empresarial) con el objetivo de ampliar un área temática concreta del almacén de datos, para así satisfacer sus necesidades de analítica de autoservicio y de informes departamentales. Como consecuencia, con el tiempo, los data marts pueden convertirse en silos de datos y copias de sombra de datos, desde una perspectiva empresarial, pero satisfacen bien las necesidades del departamento. Cuando muchos departamentos hacen esto, no existe una única versión de la verdad.

Cómo la arquitectura lakehouse resuelve los desafíos con los data marts

La arquitectura lakehouse resuelve los desafíos mencionados anteriormente, ya que reúne todos los almacenes de datos y data marts empresariales en una sola plataforma, con seguridad y gobernanza unificadas, al tiempo que ofrece a los diferentes equipos la flexibilidad de tener sus propios entornos aislados. Dado que cualquier data mart o “copia aumentada” se realiza en la misma plataforma lakehouse que todos los demás, el catálogo de datos del lakehouse lo detecta. Luego, gracias a las reglas de gobernanza de datos (como el etiquetado, el uso de un diccionario de datos, etc.), se garantiza que esa copia aumentada sea visible para todos, lo que previene la creación de copias duplicadas similares.

Crea tu próximo data mart en Databricks SQL

Prueba Databricks SQL gratis

RECURSOS

    Volver al glosario