O Data Vault é um padrão de design de modelagem de dados usado para construir data warehouse para análise em escala empresarial. Um Data Vault tem três tipos de entidades: hubs, links e satélites.
Os hubs representam os conceitos principais do seu negócio, os links representam os relacionamentos entre os hubs, e os satélites armazenam informações sobre os hubs e relacionamentos entre eles.
Um Data Vault é um modelo de dados adequado para organizações que adotam o paradigma lakehouse.
Pontos a ter em mente
O Data Vault é baseado em métodos e tecnologias ágeis para que possa se adaptar aos requisitos de negócios que mudam rapidamente. Uma grande vantagem de usar a metodologia de Data Vault é que os jobs ETL requerem menos refatoração quando o modelo muda.
Com base nos conceitos mencionados acima, discutiremos como o Data Vault se encaixa nas camadas de dados Bronze, Prata e Ouro, transformando dados brutos em dados refinados adequados para análise. Nesta arquitetura multi-hop, os dados brutos são armazenados na camada Bronze com transformações mínimas e estruturas de dados próximas ao sistema de origem. Um Data Vault é aplicado à camada Prata, e os dados são transformados em hubs, links e satélites.
Na camada Ouro, você pode criar vários data marts ou data warehouses usando modelagem dimensional ou o método Kimball. Conforme discutido anteriormente, a camada Ouro é boa para relatórios e usa um modelo de dados com menos junção, mais desnormalizado e otimizado para leitura. Às vezes, as tabelas na camada Ouro podem ser completamente desnormalizadas, normalmente se os data scientists desejarem alimentar seus algoritmos para engenharia de recursos.
O uso do modelo de Data Vault na camada Prata simplifica e reduz bastante as alterações de ETL necessárias para data marts e data warehouses. Isso ocorre porque o hub facilita o gerenciamento de chaves (chave substituta/chave natural). Os satélites contêm todos os atributos e facilitam o carregamento de dimensões. Além disso, carregar tabelas de fatos é extremamente fácil, pois os links gerenciam todos os relacionamentos.
