Ir para o conteúdo principal

Conceitos de Data Warehousing: Explorando Processos Comuns

Data warehousing — os sistemas, estruturas e processos que as empresas utilizam para gestão de dados e armazenamento — é crucial para as organizações modernas. Os dados são mais importantes do que nunca, especialmente na era do machine learning e da IA. O data warehousing eficaz permite que as empresas aproveitem o valor de seus dados, o que é crucial para se manterem competitivas e construírem um futuro de sucesso. Esta página explora os key conceitos de data warehousing em termos dos processos mais comuns usados para data warehousing.

Continue explorando

Qual é o objetivo de um data warehouse?

Um data warehouse (DWH) é um sistema de gestão de dados. Ele armazena e organiza dados atuais e históricos de várias fontes de uma forma acessível para as empresas. Os data warehouses podem lidar com grandes volumes de dados e são projetados para permitir que as empresas analisem tendências ao longo do tempo. O principal objetivo de um data warehouse é facilitar o armazenamento de dados, consolidar dados de muitas fontes e fornecer uma base para percepções e relatórios de dados.

Quais necessidades de negócios os data warehouses atendem?

Os data warehouses são normalmente utilizados para Business Intelligence (BI), analítica, relatórios, aplicações de dados, preparação de dados para machine learning (ML) e análise de dados.

Data warehouses:

  • Possibilite a análise rápida e fácil de dados empresariais coletados de sistemas operacionais, como sistemas de ponto de venda, sistemas de gerenciamento de estoque ou bancos de dados de marketing e vendas.
  • Integre dados de várias fontes para exibir tendências históricas
  • Aprimore a tomada de decisões por meio do suporte a recursos avançados de analítica e geração de relatórios e do fornecimento de acesso em tempo real a datasets unificados.
  • Forneça uma única fonte de verdade para criar confiança nas percepções analíticas.
  • Separar o processamento analítico dos bancos de dados transacionais, melhorando o desempenho de ambos os sistemas.
  • Garanta a qualidade e a precisão dos dados por meio da limpeza e consolidação de dados
  • Promova a consistência usando um conjunto padrão de semântica em torno dos dados, incluindo consistência nas convenções de nomenclatura, códigos para vários tipos de produtos, idiomas, moedas e muito mais
  • Facilite a compliance regulatória, fornecendo armazenamento e gerenciamento seguros e auditáveis para dados confidenciais.

Conceitos principais de data warehouse

O data warehousing consiste em várias etapas, ferramentas e processos para preparar e disponibilizar os dados empresariais para percepções de negócios e tomada de decisões. Os processos comuns incluem:

Armazenamento de dados

O armazenamento de dados é um elemento essencial do data warehousing. Os dados precisam ser mantidos de uma forma que permita análise e geração de relatórios. Junto com data warehouses, as soluções de armazenamento de dados podem incluir:

Bancos de dados: Banco de dados é uma coleção de dados estruturados, que se estende além de texto e números para imagens, vídeos e muito mais. Em contrapartida, um data warehouse é um repositório estruturado que fornece dados para business intelligence e análise.

Data lakes: Um data lake é um local central que armazena uma grande quantidade de dados em seu formato nativo e bruto. Diferentemente da maioria dos bancos de dados e data warehouses, os data lakes podem processar todos os tipos de dados — incluindo dados não estruturados e semiestruturados, como imagens, vídeos, áudios e documentos — que são essenciais para casos de uso de ML e analítica avançada.

Data Lakehouses: Um data lakehouse é uma arquitetura de gerenciamento de dados aberta que combina os melhores elementos de data lakes e data warehouses, permitindo BI e ML em todos os dados. Os lakehouses usam estruturas de dados e recursos de gestão de dados semelhantes aos de um data warehouse, mas, em vez disso, os executam diretamente em data lakes na nuvem. Em última análise, um lakehouse permite que analítica tradicional, ciência de dados e ML coexistam no mesmo sistema, tudo em um formato aberto.

A federação é um conceito importante para o armazenamento de dados. Essa estratégia de gestão de dados melhora a acessibilidade e a qualidade dos dados, consultando dados de diferentes fontes em um único formato virtual. Esse modelo elimina a necessidade de enormes sistemas de armazenamento de dados e aprimora a análise de dados e a integração.

Integração de dados e ingestão

A integração de dados e ingestão é o processo de coletar dados de várias fontes e depositá-los em um data warehouse. No processo de integração e ingestão, os dados são armazenados em um formato uniforme, garantindo consistência e qualidade e facilitando o uso. As empresas podem usar a federação, a técnica de integração de dados mencionada acima, para fornecer uma view unificada de dados de várias fontes sem consolidá-los fisicamente.

Tradicionalmente, isso tem sido facilitado por meio do ETL, que significa extrair, transformar e carregar. Nesse processo, os engenheiros de dados extraem dados de diferentes fontes, transformam os dados em um recurso utilizável e confiável e carregam esses dados nos sistemas que os usuários finais podem acessar e usar downstream para resolver problemas de negócios.

No entanto, ELT, ou extrair, carregar e transformar, é uma opção de processamento mais recente que aproveita os recursos modernos de armazenamento de dados. No ELT, os dados são carregados assim que são extraídos, sem serem transformados primeiro. Em seguida, ele é transformado em um formato utilizável, conforme necessário, diretamente do repositório de dados. O ELT funciona bem com arquiteturas modernas de data lake, como a arquitetura medallion, que permitem o armazenamento de dados estruturados e não estruturados. Usando o ELT, os analistas podem aproveitar uma variedade maior de tipos de dados, o que pode levar a insights mais valiosos.

Transformação de dados

A transformação de dados é o processo de alterar dados para um formato que pode ser carregado em um data warehouse. Normalmente, os dados são coletados de várias fontes diferentes que usam vários formatos. A transformação de dados limpa e padroniza os dados para facilitar o uso comercial.

Os passos da transformação podem incluir:

  • Limpeza e filtragem de dados: Identificação de inconsistências, erros, valores ausentes e dados duplicados
  • Validação de dados: Verificação de tipos de dados, formatos, precisão, consistência e unicidade para garantir a correção dos dados e evitar resultados incorretos
  • Conversão de formato: Alteração do formato dos dados para criar compatibilidade de dados e facilitar o processamento de dados

Serviço de dados

O serviço de dados é o processo de entrega de dados aos usuários para dar suporte à analítica, relatórios e tomada de decisões. Os processos de serviço de dados incluem consulta, provisionamento e recuperação de dados de sistemas de armazenamento. O objetivo é garantir uma entrega rápida e eficiente para usuários, aplicativos e sistemas, otimizando o armazenamento de dados e as estratégias de indexação. Os dados também precisam ser entregues com segurança, portanto, os controles de acesso, a autenticação e as permissões são essenciais.

Consulta de dados

A query é o processo de solicitação de acesso a dados específicos em um banco de dados para extraí-los ou manipulá-los, usando uma linguagem de consulta estruturada, como SQL. A consulta é key para o data warehousing como o método pelo qual os usuários acessam, extraem e analisam percepções significativas das grandes quantidades de dados armazenados em um warehouse. As empresas usam consultas para gerar relatórios, painéis e visualizações para identificar oportunidades, monitorar o desempenho e tomar decisões data-driven. Os data warehouses são projetados para executar com eficiência queries complexas em grandes datasets.

Visualização de dados

A visualização de dados é o processo de exibição de dados de um data warehouse em formas visuais, como gráficos, quadros, diagramas, mapas, infográficos, histórias de dados, relatórios e painéis. O cérebro humano pode processar imagens mais rapidamente do que uma série de números, portanto, a visualização ajuda os usuários a entender os dados mais facilmente do que quando são apresentados em planilhas, por exemplo. Isso permite que os usuários corporativos comparem datasets e identifiquem padrões, tendências, anomalias e outliers nos dados. As ferramentas de visualização de dados permitem que os usuários criem visualizações, encontrem percepções e compartilhem suas conclusões.

Otimização de desempenho do data warehouse

A otimização do data warehouse é o processo de melhorar o desempenho das queries, o processamento e a recuperação de dados em um data warehouse. Ele usa técnicas específicas para dar suporte a queries complexas, manter o alto desempenho e gerar percepções oportunas. A otimização de dados é particularmente importante para gerenciar grandes datasets.

As técnicas de otimização de data warehouse incluem:

  • Otimização de hardware e armazenamento, incluindo armazenamento de alto desempenho, compactação eficiente de dados e infraestrutura escalável
  • Estratégias de indexação para acelerar a recuperação de dados
  • Visualizações materializadas para execução mais rápida de consultas
  • Particionamento para dividir os dados em segmentos menores para melhorar o acesso aos dados e o desempenho das queries
  • Escrevendo queries SQL eficientes para melhorar o desempenho

O data warehouse inteligente, uma evolução do data warehouse tradicional, leva a otimização muito mais longe. O data warehouse moderno aproveita a arquitetura de data lakehouse aberto em vez da arquitetura tradicional e possui uma plataforma inteligente e de otimização automática. A otimização impulsionada por AI elimina a carga do gerenciamento manual e garante processos ideais de data warehouse.

Integrações de AI e ML

Os data warehouses tradicionais são projetados para cargas de trabalho comuns de data warehouse, incluindo relatórios históricos, BI e consultas. No entanto, eles nunca foram projetados nem tiveram como finalidade dar suporte a cargas de trabalho de AI ou ML. Mas avanços recentes tornam possível integrar AI e ML em data warehouses. Um data warehouse inteligente não apenas fornece acesso aos modelos de AI e ML, mas também usa a AI para auxiliar nas queries, na criação de dashboards e na otimização de desempenho e dimensionamento.

Governança de dados

A governança de dados consiste nos princípios, práticas e ferramentas usadas para gerenciar os ativos de dados de uma organização para se alinhar com sua estratégia de negócios. Governança de dados é fundamental para o data warehousing, pois garante a visibilidade, a qualidade, a segurança e os recursos de compliance dos dados em toda a organização. A implementação de uma estratégia eficaz de governança de dados permite que as empresas disponibilizem os dados facilmente para a tomada de decisões orientada por dados, protegendo seus dados contra acesso não autorizado e garantindo a conformidade com os requisitos regulamentares.

Segurança dos dados

Os dados são um ativo valioso para as organizações e também podem ser muito pessoais e sensíveis. As empresas precisam ter salvaguardas para proteger seus dados, bem como os dados de seus clientes, para que não caiam em mãos erradas. As medidas de segurança de data warehouse incluem:

  • Controles e permissões de acesso, incluindo role-based access control e autenticação multifator, para garantir que apenas pessoas autorizadas possam acessar os dados no warehouse
  • Criptografia, que oferece uma camada de proteção em caso de violação de dados e é frequentemente exigida como parte da compliance regulatória
  • Prevenção de perda de dados, que atua como um guarda de segurança para monitorar os dados e evitar erros
  • Auditorias de segurança regulares para testar sistemas de segurança

Gerenciamento de metadados

Metadados são dados sobre dados, que são cruciais para a governança de dados e o gerenciamento de dados. Ele fornece contexto e detalhes sobre os dados, como origens, transformações, estrutura, relacionamentos, uso e outros elementos importantes que são key para garantir a consistência, a qualidade e a confiabilidade dos dados.

O gerenciamento de metadados é um conjunto de ferramentas e processos que ajudam as organizações a capturar, catalogar e governar os metadados. Um sistema eficaz de gerenciamento de metadados trabalha para promover a qualidade dos dados e ajudar os usuários a encontrar, extrair e entender facilmente os dados de que precisam para gerar percepções. Também é key para a segurança, pois oferece informação sobre a linhagem de dados — o registro da jornada de um dado em seu ciclo de vida — e quem acessou os dados.

Como os conceitos de data warehousing dão suporte à Business Intelligence

O objetivo central de um data warehouse é armazenar dados de forma que permita às organizações aproveitar seu valor. Business Intelligence — o processo de fazer grandes perguntas sobre os negócios e encontrar essas respostas nos dados da empresa — é uma das maneiras mais importantes pelas quais as organizações obtêm valor de seus dados. Cada conceito central de data warehousing apoia a capacidade da empresa de realizar Business Intelligence. Esses conceitos de data warehousing trabalham juntos para garantir que os dados sejam armazenados com segurança e que os usuários de negócios possam acessá-los e analisá-los facilmente. Em termos gerais, esses processos e sistemas facilitam as percepções e as decisões data-driven que alimentam a inovação, o progresso e o sucesso da empresa.

Data warehousing moderno na Databricks

A Databricks oferece um data warehouse inteligente, Databricks SQL. Desenvolvido com o Data Intelligence Engine, que entende a singularidade dos seus dados, o Databricks SQL democratiza a análise para usuários técnicos e empresariais. A empresa pode inovar rapidamente com uma plataforma inteligente e com otimização automática que oferece a melhor relação preço/desempenho do mercado. Além disso, como parte da Databricks Data Intelligence Platform, o Databricks SQL se beneficia da simplicidade, governança unificada e abertura da arquitetura lakehouse.