Transformação de dados

O que é transformação de dados?

A transformação de dados é o processo de pegar dados brutos que foram extraídos de fontes de dados e transformá-los em datasets utilizáveis. Os pipelines de dados muitas vezes incluem várias transformações de dados, convertendo informações confusas em dados limpos, confiáveis e de qualidade que as organizações podem usar para atender às necessidades operacionais e criar insights acionáveis. O processo de transformação de dados é crucial na data engineering.

Continue explorando

Big Book of Data Engineering: 2ª Edição

Explore as orientações técnicas mais recentes para criar pipelines de dados em tempo real.

Baixar

Introdução ao ETL

Saiba mais sobre pipelines ETL com esta pré-visualização do guia O'Reilly.

Baixar

Fundamentos do lakehouse

Atualize-se sobre o lakehouse fazendo este treinamento sob demanda gratuito.

Comece agora

Por que a transformação de dados é importante?

O processo de transformação de dados manipula datasets para que possam ser usados por aplicativos de dados de negócios. É fundamental obter valor dos dados brutos, gerando insights que podem ser usados para tomar decisões de negócios. A transformação oferece às organizações os dados necessários para entender melhor o passado, o presente e o futuro de seus negócios e buscar oportunidades de maneira ágil.

Transformação de dados e ETL

A transformação de dados está no centro da ETL, sigla que significa extrair, transformar e carregar. Esses são os dados de processos que os engenheiros usam para extrair dados de diferentes fontes, transformá-los em recursos utilizáveis e confiáveis e carregar esses dados nos sistemas que os usuários finais podem acessar e usar downstream para resolver problemas de negócios. No estágio de transformação, os dados são limpos, mapeados e transformados, muitas vezes em um esquema específico.

Exemplos de transformação de dados

Vários tipos diferentes de transformação podem ser usados para garantir a qualidade e integridade dos dados. Alguns exemplos são a desduplicação de dados, que aumenta a qualidade e o desempenho dos dados removendo dados duplicados, o refinamento de dados, que aumenta a qualidade filtrando dados irrelevantes, e a integração de dados, na qual diferentes tipos de dados são combinados na mesma estrutura. Para mais tipos de transformação de dados e suas definições, consulte a próxima seção.

Tipos de transformação de dados

O processo de transformação de dados pode ser realizado por meio de várias técnicas diferentes, dependendo dos dados e da finalidade da transformação. Elas podem incluir:

Bucketing/binning: divisão de uma série numérica em "buckets" ou "bins" menores. Isso é feito alterando recursos numéricos em recursos categóricos usando um conjunto de thresholds.

Agregação de dados: processo de resumir dados para que possam ser mais bem utilizados em relatórios e visualizações. A agregação pode ser obtida por diferentes métodos, como usar a soma, média ou mediana de valores ao longo do tempo, espaço ou outras dimensões.

Limpeza de dados: processo de aumentar a precisão e a qualidade dos dados, excluindo informações imprecisas, incompletas ou desatualizadas.

Desduplicação de dados: processo de compactação no qual cópias duplicadas de dados são identificadas e removidas para acelerar o processo de transferência de dados.

Derivação de dados: criação de regras para extrair apenas as informações específicas necessárias da fonte de dados.

Enriquecimento de dados: processo de aprimoramento de dados existentes usando fontes de dados externas para expandir um campo de dados ou complementar campos de dados ausentes.

Filtragem de dados: refinação de dados para eliminar dados irrelevantes e exibir apenas as informações necessárias.

Integração de dados: combinação de diferentes tipos de dados na mesma estrutura. A integração de dados padroniza dados díspares para que possam ser analisados como um todo.

Ligação de dados: uma operação que combina várias tabelas de base de dados usando um campo de dados comum em um único dataset.

Divisão de dados: divisão de uma única coluna em várias para analisar os dados. Pode ser útil para analisar grandes quantidades de dados coletados ao longo do tempo.

Resumo de dados: um tipo de agregação de dados no qual diferentes métricas de negócios são criadas por meio do cálculo dos totais de valor.

Validação de dados: garantia da qualidade dos dados por meio da criação de regras automatizadas que geram respostas a problemas específicos de dados.

Revisão de formato: processo de alteração de formatos para resolver problemas relacionados a campos que contêm diferentes tipos de dados.

Reestruturação de chaves: processo de alteração de chaves com significado integrado para chaves genéricas (números aleatórios que fazem referência às informações na base de dados de origem) para evitar lentidão no sistema de dados.

Otimizações de desempenho de transformação de dados

O processo de transformação de dados pode consumir tempo e recursos; portanto, otimizar o desempenho da transformação de dados é crucial para reduzir custos e economizar tempo. As técnicas de otimização de desempenho incluem:

Compactação de dados
Particionamento
Ajuste do tamanho do arquivo
Ignorar e eliminar dados
Armazenamento em cache de dados

Saiba mais sobre como otimizar o desempenho da transformação de dados com nosso guia abrangente.

Ferramentas de transformação de dados

A transformação de dados é fundamental para criar dados confiáveis que as organizações podem usar para obter insights. No entanto, o processo de transformação de dados e todo o processo de ETL apresentam sérios desafios, desde a criação e manutenção de pipelines de dados confiáveis até o gerenciamento da qualidade dos dados em arquiteturas de pipeline cada vez mais complexas. As ferramentas de transformação de dados simplificam e democratizam a transformação e simplificam o ciclo de vida ETL.

Transformação de dados na Plataforma de inteligência de dados

A Databricks oferece ferramentas essenciais para implementar e orquestrar transformações de dados e ETL na plataforma de inteligência de dados.

O DLT ajuda as equipes de engenharia de dados a criar e gerenciar facilmente pipelines confiáveis de dados em batch e streaming que fornecem dados de alta qualidade na plataforma de inteligência de dados. O DLT fornece testes automáticos de qualidade de dados, torna o streaming mais econômico por meio do dimensionamento automático de compute eficiente e oferece visibilidade profunda para monitoramento e observação de pipeline.

O Databricks Workflows é um serviço de orquestração gerenciada totalmente integrado que capacita as equipes de dados a automatizar e orquestrar melhor pipelines de dados. O Workflows ajuda os usuários a definir, gerenciar e monitorar facilmente fluxos de trabalho multitarefa para ETL, análises e pipelines de machine learning para aumentar a produtividade. O Workflows se integra perfeitamente com o dbt, uma ferramenta que permite que qualquer pessoa em uma equipe de dados contribua com segurança para pipelines de dados de nível de produção e torne a transformação mais rápida e mais segura.

Recursos adicionais

Voltar ao glossário