Ir para o conteúdo principal

A Pilha de Dados Moderna: Como a Evolução da Arquitetura de Dados Levou à Plataforma de Inteligência de Dados

The Modern Data Stack: How The Evolution of Data Architecture Led to The Data Intelligence Platform

Publicado: 1 de maio de 2024

Líder de dados17 min de leitura

A moderna pilha de dados foi projetada para lidar com as dificuldades de coleta, armazenamento e análise de dados, à medida que o volume e a complexidade dos dados continuam a aumentar. Como o sucesso dos negócios depende cada vez mais de insights baseados em dados e IA, o gerenciamento de dados eficaz e confiável é essencial.

Então, o que é uma moderna pilha de dados e como elas são projetadas para otimizar o uso de dados? Continue lendo para entender as diferenças entre as pilhas de dados modernas e suas contrapartes legadas, os benefícios que elas podem trazer para empresas de todos os setores e as ferramentas da moderna pilha de dados necessárias para obter sucesso com seus dados. Para saber como acelerar seus objetivos de dados e IA, leia nosso novo guia executivo aqui.

Acelere sua Transformação de Dados e IA

Qual o significado do termo moderna pilha de dados?

O termo 'pilha de dados' refere-se a uma coleção de diferentes tecnologias que processam dados brutos. Uma moderna pilha de dados consiste em ferramentas usadas para ingerir, organizar, armazenar e transformar dados.

Essas ferramentas são essenciais para transformar dados de 'dados não comestíveis' (dados com os quais não se pode trabalhar) em 'dados comestíveis' (dados com os quais se pode trabalhar). Quanto mais rápido os dados puderem ser acessados, preparados e analisados, mais rápido as organizações poderão usá-los para tomar decisões. Uma arquitetura de moderna pilha de dados eficaz é, portanto, crucial para qualquer organização que deseje extrair valor de seus dados e reagir às mudanças mais rapidamente.

Uma moderna pilha de dados tem quatro funções principais:

1. Carregamento

As tecnologias de carregamento são responsáveis por mover dados de um local para outro. Por exemplo, os dados precisam ser ingeridos em um pipeline de dados para que possam ser transformados em um estado utilizável e analisados para obter insights valiosos.

2. Armazenamento

Depois que os dados foram ingeridos por meio de um pipeline de dados, eles precisam ser armazenados em algum lugar. Data warehouses e data lakes são duas tecnologias de armazenamento de dados comumente usadas, no entanto, ambas têm certas desvantagens. Uma diferença é que os data warehouses são mais adequados para armazenar dados estruturados, enquanto os data lakes são melhores para dados não estruturados.

Plataformas de data lakehouse oferecem uma solução moderna que é mais capaz de lidar com muitos tipos diferentes de dados estruturados e não estruturados.

Soluções de armazenamento de dados baseadas em nuvem, em vez de opções locais (on-premise), são essenciais para as modernas pilhas de dados. Elas fornecem fácil acesso a dados em plataformas altamente escaláveis que podem se adaptar facilmente às necessidades em constante mudança.

3. Transformação

As modernas pilhas de dados também são usadas para transformar dados. O processo de transformação converte dados 'brutos' em dados 'refinados' que são adequados para casos de uso de análise. Muitas organizações usarão uma plataforma de preparação de dados para a transformação de dados.

A transformação de dados pode envolver a conversão de dados de um formato, estrutura ou sistema de valores para outro. É um processo essencial para análise de dados e tomada de decisão baseada em dados.

Existe uma vasta gama de transformações de dados que podem ser aplicadas aos dados, incluindo:

  • Normalização - ajuste de valores em um conjunto de dados para uma escala comum
  • Limpeza de dados - correção ou remoção de registros imprecisos ou duplicados de um conjunto de dados para melhorar a precisão geral dos dados
  • Filtragem - remoção de dados irrelevantes e desnecessários
  • Agregação - sumarização ou agrupamento de dados
  • Mesclagem - junção de dados de diferentes fontes para criar um único conjunto de dados

4. Análise

Depois que os dados foram coletados e preparados, eles estão prontos para serem usados para análise. As ferramentas da moderna pilha de dados também podem lidar com esta etapa.

Os dados podem ser analisados usando modelos de machine learning (ML) para identificar padrões e tendências que podem ser usados para planejamento e tomada de decisão. Alternativamente, os dados processados podem servir de base para uma variedade de aplicações.

Pilhas de dados legadas

A chave para entender o impacto e a importância da moderna pilha de dados é olhar para as pilhas de dados legadas. Pilhas de dados anteriores abriram caminho para as ferramentas e tecnologias usadas hoje, mas tinham limitações significativas que as modernas pilhas de dados foram projetadas para superar.

Data warehouses corporativos

Data warehouses corporativos (EDW) foram, sem dúvida, as primeiras pilhas de dados a serem comumente usadas por organizações para gerenciamento de dados.

Eles fornecem um repositório centralizado para dados acumulados de várias fontes. Isso os torna úteis para organizações que utilizam plataformas de CRM (Customer Relationship Management), bancos de dados relacionais ou sistemas semelhantes que acumulam grandes quantidades de dados.

Um EDW normalmente depende de um mecanismo ETL (extract, transform, load - extrair, transformar, carregar) para gerenciar dados. Nesses casos, os dados são verificados em relação a um esquema predefinido (formato interno do banco de dados) quando carregados, o que é conhecido como a abordagem schema-on-write.

Embora os EDWs tenham inegavelmente desempenhado um papel na otimização do gerenciamento e análise de dados, eles se tornaram um tanto obsoletos com a crescente mudança em direção a casos de uso de inteligência artificial (IA) e ML.

Isso ocorre em grande parte porque os data warehouses lutam para lidar com as grandes quantidades de dados necessárias para esses casos de uso. À medida que a quantidade de dados armazenados neles cresce, os custos dos data warehouses, bem como sua ineficiência, também aumentam.

Os data warehouses também não conseguem lidar com dados não estruturados, como áudio, vídeo, documentos de texto ou postagens de mídia social, todos os quais se tornaram informações vitais para muitas empresas. Além disso, a estrutura do EDW geralmente é projetada para armazenar dados específicos de tarefas. Isso os torna inadequados para tarefas de ML e ciência de dados, que dependem da disponibilidade de todos os dados coletados.

Data Lakes

Os data lakes foram desenvolvidos em parte como resposta às deficiências dos data warehouses para tarefas de IA e ML. Esses repositórios são projetados para armazenar enormes quantidades de dados brutos em seus formatos nativos. Como são capazes de lidar com dados estruturados, não estruturados e semiestruturados, são mais adequados para casos de uso de ML e ciência de dados do que os EDWs.

Em contraste com os data warehouses, os data lakes não exigem transformação de dados antes do carregamento, pois não há esquema para os dados se ajustarem. O esquema é verificado quando os dados são consultados, o que é conhecido como a abordagem schema-on-read.

Por causa disso, os data lakes são tipicamente considerados mais robustos e econômicos do que os data warehouses tradicionais. No entanto, isso não significa que eles não tenham outras limitações.

Business intelligence e relatórios podem ser desafiadores ao usar data lakes, pois exigem ferramentas e técnicas adicionais para suportar consultas SQL.

Como os data lakes armazenam grandes quantidades de dados em diferentes tipos e formatos, má qualidade, confiabilidade e integridade dos dados também são frequentemente um problema. Os dados armazenados em data lakes podem facilmente acabar desorganizados, levando a mais problemas com precisão, segurança e governança dos dados.

O que há de diferente na moderna pilha de dados?

Como data lakes e data warehouses falham em áreas-chave, muitas organizações acabam usando ambos para evitar suas respectivas fraquezas. Por exemplo, uma empresa pode usar um grande data lake para armazenar seus dados não estruturados e vários data warehouses projetados especificamente para casos de uso específicos.

Na maioria dos casos, isso resulta em silos de dados, aumento de custos e complexidade, com a necessidade de manter os dados consistentes entre os dois sistemas representando um desafio significativo. Para resolver esse problema, uma solução mais unificada é necessária.

Apresentamos a moderna pilha de dados. Projetada para resolver os desafios das pilhas de dados legadas, existem componentes específicos que todas as modernas pilhas de dados devem incluir.

Armazenamento aberto e baseado em nuvem

Talvez a diferença mais significativa entre pilhas de dados modernas e legadas seja que a moderna pilha de dados é hospedada na nuvem. Em vez de depender de servidores físicos, as modernas pilhas de dados dependem de computação em nuvem e são frequentemente fornecidas sob um modelo SaaS (Software as a Service).

Isso significa que elas geralmente exigem menos configuração técnica por parte do usuário. Em vez disso, segurança, manutenção e atualizações são fornecidas por empresas de moderna pilha de dados como parte de seu serviço. Isso torna as modernas pilhas de dados mais flexíveis e eficientes do que suas contrapartes legadas.

Também resulta na promoção da acessibilidade para o usuário final, o que significa que um número maior de profissionais de dados pode acessar os dados, independentemente da localização.

Uma solução baseada em nuvem também aumenta a escalabilidade, pois pode ser rapidamente ajustada para atender às necessidades em constante mudança de uma organização sem o tempo de inatividade caro e demorado associado ao dimensionamento de servidores locais.

Capacidade para diversas cargas de trabalho e enormes transações de dados

Além de dar suporte a uma ampla gama de casos de uso de dados, as ferramentas modernas de data stack permitem que as organizações processem enormes transações de dados. Elas consistem em componentes que aproveitam frameworks de computação distribuída - por exemplo, tecnologias como Hadoop ou Spark permitem o processamento de dados em múltiplos nós ou clusters, o que possibilita o processamento paralelo de grandes conjuntos de dados e cargas de trabalho complexas.

Isso significa que as organizações podem realizar transações de dados complexas e lidar com uma variedade maior de cargas de trabalho, sem sobrecarregar sua infraestrutura. O uso de múltiplos nós e clusters também permite o particionamento de dados. Isso ajuda a distribuir a carga de trabalho, permitindo consultas e processamento mais eficientes ao dividir os dados em partes menores e gerenciáveis.

Técnicas como compressão de dados, formatos de armazenamento colunar e indexação também são usadas no data stack moderno para ajudar a otimizar a eficiência de armazenamento e processamento. Essas técnicas reduzem o espaço de armazenamento físico necessário para grandes conjuntos de dados e aceleram os processos de acesso e recuperação de dados.

Data stacks modernos também usam data pipelines incrivelmente eficientes, incluindo processos otimizados de Extract, Transform, Load (ETL) ou Extract, Load, Transform (ELT). Isso garante o movimento suave de dados da origem ao destino, independentemente do volume de dados sendo manuseado.

Suporte para business intelligence

Data stacks modernos estão bem equipados para suportar uma ampla gama de casos de uso de business intelligence, ajudando as organizações a extrair o máximo de valor de seus dados. Eles fornecem ferramentas robustas que facilitam a análise de dados eficiente, a visualização de dados e a tomada de decisão orientada por dados.

As empresas também podem se beneficiar de uma ampla variedade de ferramentas de análise e relatórios que podem se integrar perfeitamente aos data stacks modernos. Isso permite que as plataformas de BI aproveitem consultas SQL, ferramentas de visualização de dados, dashboards e funcionalidades de relatórios para analisar e apresentar insights dos dados. Elas podem até integrar análise preditiva ou modelos de ML para permitir análises e tomada de decisões mais sofisticadas.

Algumas arquiteturas de data stack modernas suportam até mesmo o processamento de dados em tempo real e streaming. Isso permite que as ferramentas de BI forneçam insights atualizados e suportem a tomada de decisões em tempo real, aumentando a agilidade e a capacidade de resposta da organização que as utiliza.

Governança de dados integrada

A governança de dados integrada é um grande benefício dos data stacks de tecnologia modernos. Várias ferramentas, processos e políticas são implementados que trabalham para garantir a qualidade, conformidade, segurança e acessibilidade dos dados em todas as etapas do ciclo de vida dos dados. Eles também incorporam ferramentas sofisticadas de catalogação de dados que documentam e gerenciam metadados.

Ter informações sobre fontes de dados, estruturas, linhagem, propriedade e uso é vital para manter um catálogo centralizado e atualizado. Isso torna os dados mais descobertos e fáceis de entender, ao mesmo tempo que garante transparência e conformidade.

Quando se trata de segurança, mecanismos de controle de acesso baseado em função (RBAC) são usados para gerenciar e controlar quais usuários têm acesso a diferentes conjuntos de dados. Esses mecanismos ajudam a impor as políticas de segurança da organização, garantindo que apenas pessoal autorizado possa acessar dados confidenciais.

Isso é especialmente importante para empresas que operam em setores como o bancário e o de saúde, que lidam com muitos dados confidenciais. Data stacks modernos também podem auxiliar na conformidade com regulamentações de dados como GDPR e HIPAA. Eles possuem recursos que auxiliam na conformidade, permitindo criptografia e auditoria de dados, além de garantir a adesão às regulamentações de privacidade e segurança.

Muitos data stacks modernos também incorporam recursos de monitoramento em tempo real que ajudam a identificar potenciais problemas de governança de dados. Mecanismos de alerta podem notificar administradores sobre atividades suspeitas ou desvios dos padrões de governança estabelecidos.

UM LÍDER 5X

Gartner®: Databricks, líder em banco de dados em nuvem

Quais são os benefícios de usar ferramentas de data stack modernas?

Geralmente, os benefícios do data stack moderno podem ser organizados nas seguintes quatro categorias.

Flexibilidade

Primeiramente, um data stack moderno oferece maiores níveis de flexibilidade. As várias ferramentas podem ser usadas para atender às necessidades específicas do usuário, enquanto os serviços disponíveis podem ser adicionados ou removidos conforme necessário. Essa modularidade permite que os stacks sejam construídos camada por camada para criar o data stack moderno exato que uma organização requer.

Além disso, a compatibilidade com uma variedade de formatos de dados, bancos de dados e serviços de terceiros garante interoperabilidade e flexibilidade ao incorporar novas tecnologias. Data stacks modernos frequentemente utilizam ferramentas e frameworks de código aberto, dando às organizações maior flexibilidade por meio de personalização e aprimoramentos impulsionados pela comunidade.

Eles também oferecem opções para processamento em tempo real e em lote, o que proporciona maior flexibilidade para organizações que lidam com diferentes tipos de cargas de trabalho, permitindo que elas adaptem seu processamento de dados às diversas necessidades do negócio.

Eficiência

Como o data stack moderno é uma solução baseada em nuvem, a velocidade com que os dados podem ser processados aumentou exponencialmente. Grandes volumes de dados podem ser processados em minutos, em comparação com as horas em um data stack legado.

Data stacks modernos frequentemente incorporam ferramentas automatizadas de processamento e transformação de dados. Essas ferramentas simplificam tarefas como limpeza, normalização e integração de dados, reduzindo a necessidade de intervenção manual. Isso não apenas torna o processamento de dados mais eficiente, mas também ajuda a melhorar a precisão dos dados.

A integração com ferramentas de visualização de dados e relatórios acelera o processo de tradução de dados em insights significativos. Muitas dessas ferramentas também oferecem o benefício adicional de interfaces intuitivas e dashboards personalizáveis, que permitem uma compreensão mais rápida de padrões e tendências de dados.

Custo

Manter grandes volumes de dados pode ser caro, mas data stacks modernos podem ajudar a reduzir os custos operacionais em todas as organizações. Por serem baseados em nuvem, não há necessidade de investir em hardware ou infraestrutura complicada. Além de reduzir a quantidade de investimento inicial necessário, isso também reduz os custos de manutenção e operacionais ao longo da vida útil do data stack.

Muitas empresas de data stack moderno SaaS oferecem preços baseados no consumo, o que permite que as organizações paguem apenas pelos serviços que utilizam. Serviços oferecidos em um modelo pay-as-you-go só precisam ser pagos quando estão sendo ativamente usados, o que minimiza os custos durante períodos de baixo ou nenhum uso.

Data stacks modernos também estão continuamente otimizando a utilização de recursos, automatizando o processamento de dados, minimizando o tempo de inatividade e melhorando a eficiência geral dos data pipelines. Tudo isso resulta em recursos que são utilizados de forma mais eficaz e eficiente, o que reduz o tempo ocioso e seus custos associados.

Fora do próprio stack, as capacidades avançadas de análise e ML disponíveis podem ajudar os usuários a identificar oportunidades de economia. Ao prever a demanda, otimizar recursos e identificar proativamente oportunidades de economia, uma organização pode assumir o controle total de seus orçamentos.

Um data stack moderno pode até desempenhar um papel na minimização do risco e dos custos associados a violações de dados. Ao implementar medidas robustas de governança de dados, os riscos de violações de dados são reduzidos, assim como as instâncias de não conformidade regulatória. Isso ajuda as organizações a evitar quaisquer penalidades ou problemas legais associados à não conformidade, o que contribui ainda mais para a economia de custos.

Cultura de dados

Cultura de dados é um termo que se refere aos comportamentos, atitudes e práticas dentro de uma organização em relação aos seus dados. Ela pode abranger tudo, desde as crenças e hábitos em torno da tomada de decisão orientada por dados até o valor atribuído aos dados. Também abrange a integração geral de dados nas operações diárias e nos processos de decisão de uma organização.

Um data stack moderno pode ajudar a revolucionar a cultura de dados dentro de uma organização.

Para começar, as ferramentas de data stack modernas são projetadas com a usabilidade em mente. Isso torna os dados mais acessíveis para funcionários de todas as habilidades técnicas. A flexibilidade oferecida significa até mesmo que os usuários não estão restritos a usar uma única ferramenta específica, podendo escolher a ferramenta que melhor atende às suas necessidades e nível de expertise.

Enquanto isso, as medidas robustas de governança de dados incluídas no data stack moderno trabalham para construir confiança na precisão dos dados. Ao fornecer dados confiáveis e bem governados, esses stacks incentivam o uso de dados em processos de tomada de decisão. Isso cria uma cultura de confiança em torno dos dados de uma organização.

Uma vez que essa confiança esteja estabelecida, a flexibilidade e escalabilidade oferecidas podem começar a brilhar - oferecendo aos usuários maneiras de experimentar novas fontes de dados, ferramentas analíticas e metodologias. Isso ajuda a construir uma cultura de inovação e exploração.

Data stacks modernos podem até ajudar a promover melhor comunicação e colaboração entre equipes. Catálogos de dados integrados, gerenciamento de metadados e os recursos colaborativos incluídos auxiliam nisso. Cada stakeholder pode ter uma compreensão compartilhada dos ativos de dados, alinhando seus esforços em direção a objetivos de negócios comuns relacionados a dados.

Usos bem-sucedidos de data stacks modernos

Organizações de uma ampla variedade de setores usaram data stacks modernos para revolucionar sua abordagem aos dados. Aqui estão apenas alguns exemplos:

AT&T

AT&T é uma das principais provedoras de telecomunicações nos EUA atualmente. No passado, elas dependiam de uma arquitetura de dados tradicional, on-premises. No entanto, à medida que os tipos e a quantidade de dados que processavam começaram a se multiplicar, ficou claro que elas precisavam de uma solução melhor e, assim, migraram sua arquitetura legada para uma pilha de dados moderna fornecida pela Databricks.

Isso as ajudou a obter os insights em tempo real e a automação necessários para otimizar o despacho de seus técnicos. Agora, elas podem combinar as habilidades de solução de problemas de seus técnicos com o problema do cliente que precisa ser resolvido, bem como a localização desse cliente. Esses são três pontos de dados que simplesmente não podiam ser unificados com seu sistema legado.

Essa nova abordagem automatizada para o despacho de técnicos ajudou a AT&T a oferecer uma excelente experiência de atendimento ao cliente, ao mesmo tempo em que reduz os custos operacionais ao diminuir o número de tentativas para resolver um problema.

HSBC

HSBC é um dos maiores bancos internacionais, atendendo a mais de 39 milhões de clientes em todo o mundo. Com uma base de clientes tão grande, limitações de escalabilidade eram inevitáveis. Ou eram - até que o HSBC adotou uma pilha de dados moderna.

Agora, eles podem escalar a análise de dados e ML conforme necessário, dando-lhes o poder de liderar uma série de casos de uso centrados no cliente, incluindo personalização, recomendações, ciência de redes e detecção de fraudes. E tudo isso em uma velocidade que atende às suas necessidades de negócios.

"Vimos grandes melhorias na velocidade com que temos dados disponíveis para análise. Temos vários jobs que costumavam levar 6 horas e agora levam apenas 6 segundos." — Alessio Basso, Arquiteto Chefe, HSBC

USPS

Uma pilha de dados moderna capacitou a USPS a atender eficientemente os clientes em todos os EUA. A mudança para uma arquitetura de lakehouse baseada em nuvem permite que eles respondam rapidamente a novos desafios de dados e oferece novas oportunidades de inovação.

Além disso, a USPS OIG está agora mais bem posicionada para investigar, auditar e pesquisar operações e programas postais. Isso os ajuda em sua luta contra fraudes, desperdícios e abusos, garantindo a eficiência e a integridade do serviço postal por muitos anos.

Adote uma arquitetura de pilha de dados moderna com a Plataforma de Inteligência de Dados Databricks

Uma arquitetura de pilha de dados moderna é o próximo passo na evolução da pilha de dados. A escalabilidade, eficiência e governança aprimorada que ela oferece permitem que empresas de todos os setores realizem o valor total de seus dados de forma eficiente e segura.

A Plataforma de Inteligência de Dados Databricks é construída sobre a arquitetura lakehouse, que combina os melhores aspectos de data lakes e data warehouses para fornecer uma pilha de dados moderna que o ajudará a reduzir custos, aumentar a produtividade e entregar suas iniciativas de dados e IA mais rapidamente.

A Databricks concentrou seus esforços de engenharia na incorporação de uma ampla gama de melhorias de software e hardware líderes do setor para implementar a primeira plataforma de inteligência de dados.

Nossa abordagem capitaliza os avanços de computação da estrutura Apache Spark™ e as mais recentes tecnologias de rede, armazenamento e CPU para fornecer o desempenho que os clientes precisam para simplificar sua arquitetura.

Essas inovações se combinam para fornecer uma arquitetura única que pode armazenar e processar todos os conjuntos de dados dentro de uma organização e suportar uma ampla gama de análises para insights vitais.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada