11 de novembro de 2024

Silos de Dados Explicados: Problemas que Causam e Soluções

O que são silos de dados?

Dados são um dos ativos mais valiosos de uma empresa, mas seu valor está atrelado à forma como a empresa consegue utilizá-los para tomar decisões de negócios que geram impacto e receita. Silos de dados impedem que as empresas tenham uma visão completa de seus dados, e essas lacunas podem afetar a capacidade de um líder de tomar decisões baseadas em dados.

O nome “silo” pode evocar imagens de silos em uma fazenda, onde diferentes grãos são armazenados em recipientes separados. Silos de dados referem-se a essa mesma separação de dados dentro das empresas. Diferentes equipes frequentemente coletam, gerenciam e armazenam seus dados separadamente umas das outras, com acesso limitado àqueles dentro de certos grupos. Às vezes, a separação é projetada em torno de unidades de produto ou funções de trabalho, mas às vezes silos de dados são criados por meio de aquisições.

Em muitas organizações, os dados são isolados por tipo. Neste caso, dados estruturados são armazenados em múltiplos data warehouses, tanto on-premises quanto na nuvem. Enquanto isso, dados não estruturados e de streaming são armazenados separadamente em um data lake. Essa separação complica o gerenciamento de dados e limita o valor que as organizações podem extrair de seus dados.

Por que silos de dados são um problema?

Silos de dados são um problema porque impedem a visibilidade e o acesso aos dados, aumentam a ineficiência e os custos, dificultam a governança eficaz e levam as organizações a deixar insights importantes de lado.

Quando os dados de uma empresa estão espalhados por múltiplos sistemas independentes controlados por grupos separados, acessar todos os dados é desafiador, senão impossível. Analisar dados agregados também é difícil. As equipes frequentemente lutam com dados duplicados que são difíceis de reconciliar ou dados ausentes que deixam lacunas. E ter dados estruturados e não estruturados armazenados em locais diferentes torna difícil implementar recursos avançados de machine learning e iniciativas de GenAI. As organizações também precisam de múltiplos modelos de governança para lidar com dados isolados, aumentando os riscos de segurança e conformidade.

Remover silos de dados ajuda os líderes a obter uma visão completa de sua empresa, reduzir duplicação e ineficiência, otimizar a governança e aproveitar ao máximo as capacidades de IA para tomar decisões baseadas em dados.

Custos de Negócios dos Silos de Dados

Mover de uma arquitetura tradicional com silos de dados para um data lakehouse moderno dá às empresas visibilidade sobre seus dados e também pode reduzir custos. Quando os dados estão isolados em várias equipes, cada equipe deve arcar com o custo da infraestrutura e da equipe de TI para suportar suas necessidades únicas de dados. Centralizar dados permite que as empresas consolidem seu stack de tecnologia e reduzam o custo de administração e manutenção.

Arquiteturas de dados modernas, como o data lakehouse, oferecem flexibilidade e escalabilidade aprimoradas para ajudar as empresas a controlar os custos de computação. Realizar a preparação de dados e análises ad-hoc em uma solução de nuvem como a Databricks, que escala para cima e para baixo dinamicamente com base nos clusters de computação necessários, garante que as empresas não estejam pagando por recursos de computação não utilizados. Por exemplo, a migração para Delta Lake e Databricks ajudou a Relogix a reduzir seus custos de infraestrutura em 80%.

Como ocorrem os silos de dados?

Silos de dados frequentemente se assemelham a organogramas de empresas, com silos de dados criados quando os dados são separados por diferentes unidades de negócios ou grupos de produtos. Essa separação pode ser fortalecida por abordagens conflitantes de gerenciamento de dados ou pelo desejo de manter certos dados confidenciais. No entanto, a confidencialidade dos dados é melhor alcançada por meio de controles de acesso adequados. Os dados também podem ser isolados com base no tipo de trabalho, pois disciplinas como engenharia, marketing e finanças têm necessidades e prioridades de dados diferentes.

Algumas equipes simplesmente não se comunicam o suficiente para perceber que estão duplicando esforços. A falta de comunicação também pode resultar em equipes que desconhecem as necessidades de outras equipes e não percebem que possuem dados que outra equipe poderia se beneficiar em ver. À medida que as equipes desenvolvem independentemente suas próprias abordagens para gerenciar e coletar dados, os silos só crescem e, ao armazenar dados independentemente, elas inadvertidamente desenvolvem sistemas que não são compatíveis e dificultam o compartilhamento de dados.

Não apenas os silos de dados ecoam os silos organizacionais, mas todos esses dados são frequentemente armazenados de forma isolada por tipo. Enquanto dados estruturados são armazenados em múltiplos data warehouses on-premises e na nuvem, dados não estruturados usados para IA são armazenados em data lakes. Cada um desses padrões arquiteturais requer seu próprio modelo de governança, limitando a capacidade de uma organização de acessar seus dados com segurança e usá-los para insights de IA que impulsionam a vantagem competitiva.

Como identificar silos de dados

Silos de dados são frequentemente identificados organicamente por meio de casos de uso que surgem nas operações diárias do negócio. As equipes percebem que não têm acesso ou não conseguem encontrar certos dados. Os funcionários podem reclamar do tempo e do esforço manual que levam para compilar relatórios. Os líderes podem receber relatórios semelhantes de diferentes equipes que têm discrepâncias, duplicações ou lacunas. As equipes podem começar a armazenar e rastrear dados fora das ferramentas de dados típicas para ter mais controle ou acesso mais rápido aos seus dados, levando a cópias duplicadas e offline dos dados.

As empresas podem identificar silos de dados proativamente realizando auditorias de dados. Rastrear e documentar cuidadosamente várias fontes de dados em toda a empresa dá aos líderes uma compreensão clara de sua situação de gerenciamento e armazenamento de dados. Eles podem usar isso como ponto de partida para planejar a transição para um modelo de dados centralizado. Uma vez que os silos são removidos e uma arquitetura centralizada está em vigor, auditorias de dados menores podem ser feitas regularmente para detectar novos silos e trazê-los rapidamente de volta ao repositório de dados central.

Como quebrar silos de dados

Uma vez que os silos de dados são identificados, uma empresa pode começar a tomar medidas para quebrá-los e avançar para uma solução de armazenamento compartilhado centralizado.

Soluções de armazenamento em nuvem fornecem uma maneira escalável de armazenar dados centralizados em um único local, mas soluções de nuvem tradicionais como Amazon e Azure frequentemente se tornam um "storage dump" – um local compartilhado para colocar dados sem uma estrutura organizacional ou um entendimento compartilhado de como o armazenamento compartilhado deve ser usado.

Data Warehouses na nuvem trazem uma camada adicional de ordem e entendimento por meio de definições de esquema. Com esquemas definidos, os dados podem ser classificados e organizados para permitir maiores insights analíticos. No entanto, definir e manter esses esquemas pode consumir tempo e pode ser desafiador suportar todos os tipos de dados que seu negócio exige em um único esquema.

Data lakes são mais flexíveis do que data warehouses porque não exigem um esquema de dados e podem suportar todos os tipos de dados, incluindo dados não estruturados e semiestruturados como imagens, vídeos, áudios e documentos. Essa flexibilidade facilita para as equipes a migração para um local de armazenamento único e central sem a necessidade de alterar significativamente suas práticas de gerenciamento de dados. Data lakes também possibilitam análises em vários formatos e permitem que os usuários abordem preocupações sobre o custo e o vendor lock-in de data warehouses.

Data lakes significaram que algumas empresas puderam migrar de softwares de data warehouse proprietários e caros para data lakes. Data lakes também permitiram que as empresas analisassem grandes quantidades de dados não estruturados de uma forma que não era possível com data warehouses e também permitiram machine learning.

No entanto, data lakes não suportam transações e carecem de recursos de segurança exigidos por muitas empresas. Eles também podem apresentar problemas de desempenho à medida que os dados crescem. Enquanto data warehouses são mais confiáveis nessas áreas de recursos, eles suportam apenas dados estruturados e não estão disponíveis em formatos abertos como data lakes e data lakehouses.

Um data lakehouse combina a escala e a flexibilidade de data lakes com o suporte a transações e a governança de data warehouses, permitindo cenários avançados de IA e análise que realmente quebram silos de dados. Um data lakehouse permite que os usuários façam tudo, desde BI, análise SQL, ciência de dados e IA em uma única plataforma. O lakehouse adota uma abordagem opinativa para construir data lakes adicionando atributos de data warehouse — confiabilidade, desempenho e qualidade, ao mesmo tempo em que retém a abertura e a escala dos data lakes.

Lakehouses são construídos em formatos de tabela de código aberto, como Delta Lake ou Apache Iceberg. Isso permite que as equipes armazenem dados estruturados, semiestruturados e não estruturados em um data lake, usando um formato portátil que evita o vendor lock-in. Esses formatos oferecem transações compatíveis com ACID, imposição de esquema e validação de dados.

Um dos principais desafios que as organizações enfrentam ao adotar o data lakehouse aberto é selecionar o formato ideal para seus dados. Qualquer formato aberto é melhor do que colocar seus dados em um formato proprietário. No entanto, escolher um único formato de armazenamento para padronizar pode ser uma tarefa assustadora, o que pode resultar em fadiga de decisão e medo de consequências irreversíveis.

Delta UniForm (abreviação de Delta Lake Universal Format) oferece uma unificação simples, fácil de implementar e transparente de formatos de tabela sem criar cópias de dados adicionais ou silos. Com o UniForm, as tabelas Delta Lake podem ser lidas como tabelas Iceberg, permitindo que você use qualquer motor de computação que funcione com os ecossistemas Delta Lake ou Iceberg.

Outro desafio que os silos de dados criam é a colaboração limitada, tanto interna quanto externamente, o que restringe o fluxo de informações e inovação. Ao quebrar esses silos e estabelecer uma fonte unificada de verdade em data lakes, bancos de dados, data warehouses e catálogos, as organizações podem facilitar o acesso transparente a dados e ativos de IA de qualquer motor de computação ou ferramenta usando APIs abertas. É aqui que o Databricks Unity Catalog entra como a única solução de governança unificada e aberta do setor para dados e IA.

Com o Unity Catalog, as organizações podem governar perfeitamente dados e ativos de IA, incluindo dados estruturados e não estruturados, modelos de IA e arquivos, em qualquer nuvem ou plataforma. Ele permite a descoberta segura, o acesso e a colaboração para cientistas de dados, analistas e engenheiros, impulsionando a produtividade por meio da IA. Ao promover a interoperabilidade e acelerar as iniciativas de dados, o Unity Catalog simplifica a conformidade e impulsiona a colaboração em escala, tudo isso evitando o vendor lock-in.

Ferramentas de Extração, Transformação e Carga

Os processos de Extração, Transformação e Carga (ETL) ajudam as equipes a padronizar e compartilhar dados. As ferramentas de ETL podem ser aproveitadas para mover dados de silos existentes para um local centralizado, como um lakehouse de dados. Os engenheiros podem criar pipelines de ETL para gerenciar a ingestão contínua em tempo real e manter o controle de qualidade dos dados que entram no armazenamento central compartilhado.

Mudança Cultural

Quebrar silos de dados e evitar que eles se repitam também requer uma mudança cultural e um planejamento cuidadoso sobre como migrar sistemas e processos para usar o armazenamento de dados centralizado. Entender quais lacunas ou desafios técnicos impedem as equipes de adotar uma nova solução de armazenamento de dados é fundamental para que todos participem e informará as decisões de gerenciamento de mudanças. Idealmente, os novos processos também serão escaláveis e flexíveis, capazes de se adaptar à medida que os requisitos da empresa e as necessidades de dados evoluem.

Implementar políticas adicionais de governança e gerenciamento de dados ajudará a evitar que novos silos de dados surjam no futuro. Documentação clara sobre políticas, padrões e procedimentos é essencial para que as equipes adotem e continuem gerenciando seus dados dentro de um armazenamento central compartilhado. A realização de auditorias regulares de dados pode identificar rapidamente lacunas nos processos ou áreas da empresa que não fizeram a mudança cultural.

Ter apoio executivo e o aval da gerência são fundamentais para alcançar uma mudança cultural. Articular benefícios claros – tanto de curto quanto de longo prazo – ajudará a obter apoio para uma mudança mais ampla. Mapeie as tarefas de dados atuais que se tornarão mais fáceis ou mais baratas e destaque quais novas capacidades as arquiteturas modernas permitem.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.

Ver todos os blogs