Ir para o conteúdo principal

lago de dados em Azure

Fonte de dados completa e confiável para potencializar sua lakehouse

O que é um data lake?

Execute suas cargas de trabalho de análise de dados e AI em uma plataforma de nuvem nativa simples, aberta e colaborativa que se integra facilmente às suas ferramentas de segurança e gerenciamento, permitindo que você amplie suas políticas de governança existentes para obter tranquilidade e maior controle.

O que é um data lake do Azure?

Um Azure data lake inclui armazenamento de dados escalonável, cloud e serviço analítico. Azure data lake O armazenamento permite que as organizações armazenem dados de qualquer tamanho, formato e velocidade para uma ampla variedade de casos de uso de processamento, análise e ciência de dados. Quando usado com outros serviços Azure - como Azure Databricks - Azure data lake O armazenamento é uma maneira muito mais econômica de armazenar e recuperar dados em toda a sua organização.

Independentemente de seus dados serem grandes ou pequenos, rápidos ou lentos, estruturados ou não estruturados, o Azure data lake integra-se à identidade, ao gerenciamento e à segurança do Azure para simplificar a gestão de dados e a governança. Azure criptografa automaticamente seus dados, e o site Azure Databricks fornece ferramentas para proteger os dados de modo a atender às necessidades de segurança de sua organização e compliance.

Por que você precisa de um data lake do Azure?

O data lake tem formato aberto, de modo que os usuários evitam ficar presos a um sistema proprietário como o data warehouse. Os padrões e formatos abertos têm se tornado cada vez mais importantes nas arquiteturas de dados modernas. O data lake também é altamente durável e de baixo custo devido à sua capacidade de escalonar e aproveitar o armazenamento de objetos. Além disso, a análise avançada e machine learning em dados não estruturados são algumas das prioridades mais estratégicas para as empresas atualmente. A capacidade exclusiva de ingerir dados brutos em uma variedade de formatos - estruturados, não estruturados e semiestruturados -, juntamente com os outros benefícios mencionados, faz com que um data lake seja a escolha certa para o armazenamento de dados.

Quando adequadamente arquitetado, o data lake oferece a capacidade de:

  • Power ciência de dados e machine learning
  • Centralizar, consolidar e catalogar seus dados
  • Integre de forma rápida e contínua diversas fontes de dados e formatos
  • Democratize seus dados oferecendo aos usuários ferramentas de autosserviço

Qual é a diferença entre um data lake do Azure e um data warehouse do Azure?

Um data lake é um local central que contém uma grande quantidade de dados em seu formato nativo e bruto, bem como uma maneira de organizar grandes volumes de dados altamente diversificados. Em comparação com um data warehouse hierárquico, que armazena dados em arquivos ou pastas, um data lake usa uma arquitetura plana para armazenar os dados. O data lake geralmente é configurado em um cluster de hardware de commodity escalável. Como resultado, você pode armazenar dados brutos no lago, caso eles sejam necessários em uma data futura, sem se preocupar com o formato, o tamanho ou a capacidade de armazenamento dos dados.

Além disso, data lake clusters pode existir on-premises ou uma nuvem. Historicamente, o termo "data lake" era frequentemente associado ao armazenamento de objetos orientado para o Hadoop, mas hoje o termo geralmente se refere à categoria mais ampla de armazenamento de objetos. O armazenamento de objetos armazena dados com tags de metadados e um identificador exclusivo, o que facilita a localização e a recuperação de dados entre regiões e melhora o desempenho. A Databricks plataforma lakehouse disponibiliza todos os dados em sua data lake para qualquer número de casos de uso da data-driven.

Por que usar o formato Delta Lake para seu data lake do Azure?

Aqui estão cinco razões key para converter o data lake de Apache Parquet, CSV, JSON e outros formatos para o formatoDelta Lake:

  • Evitar a corrupção de dados
  • Consultas mais rápidas
  • Aumentar o frescor dos dados
  • Reproduzir modelos de ML
  • Alcançar compliance

Como você constrói um data lake usando Azure Databricks e Azure data lake Storage?

gerenciar Delta Lake em Azure Databricks fornece uma camada de confiabilidade que permite que você faça a curadoria, analise e obtenha valor de seu data lake no cloud.

  1. Azure Databricks lê dados de transmissão de filas de eventos, como Azure Event Hubs, Azure IoT Hub ou Kafka, e carrega os eventos brutos em tabelas e pastas Delta Lake otimizadas e compactadas (camada Bronze) armazenadas em Azure data lake Storage.
  2. O pipeline programado ou acionado do Azure Data Factory copia dados de diferentes fontes de dados em seu formato bruto para o Azure data lake Storage. O Auto Loader no Azure Databricks processa os arquivos à medida que eles chegam e os carrega em tabelas e pastas otimizadas e compactadas do Delta Lake (camada Bronze) armazenadas no Azure data lake Storage.
  3. transmissão ou programado/acionado Azure Databricks O trabalho lê novas transações da camada Bronze e, em seguida, join, limpa, transforma e agrega-as antes de usar transações ACID (INSERT, UPDATE, DELETE, merge) para carregá-las em conjuntos de dados com curadoria (camadas Silver e Ouro) armazenados em Delta Lake em Azure data lake Storage.

Arquitetura moderna de data lake

Uma arquitetura lakehouse moderna que combina o desempenho, a confiabilidade e a integridade de dados de um depósito com a flexibilidade, a escala e o suporte para dados não estruturados disponíveis em um data lake.

Os data lake modernos aproveitam a elasticidade do cloud para armazenar quantidades praticamente ilimitadas de dados "como estão", sem a necessidade de impor um esquema ou uma estrutura. A Structured Query Language (SQL) é uma linguagem de consulta avançada para explorar seus dados e descobrir percepções valiosas. Delta Lake é uma camada de armazenamento de código aberto que traz confiabilidade ao data lake com transações ACID, manipulação de metadados escalável e transmissão unificada e processamento de lotes de dados. Delta Lake é totalmente compatível e traz confiabilidade ao seu site data lake.

Você pode consultar facilmente seu data lake usando SQL e Delta Lake com o Azure Databricks. Delta Lake permite que você execute consultas SQL em seus dados de transmissão e de lotes sem mover ou copiar seus dados. Azure Databricks oferece benefícios adicionais ao trabalhar com o Delta Lake para proteger seu data lake por meio da integração nativa com o serviço cloud, oferece desempenho ideal e ajuda a auditar e solucionar problemas de pipeline de dados.

  • Delta Lake integra-se com o armazenamento escalável cloud ou HDFS para ajudar a eliminar silos de dados
  • Explore seu uso de dados SQL consultas e uma camada de transação compatível com ACID diretamente em seu data lake
  • Aproveite as tabelas de ouro, prata e bronze "medallion tables" para consolidar e simplificar a qualidade dos dados de seu pipeline de dados e fluxo de trabalho analítico
  • Use Delta Lake viagem do tempo para ver como seus dados mudaram ao longo do tempo
  • Azure Databricks Otimiza o desempenho com recursos como Delta cache, compactação de arquivos e omissão de dados

Libere o potencial de seus dados com o Azure Databricks

Tudo pronto para começar?