23 de novembro de 2020

Tech Talks de Transações ACID em Data Lakes: Introdução ao Delta Lake

Receba uma prévia do novo ebook da O'Reilly com as orientações passo a passo de que você precisa para começar a usar o Delta Lake.

Como parte do nosso Meetup on-line de Data + AI, exploramos tópicos que vão de genômica (com convidados da Regeneron) a pipelines de machine learning e ML acelerado por GPU até a otimização de desempenho do Tableau. Uma área temática key tem sido a exploração do Lakehouse.

O surgimento do padrão de arquitetura Lakehouse se baseia em inovações tecnológicas que permitem que o data lake ofereça suporte a transações ACID e a outros recursos de cargas de trabalho de data warehouse tradicionais.

A série de tech talks Getting Started with Delta Lake apresenta a base tecnológica do Delta Lake (Apache Spark™), a criação de pipelines de dados altamente escaláveis, o tratamento de cargas de trabalho de streaming e lotes mescladas, a potencialização da ciência de dados com o Delta Lake e o MLflow, e ainda mostra os bastidores com os engenheiros do Delta Lake para que você entenda as origens.

Melhore o Apache Spark™ com Delta Lake

O Apache Spark é o framework de processamento dominante para big data. O Delta Lake adiciona confiabilidade ao Spark para que suas iniciativas de analítica e machine learning tenham acesso imediato a dados de qualidade e confiáveis, armazenados em armazenamentos de objetos em cloud de baixo custo, como AWS S3, Azure Storage e Google Cloud Storage. Nesta sessão, você aprenderá a usar o Delta Lake para aprimorar a confiabilidade de seus data lakes.

Simplifique e escale pipelines de engenharia de dados

Uma arquitetura comum de pipeline de engenharia de dados usa tabelas que correspondem a diferentes níveis de qualidade, adicionando estrutura aos dados progressivamente: ingestão de dados (tabelas “Bronze”), transformação/engenharia de atributos (tabelas “Silver”) e tabelas agregadas/treinamento ou previsão de machine learning (tabelas “Gold”). Em conjunto, nos referimos a essas tabelas como uma arquitetura “multi-hop”. Isso permite que os engenheiros de dados construam um pipeline que começa com dados brutos como uma “única fonte de verdade”, da qual tudo flui. Nesta sessão, você aprenderá sobre a arquitetura do pipeline de engenharia de dados, cenários de pipeline de engenharia de dados e melhores práticas, como o Delta Lake aprimora os pipelines de engenharia de dados e como é fácil adotar o Delta Lake para criar seus pipelines de engenharia de dados.

Além da Lambda: apresentando a Arquitetura Delta

A arquitetura Lambda é uma técnica popular em que os registros são processados em paralelo por um sistema de lotes e um sistema de transmissão. Os resultados são então combinados no momento da consulta para fornecer uma resposta completa. Com o advento do Delta Lake, estamos vendo muitos de nossos clientes adotando um modelo simples de fluxo de dados contínuo para processar os dados assim que chegam. Chamamos essa arquitetura de “Arquitetura Delta”. Nesta sessão, abordamos os principais gargalos para a adoção de um modelo de fluxo de dados contínuo e como a Arquitetura Delta resolve esses problemas.

Preparando dados para ciência de dados com o Delta Lake e o MLflow

Ao planejar iniciativas de ciência de dados, é preciso ter uma visão holística de todo o universo de análise de dados. A engenharia de dados é um facilitador key da ciência de dados que ajuda a fornecer dados confiáveis e de qualidade em tempo hábil. Nesta sessão, você aprenderá sobre o ciclo de vida da ciência de dados, os princípios-chave da engenharia de dados moderna, como o Delta Lake pode ajudar a preparar dados confiáveis para analítica, como é fácil adotar o Delta Lake para potencializar seu data lake e como incorporar o Delta Lake em sua infraestrutura de dados para viabilizar a ciência de dados.

Nos bastidores: a gênese do Delta Lake

O Developer Advocate Denny Lee entrevista Burak Yavuz, engenheiro de software da Databricks, para saber mais sobre o processo de tomada de decisão da equipe do Delta Lake e por que eles projetaram, arquitetaram e implementaram a arquitetura que ela é hoje. Nesta sessão, você aprenderá sobre os desafios técnicos que a equipe enfrentou, como esses desafios foram resolvidos e quais são seus planos para o futuro.

Começar

Comece a preencher seu Delta Lake hoje mesmo assistindo a esta série completa.

O que vem a seguir?

Se você quiser expandir seu conhecimento sobre o Delta Lake, assista à nossa série de palestras técnicas Mergulhando no Delta Lake. Com a orientação da equipe de engenharia do Delta Lake, incluindo Burak Yavuz, Andrea Neumann, Tathagata “TD” Das e o Developer Advocate Denny Lee, você aprenderá sobre a implementação interna do Delta Lake.

Se quiser saber mais sobre os próximos meetups on-line, participe do nosso Data + AI Online Meetup no meetup.com

Mergulhando no Delta Lake
Mergulhe nos componentes internos do Delta Lake, uma tecnologia popular de código aberto para data lakes mais confiáveis.

Assista agora

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.

Ver todos os blogs