Obtenha uma prévia do novo e-book da O'Reilly para obter a orientação passo a passo necessária para começar a usar o Delta Lake.
Versionamento de dados para reproduzir experimentos, reverter e auditar dados
Temos o prazer de apresentar os recursos de viagem no tempo no Databricks Delta Lake, o mecanismo de análise unificado de última geração construído sobre o Apache Spark, para todos os nossos usuários. Com este novo recurso, o Delta versiona automaticamente os big data que você armazena em seu data lake, e você pode acessar qualquer versão histórica desses dados. Este gerenciamento de dados temporais simplifica seu pipeline de dados, facilitando a auditoria, a reversão de dados em caso de gravações ou exclusões incorretas acidentais e a reprodução de experimentos e relatórios. Sua organização pode finalmente padronizar um repositório de big data limpo, centralizado e versionado em seu próprio armazenamento em nuvem para suas análises.
Os recursos de viagem no tempo do Delta simplificam a criação de pipelines de dados para os casos de uso acima. Ao gravar em uma tabela ou diretório Delta, cada operação é versionada automaticamente. Você pode acessar as diferentes versões dos dados de duas maneiras diferentes:
1. Usando um timestamp
Sintaxe Scala:
Você pode fornecer o timestamp ou a string de data como uma opção para o leitor DataFrame:
Em Python:
Sintaxe SQL:
Se o código do leitor estiver em uma biblioteca à qual você não tem acesso e se você estiver passando parâmetros de entrada para a biblioteca para ler dados, você ainda pode voltar no tempo para uma tabela passando o timestamp no formato yyyyMMddHHmmssSSS para o caminho:
2. Usando um número de versão
No Delta, cada gravação tem um número de versão, e você pode usar o número de versão para viajar de volta no tempo também.
Sintaxe Scala:
Sintaxe Python:
Sintaxe SQL:
Você pode examinar o histórico de alterações da tabela usando o comando DESCRIBE HISTORY ou através da interface do usuário.
A viagem no tempo também desempenha um papel importante no machine learning e na ciência de dados. A reprodutibilidade de modelos e experimentos é uma consideração fundamental para os cientistas de dados, porque eles geralmente criam centenas de modelos antes de colocar um em produção e, nesse processo demorado, gostariam de voltar aos modelos anteriores. No entanto, como o gerenciamento de dados geralmente é separado das ferramentas de ciência de dados, isso é realmente difícil de realizar.
O Databricks resolve este problema de reprodutibilidade integrando os recursos de viagem no tempo do Delta com o MLflow, uma plataforma de código aberto para o ciclo de vida do machine learning. Para treinamento de machine learning reproduzível, você pode simplesmente registrar um URL com timestamp para o caminho como um parâmetro MLflow para rastrear qual versão dos dados foi usada para cada trabalho de treinamento. Isso permite que você volte às configurações e conjuntos de dados anteriores para reproduzir modelos anteriores. Você não precisa coordenar com as equipes upstream nos dados nem se preocupar em clonar dados para diferentes experimentos. Este é o poder do Unified Analytics, onde a ciência de dados está intimamente ligada à engenharia de dados.
A viagem no tempo também facilita a realização de reversões em caso de gravações incorretas. Por exemplo, se o seu trabalho de pipeline GDPR teve um bug que excluiu acidentalmente informações do usuário, você pode corrigir facilmente o pipeline:
Você também pode corrigir atualizações incorretas da seguinte forma:
Com as consultas AS OF, agora você pode fixar o snapshot de uma tabela Delta em atualização contínua para vários trabalhos downstream. Considere uma situação em que uma tabela Delta está sendo atualizada continuamente, digamos, a cada 15 segundos, e há um trabalho downstream que lê periodicamente desta tabela Delta e atualiza diferentes destinos. Nesses cenários, normalmente você deseja uma visão consistente da tabela Delta de origem para que todas as tabelas de destino reflitam o mesmo estado. Agora você pode lidar facilmente com esses cenários da seguinte forma:
A viagem no tempo também simplifica a análise de séries temporais. Por exemplo, se você quiser descobrir quantos novos clientes adicionou na última semana, sua consulta pode ser muito simples como esta:
A viagem no tempo no Delta melhora tremendamente a produtividade do desenvolvedor. Ajuda:
As organizações podem finalmente padronizar um repositório de big data limpo, centralizado e versionado em seu próprio armazenamento em nuvem para análise. Estamos entusiasmados para ver o que você será capaz de realizar com este novo recurso.
O recurso está disponível como visualização pública para todos os usuários. Saiba mais sobre o recurso. Para vê-lo em ação, inscreva-se para uma avaliação gratuita do Databricks.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
