Ir para o conteúdo principal

Como a KPMG usa o Delta Sharing para acessar e auditar dezenas de bilhões de transações

Uma visão prática sobre a melhoria de auditorias no setor de fornecimento de energia.

How KPMG uses Delta Sharing to access and audit tens of billions of transactions

Published: September 19, 2025

Estratégia de Dados7 min de leitura

Summary

  • A KPMG navegou os desafios de desempenho e produtividade na auditoria de big data de um grande fornecedor de energia do Reino Unido
  • O Delta Sharing ajudou a KPMG a receber e analisar grandes volumes de dados contendo dezenas de bilhões de entradas em nuvens
  • Isso resultou em melhorar a qualidade de nossa rotina de análise de dados em 15 pontos percentuais

O acesso sem problemas e seguro aos dados tornou-se um dos maiores desafios enfrentados pelas organizações. Em nenhum lugar isso é mais evidente do que nas auditorias externas lideradas por tecnologia, onde a análise de 100% dos dados de transações está se tornando o padrão ouro. Essas auditorias envolvem a revisão de dezenas de bilhões de linhas de dados financeiros e de cobrança operacional.

Para entregar insights relevantes em grande escala, a análise não deve ser apenas robusta, mas também eficiente - equilibrando custo, tempo e qualidade para alcançar os melhores resultados em prazos apertados.

Recentemente, em colaboração com um grande fornecedor de energia do Reino Unido, a KPMG usou o Delta Sharing no Databricks para superar gargalos de performance, melhorar a eficiência e aprimorar a qualidade da auditoria. Este blog discute nossa experiência, os principais benefícios e o impacto mensurável no nosso processo de auditoria usando o Delta Sharing.

O Desafio de Negócio

Para cumprir os prazos de divulgação financeira pública, precisávamos acessar e analisar dezenas de bilhões de linhas de dados de cobrança da entidade auditada dentro de uma janela de auditoria curta.

Historicamente, dependíamos do ambiente de análise da entidade auditada hospedado no AWS PostgreSQL. À medida que os volumes de dados aumentavam, a configuração mostrava seus limites:

  • Volume de Dados: Nossa abordagem exigia olhar além do período de auditoria para analisar dados históricos que eram essenciais para a rotina. Como esse conjunto de dados aumentou significativamente ano após ano, acabou excedendo os limites da AWS PostgreSQL. Isso nos forçou a dividir os dados em dois bancos de dados separados, introduzindo sobrecarga operacional adicional e custo.
  • Transferência de Dados: Mover e copiar dados de um ambiente de produção para um banco de dados PostgreSQL de análise 'isolado' causou um início atrasado e falta de frescor e agilidade.
  • Degradação do Desempenho da Consulta: Embora o PostgreSQL suporte paralelismo, ele não aproveita vários núcleos de CPU ao executar uma única consulta, levando a um desempenho abaixo do ideal.
  • Recursos: Como o acesso ao ambiente de análise da entidade era limitado aos seus ativos, enfrentamos desafios para fazer o melhor uso de nosso pessoal e integrar rapidamente novos membros da equipe.

Dadas essas limitações, precisávamos de uma solução escalável e de alto desempenho que permitisse o acesso eficiente ao processamento de dados sem comprometer a segurança ou governança, possibilitando a redução do 'tempo da máquina' para resultados mais rápidos.

Por que Delta Sharing?

Delta Sharing, um protocolo aberto de compartilhamento de dados, forneceu a solução ideal ao permitir uma troca de dados segura e eficiente entre plataformas entre a KPMG e a entidade auditada sem duplicação.

Em comparação com a extensão do PostgreSQL, o Databricks ofereceu várias vantagens distintas:

  • Lida com Grandes Conjuntos de Dados: O Delta Sharing foi projetado para lidar com dados na escala de petabytes, eliminando as limitações de performance do PostgreSQL.
  • Custos mais baixos: O Delta Sharing reduziu os custos de armazenamento e computação ao reduzir a necessidade de replicação e transferências de dados em grande escala.
  • Flexibilidade: os dados compartilhados podem ser acessados ​​no Databricks usando todos os PySpark, SQL e ferramentas de BI como Power BI, facilitando a integração perfeita em nossos entregáveis ​​de auditoria.
  • Tabelas Delta: Poderíamos "voltar no tempo" para ver estados anteriores dos dados. Isso foi valioso para verificar pontos históricos que foram anteriormente perdidos no modelo de dados do cliente.

Abordagem de Implementação

Introduzimos o Delta Sharing de uma maneira que não interrompeu o trabalho de auditoria em andamento:

  1. Compartilhamento de Dados: Demos à entidade uma lista (no formato JSON) das tabelas e visualizações de que precisávamos. Eles usaram o Lakeflow Jobs e o Delta Sharing para disponibilizá-los diretamente em nosso ambiente Databricks. A entidade auditada forneceu acesso compartilhando uma chave, concedendo-nos permissão para garantir esses conjuntos de dados pré-acordados com o mínimo esforço entre AWS e Azure. O Delta Sharing cuidou desta troca segura entre nuvens, sem copiar ou mover os dados entre as plataformas.
  2. Integração com o Catálogo Unity: O Catálogo Unity nos deu um local único para gerenciar permissões, aplicar políticas de governança e manter a total visibilidade de quem acessou quais dados.
  3. Atualizações programadas de dados: Durante os ciclos-chave de auditoria, os dados foram atualizados para se alinhar com os prazos de relatórios financeiros.
  4. Otimização de Desempenho: Uma vez dentro do Databricks, reformulamos as consultas do PostgreSQL para Spark SQL e PySpark. Com o Delta Sharing fornecendo dados prontos para uso e governados, nos concentramos em otimizar o desempenho em vez de gerenciar o movimento de dados.
Abordagem de Implementação da KPMG
Figure 1: KPMG Implementation Approach

Impacto mensurável

Usamos o Delta Sharing para acessar e analisar bilhões de leituras de medidores em milhões de contas de seus clientes. Observamos melhorias significativas em vários KPIs:

  • Consultas mais rápidas: O Delta Sharing nos permitiu usar mais capacidade de computação para tarefas de big data. Algumas de nossas consultas mais complexas terminaram mais de 80% mais rápido - por exemplo, indo de 14,5 horas para 2,5 horas - em comparação com nosso antigo processo PostgreSQL.
  • Qualidade da Auditoria Melhorada: Ao passar menos tempo esperando pelas máquinas, tivemos mais tempo para focar em exceções, padrões incomuns e casos complexos. Isso melhorou nossos resultados de análise de dados em 15 pontos percentuais em algumas instâncias e reduziu o fardo de qualquer amostragem residual.
  • Economia de custos: Ao usar o Delta Sharing, evitamos fazer cópias extras dos dados. Isso significa que apenas armazenamos e processamos o que era necessário, o que reduziu os custos de armazenamento e processamento.
  • Acesso mais rápido: Como os dados foram provisionados por meio do Delta Sharing, houve menos tempo desperdiçado esperando que estivessem prontos, permitindo-nos começar o trabalho mais cedo.
  • Integração mais fácil da equipe: Integração perfeita de novos membros da equipe e ampla combinação de habilidades de codificação - SQL e PySpark.
O uso do Delta Sharing fez uma diferença notável em nosso processo de auditoria. Podemos acessar dados com segurança em diferentes plataformas de nuvem sem atrasos ou movimentação manual de dados- assim, nossas equipes trabalham sempre a partir da fonte única e mais atualizada de informação. Esta capacidade cross-cloud significa auditorias mais rápidas, resultados mais confiáveis para os clientes que auditamos, e um controle rigoroso do acesso aos dados em cada etapa. — Anna Barrell, parceira de auditoria, KPMG UK

Considerações Técnicas

Algumas considerações técnicas ao trabalhar com o Databricks devem ser levadas em conta:

• Delta Sharing: Como adotantes iniciais, algumas funcionalidades ainda não estavam disponíveis (por exemplo, compartilhar visões materializadas), embora estejamos animados que estas agora foram aperfeiçoadas com o lançamento GA e estaremos melhorando nossas soluções de Delta Sharing com esta funcionalidade.

• Trabalhos Lakeflow: Atualmente, não há mecanismo para confirmar se um trabalho upstream para uma tabela compartilhada Delta foi concluído. Um script foi executado antes da conclusão e resultou em uma saída incompleta, embora isso tenha sido rapidamente identificado por nossos procedimentos de completude e precisão.

Olhando para o Futuro

O Delta Sharing provou ser um divisor de águas para a análise de dados de auditoria, permitindo colaboração eficiente, escalável e segura. Nossa implementação bem-sucedida com o fornecedor de energia demonstra o valor do Delta Sharing para clientes com fontes de dados diversificadas em nuvens e plataformas.

Reconhecemos que muitas organizações armazenam uma porção significativa de seus dados financeiros no SAP. Isso apresenta uma oportunidade adicional para aplicar os mesmos princípios de eficiência e qualidade em uma escala ainda maior.

Através da parceria estratégica da Databricks com a SAP, anunciada em fevereiro deste ano, podemos agora acessar dados SAP via Delta Sharing. Esta solução conjunta, que se tornou um dos produtos mais vendidos da SAP em uma década, nos permite acessar esses dados enquanto preservamos seu contexto e sintaxe. Ao fazer isso, podemos garantir que os dados permanecem totalmente governados sob o Catálogo Unity e seu custo total de propriedade é otimizado. À medida que as entidades que auditamos avançam em sua jornada de transformação, nós da KPMG estamos buscando aproveitar esse impulso, antecipando os benefícios adicionais que isso trará para um processo de auditoria mais eficiente.

 

(This blog post has been translated using AI-powered tools) Original Post

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada