Ir para o conteúdo principal

Blog: Apresentando visualizações materializadas e tabelas de streaming para o Databricks SQL

Capacite analistas de dados a ingerir, transformar e fornecer dados atualizados totalmente em SQL

m

Temos o prazer de anunciar que as views materializadas e as tabelas de transmissão agora estão disponíveis publicamente no Databricks SQL na AWS e no Azure. As tabelas de transmissão fornecem ingestão incremental do armazenamento em cloud e de filas de mensagens. As views materializadas são atualizadas de forma automática e incremental à medida que novos dados chegam. Juntos, esses dois recursos permitem pipelines de dados sem infraestrutura que são simples de configurar e entregam dados atualizados para a empresa. Nesta postagem no blog, exploraremos como esses novos recursos capacitam analistas e engenheiros de analítica a fornecer aplicativos de dados e analítica com mais eficiência no data warehouse.

Plano de fundo

Data warehousing e engenharia de dados são cruciais para qualquer organização data-driven. Os data warehouses servem como o local principal para analítica e relatórios, enquanto a engenharia de dados envolve a criação de pipelines de dados para ingestão e transformação de dados.

No entanto, os data warehouses tradicionais não são projetados para ingestão e transformação de transmissão. A ingestão de grandes volumes de dados com baixa latência em um data warehouse tradicional é cara e complexa porque os data warehouses legados foram projetados para processamento em lote. Como resultado, as equipes tiveram que implementar soluções desajeitadas que exigiam configurações fora do warehouse e precisavam usar o armazenamento em cloud como um local de preparação intermediário. Gerenciar esses sistemas é custoso, propenso a erros e complexo de manter.

A Plataforma Lakehouse da Databricks rompe com esse paradigma tradicional ao fornecer uma solução unificada. Delta Live Tables (DLT) é o melhor lugar para fazer engenharia de dados e transmissão, e o Databricks SQL oferece um preço/desempenho até 12x melhor para cargas de trabalho de analítica em data lakes existentes.

Além disso, agora parceiros como o dbt podem se integrar a esses recursos nativos, que descrevemos em mais detalhes mais adiante neste anúncio.

Desafios comuns enfrentados por usuários de data warehouse

Os data warehouses servem como o local principal para analítica e entrega de dados para relatórios internos por meio de aplicativos de Business Intelligence (BI). As organizações enfrentam vários desafios na adoção de data warehouses:

  • Autoatendimento: os analistas de SQL geralmente enfrentam o desafio de depender de outros recursos e ferramentas para corrigir problemas de dados, o que desacelera o ritmo em que as necessidades do negócio podem ser atendidas.
  • Dashboards de BI lentos: os dashboards de BI criados com grandes volumes de dados tendem a retornar resultados lentamente, prejudicando a interatividade e a usabilidade ao responder a várias perguntas.
  • Dados desatualizados: os dashboards de BI geralmente apresentam dados desatualizados, como os dados de ontem, devido a Jobs de ETL que são executados apenas à noite.

Use SQL para ingestão e transformação de dados sem ferramentas de terceiros

Tabelas de transmissão e visualizações materializadas capacitam os analistas de SQL com as melhores práticas de engenharia de dados. Considere um exemplo de ingestão contínua de arquivos recém-chegados de um local do S3 e preparação de uma tabela de relatórios simples. Com o Databricks SQL, o analista pode descobrir e visualizar rapidamente os arquivos no S3 e configurar um pipeline de ETL simples em minutos, usando apenas algumas linhas de código, como no exemplo a seguir:

1- Descubra e visualize dados no S3

2- Ingerir dados em transmissão

3- Agregue dados incrementalmente usando uma view materializada

O que são visualizações materializadas?

As views materializadas reduzem o custo e melhoram a latência da query pré-computando queries lentas e computações usadas com frequência. Em um contexto de engenharia de dados, eles são usados para transformar dados. Mas elas também são valiosas para equipes de analistas em um contexto de data warehousing porque podem ser usadas para (1) acelerar as queries do usuário final e os painéis de BI e (2) compartilhar dados com segurança. Desenvolvidas com base no Delta Live Tables, as MVs reduzem a latência das consultas pré-computando consultas que, de outra forma, seriam lentas e computações usadas com frequência.

Blog: Apresentando visualizações materializadas e tabelas de streaming para o Databricks SQL

Benefícios das visões materializadas:

  • Acelere painéis de BI. Como as MVs pré-computam os dados, as consultas dos usuários finais são muito mais rápidas porque eles não precisam reprocessar os dados consultando as tabelas de base diretamente.
  • Reduza os custos de processamento de dados. Os resultados das MVs são atualizados incrementalmente, evitando a necessidade de recriar completamente a view quando novos dados chegam.
  • Melhore o controle de acesso a dados para um compartilhamento seguro. Controle mais rigidamente quais dados podem ser vistos pelos consumidores, controlando o acesso às tabelas base.

O que são tabelas de transmissão?

A ingestão no DBSQL é realizada com tabelas de transmissão (STs). Você pode considerar as STs como ideais para trazer dados para tabelas “bronze”. As STs permitem a ingestão contínua e escalável de qualquer fonte de dados, incluindo armazenamento em cloud, barramentos de mensagens (EventHub, Apache Kafka) e muito mais.

Blog: Apresentando visualizações materializadas e tabelas de streaming para o Databricks SQL

Benefícios das tabelas de transmissão:

  • Viabilize casos de uso em tempo real. Capacidade de oferecer suporte a analítica/BI em tempo real, machine learning e casos de uso operacionais com dados de transmissão.
  • Maior escalabilidade. Gerencie grandes volumes de dados de forma mais eficiente por meio do processamento incremental em vez de grandes lotes.
  • Capacite mais profissionais. A sintaxe SQL simples torna a transmissão de dados acessível a todos os engenheiros e analistas de dados.

História de cliente: como a Adobe e a Danske Spil aceleram as queries de dashboard com views materializadas

Blog: Apresentando visualizações materializadas e tabelas de streaming para o Databricks SQL

O Databricks SQL capacita analistas de SQL e de dados a ingerir, limpar e enriquecer dados facilmente para atender às necessidades do negócio, sem depender de ferramentas de terceiros. Tudo pode ser feito totalmente em SQL, otimizando o fluxo de trabalho.

Ao aproveitar as visualizações materializadas e as tabelas de transmissão, você pode:

  • Capacite seus analistas: analistas de SQL e de dados podem ingerir, limpar e enriquecer dados facilmente para atender rapidamente às necessidades da sua empresa. Como tudo pode ser feito totalmente em SQL, não são necessárias ferramentas de terceiros.
  • Acelere os painéis de BI: Crie MVs para acelerar a analítica de SQL e os relatórios de BI, pré-computando os resultados com antecedência.
  • Mude para a analítica em tempo real: combine MVs com tabelas de transmissão para criar pipelines de dados incrementais para casos de uso em tempo real. Você pode configurar pipelines de dados de transmissão para realizar a ingestão e a transformação diretamente no warehouse do Databricks SQL.

A Adobe tem uma abordagem avançada em relação à AI, com a missão de tornar o mundo mais criativo, produtivo e personalizado com a inteligência artificial como um copiloto que amplifica a engenhosidade humana. Como um dos principais clientes da versão de pré-lançamento das Materialized Views no Databricks SQL, eles observaram enormes benefícios técnicos e de negócios que os ajudam a cumprir essa missão:

“A conversão para Materialized Views resultou em uma melhoria drástica no desempenho das querys, com o tempo de execução diminuindo de 8 minutos para apenas 3 segundos. Isso permite que nossa equipe trabalhe com mais eficiência e tome decisões mais rápidas com base nas percepções obtidas dos dados. Além disso, a economia de custos adicional realmente ajudou.” — Karthik Venkatesan, Gerente Sênior de Engenharia de Software de Segurança, Adobe

Fundada em 1948, a Danske Spil é a loteria nacional da Dinamarca e foi um dos nossos primeiros clientes da pré-visualização das Materialized Views do DB SQL. Søren Klein, líder da equipe de engenharia de dados, compartilha sua perspectiva sobre o que torna as Materialized Views tão valiosas para a organização:

“Na Danske Spil, usamos Materialized Views para acelerar o desempenho dos dados de acompanhamento do nosso site. Com este recurso, evitamos a criação de tabelas desnecessárias e complexidade adicional, ao mesmo tempo que obtemos a velocidade de uma view persistida que acelera a solução de relatórios do usuário final.” — Søren Klein, líder da equipe de engenharia de dados, Danske Spil

Ingestão e transformações de transmissão facilitadas com o dbt

A Databricks e a dbt Labs colaboram para simplificar a engenharia analítica em tempo real na arquitetura de lakehouse. A combinação do framework de engenharia de analítica altamente popular do dbt com a Databricks Lakehouse Platform oferece recursos poderosos:

  • dbt + Tabelas de transmissão: A ingestão por transmissão de qualquer fonte agora está integrada aos projetos dbt. Usando SQL, os engenheiros de analítica podem definir e ingerir dados de nuvem/transmissão diretamente em seus pipelines do dbt.
  • dbt + Materialized Views: a criação de pipelines eficientes torna-se mais fácil com o dbt, aproveitando os poderosos recursos de refresh incremental do Databricks. Os usuários podem usar o dbt para criar e executar pipelines baseados em MVs, reduzindo os custos de infraestrutura com computação eficiente e incremental.

Principais conclusões

O data warehousing e a engenharia de dados são componentes essenciais de qualquer empresa orientada a dados. No entanto, gerenciar soluções separadas para cada aspecto é caro, propenso a erros e difícil de manter. A Databricks Lakehouse Platform traz os melhores recursos de engenharia de dados nativamente para o Databricks SQL, capacitando os usuários de SQL com uma solução unificada. Além disso, nossa integração com parceiros como o dbt capacita nossos clientes em comum a aproveitar esses recursos exclusivos para fornecer percepções mais rápidas, analítica em tempo real e fluxos de trabalho de engenharia de dados simplificados.

Você pode começar hoje com o Databricks e o Databricks SQL ou consultar a documentação de visualizações materializadas e tabelas de transmissão.[[ ## completed ## ]]

 

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada

O que vem a seguir?

Data Warehousing

June 28, 2023/6 min de leitura

Novidade no Unity Catalog: Lakehouse Federation

Social Card

Plataforma > Produtos > Anúncios

April 24, 2024/3 min de leitura

Anunciando a disponibilidade geral de notebooks Databricks em SQL Warehouses