Temos o prazer de anunciar que as views materializadas e as tabelas de transmissão agora estão disponíveis publicamente no Databricks SQL na AWS e no Azure. As tabelas de transmissão fornecem ingestão incremental do armazenamento em cloud e de filas de mensagens. As views materializadas são atualizadas de forma automática e incremental à medida que novos dados chegam. Juntos, esses dois recursos permitem pipelines de dados sem infraestrutura que são simples de configurar e entregam dados atualizados para a empresa. Nesta postagem no blog, exploraremos como esses novos recursos capacitam analistas e engenheiros de analítica a fornecer aplicativos de dados e analítica com mais eficiência no data warehouse.
Data warehousing e engenharia de dados são cruciais para qualquer organização data-driven. Os data warehouses servem como o local principal para analítica e relatórios, enquanto a engenharia de dados envolve a criação de pipelines de dados para ingestão e transformação de dados.
No entanto, os data warehouses tradicionais não são projetados para ingestão e transformação de transmissão. A ingestão de grandes volumes de dados com baixa latência em um data warehouse tradicional é cara e complexa porque os data warehouses legados foram projetados para processamento em lote. Como resultado, as equipes tiveram que implementar soluções desajeitadas que exigiam configurações fora do warehouse e precisavam usar o armazenamento em cloud como um local de preparação intermediário. Gerenciar esses sistemas é custoso, propenso a erros e complexo de manter.
A Plataforma Lakehouse da Databricks rompe com esse paradigma tradicional ao fornecer uma solução unificada. Delta Live Tables (DLT) é o melhor lugar para fazer engenharia de dados e transmissão, e o Databricks SQL oferece um preço/desempenho até 12x melhor para cargas de trabalho de analítica em data lakes existentes.
Além disso, agora parceiros como o dbt podem se integrar a esses recursos nativos, que descrevemos em mais detalhes mais adiante neste anúncio.
Os data warehouses servem como o local principal para analítica e entrega de dados para relatórios internos por meio de aplicativos de Business Intelligence (BI). As organizações enfrentam vários desafios na adoção de data warehouses:
Tabelas de transmissão e visualizações materializadas capacitam os analistas de SQL com as melhores práticas de engenharia de dados. Considere um exemplo de ingestão contínua de arquivos recém-chegados de um local do S3 e preparação de uma tabela de relatórios simples. Com o Databricks SQL, o analista pode descobrir e visualizar rapidamente os arquivos no S3 e configurar um pipeline de ETL simples em minutos, usando apenas algumas linhas de código, como no exemplo a seguir:
1- Descubra e visualize dados no S3
2- Ingerir dados em transmissão
3- Agregue dados incrementalmente usando uma view materializada
As views materializadas reduzem o custo e melhoram a latência da query pré-computando queries lentas e computações usadas com frequência. Em um contexto de engenharia de dados, eles são usados para transformar dados. Mas elas também são valiosas para equipes de analistas em um contexto de data warehousing porque podem ser usadas para (1) acelerar as queries do usuário final e os painéis de BI e (2) compartilhar dados com segurança. Desenvolvidas com base no Delta Live Tables, as MVs reduzem a latência das consultas pré-computando consultas que, de outra forma, seriam lentas e computações usadas com frequência.

Benefícios das visões materializadas:
A ingestão no DBSQL é realizada com tabelas de transmissão (STs). Você pode considerar as STs como ideais para trazer dados para tabelas “bronze”. As STs permitem a ingestão contínua e escalável de qualquer fonte de dados, incluindo armazenamento em cloud, barramentos de mensagens (EventHub, Apache Kafka) e muito mais.

Benefícios das tabelas de transmissão:

O Databricks SQL capacita analistas de SQL e de dados a ingerir, limpar e enriquecer dados facilmente para atender às necessidades do negócio, sem depender de ferramentas de terceiros. Tudo pode ser feito totalmente em SQL, otimizando o fluxo de trabalho.
Ao aproveitar as visualizações materializadas e as tabelas de transmissão, você pode:

A Adobe tem uma abordagem avançada em relação à AI, com a missão de tornar o mundo mais criativo, produtivo e personalizado com a intelig ência artificial como um copiloto que amplifica a engenhosidade humana. Como um dos principais clientes da versão de pré-lançamento das Materialized Views no Databricks SQL, eles observaram enormes benefícios técnicos e de negócios que os ajudam a cumprir essa missão:
“A conversão para Materialized Views resultou em uma melhoria drástica no desempenho das querys, com o tempo de execução diminuindo de 8 minutos para apenas 3 segundos. Isso permite que nossa equipe trabalhe com mais eficiência e tome decisões mais rápidas com base nas percepções obtidas dos dados. Além disso, a economia de custos adicional realmente ajudou.” — Karthik Venkatesan, Gerente Sênior de Engenharia de Software de Segurança, Adobe

Fundada em 1948, a Danske Spil é a loteria nacional da Dinamarca e foi um dos nossos primeiros clientes da pré-visualização das Materialized Views do DB SQL. Søren Klein, líder da equipe de engenharia de dados, compartilha sua perspectiva sobre o que torna as Materialized Views tão valiosas para a organização:
“Na Danske Spil, usamos Materialized Views para acelerar o desempenho dos dados de acompanhamento do nosso site. Com este recurso, evitamos a criação de tabelas desnecessárias e complexidade adicional, ao mesmo tempo que obtemos a velocidade de uma view persistida que acelera a solução de relatórios do usuário final.” — Søren Klein, líder da equipe de engenharia de dados, Danske Spil
A Databricks e a dbt Labs colaboram para simplificar a engenharia analítica em tempo real na arquitetura de lakehouse. A combinação do framework de engenharia de analítica altamente popular do dbt com a Databricks Lakehouse Platform oferece recursos poderosos:
O data warehousing e a engenharia de dados são componentes essenciais de qualquer empresa orientada a dados. No entanto, gerenciar soluções separadas para cada aspecto é caro, propenso a erros e difícil de manter. A Databricks Lakehouse Platform traz os melhores recursos de engenharia de dados nativamente para o Databricks SQL, capacitando os usuários de SQL com uma solução unificada. Além disso, nossa integração com parceiros como o dbt capacita nossos clientes em comum a aproveitar esses recursos exclusivos para fornecer percepções mais rápidas, analítica em tempo real e fluxos de trabalho de engenharia de dados simplificados.
Você pode começar hoje com o Databricks e o Databricks SQL ou consultar a documentação de visualizações materializadas e tabelas de transmissão.[[ ## completed ## ]]
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Plataforma > Produtos > Anúncios
April 24, 2024/3 min de leitura

