Ir para o conteúdo principal

Construindo um Semantic Lakehouse com AtScale e Databricks

Descubra como uma camada semântica universal pode democratizar seu Databricks Lakehouse e habilitar BI self-service

Building a Semantic Lakehouse With AtScale and Databricks

Publicado: 10 de novembro de 2022

Parceiros5 min de leitura

Este é um post colaborativo entre AtScale e Databricks. Agradecemos a Kieran O'Driscoll, Technology Alliances Manager, AtScale, por suas contribuições.

 

Kyle Hale, Solution Architect na Databricks, cunhou o termo "Semantic Lakehouse" em seu blog há alguns meses. É uma boa visão geral do potencial para simplificar a pilha de BI e alavancar o poder do lakehouse. À medida que AtScale e Databricks colaboram cada vez mais no suporte aos nossos clientes conjuntos, o potencial de alavancar a plataforma de camada semântica da AtScale com Databricks para criar rapidamente um Semantic Lakehouse tomou forma. Um semantic lakehouse fornece uma camada de abstração sobre as tabelas físicas e oferece uma visão amigável para negócios do consumo de dados, definindo e organizando os dados por diferentes áreas de assunto, e definindo as entidades, atributos e junções. Tudo isso simplifica o consumo de dados por analistas de negócios e usuários finais.

A maioria das empresas ainda luta com a democratização de dados

Tornar os dados disponíveis para os tomadores de decisão é um desafio que a maioria das organizações enfrenta hoje. Quanto maior a organização, mais desafiador se torna impor um padrão único para consumir e preparar análises. Mais da metade das empresas relatam usar três ou mais ferramentas de BI, com mais de um terço usando quatro ou mais. Além dos usuários de BI, os cientistas de dados têm sua própria gama de preferências, assim como os desenvolvedores de aplicativos.

Essas ferramentas funcionam de maneiras diferentes e falam linguagens de consulta diferentes. Saídas de análise conflitantes são quase garantidas quando várias unidades de negócios tomam decisões recorrendo a diferentes cópias de dados isoladas ou soluções convencionais de OLAP cubing, como Tableau Hyper Extracts, Power BI Premium Imports ou Microsoft SQL Server Analysis Services (SSAS) para usuários do Excel.

Manter dados em diferentes data marts e data warehouses, extrações em vários bancos de dados e dados cacheados externamente em ferramentas de relatórios não fornece uma única versão da verdade para a empresa e aumenta o movimento de dados, ETL, segurança e complexidade. Torna-se um pesadelo de governança de dados e também significa que as organizações estão executando seus negócios com dados potencialmente desatualizados de diferentes silos de dados nas camadas de BI e não aproveitando todo o poder do Databricks Lakehouse.

A necessidade de uma camada semântica universal

A camada semântica da AtScale fica entre todas as suas ferramentas de consumo de análise e seu Databricks Lakehouse. Ao abstrair a forma física e a localização dos dados, a camada semântica torna os dados armazenados no Delta Lake prontos para análise e facilmente consumíveis pela ferramenta de escolha dos usuários de negócios. As ferramentas de consumo podem se conectar ao AtScale por meio de um dos seguintes protocolos:

  • Para SQL, o mecanismo AtScale aparece como um data warehouse Hive SQL.
  • Para MDX ou DAX, o AtScale aparece como um cubo do SQL Server Analysis Services (SSAS).
  • Para aplicativos REST ou Python, o AtScale aparece como um serviço web.

Em vez de processar dados localmente, o AtScale envia as consultas de entrada para o Databricks como SQL otimizado. Isso significa que as consultas dos usuários são executadas diretamente no Delta Lake usando Databricks SQL para computação, escala e desempenho.

Semantic Lakehouse com Databricks e Atscale
Semantic Lakehouse com Databricks e Atscale

O benefício adicional de usar uma Camada Semântica Universal é que a tecnologia autônoma de otimização de desempenho da AtScale identifica padrões de consulta do usuário para orquestrar automaticamente a criação e manutenção de agregados, assim como a equipe de engenharia de dados faria. Agora ninguém precisa gastar tempo e esforço de desenvolvimento para criar e manter esses agregados, pois eles são criados e gerenciados automaticamente pela Atscale para desempenho ideal. Esses agregados são criados no Delta Lake como tabelas Delta físicas e podem ser considerados uma "Camada de Diamante". Esses agregados são totalmente gerenciados pela AtScale e melhoram a escala e o desempenho de seus relatórios de BI no Databricks Lakehouse, ao mesmo tempo que simplificam radicalmente os pipelines de dados de análise e a engenharia de dados associada.

UM LÍDER 5X

Gartner®: Databricks, líder em banco de dados em nuvem

Criando um semantic lakehouse agnóstico de ferramentas

A visão da Databricks Lakehouse Platform é uma única plataforma unificada para suportar todas as suas cargas de trabalho de dados, análise e IA. A descrição de Kyle do "Semantic Lakehouse" é um bom modelo para uma pilha de BI simplificada.

A AtScale estende essa ideia de um Semantic Lakehouse ao suportar cargas de trabalho de BI e casos de uso de IA/ML por meio de nossa Camada Semântica agnóstica de ferramentas. A combinação de AtScale e Databricks significa que a arquitetura do semantic Lakehouse é estendida para qualquer camada de apresentação - não importa se é Tableau, Power BI, Excel ou Looker. Todos eles podem usar a mesma camada semântica no AtScale.

Semantic Lakehouse - todas as suas análises diretamente no Lakehouse
Semantic Lakehouse - todas as suas análises diretamente no Lakehouse

Com o advento do lakehouse, as organizações não têm mais suas equipes de BI e IA/ML trabalhando isoladamente. A Camada Semântica Universal da AtScale ajuda as organizações a obter acesso consistente a todos os seus dados corporativos, independentemente de ser um usuário de negócios no Excel ou um cientista de dados usando um Notebook, enquanto aproveita todo o poder de sua Databricks Lakehouse Platform.

Recursos adicionais

Assista ao nosso painel de discussão com Franco Patano, especialista líder de produto na Databricks para mais informações e para descobrir como essas ferramentas podem ajudá-lo a criar uma plataforma de análise ágil e escalável.

Se você tiver alguma dúvida sobre a AtScale ou como modernizar e migrar sua pilha legada de EDW, BI e relatórios para Databricks e AtScale - sinta-se à vontade para entrar em contato com [email protected] ou contatar a Databricks.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada