Ir para o conteúdo principal
Produto

O que há de novo no Databricks SQL

Data warehousing mais simples, rápido e econômico

por Gaurav Saraf e Kevin Clugage

Temos o prazer de compartilhar os recursos mais recentes e as melhorias de desempenho que tornam o Databricks SQL mais simples, rápido e econômico do que nunca. Com mais de 7.000 clientes usando o Databricks SQL como seu data warehouse hoje, este se tornou o produto de crescimento mais rápido em nossa história!

O melhor data warehouse é um lakehouse

O Databricks SQL é baseado na arquitetura de lakehouse. Fomos pioneiros nessa abordagem no início de 2020 e lançamos o Databricks SQL (DBSQL) como parte da Databricks Data Intelligence Platform. Previmos que os data warehouses independentes e isolados se tornariam sistemas legados devido aos seus altos custos e natureza proprietária, e hoje vemos fortes evidências de que isso é verdade: o relatório da MIT Technology Insights mostra que 74% das empresas já adotaram a arquitetura de lakehouse. As diversas plataformas de dados baseadas em lakehouse disponíveis para essas empresas foram analisadas recentemente no Forrester Wave for Data Lakehouses, que reconheceu a Databricks como Líder com as pontuações mais altas nas categorias de oferta atual e estratégia em comparação com todas as outras!

Data Warehouse

Em nossas conversas com clientes, a vantagem do lakehouse vem de duas coisas: o menor custo total e uma plataforma unificada para AI e BI. O lakehouse torna possível usar uma única cópia dos dados, em um formato aberto, para todas as suas cargas de trabalho de AI e BI. Isso elimina a duplicação e a replicação de dados necessárias para manter os dados sincronizados entre várias plataformas, reduzindo drasticamente os custos e simplificando a arquitetura.

Desempenho impulsionado por AI: melhoria de 4x

No ano passado, declaramos que a abordagem clássica para o desempenho do sistema, baseada em heurísticas e otimizadores de custo, estava errada na maioria das vezes! Embora essas técnicas fossem as melhores disponíveis, a era atual da AI permitiu uma abordagem totalmente nova. Hoje, usamos uma nova geração de sistemas de AI em todas as camadas de nossa plataforma, o que levou as melhorias de desempenho do sistema a um novo patamar. Esses sistemas de AI analisam suas cargas de trabalho e melhoram a eficiência e o desempenho automaticamente.

  • Liquid Clustering, agora em GA, gerencia o layout dos seus dados, escolhendo automaticamente a chave de clustering e oferecendo a flexibilidade de redefinir chaves de clustering sem regravações de dados! Isso permite que o layout dos seus dados evolua junto com as necessidades analíticas ao longo do tempo e substitui o particionamento de tabelas e o ZORDER, para que você não precise mais ajustar manualmente o layout dos seus dados.
  • Predictive I/O, também conhecido como "Indexless Indexing", oferece o desempenho de índices, mas sem exigir a criação ou a manutenção de sobrecarga de índices. Graças aos avanços nos sistemas da Databricks, agora podemos executar modelos e vetores de características de entrada com parâmetros uma ordem de magnitude maiores, sem qualquer aumento perceptível na latência de previsão. Isso permite que o Predictive I/O suporte um conjunto muito mais amplo de cargas de trabalho.
  • Intelligent Workload Management usa modelos de machine learning para otimizar os recursos de SQL warehouses serverless para melhor suportar alta simultaneidade. Isso é perfeito para cargas de trabalho de BI em escala, quando um grande número de analistas e consultas está sobrecarregando o data warehouse. O Intelligent Workload Management garante que essas cargas de trabalho recebam a quantidade certa de recursos rapidamente.
  • Predictive Optimization, agora em GA, lida automaticamente com as operações de manutenção típicas de tabelas que ajudam a otimizar o desempenho. A Databricks identificará as tabelas que se beneficiariam de operações de manutenção, como clustering, ajustes de tamanho de arquivo e limpeza de arquivos (vacuuming), e simplesmente as executará para você — sem a necessidade de tarefas manuais.

Esses são apenas alguns dos nossos sistemas de AI integrados e a melhor parte é que você não precisa conhecer os detalhes de como eles operam — a mágica simplesmente acontece de forma automática. Dado o tempo que dedicamos a essa área, é justo dizer que somos obcecados por desempenho e, com o tempo, podemos ver a diferença que isso fez. Quando analisamos as cargas de trabalho recorrentes de nossos clientes, o desempenho das mesmas consultas de BI melhorou 73% em relação a dois anos atrás! Isso é 4 vezes mais rápido!

Desempenho impulsionado por AI

Assistente de AI para analistas de SQL

Também infundimos AI em nossa experiência do usuário, tornando o Databricks SQL mais fácil de usar e mais produtivo para analistas de SQL. O Databricks AI Assistant, agora disponível para o público geral, é um assistente de AI integrado e sensível ao contexto que ajuda os analistas de SQL a criar, editar e depurar SQL. Este assistente foi desenvolvido com base no mesmo mecanismo de inteligência de dados de nossa plataforma, de modo que ele compreende o contexto exclusivo do seu negócio. O assistente teve uma rápida adoção na Databricks devido à sua capacidade de elaborar consultas ou corrigir erros para analistas de SQL, economizando inúmeras horas e aumentando a produtividade.

Assistente de AI para analistas de SQL

Aproveite modelos de AI diretamente via SQL

Com o surgimento de modelos de GenAI e ML, não surpreende que os analistas de SQL queiram acessar cada vez mais esses modelos de AI diretamente no SQL. Apresentamos as funções de AI no Databricks SQL no ano passado exatamente por esse motivo, e temos visto uma rápida adoção desde então. As AI Functions estão agora em preview público e também adicionamos novas funções, como a busca vetorial. As AI Functions eliminam as complexidades técnicas do uso de LLMs, permitindo que analistas e cientistas de dados utilizem esses modelos sem esforço, sem precisar se preocupar com a infraestrutura subjacente.

  1. A função ai_query() permite que você consulte qualquer modelo de AI a partir do SQL. Podem ser modelos de GenAI ou modelos clássicos de ML. Você pode até usar modelos externos de LLM

  2. Funções de LLM integradas
    Há também 9 novas funções de GenAI que permitem analisar textos não estruturados com o poder dos LLMs. Por exemplo:

    Extraia informações importantes de textos presentes na coluna de uma tabela:

    Classifique os comentários de avaliação de um produto com base no conteúdo:

    Veja todas as 9 funções aqui

  3. AI Search: A nova função de busca vetorial permite realizar buscas KNN e possibilita um RAG pronto para uso de forma simples! Isso utiliza o produto AI Search da Databricks. Ao combinar recursos de busca vetorial e recursos de AI_query, os analistas de SQL agora podem executar análises complexas facilmente. Por exemplo, agora é possível pesquisar todos os tweets

  4. AI_Forecast: Uma nova função integrada de previsão de séries temporais para que você possa prever métricas (por exemplo, receita) rapidamente via SQL, sem a necessidade de criar um modelo de ML personalizado.

AI/BI: um novo tipo de produto de business intelligence (BI)

Com o objetivo de democratizar verdadeiramente os insights a partir dos dados, também apresentamos o Databricks AI/BI, um produto de business intelligence que aproveita a AI generativa para compreender profundamente a semântica dos dados e permitir a análise de dados de autoatendimento para todos em sua organização. Construído em um sistema de AI composto, o AI/BI aproveita insights de todo o seu patrimônio de dados, incluindo metadados do Unity Catalog, pipelines de ETL, consultas SQL e muito mais. Ele apresenta dois componentes principais: AI/BI Dashboards, uma oferta de BI low-code para criar rapidamente visualizações de dados e dashboards, e o Genie, uma interface conversacional para seus dados que aprende continuamente com o feedback dos usuários para responder a uma ampla variedade de perguntas de negócios do mundo real sem alucinações. Essas inovações aprimoram significativamente a análise de autoatendimento no Databricks SQL, capacitando uma gama mais ampla de usuários não técnicos, ao mesmo tempo que garantem governança unificada, rastreamento de linhagem, compartilhamento seguro e alto desempenho por meio da integração com sua Data Intelligence Platform.

Data warehousing completo e de ponta a ponta com o Databricks SQL

Além dos novos recursos de AI, também lançamos uma série de recursos principais de SQL Warehouse. Milhares de clientes migraram seus data warehouses legados para o DBSQL. Para tornar essas migrações possíveis, garantimos que o DBSQL tivesse todos os recursos para fornecer as mesmas capacidades de data warehouse no lakehouse:

  1. Materialized Views: garanta a atualização dos dados usando MVs para alimentar seus dashboards. As materialized views são atualizadas automaticamente quando as tabelas subjacentes têm dados novos, em vez de quando são consultadas.
  2. Use restrições de PK/FK para otimizar o desempenho das consultas. Ao usar o RELY, as consultas podem ser aceleradas eliminando junções redundantes e agregações distintas automaticamente.
  3. O Variant é um novo tipo de dados para processamento de dados semiestruturados que oferece um aumento significativo de desempenho em comparação com o armazenamento de dados como strings JSON, ao mesmo tempo que oferece flexibilidade para suportar esquemas altamente aninhados e em evolução.
  4. Os Lateral Column Aliases facilitam a escrita de SQL ao permitir referenciar e reutilizar uma expressão especificada anteriormente na mesma consulta. Isso pode ajudar a simplificar as consultas, reduzindo CTEs ou subconsultas desnecessárias.
  5. Recursos como SQL Variables, Named Arguments e Python UDFs também estão facilitando a criação de scripts diretamente no Databricks SQL.

Não se esqueça de que tudo isso funciona em um excelente SQL Editor alimentado por AI e em uma ferramenta de dashboard integrada.

Além disso, graças aos nossos excelentes parceiros, também temos um ecossistema rico, aberto e integrado de suas ferramentas de dados e AI favoritas, como Power BI, Tableau e dbt. É quase certo que quaisquer ferramentas que você esteja usando hoje já funcionem com o DBSQL.

DBSQL

Saiba mais e comece a usar o Databricks SQL

Para saber mais sobre as novidades em data warehousing e Databricks SQL, assista à palestra principal de Data Warehouse do Data + AI Summit, além das diversas sessões da trilha de Data Warehousing, Analytics e BI.

Se você deseja migrar seu warehouse existente para um data warehouse serverless de alto desempenho, com uma excelente experiência de usuário e menor custo total, o Databricks SQL é a solução — experimente gratuitamente.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.