Estamos empolgados em anunciar a Public Preview do Databricks Predictive Optimization. Este recurso otimiza de forma inteligente as disposições de dados da sua tabela para melhorar o desempenho e a eficiência de custos.
A Otimização Preditiva aproveita o Unity Catalog e o Lakehouse AI para determinar as melhores otimizações a serem executadas em seus dados e, em seguida, executa essas operações em uma infraestrutura serverless criada especificamente para isso. Isso simplifica significativamente sua jornada no lakehouse, liberando seu tempo para se concentrar em obter valor comercial de seus dados.
Este recurso é o mais recente de uma série de recursos do Databricks que aproveitam a IA para realizar ações de forma preditiva com base nos seus dados e nos padrões de acesso a eles. Anteriormente, lançamos o Predictive I/O for reads e as atualizações, que aplicam essas técnicas ao executar queries de leitura e atualização.
As tabelas do Lakehouse se beneficiam muito de otimizações em segundo plano que melhoram suas disposições de dados. Isso inclui a compactação de arquivos para garantir os tamanhos de arquivo adequados, ou o vacuuming para remover arquivos de dados desnecessários. A otimização adequada melhora significativamente o desempenho e, ao mesmo tempo, reduz os custos.
No entanto, isso cria um desafio contínuo para as equipes de engenharia de dados, que precisam descobrir:
À medida que as plataformas lakehouse crescem em escala e se tornam cada vez mais de autoatendimento, as equipes de plataforma consideram praticamente impossível responder a essas perguntas de forma eficaz. Um sentimento recorrente que ouvimos de nossos clientes é que eles não conseguem acompanhar a otimização do número de tabelas criadas a partir de todos os novos casos de uso de negócios.
Além disso, mesmo depois que essas questões complexas são respondidas, as equipes ainda precisam lidar com a sobrecarga operacional de programar e executar essas otimizações, como por exemplo, programar jobs, diagnosticar falhas e gerenciar a infraestrutura subjacente.
Com a Predictive Optimization, o Databricks resolve esses problemas complexos para você, liberando seu valioso tempo para se concentrar em gerar valor de negócio com seus dados. A Otimização Preditiva pode ser ativada com o clique de um único botão. A partir daí, ele faz todo o trabalho pesado.

Primeiro, a Otimização Preditiva determina de forma inteligente quais otimizações executar e com que frequência. Nosso modelo de AI considera uma ampla variedade de entradas, incluindo os padrões de uso de suas tabelas, a disposição de dados existente e as características de desempenho. Em seguida, ele gera o cronograma de otimização ideal, ponderando os benefícios esperados da otimização com os custos de computação esperados.
Assim que o cronograma é gerado, a Otimização Preditiva executa automaticamente essas otimizações na infraestrutura serverless dedicada. Ele gerencia automaticamente a inicialização do número e tamanho corretos de máquinas e garante que as tarefas de otimização sejam devidamente agrupadas e agendadas para máxima eficiência.
O sistema inteiro funciona de ponta a ponta sem a necessidade de ajustes e otimizações manuais, e aprende com o uso da sua organização ao longo do tempo, otimizando as tabelas importantes para a sua organização e despriorizando as que não são. A cobrança é feita apenas pelo compute serverless necessário para realizar as otimizações. Por padrão, todas as operações são registradas em uma tabela do sistema, para que você possa auditar e entender facilmente o impacto e o custo das operações.
Nos últimos meses, inscrevemos vários clientes no programa de pré-visualização privada do Predictive Optimization. Muitos observaram que ele consegue encontrar o ponto ideal entre dois extremos comuns:

Em um extremo, algumas organizações ainda não implementaram pipelines sofisticados de otimização de tabelas. Com a Otimização Preditiva, eles podem começar a otimizar suas tabelas instantaneamente, sem precisar descobrir o melhor cronograma de otimização ou gerenciar a infraestrutura.
No outro extremo, algumas organizações podem estar investindo em excesso em otimização. Por exemplo, para uma equipe que automatiza seus pipelines de otimização, é tentador executar Jobs OPTIMIZE ou VACUUM de hora em hora ou diariamente. No entanto, estas correm o risco de retornos decrescentes. Os mesmos ganhos de desempenho podem ser alcançados com menos operações de otimização?
O Predictive Optimization ajuda a encontrar o equilíbrio certo, garantindo que as otimizações sejam executadas apenas com um alto retorno sobre o investimento:

Como exemplo concreto, a equipe de Engenharia de Dados da Anker ativou a Otimização Preditiva e rapidamente percebeu estes benefícios:
Redução de 50% nos custos anuais de armazenamento
|
|
A partir de hoje, a Otimização Preditiva está disponível em pré-visualização pública. A ativação deve levar menos de cinco minutos. Como administrador da conta, basta acessar o console da conta > configurações > guia de habilitação de recursos e ativar a configuração Otimização Preditiva:

Com apenas um clique, você terá o poder de disposições de dados otimizadas por AI em suas tabelas gerenciadas do Unity Catalog, tornando seus dados mais rápidos e econômicos.
E estamos apenas começando. Nos próximos meses, continuaremos a adicionar mais otimizações ao recurso. Fique atento para muito mais que está por vir.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Produto
June 12, 2024/11 min de leitura

