Compreender o valor dos seus investimentos em IA e dados é crucial — no entanto, mais de 52% das empresas não conseguem medir rigorosamente o Retorno sobre o Investimento (ROI) [Futurum]. A visibilidade completa do ROI exige a conexão do uso da plataforma e da infraestrutura de nuvem em um panorama financeiro claro. Muitas vezes, os dados estão disponíveis, mas fragmentados, pois as plataformas de dados atuais precisam ser compatíveis com uma variedade crescente de arquiteturas de armazenamento e computação.
No Databricks, os clientes gerenciam ambientes multicloud, com múltiplas cargas de trabalho e múltiplas equipes. Nesses ambientes, ter uma visão consistente e abrangente dos custos é essencial para tomar decisões informadas.
A base da visibilidade de custos em plataformas como o Databricks é o conceito de Custo Total de Propriedade (TCO).
Em plataformas de dados multicloud, como o Databricks, o Custo Total de Propriedade (TCO) consiste em dois componentes principais:
Entender o TCO é simplificado ao usar produtos serverless. Como a compute é gerenciada pelo Databricks, os custos de infraestrutura de cloud são incluídos nos custos do Databricks, proporcionando a você visibilidade de custos centralizada diretamente nas tabelas de sistema do Databricks (embora os custos de armazenamento continuem com o provedor de cloud).
Entender o TCO para produtos de computação clássicos, no entanto, é mais complexo. Aqui, os clientes gerenciam o compute diretamente com o provedor de cloud, o que significa que tanto os custos da plataforma Databricks quanto os custos de infraestrutura de cloud precisam ser reconciliados. Nesses casos, existem duas fontes de dados distintas a serem resolvidas:
Juntas, essas fontes formam a visão completa do TCO. À medida que seu ambiente cresce em vários clusters, jobs e contas de nuvem, entender esses conjuntos de dados se torna uma parte fundamental da observabilidade de custos e da governança financeira.
A complexidade de medir o TCO do Databricks é agravada pelas maneiras distintas como os provedores de nuvem expõem e relatam dados de custo. Entender como unir esses conjuntos de dados com tabelas do sistema para produzir KPIs de custo precisos exige um conhecimento profundo da mecânica de faturamento da nuvem – conhecimento que muitos administradores de plataforma focados em Databricks podem não ter. Aqui, aprofundamos a medição do seu TCO para o Azure Databricks e o Databricks na AWS.
Como o Azure Databricks é um serviço primário no ecossistema do Microsoft Azure, as cobranças relacionadas ao Databricks aparecem diretamente no Azure Cost Management junto com outros serviços do Azure, incluindo até mesmo tags específicas do Databricks. Os custos do Databricks aparecem na UI de análise de custos do Azure e como dados de gerenciamento de custos.
No entanto, os dados do Azure Cost Management não conterão os metadados mais detalhados em nível de carga de trabalho e as métricas de desempenho encontradas nas tabelas do sistema Databricks. Assim, muitas organizações procuram trazer as exportações de faturamento do Azure para o Databricks.
No entanto, join totalmente essas duas fontes de dados consome muito tempo e exige profundo conhecimento de domínio — um esforço que a maioria dos clientes simplesmente não tem tempo para definir, manter e replicar. Vários desafios contribuem para isso:
Na AWS, embora os custos do Databricks apareçam no Relatório de Custo e Uso (CUR) e no AWS Cost Explorer, os custos são representados em um nível mais agregado, de SKU, diferentemente do Azure. Além disso, os custos do Databricks aparecem no CUR apenas quando o Databricks é comprado pelo AWS Marketplace; caso contrário, o CUR refletirá apenas os custos de infraestrutura da AWS.
Nesse caso, entender como coanalisar o AWS CUR junto com as tabelas do sistema é ainda mais essencial para clientes com ambientes AWS. Isso permite que as equipes analisem gastos com infraestrutura, uso de DBU e descontos juntamente com o contexto no nível de cluster e de carga de trabalho, criando uma visão mais completa do TCO entre contas e regiões da AWS.
No entanto, unir o AWS CUR com as tabelas do sistema também pode ser desafiador. Os pontos problemáticos comuns incluem:
Em ambientes Databricks em escala de produção, as perguntas sobre custos rapidamente vão além dos gastos gerais. As equipes querem entender o custo no contexto: como o uso da infraestrutura e da plataforma se conecta a cargas de trabalho e decisões reais. As perguntas comuns incluem:
Responder a essas perguntas exige reunir dados financeiros de provedores de clouds com metadados operacionais do Databricks. No entanto, conforme descrito acima, as equipes precisam manter pipelines personalizados e uma base de conhecimento detalhada sobre o faturamento da cloud e do Databricks para realizar isso.
Para atender a essa necessidade, o Databricks está apresentando a Cloud Infra Cost Field Solution, uma solução de código aberto que automatiza a ingestão e a análise unificada dos dados de infraestrutura de nuvem e de uso do Databricks, dentro da Databricks Platform.
Ao fornecer uma base unificada para a análise de TCO nos ambientes de computação serverless e clássicos do Databricks, a Field Solution ajuda as organizações a obter uma visibilidade mais clara dos custos e a entender as vantagens e desvantagens da arquitetura. As equipes de engenharia podem acompanhar os gastos e descontos na cloud, enquanto as equipes financeiras podem identificar o contexto de negócios e a propriedade dos principais fatores de custo.
Na próxima seção, vamos explicar como a solução funciona e como começar.
Embora os componentes possam ter nomes diferentes, a Cloud Infra Cost Field Solution para clientes do Azure e da AWS compartilha os mesmos princípios e pode ser dividida nos seguintes componentes:
Tanto as Field soluções da AWS quanto as do Azure são excelentes para organizações que operam em uma única cloud, mas também podem ser combinadas para clientes Databricks multicloud usando o Delta Sharing.
A cloud Infra Cost Field Solution para o Azure Databricks consiste nos seguintes componentes de arquitetura:
Arquitetura de Solução do Azure Databricks
Para implantar esta solução, os administradores devem ter as seguintes permissões no Azure e no Databricks:
O repositório do GitHub fornece instruções de configuração mais detalhadas; no entanto, em alto nível, a solução para o Azure Databricks tem as seguintes etapas:
[Azure] Configure o Azure Cost Management Export para exportar os dados de Faturamento do Azure para a Conta de Armazenamento e confirme que os dados estão sendo exportados com sucesso
account de Armazenamento com o Azure Cost Management Export configurado
Painel de AI/BI exibindo o TCO do Azure Databricks
A solução para Databricks on AWS consiste em vários componentes de arquitetura que trabalham juntos para ingerir os dados do Relatório de Custos e Uso (CUR) 2.0 da AWS e persisti-los no Databricks usando a arquitetura medalhão.
Para implantar esta solução, as seguintes permissões e configurações devem estar em vigor na AWS e no Databricks:
O repositório do GitHub fornece instruções de configuração mais detalhadas; no entanto, em alto nível, a solução para o AWS Databricks tem as seguintes etapas.
Conforme demonstrado com as soluções do Azure e da AWS, há muitos exemplos do mundo real que uma solução como essa possibilita, tais como:
Como exemplo prático, um profissional de FinOps em uma grande organização com milhares de cargas de trabalho pode ter a tarefa de encontrar otimizações fáceis, procurando por cargas de trabalho que custam um determinado valor, mas que também têm baixo uso de CPU e/ou memória. Como as informações de TCO da organização agora são exibidas pela Cloud Infra Cost Field Solution, o profissional pode então join esses dados à Node Timeline System Table (AWS, AZURE, GCP) para exibir essas informações e quantificar com precisão a economia de custos quando as otimizações forem concluídas. As perguntas que mais importam dependerão das necessidades de negócios de cada cliente. Por exemplo, a General Motors usa esse tipo de solução para responder a muitas das perguntas acima e outras para garantir que estão obtendo o máximo valor de sua arquitetura de lakehouse.
Após implementar a Cloud Infra Cost Field Solution, as organizações obtêm uma única e confiável TCO view que combina os gastos com Databricks e com a cloud infrastructure relacionada, eliminando a necessidade de reconciliação manual de custos entre plataformas. Exemplos de perguntas que você pode responder usando a solução incluem:
As equipes de Plataforma e FinOps podem detalhar os custos totais por workspace, carga de trabalho e unidade de negócios diretamente no Databricks, tornando muito mais fácil alinhar o uso com orçamentos, modelos de responsabilidade e práticas de FinOps. Como todos os dados subjacentes estão disponíveis como tabelas governadas, as equipes podem criar seus próprios aplicativos de custo — dashboards, aplicativos internos ou usar assistentes de IA integrados como o Databricks Genie— acelerando a geração de percepções e transformando o FinOps de um exercício de relatórios periódicos em uma capacidade operacional sempre ativa.
Implante a Cloud Infra Cost Field Solution hoje mesmo no GitHub (link aqui, disponível na AWS e no Azure) e obtenha visibilidade total dos seus gastos totais com o Databricks. Com a visibilidade total implementada, você pode otimizar seus custos do Databricks, incluindo a consideração do serverless para o gerenciamento automatizado da infraestrutura.
O dashboard e o pipeline criados como parte desta solução oferecem uma maneira rápida e eficaz de começar a analisar os gastos do Databricks juntamente com o restante dos seus custos de infraestrutura. No entanto, cada organização aloca e interpreta as cobranças de maneira diferente, portanto, você pode optar por personalizar ainda mais os modelos e as transformações de acordo com suas necessidades. As extensões comuns incluem unir dados de custo de infraestrutura com Tabelas do Sistema do Databricks adicionais (AWS | AZURE | GCP) para melhorar a precisão da atribuição, criar uma lógica para separar ou realocar custos de VM compartilhada ao usar pools de instâncias, modelar as reservas de VM de forma diferente ou incorporar preenchimentos retroativos históricos para dar suporte a tendências de custo de longo prazo. Assim como em qualquer modelo de custo de hiperescala, há espaço substancial para personalizar os pipelines além da implementação default para se alinhar aos relatórios internos, às estratégias de tags e aos requisitos de FinOps.
Os Arquitetos de Soluções de Entrega (DSAs) do Databricks aceleram as iniciativas de dados e IA nas organizações. Eles fornecem liderança de arquitetura, otimizam plataformas para custo e desempenho, melhoram a experiência do desenvolvedor e impulsionam a execução bem-sucedida de projetos. Os DSAs preenchem a lacuna entre a implantação inicial e as soluções de nível de produção, trabalhando em estreita colaboração com várias equipes, incluindo engenharia de dados, líderes técnicos, executivos e outras partes interessadas para garantir soluções personalizadas e um tempo de retorno mais rápido. Para se beneficiar de um plano de execução personalizado, orientação estratégica e suporte durante sua jornada de dados e IA com um DSA, entre em contato com sua equipe de account da Databricks.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
tecnología
October 17, 2025/34 min de leitura