Utilizando habilidades reutilizáveis, padrões medalhão e definições compartilhadas para entregar pipelines consistentes e prontos para produção mais rapidamente.
por Trent Lezer e James VanGordon
A Daikin Applied Americas (DAA) fabrica e realiza a manutenção de sistemas de HVAC comerciais em toda a América do Norte. Isso significa gerenciar grandes volumes de dados operacionais, de fabricação e de serviços em vários sistemas, desde telemetria de equipamentos e dados da cadeia de suprimentos até registros de serviços de campo.
A equipe de dados oferece suporte a casos de uso de analytics e AI em engenharia, operações e atendimento ao cliente, todos dependentes de pipelines confiáveis e bem estruturados.
À medida que essas demandas cresceram, também aumentou a pressão sobre a equipe de dados, incluindo mais pipelines, mais casos de uso e mais coordenação entre as equipes. Para resolver isso, a equipe definiu um modelo operacional mais estruturado para a forma como os pipelines são projetados, criados e governados, e usou o Databricks Genie Code para acelerar a execução dentro desse modelo.
A equipe aproveitou o Genie Code como uma abordagem assistida por AI para a engenharia de dados. Trabalhar diretamente com dados governados no Unity Catalog ajuda a planejar e gerar pipelines de várias etapas em todo o fluxo de trabalho. Isso permite que os engenheiros passem de uma ideia para um pipeline funcional muito mais rápido, sem precisar alternar ferramentas ou conectar componentes manualmente.
Essa velocidade mudou fundamentalmente a forma como a equipe trabalhava. Pipelines que antes levavam dias para serem prototipados agora podiam ser gerados em minutos. Os ciclos de iteração foram reduzidos, e os engenheiros passaram a gastar menos tempo escrevendo boilerplate e mais tempo refinando a lógica e os resultados.
Ao mesmo tempo, operar em um ambiente de dados grande e compartilhado exige consistência. Os pipelines devem seguir padrões arquiteturais comuns, usar definições compartilhadas e se comportar de maneira previsível entre as equipes.
Os grandes modelos de linguagem introduzem um desafio estrutural neste contexto. Quando as equipes dependem de prompts variados ou instruções vagamente definidas, a mesma solicitação pode gerar resultados inconsistentes e levar ao desvio arquitetural ao longo do tempo.
Para resolver isso, a equipe da DAA se concentrou em definir como a AI deve operar em um ambiente corporativo governado, em vez de depender apenas da engenharia de prompt.
Como diz Trent Lezer, Diretor Sênior de Dados e Analytics na Daikin Applied Americas: “O Genie Code funciona melhor quando tratado como um engenheiro júnior que trabalha rápido, mas deve respeitar as mesmas restrições arquiteturais que todos os outros, sem exceções especiais ‘só porque é AI’.”
O uso inicial do Genie Code seguia um padrão familiar: prompts longos que tentavam codificar regras de arquitetura, padrões de nomenclatura, lógica de transformação e requisitos de documentação em um único bloco de texto.
Essa abordagem não escalava. As instruções variavam entre as equipes, os prompts se tornavam difíceis de manter e tarefas semelhantes produziam resultados inconsistentes.
Para resolver isso, a equipe introduziu um framework de habilidades MECE (Mutualmente Exclusivos e Coletivamente Exaustivos). Como Trent explica: “Implementamos um framework de habilidades MECE, onde cada habilidade define uma competência coerente, as habilidades não se sobrepõem e o conjunto completo cobre todo o ciclo de vida do trabalho de engenharia de dados.”
Cada habilidade define uma capacidade específica no ciclo de vida da engenharia de dados. Juntas, as habilidades não se sobrepõem e cobrem todo o fluxo de trabalho. Essas habilidades incluem design de arquitetura medalhão, prontidão de origem e definição de granularidade, padrões de transformação, alinhamento canônico e padrões de governança.
Em vez de incorporar regras dentro dos prompts, a equipe estruturou o ambiente para que o Genie Code carregue as habilidades apropriadas em tempo de execução (runtime) e as aplique durante o planejamento e a execução. Isso muda o comportamento de interpretar instruções ad hoc para operar dentro de um modelo de execução definido.
Sob a perspectiva de governança, isso também muda a forma como os padrões são aplicados. Como observa James VanGordon, Arquiteto de Soluções na Databricks: “O padrão que continuo vendo com o Genie Code é bastante simples: os prompts ajudam você a começar, mas são um lugar ruim para aplicar os padrões da equipe. Se a mesma regra importa mais de uma vez, ela deve residir no workspace como uma habilidade, onde o Genie Code possa realmente usá-la.”
Ele também enfatiza a incorporação de padrões diretamente no ambiente de execução: “É isso que torna isso real, em vez de apenas um desejo. As habilidades, o contexto do Unity Catalog e o Genie Code estão funcionando no mesmo lugar. A orientação fica onde o trabalho está sendo criado, e não de lado em um processo de revisão que alguém precisa lembrar mais tarde.”
A equipe também fortaleceu o papel da arquitetura medalhão como um framework de governança e de raciocínio. As camadas Bronze, Silver e Gold já existiam, mas a mudança foi torná-las limites de decisão explícitos durante a geração de pipelines, e não apenas camadas de armazenamento.
A Bronze representa a verdade da fonte bruta. A Silver representa dados limpos e conformados. A Gold representa analytics pronto para os negócios.
Para operacionalizar essa estrutura, a equipe introduziu checkpoints entre as camadas. Antes que os dados avancem, requisitos como definição de granularidade da fonte, validação de junções (joins) e verificações de estabilidade de dados devem ser atendidos.
Esses checkpoints são aplicados dentro do próprio fluxo de trabalho de desenvolvimento, e não como etapas de revisão posteriores. O Genie Code opera dentro dessas restrições à medida que os pipelines são gerados e modificados.
Isso garante consistência entre as equipes, ao mesmo tempo em que reduz o risco de atalhos arquiteturais durante o desenvolvimento rápido.
Um desafio recorrente na engenharia de dados corporativos é alinhar os modelos técnicos com a linguagem de negócios.
Na DAA, as partes interessadas pensam em termos de equipamentos, clientes, eventos de serviço e contratos, e não em tabelas, joins ou transformações.
Para resolver isso, a equipe ancorou o design de pipelines em entidades de negócios estáveis. Em vez de começar com estruturas técnicas, os engenheiros começam identificando o que os dados representam e como eles se comportam ao longo do tempo.
Essa mudança melhora os esforços downstream e reduz a ambiguidade quando os conjuntos de dados são reutilizados em diferentes domínios.
Com o tempo, os modelos da camada Silver e os conjuntos de dados Gold tornam-se mais consistentes porque estão fundamentados em conceitos de negócios compartilhados, em vez de decisões técnicas isoladas.
Com esse modelo operacional implementado e a AI incorporada, a equipe viu uma mudança clara na forma como o trabalho era executado.
O desenvolvimento de pipelines acelerou, especialmente durante a exploração e iteração iniciais. Os engenheiros passaram a gastar menos tempo escrevendo código boilerplate e mais tempo refinando a lógica de negócios.
Os resultados também se tornaram mais consistentes entre as equipes. Casos de uso semelhantes seguiram padrões estruturais parecidos, melhorando a capacidade de manutenção e o reaproveitamento.
O mais importante é que a confiança nos resultados gerados aumentou. Os engenheiros gastavam menos tempo validando a correção estrutural e podiam iterar mais rapidamente.
Para tornar esses ganhos repetíveis, a equipe padronizou decisões importantes dentro do processo de desenvolvimento.
Em vez de depender de conhecimento implícito, as definições foram explicitadas, incluindo o que se qualifica como dados Bronze, Silver e Gold, como a granularidade da fonte é definida, quais padrões de transformação são reutilizáveis e como as entidades de negócios são representadas. Essa estrutura foi fundamental para a escala. Ela garante que a AI opere dentro de um framework consistente entre as equipes, mesmo à medida que os casos de uso evoluem.
Os engenheiros passam menos tempo corrigindo pipelines estruturalmente incorretos e mais tempo refinando a lógica e os resultados de negócios.
A aplicação consistente de habilidades e checkpoints de governança evita a divergência entre equipes que trabalham em desafios de dados semelhantes.
Fundamentar os pipelines em conceitos de negócios melhora a clareza e reduz o retrabalho downstream.
As proteções (guardrails) são incorporadas diretamente ao sistema, reduzindo a dependência de aplicação manual.
Como as habilidades e os checkpoints definidos limitam os resultados, a AI opera de maneira confiável nos fluxos de trabalho de produção.
Como Trent resume: “O objetivo não é fazer com que a AI siga mais regras. É tornar as regras certas impossíveis de ignorar.”
Na Daikin Applied Americas, a combinação de um modelo operacional estruturado com o desenvolvimento assistido por AI permitiu que a equipe de dados escalasse mais rapidamente, mantendo a consistência, a clareza e o controle.
Ao definir como os pipelines devem ser criados e incorporar essas regras diretamente no ambiente de desenvolvimento, a equipe criou um sistema no qual a velocidade e a governança se reforçam mutuamente, em vez de competir.
Saiba mais sobre o Genie Code.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.