Nos últimos meses, o interesse em Modelos de Linguagem Grandes (LLMs) por parte de agências do Setor Público disparou, pois os LLMs estão mudando fundamentalmente as expectativas que as pessoas têm em suas interações com computadores e dados. Do ponto de vista da Databricks, praticamente todos os clientes e prospects do Setor Público com quem interagimos sentem o dever de injetar LLMs em sua missão. Ouvimos repetidamente perguntas sobre o que são os LLMs (como o Dolly da Databricks), para que podem ser usados e como o Databricks Lakehouse dará suporte a aplicações relacionadas a LLMs. Nesta postagem, abordaremos essas questões no contexto das necessidades, oportunidades e restrições únicas das organizações do Setor Público. Também focaremos nos benefícios de criar, possuir e fazer a curadoria do seu próprio LLM em vez de adotar uma tecnología que exige o compartilhamento de dados com terceiros, como o ChatGPT.
Os LLMs atuais representam a versão mais recente de uma série de inovações no processamento de linguagem natural, começando aproximadamente em 2017 com o surgimento da arquitetura de modelo transformer. Esses modelos baseados em transformer há muito tempo possuem habilidades surpreendentes para entender a linguagem humana bem o suficiente para realizar tarefas como identificar sentimentos, extrair pessoas, lugares e coisas nomeadas e traduzir documentos de um idioma para outro. Eles também são capazes de gerar textos interessantes a partir de um prompt, com diferentes graus de qualidade e precisão. Mais recentemente, pesquisadores e desenvolvedores descobriram que modelos de linguagem muito grandes, "pré-treinados" em fontes de texto muito grandes e diversas, podem ser "ajustados" para seguir uma variedade de instruções de um ser humano para gerar informações úteis.
Anteriormente, a melhor prática era ensinar modelos separados para cada tarefa relacionada ao idioma. O processo de treinamento do modelo exigia recursos: dados com curadoria, compute (normalmente uma ou mais GPUs) e conhecimento avançado em ciência de dados e desenvolvimento de software. Embora tais modelos possam ter alta precisão, existem claramente restrições de recursos, tanto em termos de computação quanto de esforço humano, ao escalonar seu uso. Com a rápida ascensão do ChatGPT ao estrelato, agora vemos que um único LLM - com a quantidade apropriada de contexto e o prompt certo - pode ser usado para realizar muitas tarefas diferentes, às vezes com mais precisão do que um modelo mais especializado. E a capacidade dos LLMs de gerar novos textos - "IA Generativa" - é fascinante e extremamente útil.
Organizações do setor privado relataram benefícios incríveis dos LLMs, como geração e migração de código, categorização e respostas automatizadas de feedback de clientes, chatbots de call center, geração de relatórios e muito mais. Como um microcosmo de muitas indústrias diferentes, as agências do Setor Público têm as mesmas oportunidades de LLM, além de outras necessidades exclusivas. Os casos de uso comuns do setor público incluem:
Embora certamente poderosos, os LLMs também apresentam um novo conjunto de desafios que é amplificado por algumas das restrições operacionais nativas das organizações do Setor Público. Vamos analisar alguns deles e alinhá-los com os recursos do Databricks Lakehouse:
A maioria das organizações do Setor Público tem controles regulatórios rigorosos em relação aos seus dados. Esses controles existem por motivos de privacidade, segurança e pela necessidade de preservar o sigilo em alguns casos. Até mesmo a tarefa simples de fazer uma pergunta ou um conjunto de perguntas a um LLM poderia revelar informações proprietárias. Além disso, a maioria das agências federais precisará fazer o ajuste fino dos LLMs para atender aos seus requisitos específicos. Por esses motivos, é lógico supor que as agências do Setor Público terão uso limitado de modelos públicos. É provável que elas exijam que o ajuste fino dos modelos seja feito em um ambiente que garanta sua confidencialidade e segurança, e que as interações com os modelos por meio de vários métodos de prompting também sejam confidenciais.
A Databricks Lakehouse Platform tem as ferramentas necessárias para desenvolver e implantar aplicativos de LLM de ponta a ponta. (Mais sobre isso depois.) Além disso, a Databricks possui as certificações necessárias para processar dados para a grande maioria das organizações do setor público dos EUA. A Databricks é um parceiro confiável e capaz para organizações que buscam aproveitar todo o poder dos LLMs sem os riscos que vêm do uso de LLMs proprietários como serviço, como ChatGPT ou Bard.
Além do Databricks, o setor tem visto evidências crescentes de que os LLMs de código aberto, quando usados adequadamente, podem fornecer resultados que se aproximam da paridade com os principais LLMs proprietários. A evidência é mais forte em casos de uso nos quais os LLMs proprietários precisam entender contextos ou instruções com nuances para os quais não foram treinados anteriormente. Nesses casos, os LLMs de código aberto podem receber prompts ou passar por fine-tuning com dados específicos da organização para fornecer resultados surpreendentes. Nessa arquitetura de solução, as organizações podem alcançar resultados de classe mundial com quantidades modestas de tempo de compute e desenvolvimento, sem que os dados saiam dos limites aprovados. Para organizações do setor público, isso representa uma vantagem significativa que não pode ser ignorada.

A crença do Databricks no poder dos LLMs de código aberto é reforçada pelo lançamento do Dolly 2.0, o primeiro LLM de código aberto que segue instruções e que passou por fine-tuning com um dataset de instrução gerado por humanos licenciado para pesquisa e uso comercial. O lançamento do Dolly foi seguido por uma onda de outros LLMs de código aberto capazes, alguns dos quais com um desempenho muito impressionante. A Databricks se esforça para oferecer às organizações do Setor Público uma plataforma para criar aplicações com o LLM de sua escolha — de código aberto ou comercial — e estamos entusiasmados com o que está por vir.

A modernização do patrimônio de dados continua sendo uma prioridade para a maioria dos líderes técnicos do Setor Público. Já se foram os dias dos data warehouses on-premises, normalmente substituídos por um data warehouse ou lakehouse na cloud. As organizações que ainda não migraram para a cloud, ou que optaram por um data warehouse na cloud, agora enfrentam outro ponto de inflexão: como adotar LLMs em uma arquitetura que não pode acomodá-los? Dado o imenso potencial dos LLMs de impactar as missões das agências e os servidores públicos que as executam, é fundamental estabelecer uma arquitetura à prova de futuro. É aí que entra o lakehouse.
O Databricks há muito tempo é uma plataforma robusta para cargas de trabalho de machine learning (ML) e inteligência artificial (AI). Os clientes usam LLMs de nível de produção e seus predecessores no Databricks há anos, aproveitando recursos como:
Nenhum desses recursos é oferecido em um data warehouse, mesmo na cloud. Para usar LLMs em conjunto com um data warehouse, uma organização precisaria adquirir outros serviços de software para todas as facetas dos processos de treinamento e implantação do modelo e enviar dados entre esses serviços. Somente a arquitetura Databricks Lakehouse oferece a simplicidade arquitetônica de realizar todas as operações de LLM em uma única plataforma, entregando todos os benefícios explicados em nossa discussão acima sobre soberania de dados.
No Data and AI Summit 2023, a Databricks apresentou o Lakehouse AI, que adiciona vários novos recursos importantes relacionados a LLM que simplificam significativamente a arquitetura para LLMOps, incluindo:

As agências governamentais têm enfrentado uma persistente "fuga de cérebros" nos últimos anos, especialmente em funções que se sobrepõem a tendências tecnológicas em alta, como cibersegurança, computação em nuvem e ML/IA. O foco intenso atual em LLMs está gerando uma demanda ainda maior por profissionais talentosos em ML/IA. Inevitavelmente, o fascínio e os benefícios que vêm com o emprego em grandes empresas de tecnologia e no cenário das startups agravarão a escassez de talentos no setor público. A liderança do setor público precisa de acesso a plataformas e parcerias que os ajudem a adotar LLMs com facilidade e a capacitar seus funcionários para se tornarem autossuficientes com eles.
O Databricks está implementando recursos que simplificam e expandem as capacidades existentes para trabalhar com LLMs na plataforma lakehouse. Isso inclui:

Além de facilitar o uso de LLMs no Databricks, também estamos introduzindo programas de treinamento e capacitação em LLMs para ajudar as organizações a ampliar sua proficiência em LLMs. Eles são apresentados em um nível acessível para os usuários do setor público da Databricks.
Existem inúmeras oportunidades para aproveitar os LLMs para acelerar os casos de uso do Setor Público. Um valor imenso permanece oculto em dados legados, apenas esperando para ser descoberto e aplicado aos problemas atuais. Venha saber mais sobre como o Databricks pode ajudar você a adotar LLMs em sua missão participando do nosso webinar Grandes modelos de linguagem no setor público em 2 de agosto, ao meio-dia (EDT). Além disso, consulte as inscrições para a prévia dos recursos listadas no anúncio do Lakehouse AI e veja para quais sua organização se qualifica.
Setor público
June 4, 2025/3 min de leitura

