Modelos de linguagem são um tipo de AI generativa (GenAI) que usam o processamento de linguagem natural (NLP) para entender e gerar a linguagem humana. Grandes modelos de linguagem (LLMs) são os mais poderosos deles. Os LLMs são treinados com datasets massivos usando algoritmos avançados de machine learning (ML) para aprender os padrões e as estruturas da linguagem humana e gerar respostas de texto para prompts escritos. Exemplos de LLMs incluem BERT, Claude, Gemini, Llama e a família de LLMs Generative Pretrained Transformer (GPT).
Os LLMs superaram significativamente seus predecessores em desempenho e capacidade em diversas tarefas relacionadas à linguagem. A capacidade deles de gerar conteúdo complexo e com nuances e automatizar tarefas para obter resultados semelhantes aos de humanos está impulsionando avanços em diversas áreas. Os LLMs estão sendo amplamente integrados ao mundo dos negócios para gerar impacto em diversos ambientes e casos de uso de negócios, incluindo a automação do suporte, a apresentação de percepções e a geração de conteúdo personalizado.
As principais capacidades de AI de LLM e linguagem incluem:
A maioria dos LLMs usa uma arquitetura transformer. Eles funcionam quebrando o texto de entrada em tokens (unidades de subpalavras), incorporando esses tokens em vetores numéricos e usando mecanismos de atenção para entender as relações no texto de entrada. Em seguida, eles preveem os próximos tokens em uma sequência para gerar resultados coerentes.
O pré-treinamento de um modelo LLM refere-se ao processo de treiná-lo em um grande conjunto de dados, como texto ou código, sem usar nenhum conhecimento prévio ou pesos de um modelo existente. O resultado do pré-treinamento completo é um modelo básico que pode ser usado diretamente ou ajustado para tarefas downstream.
O pré-treinamento garante que o conhecimento fundamental do modelo seja personalizado para seu domínio específico. O resultado é um modelo personalizado que se diferencia pelos dados exclusivos da sua organização. No entanto, o pré-treinamento costuma ser o tipo de treinamento maior e mais caro e não é comum para a maioria das organizações.
Ajuste fino é o processo de adaptação de um LLM pré-treinado em um dataset comparativamente menor que é específico a um domínio ou tarefa individual. Durante o processo de ajuste fino, ele continua treinando por um curto período, possivelmente ajustando um número relativamente menor de pesos em comparação com todo o modelo.
As duas formas mais comuns de ajuste fino são:
Ajuste fino de instruções supervisionadas: essa abordagem envolve o treinamento contínuo de um LLM pré-treinado em um dataset de exemplos de treinamento de entrada e saída — geralmente conduzidos com milhares de exemplos de treinamento.
Pré-treinamento contínuo: esse método de ajuste fino não depende de exemplos de entrada e saída, mas usa textos não estruturados específicos do domínio para continuar o mesmo processo de pré-treinamento (como a previsão do próximo tokens e a modelagem de linguagem mascarada).
O ajuste fino é importante porque permite que uma organização use um LLM de base e o ensine com seus próprios dados para obter maior acurácia e personalização para o domínio e as cargas de trabalho da empresa. Isso também permite controlar os dados usados no treinamento para você ter certeza de que está usando a IA com responsabilidade.
Os LLMs são baseados em aprendizagem profunda, uma forma de AI na qual grandes quantidades de dados são inseridas em um programa para ensiná-lo, com base em probabilidade. Com a exposição a datasets massivos, os LLMs podem ensinar a si mesmos para reconhecer padrões e relações de linguagem sem programação explícita, com mecanismos de autoaprendizagem para melhorar continuamente a precisão.
A base dos LLMs são as redes neurais artificiais, inspiradas na estrutura do cérebro humano. Essas redes consistem em nós interconectados organizados em camadas, incluindo uma camada de entrada, uma camada de saída e uma ou mais camadas intermediárias. Cada nó processa e transmite informações para a próxima camada com base em padrões aprendidos.
Os LLMs usam um tipo de rede neural chamada de modelo transformer. Esses modelos inovadores conseguem analisar uma frase inteira de uma só vez, ao contrário dos modelos mais antigos que processam as palavras sequencialmente. Isso permite que eles compreendam a linguagem de forma mais rápida e eficiente. Os modelos Transformer usam uma técnica matemática chamada de autoatenção, que atribui importâncias variadas a diferentes palavras em uma frase, permitindo que o modelo compreenda as nuances de significado e entenda o contexto. A codificação posicional ajuda o modelo a entender a importância da ordem das palavras em uma frase, o que é essencial para compreender a linguagem. O modelo transformer permite que os LLMs processem grandes quantidades de dados, aprendam informações contextualmente relevantes e gerem conteúdo coerente.
Saiba mais sobre transformadores, a base de todo LLM
Os LLMs podem impulsionar o impacto nos negócios em todos os casos de uso e em diferentes setores. Exemplos de casos de uso incluem:
A JetBlue implementou o "BlueBot", um chatbot que usa modelos de IA generativa de código aberto complementados por dados corporativos, com tecnologia da Databricks. Esse chatbot pode ser usado por todas as equipes da JetBlue para obter acesso a dados que são governados por função. Por exemplo, a equipe de finanças pode ver os dados da SAP e os registros regulatórios, mas a equipe de operações só verá as informações de manutenção.
A Chevron Phillips utiliza soluções de AI generativa baseadas em modelos de código aberto como o Dolly da Databricks para otimizar a automação de processos de documentos. Essas ferramentas transformam dados não estruturados de PDFs e manuais em percepções estruturadas, permitindo uma extração de dados mais rápida e precisa para operações e inteligência de mercado. As políticas de governança garantem produtividade e gerenciamento de riscos, mantendo a rastreabilidade.
A Thrivent Financial está usando AI generativa e o Databricks para acelerar as pesquisas, fornecer percepções mais claras e acessíveis e aumentar a produtividade da engenharia. Ao reunir os dados em uma única plataforma com governança baseada em funções, a empresa cria um espaço seguro onde as equipes podem inovar, explorar e trabalhar com mais eficiência.
Há muitos avanços tecnológicos recentes que levaram os LLMs para o centro das atenções:
Existem quatro padrões de arquitetura a considerar ao personalizar uma aplicação de LLM com os dados da sua organização. Essas técnicas são descritas abaixo e não são mutuamente exclusivas. Em vez disso, elas podem (e devem) ser combinadas para aproveitar os pontos fortes de cada uma.
Independentemente da técnica selecionada, a criação de uma solução de maneira bem estruturada e modularizada garante que as organizações estejam preparadas para iterar e se adaptar. Saiba mais sobre esta abordagem e muito mais em The Big Book of Generative AI.
| Método | Definição | Caso de uso principal | Requisitos de dados | Vantagens | Considerações |
|---|---|---|---|---|---|
| Elaboração de prompts especializados para orientar o comportamento do LLM | Orientação rápida e instantânea do modelo | Nenhuma | Rápida, econômica, sem necessidade de treinamento | Menos controle do que o ajuste fino | |
| Combinar um LLM com recuperação de conhecimento externo | Datasets dinâmicos e conhecimento externo | Base de conhecimento externa ou base de dados (por exemplo, base de dados vetorial) | Contexto atualizado dinamicamente, maior precisão | Aumenta o comprimento do prompt e o cálculo da inferência | |
| Adaptando um LLM pré-treinado a datasets ou domínios específicos | Especialização de domínio ou tarefa | Milhares de exemplos específicos de domínio ou instruções | Controle granular, alta especialização | Exige dados rotulados, custo computacional | |
| Treinar um LLM do zero | Tarefas exclusivas ou corpora específicos do domínio | Grandes datasets (bilhões a trilhões de tokens) | Controle máximo, personalizado para necessidades específicas | Extremamente intensivo em recursos |
A engenharia de prompt é a prática de ajustar os prompts de texto dados a um LLM para obter respostas mais precisas ou relevantes. Nem todo modelo de LLM produzirá a mesma qualidade, já que a engenharia de prompt é específica do modelo. A seguir estão algumas dicas gerais que funcionam para vários modelos:
Geração aumentada por recuperação, ou RAG, é uma abordagem de arquitetura que pode melhorar a eficácia das aplicações de LLM aproveitando dados personalizados. Isso é feito recuperando dados/documentos relevantes para uma pergunta ou tarefa e fornecendo-os como contexto para o LLM. A RAG está tendo sucesso no suporte a chatbots e sistemas de perguntas e respostas que precisam manter informações atualizadas ou acessar conhecimento específico do domínio.
Saiba mais sobre a RAG aqui.
O campo dos LLMs está lotado de opções para escolher. De modo geral, você pode agrupar LLMs em duas categorias: serviços proprietários e modelos de código aberto.
Os modelos de LLM proprietários são desenvolvidos e pertencem a empresas privadas e, geralmente, exigem licenças para serem acessados. Talvez o LLM proprietário de maior destaque seja o GPT-4o, que alimenta o ChatGPT, lançado em 2022 com grande alarde. O ChatGPT oferece uma interface de pesquisa amigável em que os usuários podem alimentar prompts e, em geral, receber uma resposta rápida e relevante. Os desenvolvedores podem acessar a API do ChatGPT para integrar esse LLM em seus próprios aplicativos, produtos ou serviços. Outros modelos proprietários incluem o Gemini do Google e o Claude da Anthropic.
Outra opção é auto-hospedar um LLM, normalmente usando um modelo de código aberto e disponível para uso comercial. A comunidade de código aberto alcançou rapidamente o desempenho dos modelos proprietários. Modelos de LLM de código aberto populares incluem o Llama 4 da Meta e o Mixtral 8x22B.
As maiores considerações e diferenças na abordagem entre o uso de uma API de um fornecedor terceirizado fechado em relação à auto-hospedagem do seu próprio modelo LLM de código aberto (ou com ajuste fino) incluem ser à prova de futuro, gerenciar custos e aproveitar seus dados como uma vantagem competitiva. Modelos proprietários podem ser preteridos e removidos, quebrando seus pipelines existentes e índices vetoriais; modelos de código aberto estarão acessíveis a você para sempre. Modelos de código aberto e ajustados podem oferecer mais opções e personalização para sua aplicação, permitindo uma relação melhor entre custo e desempenho. O planejamento para o ajuste fino futuro de seus próprios modelos permitirá aproveitar os dados da sua organização como uma vantagem competitiva para criar modelos melhores do que os disponíveis publicamente. Finalmente, os modelos proprietários podem suscitar preocupações de governança, pois esses LLMs de "caixa preta" permitem menos supervisão de seus processos de treinamento e pesos.
Hospedar seus próprios modelos de LLM de código aberto exige mais trabalho do que usar LLMs proprietários. O MLflow da Databricks facilita para alguém com experiência em Python usar qualquer modelo de transformador como um objeto Python.
Avaliar LLMs é uma atribuição desafiadora e em evolução, principalmente porque os LLMs geralmente demonstram capacidades desiguais em diferentes tarefas. Um LLM pode se destacar em um benchmark, mas pequenas variações na solicitação ou no problema podem afetar drasticamente o desempenho.
Algumas ferramentas e benchmarks proeminentes usados para avaliar o desempenho do LLM incluem:
Leia também as práticas recomendadas para avaliação de LLM de aplicativos RAG.
As operações de grandes modelos de linguagem (LMOps) englobam as práticas, técnicas e ferramentas usadas para o gerenciamento operacional de grandes modelos de linguagem em ambientes de produção.
O LLMOps permite a implantação, o monitoramento e a manutenção eficientes de LLMs. O LLMOps, como o tradicional Machine Learning Ops (MLOps), exige uma colaboração de data scientists, engenheiros de DevOps e profissionais de TI. Veja mais detalhes do LLMOps aqui.
Existem muitos recursos disponíveis para encontrar mais informações sobre LLMs, incluindo:
