A pesquisa de ações é um jogo de amplitude e convicção.
Na Jefferies, a organização global de pesquisa de ações cobre aproximadamente 3.500 empresas em todos os setores e geografias, com analistas baseados nos EUA, EMEA e APAC. Essa escala é uma vantagem competitiva, mas também cria um desafio comum para qualquer organização de pesquisa que trabalhe com um universo em expansão de datasets internos e de terceiros.
“Nossos analistas precisam sintetizar sinais em um universo enorme de empresas, indústrias e fontes de dados”, disse Ethan Geismar, Chefe de Dados & AI, Análise de Ações na Jefferies. “Nosso objetivo é ajudá-los a transformar essa complexidade em consultoria de investimentos diferenciada e acionável para nossos clientes.”
As perguntas que os analistas fazem raramente são restritas ou prescritivas. Elas são abertas, específicas do domínio e formuladas na linguagem de mercados e fundamentos, não em termos de qual conjunto de dados query ou qual tabela join. Por exemplo, os analistas fazem perguntas como: “Qual é a demanda e a perspectiva para restaurantes fast-casual?” ou “Quais são as tendências do tráfego de pessoas e dos downloads de aplicativos nas marcas que eu cubro?”
Em um campo onde as decisões de investimento dependem da confiança, um único sinal raramente é suficiente. Os analistas precisam de corroboração de várias fontes independentes para criar convicção.
Nos últimos anos, a equipe de engenharia de análise de ações da Jefferies tem trabalhado em estreita colaboração com a Databricks para ingerir, limpar e padronizar dezenas de datasets estruturados, muitos dos quais se originaram como dados alternativos, mas agora abrangem indicadores financeiros, de mercado e macroeconômicos. À medida que os recursos de IA generativa amadureceram, a equipe se propôs a responder a uma nova pergunta:
Como a Jefferies poderia oferecer aos analistas uma maneira mais rápida e fácil de explorar esses dados — que preservasse a governança, se conectasse diretamente à infraestrutura de dados existente e traduzisse perguntas em linguagem natural em análises defensáveis e de várias fontes?
Para resolver isso, a Jefferies criou a Jefferies Data Intelligence (JDI) — uma experiência de analítica conversacional com tecnologia do Databricks AI/BI Genie, que permite aos analistas fazer perguntas de pesquisa abertas diretamente em datasets governados e de várias fontes.
Historicamente, a Jefferies tem atendido a solicitações novas e ad hoc de analistas de duas maneiras principais.
Primeiro, por meio de ferramentas tradicionais de autoatendimento para exploração de dados, que davam aos analistas acesso direto aos datasets, mas exigiam que eles compreendessem o cenário de dados e as ferramentas subjacentes para extrair insights significativos.
Segundo, por meio de um modelo de serviço interno exclusivo, a equipe de engenharia de pesquisa traduzia as perguntas dos analistas em extrações de dados e entregava resultados sintetizados.
“Mesmo depois de limparmos e mapearmos os dados, ainda há um atrito: alguém precisa traduzir as perguntas fundamentais que os analistas fazem para os datasets e as views corretas”, explicou Geismar. “Os analistas não formulam perguntas em termos de tabelas e joins, eles fazem perguntas sobre fundamentos, macroeconomia, tendências do setor, posicionamento comparativo, catalisadores, riscos, etc.”.
Embora poderosa, essa abordagem introduziu uma restrição diferente: a capacidade da equipe.
“Trabalhamos em sprints mensais, e a margem de manobra para solicitações de última hora é limitada”, disse Geismar. “Mesmo quando algo não era tecnicamente difícil de resolver, costumava levar dias ou semanas em algumas situações antes que pudéssemos cuidar disso, simplesmente devido a restrições de capacidade.”
Perguntas mais complexas, especialmente aquelas que exigem triangulação em vários datasets, podiam levar horas ou dias de esforço focado uma vez priorizadas.
As perguntas de pesquisa complexas costumavam ser as mais desafiadoras. Um analista perguntando sobre tendências de demanda do consumidor em restaurantes fast-casual poderia precisar de dados de tráfego de pedestres, métricas de engajamento de aplicativos móveis, intenção de compra baseada em pesquisas e contexto macroeconômico — cada um exigindo extrações, joins e análises de dados separadas.
Ambos os modelos funcionavam, mas ambos impunham atritos. O que a Jefferies precisava era de uma maneira de combinar a independência do autoatendimento com a experiência integrada da equipe de engenharia de pesquisa, sem criar novos gargalos.
Para operacionalizar isso em escala, a Jefferies construiu um assistente interno de pesquisa de ações com uma interface personalizada voltada para o analista, impulsionado pelo AI/BI Genie como o motor de orquestração e raciocínio que opera sobre o data lake estruturado da empresa.
A experiência resultante permite que os analistas façam as mesmas perguntas que fariam a um especialista no domínio e recebam respostas baseadas em múltiplos datasets relevantes. É importante destacar que o sistema entende a linguagem que os analistas já usam para estruturar suas pesquisas.
Por exemplo, quando um analista pergunta sobre restaurantes fast-casual, o AI/BI Genie interpreta essa abreviação do setor usando mapeamentos semânticos específicos do domínio e contexto de negócios selecionado, mapeia-a para o universo de cobertura apropriado e recupera dados relevantes, sem exigir que o analista especifique marcas, tabelas ou joins.
Esses mesmos mapeamentos de cobertura, alinhados à forma como os analistas segmentam naturalmente seus setores e com as taxonomias do setor, permitem visualizações agregadas, como o total de visitas a restaurantes entre as marcas constituintes. Como essa lógica está integrada diretamente ao Genie, os analistas podem analisar sua cobertura usando linguagem e agrupamentos familiares.
A partir daí, os analistas podem iterar naturalmente, solicitando detalhamentos no nível da marca ("detalhe isso por marcas individuais"), agregações da empresa controladora ou contexto adicional, gerando análises mais profundas sem a necessidade de pré-especificar essas dimensões.
Quando os analistas interagem com prompts abertos, o sistema ajuda a identificar quais sinais podem ser mais relevantes para a pergunta em questão, muitas vezes descobrindo percepções e datasets que os analistas talvez não tivessem considerado anteriormente.
Uma simples query como “Mostre-me as visitas a restaurantes fast-casual” recupera os dados de tráfego de pedestres associados e apresenta análises de tendências.
Mas prompts mais amplos, como “Mostre-me a demanda e a perspectiva para restaurantes fast-casual”, expandem o escopo da análise ao agrupar dados de tráfego de pedestres, uso de aplicativos móveis, intenção de compra baseada em pesquisas, indicadores macroeconômicos e outros sinais.
“Isso oferece aos analistas acesso transparente aos nossos dados, sem precisar de conhecimento técnico ou suporte”, disse Geismar. “Mas o valor mais poderoso é que isso os expõe a dados que eles não sabiam que existiam ou que não teriam pensado em usar para a pergunta que estão fazendo.”
Essa resposta de múltiplas fontes revela ângulos analíticos que os analistas podem não ter solicitado explicitamente, permitindo a corroboração entre fontes independentes.
Essa corroboração, diz Geismar, é a proposta de valor principal. “O poder está em reunir múltiplos independent datasets para corroborar uma tese”, acrescentou ele. “Não há redundância — está aumentando a convicção. É disso que se trata.”
Por outro lado, quando os resultados contradizem as suposições, eles incentivam novas linhas de pesquisa e ajudam a refinar as teses de investimento.
A experiência do analista parece conversacional, mas a infraestrutura por trás dela é sofisticada. Internamente, a aplicação é impulsionada por uma arquitetura de múltiplos agentes baseada em LangGraph, operacionalizada através do Databricks Model Serving.
Quando um analista envia uma pergunta, o sistema segue um fluxo de trabalho estruturado:
Um ponto crucial é que o sistema pode recuperar e corroborar sinais em vários conjuntos de dados em resposta a uma única pergunta, permitindo a corroboração entre diferentes conjuntos de dados em vez de depender de uma única tabela ou de uma única visualização de junção. Essa arquitetura permite que os analistas iterem com perguntas de acompanhamento naturais, como detalhamentos por ticker ou marca, para validar sinais e aprofundar em detalhes específicos.
Neste fluxo de trabalho, o Genie desempenha um papel fundamental ao permitir perguntas em linguagem natural sobre dados de negócios selecionados e governados, enquanto o Databricks Model Serving fornece a camada de implantação e serviço para a aplicação JDI.
O sistema é agnóstico a modelos e utiliza uma variedade de modelos de fundação para tarefas de raciocínio intenso, como planejamento e síntese, enquanto mantém a flexibilidade para incorporar modelos mais leves ou específicos para tarefas para os passos mais simples (como validação de ferramentas) à medida que a arquitetura evolui.
Para a equipe que está construindo o JDI, essa arquitetura sinaliza uma mudança mais ampla na forma como a pesquisa de ações será conduzida.
“Construir o Jefferies Data Intelligence com a Databricks realmente nos deu um vislumbre de como será o futuro da pesquisa”, explicou Dylan Andrews, Cientista de Dados Sênior Associado na equipe de Análise de Ações. “Saber a sintaxe de como interagir com dados importará cada vez menos, e o foco será maior em verificar ou refutar hipóteses baseadas em um mosaico de dados de vários domínios em questão de minutos.”
Um dos requisitos mais críticos para a Jefferies era garantir que a governança não fosse deixada para depois.
Como os datasets são registrados e acessados por meio do Databricks Unity Catalog, os controles de acesso são aplicados automaticamente com base na identidade do usuário. O Genie respeita as mesmas permissões de nível de tabela e de linha ou coluna já definidas no Unity Catalog, eliminando a necessidade de criar e manter uma lógica de autorização personalizada para a experiência de IA.
Isso permitiu a extensão confiante de poderosos recursos analíticos para usuários não técnicos sem comprometer a segurança dos dados ou o compliance. À medida que o sistema escala para incluir datasets mais sensíveis e um acesso mais amplo de usuários em regiões globais, esses controles de governança integrados garantem que as pessoas certas vejam os dados certos automaticamente.
O agente de pesquisa de ações não foi desenvolvido como um protótipo de IA autônomo. Ele foi projetado para operar diretamente sobre a base de dados que a Jefferies já havia construído na Databricks ao longo de sete anos de parceria.
Atualmente, o sistema extrai dados de múltiplas fontes em uma arquitetura híbrida que combina datasets governados da Databricks com chamadas de API em Runtime:
Genie Spaces (dataset selecionados):
Conexões de API Runtime:
O agente faz o join perfeitamente dos dados das chamadas de API com datasets governados recuperados por meio do Genie, fornecendo respostas abrangentes que abrangem tanto dados externos em tempo real quanto fontes internas cuidadosamente selecionadas.
Como o assistente utiliza os mesmos pipelines de ingestão, jobs de orquestração e modelo de governança já existentes, a Jefferies conseguiu adicionar capacidades de agente sobre sua infraestrutura existente, em vez de introduzir um sistema paralelo. Os jobs orquestrados executados no Databricks — responsáveis pela ingestão, limpeza e padronização por meio dos pipelines existentes do Databricks — continuam a servir como base, agora acessível por meio de linguagem natural.
Tamar Kellner, Cientista de Dados Associada Sênior da equipe de Pesquisa de Ações, enfatizou como os recursos nativos da Databricks aceleraram o desenvolvimento:
“O Databricks Genie e o Model Serving lidaram com o acesso aos dados, a implantação e a governança de forma nativa, permitindo que nossa equipe se concentrasse nos diferenciais principais da JDI: design de sistema agêntico, fluxos de trabalho com foco no analista e rápida corroboração de sinais entre diferentes conjuntos de dados.”
A adoção exigiu mais do que apenas velocidade. Os analistas precisavam confiar nos resultados, especialmente em um fluxo de trabalho sem um intermediário humano.
Um dos desafios críticos que a equipe resolveu foi: Como podemos fazer com que usuários não técnicos se sintam confortáveis e confiantes com os resultados gerados por IA? Diferentemente das ferramentas criadas com base em dados não estruturados, a equipe não podia simplesmente link de volta para os documentos de origem e destacar de onde a informação foi extraída. Eles também não podiam esperar que os analistas validassem queries SQL para verificar a exatidão.
A solução foi incorporar a auditabilidade diretamente em cada resposta. Cada resposta que o JDI retorna inclui um dropdown expansível, mostrando uma view da cadeia de pensamento que percorre como o sistema traduziu o prompt do analista em chamadas de extração de dados. Essa transparência ajuda os usuários não técnicos a entender e auditar o processo de raciocínio, aumentando a confiança nos resultados sem exigir que eles inspecionem SQL ou tabelas de origem diretamente.
Essa explicabilidade, combinada com a capacidade do sistema de apresentar múltiplos conjuntos de dados corroborativos, dá aos analistas as evidências de que precisam para criar convicção em suas recomendações de investimento.
O assistente está atualmente disponível para mais de 250 usuários nos EUA, com planos de expansão para EMEA e APAC, elevando o acesso total a aproximadamente 550 analistas globalmente.
Embora a ferramenta esteja no ar há apenas algumas semanas, a ado ção tem sido ampla. Centenas de perguntas já foram respondidas, gerando milhares de percepções e gráficos.
O trabalho que antes levava dias ou semanas devido a restrições de capacidade ou complexidade agora é entregue em minutos.
Para usuários como Kaumil Gajrawala, Diretor Executivo de Pesquisa do Consumidor na Jefferies, essa aceleração já está mudando a forma como a pesquisa é feita.
“O JDI acelerou enormemente nosso fluxo de trabalho”, disse Gajrawala. “Estamos fazendo mais, mais rápido. “Nós apenas arranhamos a superfície, estamos evoluindo de fazer nosso trabalho mais rápido para descobrir o que podemos fazer agora que não era possível antes.”
O sistema atual extrai dados de aproximadamente 10 a 12 fontes de dados principais, várias das quais contêm múltiplos datasets, com um caminho claro para expandir para mais de 30 a 40 fontes ao longo do tempo.
“Estamos começando com as fontes mais comuns, mas temos um caminho para duas a três vezes mais”, disse Geismar. “A visão é que isso se torne o ponto de acesso único para os dados estruturados do nosso departamento e uma ferramenta diária para a maioria dos analistas.”
À medida que a plataforma se expande, a Jefferies continua focada em manter o desempenho, a usabilidade e a interpretabilidade, ao mesmo tempo que aumenta a amplitude dos dados de pesquisa acessíveis.
Ao se basear nos recursos de engenharia de dados, governança e AI da Databricks, a Jefferies está evoluindo a forma como os analistas interagem com dados estruturados, combinando a autonomia do autoatendimento com a experiência integrada da equipe de engenharia de pesquisa.
O resultado não são apenas respostas mais rápidas, mas um sistema que ajuda os analistas a desenvolverem teses de investimento mais fortes e defensáveis, baseadas em evidências corroboradas e entregues na velocidade que a pesquisa exige.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Notícias
23 de dezembro de 2024/8 min de leitura

