2 de marzo de 2026

Jefferies moderniza la investigación de renta variable a escala con Databricks y el análisis agéntico

Cómo Jefferies brinda a cientos de analistas acceso en lenguaje natural a investigaciones de múltiples fuentes, con la tecnología de AI/BI Genie.

por Ethan Geismar, Julia Brouillette, Afsana Afzal y Ben Doan

Jefferies utiliza AI/BI Genie de Databricks y análisis agénticos para ayudar a más de 250 analistas a responder preguntas de investigación abiertas en múltiples fuentes de datos.
La investigación compleja que antes llevaba días o semanas ahora se completa en minutos, combinando la velocidad del autoservicio con la experiencia integrada en el dominio.
Creada directamente en Databricks y gobernada por Unity Catalog, la solución se escala a nivel mundial sin duplicar datos, herramientas o controles de acceso.

La investigación de capitales es un juego de amplitud y convicción.

En Jefferies, la organización global de investigación de renta variable cubre aproximadamente 3500 empresas de todos los sectores y geografías, con analistas ubicados en EE. UU., EMEA y APAC. Esa escala es una ventaja competitiva, pero también plantea un desafío conocido para cualquier organización de investigación que trabaja con un universo en expansión de conjuntos de datos internos y de terceros.

“Nuestros analistas tienen que sintetizar señales en un universo enorme de empresas, industrias y fuentes de datos”, dijo Ethan Geismar, director de Datos e IA, Investigación de Renta Variable en Jefferies. “Nuestro objetivo es ayudarlos a convertir esa complejidad en un asesoramiento de inversión diferenciado y accionable para nuestros clientes”.

Las preguntas que hacen los analistas rara vez son específicas o prescriptivas. Son abiertas, específicas del dominio y están formuladas en el lenguaje de los mercados y los fundamentos, no en términos de qué conjunto de datos consultar o qué tabla unir. Por ejemplo, los analistas hacen preguntas como “¿Cuál es la demanda y la perspectiva para los restaurantes de comida rápida informal?”. o “¿Cuál es la tendencia del tráfico peatonal y las descargas de aplicaciones en las marcas que cubro?”.

En un campo donde las decisiones de inversión dependen de la confianza, una sola señal rara vez es suficiente. Los analistas necesitan corroboración de múltiples fuentes independientes para generar convicción.

Durante los últimos años, el equipo de ingeniería de investigación de renta variable de Jefferies se ha asociado estrechamente con Databricks para ingerir, limpiar y estandarizar docenas de conjuntos de datos estructurados, muchos de los cuales se originaron como datos alternativos, pero que ahora abarcan indicadores financieros, de mercado y macroeconómicos. A medida que maduraban las capacidades de la IA generativa, el equipo se propuso responder a una nueva pregunta:

¿Cómo podría Jefferies ofrecer a los analistas una forma más rápida y sencilla de explorar estos datos, una que preservara la gobernanza, se conectara directamente a la infraestructura de datos existente y tradujera las preguntas en lenguaje natural en análisis defendibles y de múltiples fuentes?

Para resolver esto, Jefferies creó Jefferies Data Intelligence (JDI), una experiencia de análisis conversacional con la tecnología de AI/BI Genie de Databricks, que permite a los analistas hacer preguntas de investigación abiertas directamente en conjuntos de datos gobernados y de múltiples fuentes.

Los límites del autoservicio tradicional y el soporte personalizado

Históricamente, Jefferies ha respondido a las nuevas solicitudes ad hoc de los analistas de dos maneras principales.

En primer lugar, a través de herramientas tradicionales de exploración de datos de autoservicio que daban a los analistas acceso directo a los conjuntos de datos, pero que les exigían comprender el panorama de datos subyacente y las herramientas para extraer información valiosa.

En segundo lugar, a través de un modelo de servicio interno personalizado, el equipo de ingeniería de investigación traducía las preguntas de los analistas en extracciones de datos y entregaba resultados sintetizados.

“Incluso después de haber limpiado y mapeado los datos, sigue habiendo fricción: alguien tiene que traducir las preguntas fundamentales que hacen los analistas en los conjuntos de datos y las vistas correctas”, explicó Geismar. “Los analistas no formulan preguntas en términos de tablas y uniones (joins), sino que preguntan sobre fundamentos, macroeconomía, tendencias del sector, posicionamiento comparativo, catalizadores, riesgos, etcétera”.

Aunque potente, este enfoque introdujo una limitación diferente: el ancho de banda del equipo.

“Trabajamos en sprints mensuales, y el margen para las solicitudes de última hora es limitado”, dijo Geismar. “Incluso cuando algo no era técnicamente difícil de abordar, en algunas situaciones solía tardar días o semanas antes de que pudiéramos ocuparnos de ello, simplemente por limitaciones de capacidad”.

Las preguntas más complejas, especialmente las que requerían una triangulación entre múltiples conjuntos de datos, podían llevar horas o días de esfuerzo concentrado una vez priorizadas.

Las preguntas de investigación complejas solían ser las más difíciles. Un analista que preguntara sobre las tendencias de la demanda de los consumidores en los restaurantes de comida rápida informal podría necesitar datos de tráfico peatonal, métricas de interacción con aplicaciones móviles, intención de compra basada en encuestas y contexto macroeconómico, y cada uno de ellos requiere extracciones de datos, uniones y análisis por separado.

Ambos modelos funcionaban, pero ambos imponían fricciones. Lo que Jefferies necesitaba era una forma de combinar la independencia del autoservicio con la experiencia integrada del equipo de ingeniería de investigación sin crear nuevos cuellos de botella.

Un agente de investigación que se adapta a los analistas

Para ponerlo en marcha a escala, Jefferies creó un asistente interno de investigación de renta variable con una interfaz personalizada para los analistas, impulsado por AI/BI Genie como motor de orquestación y razonamiento que se asienta sobre el lago de datos estructurados de la empresa.

La experiencia resultante permite a los analistas hacer las mismas preguntas que le harían a un experto en el dominio y recibir respuestas basadas en múltiples conjuntos de datos relevantes. Es importante destacar que el sistema entiende el lenguaje que los analistas ya utilizan para enmarcar su investigación.

Por ejemplo, cuando un analista pregunta por restaurantes de comida rápida e informal (fast-casual), AI/BI Genie interpreta esa abreviatura del sector utilizando mapeos semánticos específicos del dominio y contexto empresarial curado, lo asigna al universo de cobertura apropiado y recupera los datos pertinentes, sin necesidad de que el analista especifique marcas, tablas o uniones (joins).

Esos mismos mapeos de cobertura, alineados con la forma en que los analistas segmentan naturalmente sus sectores y con las taxonomías de la industria, permiten vistas agregadas como el total de visitas a restaurantes entre las marcas constituyentes. Dado que esta lógica está integrada directamente en Genie, los analistas pueden consultar su cobertura utilizando un lenguaje y agrupaciones familiares.

A partir de ahí, los analistas pueden iterar de forma natural, solicitando desgloses por marca ("desglosar esto por marcas individuales"), agregaciones de la empresa matriz o contexto adicional, lo que impulsa un análisis más profundo sin tener que especificar previamente esas dimensiones.

Donde las preguntas abiertas revelan información oculta

Cuando los analistas interactúan con indicaciones abiertas, el sistema ayuda a identificar qué señales pueden ser más relevantes para la pregunta en cuestión, y a menudo descubre información y conjuntos de datos que los analistas quizá no habían considerado antes.

Una consulta simple como “Muéstrame las visitas a los restaurantes de comida rápida informal” recupera los datos de tráfico peatonal asociados y presenta un análisis de tendencias.

Pero las indicaciones más amplias, como “Muéstrame la demanda y la perspectiva para los restaurantes de comida rápida informal”, amplían el alcance del análisis al recopilar el tráfico peatonal, el uso de aplicaciones móviles, la intención de compra basada en encuestas, los indicadores macroeconómicos y otras señales.

Figura: Jefferies Data Intelligence responde a una pregunta sobre datos públicos utilizando conjuntos de datos gobernados y las API en vivo de FRED/BLS — Jefferies Data Intelligence answering a multi-source research question with natural-language synthesis and generated visualizations.

“Brinda a los analistas un acceso fluido a nuestros datos sin necesidad de conocimientos técnicos o soporte”, dijo Geismar. “Pero el valor más potente es que los expone a datos que no sabían que existían o que no habrían pensado en usar para la pregunta que están haciendo”.

Esta respuesta de múltiples fuentes revela perspectivas analíticas que los analistas pueden no haber solicitado explícitamente, lo que permite la corroboración a través de fuentes independientes.

Esa corroboración, dice Geismar, es la propuesta de valor principal. “El poder reside en reunir múltiples conjuntos de datos independientes para corroborar una tesis”, agregó. “No hay redundancia, se trata de aumentar la convicción. De eso se trata”.

Por el contrario, cuando los resultados contradicen las suposiciones, impulsan nuevas líneas de investigación y ayudan a perfeccionar las tesis de inversión.

Cómo funciona: un flujo de trabajo agéntico construido sobre Databricks

La experiencia del analista se siente conversacional, pero la infraestructura que la respalda es sofisticada. Bajo el capó, la aplicación funciona con una arquitectura de múltiples agentes basada en LangGraph, operacionalizada a través de Databricks Model Serving.

Cuando un analista envía una pregunta, el sistema sigue un flujo de trabajo estructurado:

Validación de herramientas: asegura que los servicios de datos y las API necesarios estén disponibles, verificando tanto los recursos internos de Databricks como los servicios de terceros, como los Datos Económicos de la Reserva Federal (FRED), la Oficina de Estadísticas Laborales (BLS) y otros.
Un agente de planificación descompone la pregunta en un conjunto de tareas de investigación y crea un plan sobre lo que se necesita investigar y cómo utilizar las herramientas disponibles para responder de forma exhaustiva.
Agentes de ejecución: recuperan datos en paralelo siempre que es posible, extrayéndolos de conjuntos de datos gobernados a través de Genie y accediendo a las API de terceros según sea necesario. Estos agentes siguen el orden del plan de investigación, ejecutándose secuencialmente cuando existen dependencias y en paralelo cuando pueden.
Un agente de síntesis: recopila los resultados en una respuesta coherente, que a menudo incluye gráficos y análisis que combinan hallazgos de múltiples fuentes.

Fundamentalmente, el sistema puede recuperar y corroborar señales de múltiples conjuntos de datos en respuesta a una sola pregunta, lo que permite la corroboración entre conjuntos de datos en lugar de depender de una tabla o una única vista unida. Esta arquitectura permite a los analistas iterar con seguimientos naturales, como desgloses por símbolo bursátil o por marca, para validar las señales y profundizar en los detalles.

Dentro de este flujo de trabajo, Genie desempeña un papel clave al permitir preguntas en lenguaje natural sobre datos empresariales seleccionados y gobernados, mientras que Databricks Model Serving proporciona la capa de implementación y servicio para la aplicación JDI.

El sistema es independiente del modelo y aprovecha una gama de modelos fundacionales para tareas de razonamiento intensivo como la planificación y la síntesis, al tiempo que mantiene la flexibilidad de incorporar modelos más ligeros o específicos para cada tarea para pasos más sencillos (como la validación de herramientas) a medida que la arquitectura evoluciona.

Para el equipo que desarrolla JDI, esta arquitectura señala un cambio más amplio en la forma en que se llevará a cabo la investigación de capitales.

“Desarrollar Jefferies Data Intelligence con Databricks realmente nos ha dado una idea de cómo será el futuro de la investigación”, explicó Dylan Andrews, científico de datos asociado sénior del equipo de Investigación de Renta Variable. “Conocer la sintaxis para interactuar con los datos importará cada vez menos, y se prestará más atención a verificar o refutar hipótesis basadas en un mosaico de datos de distintos dominios en cuestión de minutos”.

Gobernanza por defecto con Unity Catalog

Uno de los requisitos más importantes para Jefferies era garantizar que la gobernanza no fuera una ocurrencia tardía.

Debido a que los conjuntos de datos se registran y se accede a ellos a través de Unity Catalog de Databricks, los controles de acceso se aplican automáticamente según la identidad del usuario. Genie respeta los mismos permisos a nivel de tabla y de fila o columna ya definidos en Unity Catalog, lo que elimina la necesidad de crear y mantener una lógica de autorización personalizada para la experiencia de IA.

Esto permitió la extensión segura de potentes capacidades analíticas a usuarios no técnicos sin comprometer la seguridad de los datos ni el cumplimiento normativo. A medida que el sistema se amplía para incluir conjuntos de datos más confidenciales y un acceso de usuario más amplio en todas las regiones del mundo, estos controles de gobernanza integrados garantizan que las personas adecuadas vean los datos correctos automáticamente.

Construido sobre la infraestructura de datos existente

El agente de investigación de renta variable no se desarrolló como un prototipo de IA independiente. Fue diseñado para asentarse directamente sobre la base de datos que Jefferies ya había construido en Databricks a lo largo de siete años de asociación.

Hoy, el sistema se nutre de múltiples fuentes en una arquitectura híbrida que combina conjuntos de datos de Databricks gobernados con llamadas a la API en tiempo de ejecución:

Genie Spaces (conjuntos de datos seleccionados):

Datos fundamentales: Métricas financieras y operativas reportadas por la empresa, publicadas durante los ciclos de ganancias trimestrales, incluidos los KPI específicos de la empresa
Conjuntos de datos alternativos: Tráfico web, tráfico peatonal, interacción en redes sociales y más, preunidos y listos para el análisis cruzado

Conexiones de API en tiempo de ejecución:

Datos macroeconómicos: Indicadores de FRED y BLS.
Otros servicios y API de terceros: Fuentes de datos de terceros adicionales que no están preparadas previamente y se ingieren mejor a través de una API o MCP en tiempo de ejecución.

El agente une sin problemas los datos de las llamadas a la API con los conjuntos de datos gobernados recuperados a través de Genie, proporcionando respuestas exhaustivas que abarcan tanto datos externos en tiempo real como fuentes internas cuidadosamente seleccionadas.

Debido a que el asistente aprovecha los mismos canales de ingesta, trabajos de orquestación y modelo de gobernanza ya existentes, Jefferies pudo superponer capacidades agénticas sobre su infraestructura existente en lugar de introducir un sistema paralelo. Los trabajos orquestados que se ejecutan en Databricks (que manejan la ingesta, la limpieza y la estandarización a través de los canales de Databricks existentes) continúan sirviendo como base, ahora accesible a través del lenguaje natural.

Tamar Kellner, científica de datos asociada sénior del equipo de Equity Research, enfatizó cómo las capacidades nativas de Databricks aceleraron el desarrollo:

“Databricks Genie y Model Serving gestionaron el acceso a los datos, la implementación y la gobernanza de forma inmediata, lo que permitió a nuestro equipo centrarse en los diferenciadores principales de JDI: diseño de sistema agéntico, flujos de trabajo centrados en el analista y la rápida corroboración de señales entre conjuntos de datos”.

Generar confianza a través de la transparencia

La adopción requería más que solo velocidad. Los analistas necesitaban confiar en los resultados, especialmente en un flujo de trabajo sin intermediarios humanos.

Uno de los desafíos críticos que el equipo resolvió fue: ¿Cómo logramos que los usuarios no técnicos se sientan cómodos y confíen en los resultados generados por la IA? A diferencia de las herramientas creadas sobre datos no estructurados, el equipo no podía simplemente vincular a los documentos de origen y resaltar de dónde se extrajo la información. Tampoco podían esperar que los analistas validaran las consultas SQL para verificar su exactitud.

La solución fue incorporar la auditabilidad directamente en cada respuesta. Cada respuesta que devuelve JDI incluye un menú desplegable expandible, que muestra una vista de cadena de pensamiento que explica cómo el sistema tradujo la indicación del analista en llamadas de extracción de datos. Esta transparencia ayuda a los usuarios no técnicos a comprender y auditar el proceso de razonamiento, lo que genera confianza en los resultados sin necesidad de que inspeccionen directamente las tablas de origen o SQL.

Esta explicabilidad, combinada con la capacidad del sistema para mostrar múltiples conjuntos de datos que lo corroboran, brinda a los analistas la evidencia que necesitan para generar convicción en sus recomendaciones de inversión.

Impacto inicial y próximos pasos

El asistente está actualmente disponible para más de 250 usuarios en los EE. UU., con planes de expandirse a EMEA y APAC, lo que dará acceso total a aproximadamente 550 analistas en todo el mundo.

Aunque la herramienta solo lleva unas semanas en funcionamiento, su adopción ha sido amplia. Ya se han respondido cientos de preguntas, que han generado miles de insights y gráficos.

El trabajo que antes llevaba días o semanas debido a limitaciones de ancho de banda o complejidad ahora se entrega en minutos.

Para usuarios como Kaumil Gajrawala, director general de Investigación de Consumo en Jefferies, esa aceleración ya está cambiando la forma en que se realiza la investigación.

“JDI ha acelerado enormemente nuestro flujo de trabajo”, dijo Gajrawala. “Estamos haciendo más, y más rápido. Apenas hemos arañado la superficie; estamos evolucionando de hacer nuestro trabajo más rápido a descubrir lo que ahora podemos hacer que antes no era posible”.

El sistema actual se nutre de entre 10 y 12 fuentes de datos principales aproximadamente, varias de las cuales contienen múltiples conjuntos de datos, con un camino claro para expandirse a más de 30 o 40 fuentes con el tiempo.

“Estamos empezando con las fuentes más comunes, pero tenemos un camino por delante para tener dos o tres veces más”, dijo Geismar. “La visión es que esto se convierta en el único punto de acceso para los datos estructurados de nuestro departamento y en una herramienta diaria para la mayoría de los analistas”.

A medida que la plataforma se expande, Jefferies sigue centrado en mantener el rendimiento, la usabilidad y la interpretabilidad, al tiempo que aumenta la amplitud de los datos de investigación accesibles.

Un nuevo punto de acceso para la investigación de renta variable

Al basarse en las capacidades de ingeniería de datos, gobernanza e IA de Databricks, Jefferies está evolucionando la forma en que los analistas interactúan con los datos estructurados, combinando la autonomía del autoservicio con la experiencia integrada del equipo de ingeniería de investigación.

El resultado no son solo respuestas más rápidas, sino un sistema que ayuda a los analistas a desarrollar tesis de inversión más sólidas y defendibles, basadas en evidencia corroborada y entregadas a la velocidad que exige la investigación.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.

Ver todos los blogs