La recherche sur les actions est un jeu d'envergure et de conviction.
Chez Jefferies, le pôle mondial de recherche sur les actions couvre environ 3 500 entreprises dans tous les secteurs et zones géographiques, avec des analystes basés aux États-Unis, dans la zone EMEA et en Asie-Pacifique. Cette envergure est un avantage concurrentiel, mais elle crée également un défi bien connu pour toute organisation de recherche travaillant avec un univers en expansion de datasets tiers et internes.
« Nos analystes doivent synthétiser des signaux provenant d'un immense univers d'entreprises, de Secteurs d'activité et de sources de données », a déclaré Ethan Geismar, responsable des données et de l'IA pour la recherche sur les actions chez Jefferies. « Notre objectif est de les aider à transformer cette complexité en conseils en investissement différenciés et exploitables pour nos clients. »
Les questions que posent les analystes sont rarement précises ou prescriptives. Elles sont ouvertes, spécifiques à un domaine et formulées dans le langage des marchés et des fondamentaux, et non en termes de quel dataset à query ou de la table à joindre. Par exemple, les analystes posent des questions telles que : « Quelle est la demande et quelles sont les perspectives pour les restaurants de type "fast-casual" ? » ou « Quelles sont les tendances de la fréquentation et des téléchargements d'applications pour les marques que je couvre ? »
Dans un domaine où les décisions d'investissement reposent sur la confiance, un seul signal est rarement suffisant. Les analystes ont besoin d'une corroboration provenant de plusieurs sources indépendantes pour se forger une conviction.
Au cours des dernières années, l'équipe de Data Engineering de la recherche sur les actions de Jefferies a étroitement collaboré avec Databricks pour ingérer, nettoyer et standardiser des dizaines de datasets structurés, dont beaucoup provenaient de données alternatives, mais qui couvrent désormais des indicateurs financiers, de marché et macroéconomiques. À mesure que les capacités de l'IA générative ont mûri, l'équipe a cherché à répondre à une nouvelle question :
Comment Jefferies pourrait-il offrir aux analystes un moyen plus rapide et plus simple d'explorer ces données, qui préserverait la gouvernance, se connecterait directement à l'infrastructure de données existante et traduirait les questions en langage naturel en analyses défendables et multi-sources ?
Pour résoudre ce problème, Jefferies a créé Jefferies Data Intelligence (JDI), une expérience d'analytique conversationnelle optimisée par Databricks AI/BI Genie, permettant aux analystes de poser des questions de recherche ouvertes directement sur des datasets gouvernés et multi-sources.
Historiquement, Jefferies a traité les demandes nouvelles et ad hoc des analystes de deux manières principales.
Premièrement, par le biais d'outils traditionnels de consultation de données en libre-service qui donnaient aux analystes un accès direct aux datasets, mais qui exigeaient qu'ils comprennent le paysage des données sous-jacentes et les outils pour en extraire des insights.
Deuxièmement, grâce à un modèle de service interne personnalisé, l'équipe d'ingénierie de recherche a traduit les questions des analystes en extractions de données et a fourni des résultats synthétisés.
« Même après avoir nettoyé et mappé les données, il y a toujours des frictions : quelqu'un doit traduire les questions fondamentales que les analystes posent dans les bons datasets et les bonnes vues », a expliqué Geismar. « Les analystes ne formulent pas leurs questions en termes de tableaux et de jointures, ils posent des questions sur les fondamentaux, la macroéconomie, les tendances du secteur, le positionnement comparatif, les catalyseurs, les risques, etc. »
Bien que puissante, cette approche a introduit une autre contrainte : la capacité de l'équipe.
« Nous travaillons par sprints mensuels, et la marge de manœuvre pour les demandes de dernière minute est limitée », a déclaré Geismar. « Même lorsque quelque chose n'était pas techniquement difficile à traiter, il fallait parfois des jours ou des semaines avant que nous puissions nous en occuper, simplement en raison de contraintes de capacité. »
Les questions plus complexes, en particulier celles qui nécessitent une triangulation entre plusieurs datasets, pouvaient prendre des heures, voire des jours, d'efforts concentrés une fois priorisées.
Les questions de recherche complexes représentaient souvent le plus grand défi. Un analyste s'interrogeant sur les tendances de la demande des consommateurs dans le secteur de la restauration rapide décontractée pourrait avoir besoin de données sur la fréquentation, de métriques d'engagement sur les applications mobiles, d'intentions d'achat basées sur des enquêtes et d'un contexte macroéconomique, chacun de ces éléments nécessitant des extractions de données, des jointures et des analyses distinctes.
Les deux modèles fonctionnaient, mais tous deux imposaient des frictions. Ce dont Jefferies avait besoin, c'était d'un moyen de combiner l'indépendance du libre-service avec l'expertise intégrée de l'équipe d'ingénierie de recherche sans créer de nouveaux goulots d'étranglement.
Pour opérationnaliser cela à grande échelle, Jefferies a développé un assistant interne de recherche sur les actions avec une interface personnalisée pour les analystes, alimenté par AI/BI Genie en tant que moteur d'orchestration et de raisonnement reposant sur le lac de données structurées de l'entreprise.
L'expérience qui en résulte permet aux analystes de poser les mêmes questions qu'ils poseraient à un expert du domaine et de recevoir des réponses fondées sur plusieurs datasets pertinents. Fait important, le système comprend le langage que les analystes utilisent déjà pour formuler leurs recherches.
Par exemple, lorsqu'un analyste pose une question sur les restaurants rapides décontractés, AI/BI Genie interprète ce raccourci de secteur à l'aide de mappages sémantiques spécifiques au domaine et d'un contexte commercial organisé, le mappe à l'univers de couverture approprié et récupère les données pertinentes, sans que l'analyste ait à spécifier les marques, les tables ou les jointures.
Ces mêmes mappages de couverture, alignés sur la façon dont les analystes segmentent naturellement leurs secteurs et avec les taxonomies des secteurs d'activité, permettent des vues agrégées telles que la fréquentation totale des restaurants pour l'ensemble des marques constituantes. Comme cette logique est directement intégrée à Genie, les analystes peuvent interroger leur couverture en utilisant un langage et des regroupements familiers.
À partir de là, les analystes peuvent itérer naturellement, en demandant des ventilations par marque (« ventiler par marque individuelle »), des agrégations de sociétés mères ou un contexte supplémentaire, ce qui permet une analyse plus approfondie sans avoir à spécifier au préalable ces dimensions.
Lorsque les analystes utilisent des invites ouvertes, le système aide à identifier les signaux les plus pertinents pour la question posée, révélant souvent des insights et des datasets que les analystes n'avaient pas envisagés auparavant.
Une simple query comme « Montre-moi la fréquentation des restaurants de type "fast-casual" » récupère les données de fréquentation associées et présente une analyse des tendances.
Mais des invites plus larges telles que « Montrez-moi la demande et les perspectives pour les restaurants décontractés rapides » élargissent le champ d'analyse en rassemblant le trafic piétonnier, l'utilisation des applications mobiles, l'intention d'achat basée sur des enquêtes, les indicateurs macroéconomiques et d'autres signaux.
« Cela donne aux analystes un accès transparent à nos données sans qu'ils aient besoin de connaissances ou d'un support technique », a déclaré M. Geismar. « Mais le plus grand avantage est que cela leur permet d'accéder à des données dont ils ignoraient l'existence ou qu'ils n'auraient pas pensé à utiliser pour répondre à leur question. »
Cette réponse multi-sources fait apparaître des angles d'analyse que les analystes n'ont peut-être pas explicitement demandés, permettant une corroboration entre des sources indépendantes.
Cette corroboration, selon Geismar, est la proposition de valeur fondamentale. « La puissance réside dans le rassemblement de plusieurs datasets indépendants pour corroborer une thèse », a-t-il ajouté. « Il n'y a pas de redondance — cela renforce la conviction. » C'est l'enjeu principal. »
À l'inverse, lorsque les résultats contredisent les hypothèses, ils suscitent de nouvelles pistes de recherche et aident à affiner les thèses d'investissement.
L'expérience de l'analyste se veut conversationnelle, mais l'infrastructure sous-jacente est sophistiquée. Sous le capot, l'application est alimentée par une architecture multi-agents basée sur LangGraph, opérationnalisée via Databricks Model Serving.
Lorsqu'un analyste soumet une question, le système suit un workflow structuré :
Point essentiel, le système peut extraire et corroborer des signaux à travers plusieurs datasets en réponse à une seule question, permettant une corroboration entre les datasets plutôt que de se fier à une seule table ou à une seule vue jointe. Cette architecture permet aux analystes d'itérer avec des questions de suivi naturelles, telles que des ventilations par symbole boursier ou par marque, pour valider les signaux et explorer les détails.
Dans ce workflow, Genie joue un rôle clé en permettant de poser des questions en langage naturel sur des données métier organisées et gouvernées, tandis que Databricks Model Serving fournit la couche de déploiement et de service pour l'application JDI.
Le système est agnostique au modèle et exploite une gamme de modèles de fondation pour les tâches exigeantes en matière de raisonnement, telles que la planification et la synthèse, tout en conservant la flexibilité d'intégrer des modèles plus légers ou spécifiques à une tâche pour des étapes plus simples (comme la validation d'outils) à mesure que l'architecture évolue.
Pour l'équipe qui développe JDI, cette architecture signale un changement plus large dans la manière dont la recherche sur les actions sera menée.
« Le développement de Jefferies Data Intelligence avec Databricks nous a vraiment donné un aperçu de ce à quoi ressemblera l'avenir de la recherche », a expliqué Dylan Andrews, Data Scientist senior associé au sein de l'équipe de recherche sur les actions. « Connaître la syntaxe pour interagir avec les données importera de moins en moins, et l'accent sera davantage mis sur la vérification ou la réfutation d'hypothèses fondées sur une mosaïque de données provenant de différents domaines en quelques minutes. »
L'une des exigences les plus importantes pour Jefferies était de s'assurer que la gouvernance ne soit pas une réflexion après coup.
Comme les datasets sont enregistrés et accessibles via Databricks Unity Catalog, les contrôles d'accès sont appliqués automatiquement en fonction de l'identité de l'utilisateur. Genie respecte les mêmes autorisations au niveau de la table, de la ligne ou de la colonne déjà définies dans Unity Catalog, ce qui élimine la nécessité de créer et de maintenir une logique d'autorisation personnalisée pour l'expérience d'IA.
Cela a permis d'étendre en toute confiance de puissantes capacités d'analyse aux utilisateurs non techniques sans compromettre la sécurité des données ou la conformité. À mesure que le système évolue pour inclure des datasets plus sensibles et un accès utilisateur plus large dans les différentes régions du monde, ces contrôles de gouvernance intégrés garantissent que les bonnes personnes voient automatiquement les bonnes données.
L'agent de recherche sur les actions n'a pas été développé en tant que prototype d'IA autonome. Il a été conçu pour reposer directement sur la base de données que Jefferies avait déjà construite sur Databricks au cours de sept années de partenariat.
Aujourd'hui, le système puise dans plusieurs sources dans une architecture hybride qui combine des Databricks datasets gouvernés avec des appels d'API d'exécution :
Genie Spaces (jeux de données sélectionnés) :
Connexions API Runtime :
L'agent joint de manière transparente les données provenant des appels d'API avec des datasets gouvernés récupérés via Genie, fournissant des réponses complètes qui couvrent à la fois les données externes en temps réel et les sources internes soigneusement organisées.
Comme l'assistant s'appuie sur les mêmes pipelines d'ingestion, les mêmes Jobs d'orchestration et le même modèle de gouvernance déjà en place, Jefferies a pu superposer des capacités d'agent à son infrastructure existante plutôt que d'introduire un système parallèle. Les Jobs orchestrés s'exécutant sur Databricks — qui gèrent l'ingestion, le nettoyage et la standardisation par le biais des pipelines Databricks existants — continuent de servir de base, désormais accessible en langage naturel.
Tamar Kellner, Data Scientist associée senior au sein de l'équipe Equity Research, a souligné comment les capacités natives de Databricks ont accéléré le développement :
« Databricks Genie et Model Serving ont géré nativement l'accès aux données, le déploiement et la gouvernance, ce qui a permis à notre équipe de se concentrer sur les principaux différenciateurs de JDI : la conception de systèmes agentifs, des flux de travail axés sur les analystes et la corroboration rapide des signaux entre les jeux de données. »
L'adoption nécessitait plus que de la simple rapidité. Les analystes devaient avoir confiance dans les résultats, surtout dans un workflow sans intermédiaire humain.
L'un des principaux défis que l'équipe a dû relever est le suivant : Comment faire en sorte que les utilisateurs non techniques soient à l'aise et confiants avec les résultats générés par l'IA ? Contrairement aux outils basés sur des données non structurées, l'équipe ne pouvait pas simplement renvoyer à des documents sources et surligner l'origine de l'information. Elle ne pouvait pas non plus s'attendre à ce que les analystes valident des requêtes SQL pour en vérifier l'exactitude.
La solution consistait à intégrer l'auditabilité directement dans chaque réponse. Chaque réponse fournie par JDI comprend un menu déroulant extensible, affichant une vue de la chaîne de pensée qui détaille la manière dont le système a traduit le prompt de l'analyste en appels d'extraction de données. Cette transparence aide les utilisateurs non techniques à comprendre et à auditer le processus de raisonnement, renforçant ainsi la confiance dans les résultats sans qu'ils aient à inspecter directement le SQL ou les tables sources.
Cette explicabilité, combinée à la capacité du système à faire remonter plusieurs datasets corroborants, fournit aux analystes les preuves dont ils ont besoin pour forger leur conviction dans leurs recommandations d'investissement.
L'assistant est actuellement déployé auprès de plus de 250 utilisateurs aux États-Unis, avec des projets d'extension aux régions EMEA et APAC, ce qui portera l'accès total à environ 550 analystes dans le monde.
Bien que l'outil ne soit en ligne que depuis quelques semaines, son adoption a été large. Des centaines de questions ont déjà reçu une réponse, générant des milliers d'insights et de graphiques.
Le travail qui prenait auparavant des jours ou des semaines en raison de contraintes de bande passante ou de complexité est désormais réalisé en quelques minutes.
Pour des utilisateurs comme Kaumil Gajrawala, directeur général de la recherche sur la consommation chez Jefferies, cette accélération change déjà la façon dont la recherche est effectuée.
« JDI a considérablement accéléré notre flux de travail », a déclaré M. Gajrawala. « Nous en faisons plus, plus vite. « Nous n'avons fait qu'effleurer la surface, passant de la simple accélération de notre travail à la découverte de ce que nous pouvons désormais faire et qui était impossible auparavant. »
Le système actuel s'appuie sur environ 10 à 12 sources de données principales, dont plusieurs contiennent de multiples datasets, avec un plan clair pour passer à plus de 30-40 sources au fil du temps.
« Nous commençons avec les sources les plus courantes, mais nous avons une marge de manœuvre pour en intégrer deux à trois fois plus », a déclaré Geismar. « La vision est que cela devienne le point d'accès unique pour les données structurées de notre département, et un outil quotidien pour la plupart des analystes. »
À mesure que la plateforme se développe, Jefferies reste concentré sur le maintien des performances, de la convivialité et de l'interprétabilité, tout en augmentant l'étendue des données de recherche accessibles.
En s'appuyant sur les capacités d'ingénierie des données, de gouvernance et d'IA de Databricks, Jefferies fait évoluer la manière dont les analystes interagissent avec les données structurées, combinant l'autonomie du libre-service avec l'expertise intégrée de l'équipe d'ingénierie de la recherche.
Le résultat n'est pas seulement des réponses plus rapides, mais un système qui aide les analystes à développer des thèses d'investissement plus solides et plus défendables, fondées sur des preuves corroborées et fournies à la vitesse qu'exige la recherche.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Notícias
23 décembre 2024/8 min de lecture

