par Kacey Hertan
La mission du Groupe de la Banque Mondiale est d'améliorer la prospérité partagée sur la planète. Pour accomplir cette mission, il faut transformer de vastes quantités de données en informations exploitables. Avec des dizaines de millions de documents dans ses référentiels de connaissances et trois millions de téléchargements de publications chaque mois, le défi consiste à rendre ces connaissances trouvables et utilisables à grande échelle, afin de permettre aux équipes d'avoir un plus grand impact mondial.
Pour ce faire, le Groupe de la Banque Mondiale a construit une plateforme unifiée de données et d'IA sur Databricks, réunissant pour la première fois des données opérationnelles structurées et des référentiels de documents non structurés, permettant ainsi des décisions plus éclairées avec beaucoup moins de recherches manuelles.
Le Groupe de la Banque Mondiale exploite des flux de données structurées et non structurées qui n'ont jamais été intégrés. Du côté structuré, les bases de données héritées sur site rendent difficile le suivi des exigences de reporting évolutives. Du côté non structuré, les chercheurs et les analystes devaient rechercher manuellement dans d'énormes bibliothèques de documents pour répondre à des questions de base.
« Comment puis-je rechercher un projet exécuté en Inde en 1960 ? Quelles en sont les difficultés ? Qu'est-ce qui a bien fonctionné ? » dit Suresh Kaudi, un leader des données et de l'IA au Groupe de la Banque Mondiale. « Nous n'en avions aucune idée. Les bibliothécaires, les chercheurs allaient chercher des tonnes et des tonnes de documents, essayaient de les lire, essayaient de leur donner un sens. »
Ce goulot d'étranglement des connaissances a ralenti la prise de décision et limité la capacité de l'organisation à faire remonter les leçons apprises de son portefeuille mondial.
Le Groupe de la Banque Mondiale a entamé son parcours Databricks avec un objectif précis : moderniser sa plateforme de données et migrer le contenu structuré des systèmes hérités. Au fur et à mesure que cet effort mûrissait, l'équipe a identifié Databricks comme la plateforme capable de résoudre ce défi.
Comme le dit Kaudi, Unity Catalog a été un tournant pour l'équipe. « Unity Catalog a été un game changer pour nous. C'était une interface unifiée unique où nous pouvions gouverner nos données », dit Kaudi. À partir de là, Databricks Volumes a donné à l'équipe une voie évolutive pour gérer le contenu de documents non structurés aux côtés de données structurées dans la même plateforme. Genie a permis aux utilisateurs professionnels de poser des questions en langage naturel sur des données structurées sans écrire de SQL ni dépendre d'équipes techniques. Le Databricks AI Gateway a fourni un contrôle centralisé sur l'accès aux agents, la gestion des coûts et la sécurité à mesure que le système devenait plus complexe.
Avec la technologie critique en place, le Groupe de la Banque Mondiale était prêt à commencer la phase la plus impactante de la mise en œuvre d'une solution qui donnerait vie à sa vision de la démocratisation des données. La mise en œuvre du Groupe de la Banque Mondiale a évolué par étapes, chacune s'appuyant sur la précédente. L'équipe a commencé par migrer les données opérationnelles vers Databricks et a utilisé Unity Catalog pour établir la gouvernance sur le contenu structuré. Cela a jeté les bases du tableau de bord de responsabilité publique de l'organisation.
« C'est plus axé sur les résultats que sur les réalisations », dit Kaudi. « Au lieu de dire combien de kilomètres de route nous avons construits, il a commencé à mesurer combien d'emplois nous avons créés, combien de connectivité a été établie. » Lorsque les premières implémentations de Genie ont renvoyé des résultats incohérents pour les requêtes structurées, l'équipe a mis en place une couche de métriques pour s'assurer d'obtenir des réponses déterministes, essentielles pour le reporting financier et opérationnel.
« Dans le contenu structuré, vous avez besoin d'une réponse. Quel est mon solde bancaire ? Je ne veux pas voir un nombre différent à chaque fois », explique Kaudi. L'équipe s'est ensuite tournée vers le contenu non structuré. En utilisant Databricks Volumes et la recherche vectorielle, ils ont indexé les documents de projet pour créer une capacité de génération augmentée par récupération qui pouvait répondre aux requêtes en langage naturel et ainsi économiser la recherche manuelle.
Cela a ensuite créé un nouveau problème. Chaque instance de Genie est construite sur une couche de métriques spécifique, ce qui signifie qu'un Genie distinct est nécessaire pour chaque domaine de données. Une question qui couvre deux domaines, par exemple « quel est mon engagement en Inde et quelles sont mes actions », nécessiterait d'interroger deux Genies distincts.
La solution était une couche d'agents au-dessus. Le Groupe de la Banque Mondiale a construit une interface unique soutenue par un classificateur d'intention, un classificateur de domaine et un décomposeur de requêtes. Lorsqu'une question arrive, le classificateur d'intention identifie ce qui est demandé, le classificateur de domaine détermine quel agent ou quels agents doivent être appelés, et le décomposeur de requêtes décompose les questions complexes en plusieurs parties et les achemine vers le bon endroit. Les résultats sont assemblés et renvoyés sous forme de réponse unique.
Ce n'est pas différent de la conception web traditionnelle à plusieurs niveaux, avec le front-end, la couche d'application, la logique métier et la base de données, mise à jour pour un contexte d'IA. L'utilisateur voit une interface, mais derrière elle, n'importe quel nombre d'agents Genie spécifiques au domaine peut fonctionner, aux côtés de l'agent RAG pour la récupération de documents et d'un agent de visualisation qui contrôle la façon dont les résultats sont affichés. Si une requête renvoie des données sous forme de graphique à barres et que l'utilisateur souhaite un graphique circulaire à la place, l'agent de visualisation gère cela sans réexécuter la requête sous-jacente.
Avant d'étendre largement le système, l'équipe a mené des sessions de feedback structurées avec des parties prenantes externes, notamment des ONG, des fonctionnaires et des représentants gouvernementaux des régions d'Afrique et d'Asie de l'Est et du Pacifique. Ils ont utilisé l'IA/BI pour capturer les entrées de requêtes, les décisions de routage et les résultats, puis ont analysé les résultats pour comprendre quelles questions les utilisateurs posaient réellement et où se situaient les lacunes.
« Nous avons dû recueillir les commentaires externes également », dit Kaudi. Comment le Groupe de la Banque Mondiale les aide-t-il ? Quel type de questions posent-ils ? Afin que nous puissions être plus proactifs. »
La plateforme prend désormais en charge trois millions de téléchargements de documents par mois via une couche de recherche et de synthèse alimentée par l'IA, dont la moitié du trafic provient de pays à revenu faible et intermédiaire. Le prototype de feedback utilisateur couvrant plusieurs régions mondiales a été construit et déployé en environ deux jours et demi.
« Imaginez faire cela avec un projet », dit Kaudi. « Il y a deux ans, j'aurais imaginé le faire sur une période de deux ans. Mais cela a été fait rapidement, à la volée, pour en tirer la vraie valeur. »
Le tableau de bord de responsabilité publique a été livré sur la plateforme Databricks. Les analystes peuvent désormais récupérer des données et un contexte précieux en une seule requête, éliminant ainsi le besoin de recherche manuelle de documents. Le Groupe de la Banque Mondiale travaille à rassembler tout cela dans ses projets phares Knowledge 360 et Data 360. L'objectif est de réunir la Banque Mondiale, la SFI, l'IDA et la MIGA par le biais d'initiatives phares afin que les connaissances soient accessibles à toute partie prenante, quelle que soit l'institution qui les a générées.
Les enjeux à long terme vont au-delà de l'efficacité opérationnelle.
Découvrez comment Databricks aide les organisations à unifier les données, à gouverner l'IA et à transformer les connaissances en actions à l'échelle mondiale.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.