Au cours des derniers mois, l'intérêt des agences du secteur public pour les grands modèles linguistiques (LLM) a grimpé en flèche, car les LLM modifient fondamentalement les attentes des gens dans leurs interactions avec les ordinateurs et les données. Du point de vue de Databricks, pratiquement tous les clients et prospects du secteur public avec lesquels nous interagissons se sentent obligés d'intégrer les LLM dans leur mission. On nous pose régulièrement des questions sur ce que sont les LLM (comme Dolly de Databricks), sur leurs domaines d'application et sur la manière dont le Lakehouse de Databricks prendra en charge les applications liées aux LLM. Dans cet article, nous aborderons ces questions dans le contexte des besoins, des opportunités et des contraintes uniques des organisations du secteur public. Nous nous concentrerons également sur les avantages de créer, de posséder et de gérer votre propre LLM, par rapport à l'adoption d'une Technologie qui nécessite le Data Sharing avec des tiers, comme ChatGPT.
Les LLM d'aujourd'hui représentent la dernière version d'une série d'innovations en traitement du langage naturel, ayant débuté vers 2017 avec l'essor de l'architecture du modèle transformer. Ces modèles de type Transformer possèdent depuis longtemps d'étonnantes capacités à comprendre le langage humain suffisamment bien pour accomplir des tâches telles que l'identification des sentiments, l'extraction de noms de personnes, de lieux et d'objets, et la traduction de documents d'une langue à l'autre. Ils sont également capables de générer du texte intéressant à partir d'une invite, avec des degrés variables de qualité et de précision. Plus récemment, les chercheurs et les développeurs ont découvert que de très grands modèles de langage, "pré-entraînés" sur des sources de texte très vastes et diversifiées, peuvent être "affinés" pour suivre diverses instructions d'un humain afin de générer des informations utiles.
Auparavant, la meilleure pratique consistait à entraîner des modèles distincts pour chaque tâche liée au langage. Le processus d'entraînement des modèles nécessitait des Ressources : des données organisées, du compute (généralement un ou plusieurs GPU) et une expertise avancée en Data Science et en développement logiciel. Bien que ces modèles puissent être très précis, il existe clairement des contraintes de ressources, tant en termes de calcul que d'effort humain, lors de la mise à l'échelle de leur utilisation. Avec l'ascension fulgurante de ChatGPT, nous constatons maintenant qu'un seul LLM, avec la quantité de contexte appropriée et le bon prompt, peut être utilisé pour effectuer de nombreuses tâches différentes, parfois avec une meilleure précision qu'un modèle plus spécialisé. Et la capacité des LLM à générer du nouveau texte, l'« IA générative », est à la fois fascinante et extrêmement utile.
Les organisations du secteur privé ont signalé les avantages incroyables des LLM, tels que la génération et la migration de code, la catégorisation et les réponses automatisées aux commentaires des clients, les chatbots de centre d'appels, la génération de rapports et bien plus encore. En tant que microcosme de nombreux Secteurs d'activité, les organismes du secteur public ont les mêmes opportunités en matière de LLM, en plus d'autres besoins spécifiques. Les cas d'usage courants dans le secteur public comprennent :
Bien que certainement puissants, les LLM introduisent également un nouvel ensemble de défis qui sont amplifiés par certaines des contraintes opérationnelles propres aux organisations du secteur public. Analysons quelques-uns de ces défis et alignons-les sur les capacités de Databricks Lakehouse :
La plupart des organisations du secteur public sont soumises à des contrôles réglementaires stricts concernant leurs données. Ces contrôles existent pour des raisons de confidentialité, de sécurité et, dans certains cas, pour préserver le secret. Même la simple tâche de poser une ou plusieurs questions à un LLM pourrait révéler des informations exclusives. De plus, la plupart des agences fédérales devront affiner les LLM pour répondre à leurs exigences particulières. Pour ces raisons, il est logique de supposer que les agences du secteur public seront limitées dans leur utilisation des modèles publics. Il est probable qu'elles exigeront que les modèles soient affinés dans un environnement qui garantit leur confidentialité et leur sécurité, et que les interactions avec les modèles via diverses méthodes de prompting soient également confidentielles.
La Databricks Lakehouse Platform dispose des outils nécessaires pour développer et déployer des applications LLM de bout en bout. (Nous y reviendrons plus tard.) De plus, Databricks possède les certifications nécessaires pour traiter les données de la grande majorité des organisations du secteur public américain. Databricks est un partenaire fiable et compétent pour les organisations qui cherchent à exploiter toute la puissance des LLM sans les risques liés à l'utilisation de LLM propriétaires en tant que service comme ChatGPT ou Bard.
Au-delà de Databricks, le secteur constate de plus en plus que les LLM open source, utilisés de manière appropriée, peuvent fournir des résultats qui approchent la parité avec les principaux LLM propriétaires. Les preuves sont les plus solides dans les cas d'utilisation où les LLM propriétaires doivent comprendre un contexte ou des instructions nuancés sur lesquels ils n'ont pas été entraînés auparavant. Dans ces cas, les LLM open source peuvent être soit sollicités avec des prompts, soit affinés sur des données spécifiques à l'organisation pour fournir des résultats stupéfiants. Dans cette architecture de solution, les organisations peuvent obtenir des résultats de classe mondiale avec des quantités modestes de compute et de temps de développement, sans que les données ne quittent jamais les frontières approuvées. Pour les organisations du secteur public, cela représente un avantage significatif qui ne peut être négligé.

La conviction de Databricks quant à la puissance des LLM open source est renforcée par la sortie de Dolly 2.0, le premier LLM open source capable de suivre des instructions, affiné sur un dataset d'instructions généré par des humains et sous licence pour la recherche et l'utilisation commerciale. La sortie de Dolly a été suivie par une vague d'autres LLM open source performants, dont certains affichent des performances très impressionnantes. Databricks s'efforce de fournir aux organisations du secteur public une plateforme pour créer des applications avec le LLM de leur choix (open source ou commercial) et nous sommes impatients de voir ce que l'avenir nous réserve.

La modernisation du patrimoine de données reste une priorité absolue pour la plupart des responsables techniques du secteur public. L'époque des data warehouses on-premise est en grande partie révolue ; ils sont généralement remplacés par un data warehouse ou un lakehouse dans le cloud. Les organisations qui n'ont pas encore migré vers le cloud, ou qui ont opté pour un data warehouse dans le cloud, sont maintenant confrontées à un nouveau point d'inflexion : comment adopter les LLM dans une architecture qui ne peut pas les prendre en charge ? Étant donné l'immense potentiel des LLM à impacter les missions des agences et les fonctionnaires qui les accomplissent, il est essentiel d'établir une architecture pérenne. Entrez dans le lakehouse.
Databricks est depuis longtemps une plateforme performante pour les charges de travail de machine learning (ML) et d'intelligence artificielle (IA). Les clients utilisent depuis des années des LLM de qualité production et leurs prédécesseurs sur Databricks, en profitant de fonctionnalités telles que :
Aucune de ces fonctionnalités n'est proposée dans un data warehouse, même dans le cloud. Pour utiliser les LLM conjointement avec un data warehouse, une organisation devrait se procurer d'autres services logiciels pour toutes les facettes des processus d'entraînement et de déploiement des modèles, et échanger des données entre ces services. Seule l'architecture Databricks Lakehouse offre la simplicité architecturale nécessaire pour effectuer toutes les opérations LLM sur une plateforme unique, ce qui permet de bénéficier pleinement des avantages expliqués dans notre discussion ci-dessus sur la souveraineté des données.
Lors du Data and AI Summit 2023, Databricks a présenté Lakehouse AI, qui ajoute plusieurs nouvelles fonctionnalités majeures liées aux LLM qui simplifient considérablement l'architecture pour le LLMOps, notamment :

Ces dernières années, les agences gouvernementales ont été confrontées à une « fuite des cerveaux » persistante, en particulier pour les postes qui touchent à des tendances technologiques de pointe telles que la cybersécurité, le cloud computing et le ML/IA. L'attention intense actuellement portée aux LLM génère une demande encore plus forte de praticiens talentueux en ML/IA. Inévitablement, l'attrait et les avantages liés à un emploi dans les grandes entreprises technologiques et le monde des startups exacerberont la pénurie de talents dans le secteur public. Les dirigeants gouvernementaux doivent avoir accès à des plateformes et à des partenariats qui les aideront à adopter facilement les LLM et à donner à leurs employés les moyens de devenir autonomes avec ces outils.
Databricks déploie activement des fonctionnalités qui simplifient et étendent les capacités existantes pour travailler avec les LLM sur la plateforme lakehouse. selon les besoins :

En plus de faciliter l'utilisation des LLM dans Databricks, nous introduisons également des programmes de formation et d'habilitation aux LLM pour aider les organisations à accroître leur maîtrise des LLM. Ils sont fournis à un niveau accessible pour les utilisateurs du secteur public de Databricks.
Les opportunités d'exploiter les LLM pour accélérer les cas d'usage du secteur public abondent. Une immense valeur reste enfouie dans les données existantes, attendant simplement d'être découverte et appliquée aux problèmes actuels. Venez en apprendre davantage sur la manière dont Databricks peut vous aider à adopter les LLM dans le cadre de votre mission en participant à notre webinar Les grands modèles linguistiques dans le secteur public le 2 août à midi, EDT. Consultez également les inscriptions aux aperçus des fonctionnalités répertoriées dans l'annonce de Lakehouse AI et voyez celles auxquelles votre organisation est éligible.
Setor público
June 4, 2025/3 min de leitura
Setores
January 21, 2026/11 min de leitura


