13 mai 2026

La qualité des données est la stratégie d'IA

Pourquoi un système de santé universitaire a corrigé les données à la source avant de parier sur l'IA

Le principe directeur pour une IA de haute qualité est des données de haute qualité, et cela signifie d'abord corriger les systèmes transactionnels.
Le support décisionnel clinique en temps réel empêche déjà les erreurs de diagnostic dans les salles d'urgence.
Les outils et les modèles continueront d'évoluer. Les organisations qui se concentrent sur la création de valeur avec des données unifiées seront celles qui en bénéficieront le plus.

Le secteur de la santé pourrait être l'un des plus grands bénéficiaires de l'IA. Peu d'industries génèrent autant de données, et peu ont autant à gagner de l'extraction d'informations à partir de celles-ci. Mais l'écart entre la génération de données et leur utilisation effective pour améliorer les soins, accélérer la recherche et optimiser les opérations reste énorme dans la plupart des systèmes de santé. Ceux qui comblent cet écart commencent par les données, pas par les modèles.

NYU Langone Health, un système de santé universitaire de premier plan, dessert la région métropolitaine de New York par le biais de soins aux patients, de recherches médicales et d'enseignement médical. NYU Langone utilise Databricks pour sa plateforme unifiée de données et d'IA, ayant récemment abandonné son data lake sur site et migrant actuellement son entrepôt de données d'entreprise. L'institution a bâti une large communauté de cliniciens, d'analystes, de scientifiques et de membres du personnel administratif utilisant la plateforme pour la prestation des soins, les opérations et la recherche.

Nader Mherabi, le Chief Digital and Information Officer de NYU Langone Health, dirige la stratégie de données de l'institution bien avant la vague actuelle d'IA, en posant les bases d'un système de santé axé sur les données. En 2017, il a reconnu la qualité de la collecte de données de NYU Langone et a créé une opportunité d'aller plus loin avec les capacités émergentes de l'IA.

La métaphore à laquelle Nader revient : Si vous voulez de l'eau propre, réparez les tuyaux. N'essayez pas de la filtrer à la fin.

Réparez la qualité de vos données à la source

Aly McGue : NYU Langone est une organisation axée sur les métriques avec une pile de données mature. Lorsque vous avez déjà un entrepôt et un data lake fonctionnels, quel est l'élément 'manquant' qui rend nécessaire le passage à une plateforme de données moderne ?

Nader Mherabi : Notre parcours a été un peu différent de celui de certaines institutions. Nous avons toujours été une organisation très axée sur les données et les métriques. Nous avions déjà des données unifiées dans un data lake et un entrepôt de données d'entreprise, même dans la pile traditionnelle. Ainsi, le passage à une plateforme moderne a été plus facile pour nous que pour d'autres.

Mais l'impératif était clair. Dès 2017, nous avons reconnu que le potentiel de l'IA, même à ce stade très précoce, signifiait que nous devions moderniser notre pile de données. C'est une chose de construire des modèles. C'en est une autre de les exécuter 24h/24 et 7j/7 de manière sûre et fiable. Nous avions besoin d'une plateforme qui puisse nous aider à réaliser nos ambitions en matière de qualité des patients, de sécurité, d'efficacité et de recherche médicale, et qui puisse évoluer avec nous au fur et à mesure que la technologie évolue.

Un principe directeur que nous avons établi il y a plus d'une décennie est que si vous voulez vraiment des données de haute qualité dans votre couche d'intelligence, vous devez d'abord les corriger au niveau des systèmes transactionnels. C'est comme l'eau qui coule dans les tuyaux. Si vous avez de l'eau propre à la source, vous n'avez pas à la filtrer sans cesse à la fin. Filtrer de l'eau sale coûte cher. L'objectif devrait donc toujours être d'avoir de l'eau propre d'abord. Certaines choses devront encore être filtrées en cours de route, mais le principe devrait être de bien faire les choses en amont.

Aly : Comment la discipline de la correction des données au niveau transactionnel a-t-elle transformé l'utilité réelle de votre couche de données ?

Nader : Il y a des années, nous avions de nombreux systèmes avec des données de patients dispersées dans plusieurs endroits sans identifiants unifiés. C'est un énorme défi pour la qualité des données, et cela limite ce que vous pouvez en faire. Une partie de notre approche a consisté à investir dans des plateformes transactionnelles communes : un dossier médical électronique et un système ERP uniques. Au fur et à mesure que nous intégrions de nouvelles pratiques ou hôpitaux, nous avons investi pour que tout le monde adopte des plateformes communes, puis nous avons créé des principes directeurs pour les données.

Par exemple, nous ne mappons jamais les données au niveau de l'entrepôt de données. Nous essayons toujours de les corriger à la source. Nous maîtrisons les systèmes et les données, nous savons donc que telle est la source faisant autorité pour les données des patients, telle est la source pour les données financières, telle est la source pour les données opérationnelles. Une fois que vous faites cela, votre plateforme de données devient beaucoup plus significative. Les gens peuvent croiser les données, ce qui est essentiel dans le domaine de la santé. Prenez un patient au centre : vous devez connecter ses données de soins aux essais cliniques disponibles, jusqu'au côté financier, en passant par les spécimens collectés pendant la chirurgie et leur emplacement physique. Si vous n'avez pas ce mappage, vous manquez une capacité énorme. Le principe directeur qui le rend possible est toujours le même : corrigez-le en amont.

Ce que les données unifiées débloquent réellement

Aly : Dans le domaine de la santé, les enjeux de la précision des données sont élevés. Comment une base de données unifiée empêche-t-elle le débat sur les 'métriques contradictoires' entre différents départements, et pourquoi cette confiance est-elle si critique lorsque l'on se dirige vers des systèmes d'IA agiles ?

Nader : C'est énorme. Même avant l'IA, les gains des données unifiées étaient énormes. Lorsque vos données sont unifiées, vous pouvez créer de meilleures métriques, et les différentes parties de l'entreprise ne viennent pas dire : « Ce chiffre n'a pas de sens ». Si vos données ne sont pas unifiées, vos métriques ne s'aligneront jamais.

Avec l'IA, bien sûr, les enjeux augmentent. Si vous n'avez pas d'excellentes données, vous n'aurez pas d'excellente IA. Les performances dépendent de la qualité des données. Et puis il y a la dimension temps réel. Obtenir les informations des gens au bon moment et au bon endroit est ce qui compte.

La gouvernance unifiée est un impératif stratégique pour l'IA

Aly McGue : Une fois que vous avez des données unifiées, le défi suivant est de les rendre découvrables et fiables à grande échelle. Comment la gouvernance des données s'intègre-t-elle dans cela ?

Nader Mherabi : C'est fondamental. Vous avez besoin d'un catalogue pour opérer sur les données et les modèles d'IA. Nous utilisons Unity Catalog, et nous continuons à le pousser plus loin.

Mais l'investissement ne porte pas seulement sur l'outil, c'est la stratégie qui l'entoure. Vous devez définir vos sources de données maîtres, décider qui possède chaque partie du catalogue, puis examiner attentivement comment vous l'exposez à la communauté élargie afin que les gens puissent trouver ce dont ils ont besoin sans dupliquer le travail. C'est une chose d'avoir un programme de données énorme. C'en est une autre pour les gens de trouver réellement les bonnes données à l'intérieur. Si vous adoptez une plateforme comme celle-ci, je suggérerais toujours de bien mettre en place le catalogue dès le départ. Il sous-tend tout le reste.

Construire une communauté axée sur les données

Aly McGue : Une plateforme unifiée n'apporte de la valeur que si les personnes de l'institution l'utilisent réellement. Comment avez-vous abordé la construction de cette communauté au-delà de l'équipe d'ingénierie des données ?

Nader : Lorsque vous investissez dans une plateforme comme celle-ci, vous devez optimiser l'investissement. Pour nous, cela signifie faire connaître ce qu'elle peut faire dans toute l'institution. L'objectif est de devenir un système de santé apprenant, qui apprend de chaque interaction avec le patient et réinjecte ces informations dans la pratique. Cela ne fonctionne que si la communauté utilisant la plateforme s'étend bien au-delà de l'informatique. Nous avons bâti une large base d'utilisateurs composée de cliniciens, d'analystes et de scientifiques, tous travaillant dans le respect des contrôles d'accès appropriés, et nous avons investi dans des programmes d'alphabétisation et de formation pour nous assurer que les personnes chargées de la prestation des soins, des opérations et de la recherche puissent en tirer parti. Avoir l'informatique sur la plateforme est une évidence. La véritable mesure du succès est de savoir si le reste de l'institution peut également l'utiliser.

Informations en temps réel là où elles comptent le plus

Aly : Dans un environnement à haute criticité comme une salle d'urgence, 'l'information du lendemain' est pratiquement inutile. Quelles sont les exigences architecturales d'une plateforme pour passer de la génération de rapports rétrospectifs au support décisionnel clinique en temps réel qui peut réellement prévenir un diagnostic erroné ?

Nader : Dans la prestation des soins, l'impact est direct. Nous avons des modèles qui fonctionnent dans la salle d'urgence et qui recherchent certaines conditions critiques et fournissent un support décisionnel aux cliniciens. L'objectif est de s'assurer que si un patient est sur le point de sortir, le système puisse signaler : avez-vous identifié ce diagnostic ? Avez-vous examiné ceci ? Parce que ce que nous ne voulons pas, c'est qu'un patient quitte la salle d'urgence avec une condition qui pourrait avoir de graves conséquences si elle est manquée.

Nous entendons tous parler de cas dans d'autres institutions où un diagnostic erroné entraîne un mauvais résultat. Nous voulons des modèles en temps réel qui fonctionnent en continu et fournissent les meilleurs conseils aux cliniciens. Non pas pour remplacer leur jugement, mais pour dire : « Hé, vous avez peut-être négligé ceci. Veuillez y jeter un autre regard. » Pour que cela fonctionne, les modèles ont besoin de données en temps réel. Et cela nécessite que la plateforme de données prenne en charge les flux en temps réel afin que les modèles puissent opérer sur des informations actuelles et fournir des informations juste à temps.

Trois niveaux d'analyse de données

Aly : Comment l'IA a-t-elle transformé l'approche de votre organisation en matière d'analyse et de stratégie de BI ?

Nader : Je pense que l'analyse se décline en trois niveaux. Premièrement, vous devez fournir une visualisation de base. Vous ne pouvez pas simplement dire : « Que voulez-vous regarder ? » Les gens ont besoin de points de départ structurés. Deuxièmement, vous ajoutez la couche conversationnelle, des outils comme Genie, où les gens peuvent être curieux et poser des questions plus approfondies. Et troisièmement, vous devez être capable de fournir la réponse sous différentes formes en fonction de l'utilisateur : parfois, c'est un fait direct, parfois, c'est une visualisation, et parfois, ce sont quelques chiffres à l'écran.

Ce qui est puissant dans notre situation actuelle, c'est que pour la première fois dans l'histoire de l'homme et de la machine, nous pouvons réellement parler aux machines en termes humains, comme on demanderait à un collègue. Cela a clairement sa place. Mais je conseillerais à tout le monde de réfléchir à l'endroit où cela a du sens et dans quelle mesure. Ne remplacez pas entièrement votre visualisation. Ajoutez la couche conversationnelle afin que les gens puissent être curieux, poser plus de questions et s'aider eux-mêmes de manière simple.

Aly : Le rythme du développement de l'IA peut être paralysant pour de nombreux dirigeants. Comment conciliez-vous le besoin d'une stratégie stable à long terme avec la réalité que la technologie pourrait être complètement différente dans six mois ?

Nader : Tout d'abord, acceptez l'imprévisibilité de l'IA. Vous vous réveillerez demain, et quelque chose de nouveau sera arrivé. Les outils et la technologie continueront de changer. Ne vous attardez pas sur cela. Trouvez de bons partenaires qui peuvent faire évoluer leur plateforme dans le cadre du changement, et concentrez-vous sur la création de valeur.

Que vous fournissiez des soins sûrs et de haute qualité, amélioriez l'efficacité opérationnelle ou rendiez l'expérience patient meilleure, c'est là la valeur. Poursuivez-la avec les capacités qui existent aujourd'hui, puis continuez à évoluer. Et l'autre point est de vous former. Ce qui rend les gens hésitants, c'est qu'ils n'ont pas l'impression de comprendre ce qui se passe. Vous devez rester informé du mieux que vous pouvez, car cela vous aide à prendre de meilleures décisions à mesure que le marché évolue, surtout au rythme actuel.

Pensées finales

L'approche précoce et intentionnelle de NYU Langone est la principale conclusion de cette discussion. La métaphore de l'eau pure capture quelque chose d'important. Les organisations qui investissent dans le filtrage des données sales en aval jouent toujours un rôle de rattrapage. Celles qui les corrigent au niveau transactionnel, même si cela prend plus de temps et coûte plus cher au départ, construisent une base sur laquelle chaque investissement ultérieur, de l'analytique à l'IA en passant par le support décisionnel clinique en temps réel, peut s'appuyer de manière fiable. Dans un contexte où les enjeux sont la sécurité des patients, cette discipline n'est pas facultative.

Pour entendre des leaders de l'industrie et définir votre voie vers l'opérationnalisation de l'IA, téléchargez le rapport Economist Enterprise, « Making AI Deliver ».

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs