La plupart des efforts d'IA multimodale dans le domaine de la santé stagnent avant la production. Voici un plan pratique pour unifier la génomique, l'imagerie, les notes cliniques et les dispositifs portables avec une gouvernance, des pipelines et des...
par Maks Khomutskyi
Les cas d'utilisation les plus précieux de l'IA dans le domaine de la santé résident rarement dans un seul jeu de données. L'intégration multimodale des données — combinant la génomique, l'imagerie, les notes cliniques et les données des objets connectés — est essentielle pour l'oncologie de précision et la détection précoce, pourtant de nombreuses initiatives échouent avant la production.
L'oncologie de précision nécessite de comprendre à la fois les moteurs moléculaires issus du profilage génomique et le contexte anatomique issu de l'imagerie. La détection précoce s'améliore lorsque les signaux de risque héréditaire rencontrent les données longitudinales des objets connectés. Et bon nombre des détails du « pourquoi » — symptômes, réponse, raisonnement — résident encore dans les notes cliniques.
Malgré des progrès réels dans la recherche, de nombreuses initiatives multimodales échouent avant la production — non pas parce que la modélisation est impossible, mais parce que les données et le modèle opérationnel ne sont pas prêts pour la réalité clinique. La contrainte n'est pas la sophistication du modèle, mais l'architecture : des piles séparées par modalité créent des pipelines fragiles, une gouvernance dupliquée et des mouvements de données coûteux qui échouent face aux besoins de déploiement clinique.
Ce billet présente un modèle de lakehouse orienté production pour la médecine de précision multimodale : comment intégrer chaque modalité dans des tables Delta gouvernées, créer des caractéristiques intermodales et choisir des stratégies de fusion qui survivent aux données manquantes du monde réel.

Tout au long de ce billet, « tables gouvernées » signifie que les données sont sécurisées et opérationnalisées à l'aide d'Unity Catalog (ou de contrôles équivalents), y compris :
Classification des données avec des balises gouvernées : PHI/PII/28 CFR Part 202/StudyID/…
Reproductibilité : versionnement et voyage dans le temps pour les jeux de données, CI/CD pour les pipelines/tâches, et MLflow pour le suivi des expériences et des versions de modèles.
Cela relie l'architecture technique aux résultats commerciaux : moins de copies de données sensibles, une analyse reproductible et des approbations plus rapides pour la mise en production.
Les modèles unimodaux atteignent leurs limites dans des environnements cliniques complexes. L'imagerie peut être puissante, mais de nombreuses prédictions complexes bénéficient d'un contexte moléculaire + longitudinal. La génomique capture les moteurs, mais pas le phénotype, l'environnement ou la physiologie quotidienne. Les notes et les objets connectés ajoutent les signaux « entre les lignes » que les données structurées omettent souvent.
La réalité du volume compte : Databricks note qu'environ 80 % des données médicales sont non structurées (par exemple, texte et images). C'est pourquoi l'intégration de données multimodales doit gérer les notes non structurées et l'imagerie à grande échelle, et pas seulement les champs structurés des DSE.
La conclusion pratique : chaque modalité est incomplète en soi. Les systèmes multimodaux fonctionnent lorsqu'ils sont conçus pour :
Le choix de la fusion est rarement la seule raison de l'échec des équipes, mais il explique souvent pourquoi les pilotes ne se traduisent pas : les données sont rares, les modalités arrivent à des moments différents et les exigences de gouvernance diffèrent selon le type de données.
1) Fusion précoce (Concaténer les entrées brutes avant l'entraînement.)
2) Fusion intermédiaire (Encoder chaque modalité séparément, puis fusionner les représentations cachées.)
3) Fusion tardive (Entraîner des modèles par modalité, puis combiner les prédictions.)
4) Fusion basée sur l'attention (Apprendre une pondération dynamique entre les modalités et le temps.)
Cadre de décision : faire correspondre la fusion à votre réalité de déploiement : modèles de disponibilité des modalités, équilibre de la dimensionnalité et dynamique temporelle.
Une approche lakehouse réduit les mouvements de données entre les modalités : les tables de génomique, les métadonnées/caractéristiques d'imagerie, les entités dérivées du texte et les données des objets connectés en streaming peuvent être gouvernées et interrogées en un seul endroit, sans reconstruire les pipelines pour chaque équipe.
Glow permet le traitement distribué de la génomique sur Spark sur des formats courants (par exemple, VCF/BGEN/PLINK), avec les sorties dérivées stockées sous forme de tables Delta qui peuvent être jointes aux caractéristiques cliniques.
Pour l'imagerie, le schéma est le suivant : (1) dériver les caractéristiques/embeddings en amont (radiomique ou sorties de modèles profonds), (2) stocker les caractéristiques sous forme de tables Delta gouvernées (sécurisées via Unity Catalog), et (3) utiliser la recherche vectorielle pour les requêtes de similarité (par exemple, « trouver des phénotypes similaires au sein du glioblastome »).
Cela permet la découverte de cohortes et les comparaisons rétrospectives sans exporter les données vers des systèmes distincts.
Les notes contiennent souvent des contextes manquants — chronologies, symptômes, réponse, raisonnement. Une approche pratique consiste à extraire les entités + la temporalité dans des tables (changements de médicaments, symptômes, procédures, antécédents familiaux, chronologies), à conserver le texte brut sous une gouvernance stricte (Unity Catalog + contrôles d'accès), et à joindre les caractéristiques dérivées des notes à l'imagerie et aux omics pour la modélisation et la constitution de cohortes.
Les flux de données des objets connectés introduisent des exigences opérationnelles : évolution des schémas, événements arrivant en retard et agrégation continue. Lakeflow Spark Declarative Pipelines (SDP) fournit un schéma d'ingestion vers caractéristiques robuste pour les tables de streaming et les vues matérialisées. Pour plus de lisibilité, nous y faisons référence sous le nom de Lakeflow SDP ci-dessous.
Note de syntaxe : Le module pyspark.pipelines (importé sous dp) avec les décorateurs @dp.table et @dp.materialized_view suit la sémantique Python actuelle de Databricks Lakeflow SDP.
Le gain opérationnel est la cohérence :
Un mode d'échec courant dans les déploiements cloud est une approche de « magasin spécialisé par modalité » (par exemple : un magasin FHIR, un magasin omics séparé, un magasin d'imagerie séparé, et un magasin de caractéristiques ou vectoriel séparé). En pratique, cela signifie souvent une gouvernance dupliquée et des pipelines inter-magasins fragiles, rendant le lignage, la reproductibilité et les jointures multimodales beaucoup plus difficiles à opérationnaliser.
C'est ce qui transforme un prototype multimodal en quelque chose que vous pouvez exécuter, surveiller et défendre en production.
Les déploiements réels sont confrontés à des données incomplètes. Tous les patients ne reçoivent pas un profilage génomique complet. Les études d'imagerie peuvent ne pas être disponibles. Les appareils portables n'existent que pour les populations inscrites. Le manque n'est pas un cas extrême, c'est la norme.
Les conceptions de production doivent supposer la sparsité et planifier en conséquence :
Idée clé : les architectures qui supposent des données complètes ont tendance à échouer en production. Les architectures conçues pour la sparsité généralisent.
Un modèle pratique d'oncologie de précision ressemble à ceci :
La croissance du marché est une raison pour laquelle cela est important, mais le moteur immédiat est opérationnel :
L'analyse de la similarité des patients peut également permettre un raisonnement pratique « N=1 » en identifiant des correspondances historiques avec des profils multimodaux similaires, particulièrement précieux dans les populations de maladies rares et d'oncologie hétérogènes.
Mots-clés : IA multimodale, médecine de précision, traitement génomique, IA d'imagerie médicale, intégration de données de santé, stratégies de fusion, architecture lakehouse
Haute priorité
Unity Catalog : https://www.databricks.com/product/unity-catalog
Santé et sciences de la vie : https://www.databricks.com/solutions/industries/healthcare-and-life-sciences
Plateforme d'intelligence de données pour la santé et les sciences de la vie : https://www.databricks.com/resources/guide/data-intelligence-platform-for-healthcare-and-life-sciences
Priorité moyenne
Documentation Mosaic AI Vector Search : https://docs.databricks.com/en/generative-ai/vector-search.html
Delta Lake sur Databricks : https://www.databricks.com/product/delta-lake-on-databricks
Data Lakehouse (glossaire) : https://www.databricks.com/glossary/data-lakehouse
Blogs connexes supplémentaires
Unifiez les données de vos patients avec RAG multimodal : https://www.databricks.com/blog/unite-your-patients-data-multi-modal-rag
Transformation de la gestion des données omiques sur la plateforme d'intelligence de données Databricks : https://www.databricks.com/blog/transforming-omics-data-management-databricks-data-intelligence-platform
Présentation de Glow (Génomique) : https://www.databricks.com/blog/2019/10/18/introducing-glow-an-open-source-toolkit-for-large-scale-genomic-analysis.html
Traitement des images DICOM à grande échelle avec databricks.pixels : https://www.databricks.com/blog/2023/03/16/building-lakehouse-healthcare-and-life-sciences-processing-dicom-images.html
Accélérateurs de solutions pour la santé et les sciences de la vie : https://www.databricks.com/solutions/accelerators
Prêt à faire passer l'IA multimodale dans le domaine de la santé des pilotes à la production ? Explorez les ressources Databricks pour les architectures HLS, la gouvernance avec Unity Catalog et les modèles d'implémentation de bout en bout.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.