Revenir au contenu principal

Data scientists : propulser l'avenir de l'AI et de l'analyse

par Équipe Databricks

  • Les data scientists transforment les données brutes en modèles prédictifs, expérimentations et recommandations qui guident les décisions stratégiques en matière d'analyse, de machine learning et d'AI.
  • Leurs principaux défis incluent des outils et des données fragmentés, une gouvernance incohérente, des passages en production difficiles et des flux de travail cross-fonctionnels qui ralentissent les projets et limitent l'adoption des modèles.
  • Les plateformes unifiées et gouvernées aident les data scientists à passer plus rapidement de l'exploration au déploiement, améliorant ainsi les résultats tels que le chiffre d'affaires, la rétention, l'efficacité et l'expérience client, plutôt que de se limiter à optimiser la seule précision du modèle.

Les data scientists se situent à l'intersection de l'analyse, du machine learning (ML) et de l'AI, traduisant des données réelles et complexes en décisions qui stimulent les résultats de l'entreprise. À mesure que le volume et la complexité des données d'entreprise ont augmenté, l'importance stratégique de ce rôle s'est également accrue : aujourd'hui, les data scientists figurent parmi les professionnels les plus recherchés dans les organisations modernes.

L'AI s'est étendue de la modélisation prédictive aux applications génératives et aux systèmes agentiques. Le champ d'action du data scientist s'est élargi en conséquence. Cet article explore l'évolution de ce rôle et la manière dont les plateformes modernes soutiennent cette évolution.

Qu'est-ce qu'un data scientist ?

Un data scientist transforme les données brutes en résultats exploitables qui génèrent de la valeur pour l'entreprise. Là où un data analyst se contente de décrire ce qui s'est passé et pourquoi, un data scientist va plus loin en concevant des systèmes qui prédisent les événements futurs et recommandent les actions à adopter.

Ce rôle repose sur trois domaines d'expertise fondamentaux :

  1. Les statistiques et les mathématiques, qui sous-tendent les modèles
  2. La programmation, qui permet de construire et d'automatiser les modèles
  3. La connaissance du domaine, qui garantit que ce qui est développé répond précisément à la bonne question.

Les data scientists produisent une grande variété de livrables, tels que des prévisions de demande, des modèles de segmentation client, des moteurs de recommandation, des systèmes de détection des fraudes et des résultats de tests A/B. Chacun de ces livrables consiste à relier directement les données à une décision commerciale.

Comment le rôle de data scientist évolue

Le rôle de data scientist s'est considérablement élargi ces dernières années. La modélisation classique n'est désormais qu'une partie d'un champ d'action bien plus vaste. On attend de plus en plus des data scientists qu'ils travaillent avec des grands modèles de langage, conçoivent des applications d'AI générative, et gèrent les modèles de bout en bout, de leur déploiement en production à leur surveillance continue.

Cette transition est autant organisationnelle que technique. Les data scientists passent moins de temps en tant que contributeurs individuels et s'investissent davantage dans des workflows collaboratifs et prêts pour la production, partagés entre les équipes d'ingénierie, d'analyse et commerciales. Aujourd'hui, le succès repose sur l'association d'une rigueur technique à des résultats mesurables. Les data scientists sont de plus en plus évalués sur leur impact commercial : si un modèle a permis d'augmenter le chiffre d'affaires, de réduire le taux d'attrition (churn) ou d'accélérer une décision produit, et non plus seulement s'il a atteint un score de précision cible.

Compétences clés requises pour les data scientists modernes

La data science fait appel à un large éventail de compétences qui varient selon le rôle spécifique, le secteur d'activité et la maturité de l'équipe.

Le tableau ci-dessous présente les principaux domaines de compétences requis pour les rôles de data science en entreprise, les compétences et connaissances spécifiques associées, ainsi que leur importance dans l'environnement AI actuel.

Domaine de compétencesCe qu'il comprendPourquoi c'est important aujourd'hui
ProgrammationPython, SQL, RBase pour l'analyse, la modélisation et les pipelines
Statistiques et mathématiquesProbabilités, algèbre linéaire, inférenceSous-tend la modélisation et l'expérimentation
Machine learningSupervisé, non supervisé, deep learningAlimente les cas d'usage prédictifs et génératifs
Bases de l'ingénierie des donnéesPipelines, transformations, formats de stockageNécessaire pour travailler avec des données de production
Sensibilisation au MLOpsDéploiement, surveillance et réentraînement des modèlesLes modèles doivent fonctionner en production, pas seulement dans des notebooks
CommunicationStorytelling, visualisation, vulgarisation auprès des parties prenantesFavorise l'adoption des analyses et des modèles
Expertise métierConnaissances spécifiques au secteur ou à la fonctionPermet de mieux formuler les problèmes et de choisir les bonnes métriques

Data scientist et rôles associés

La data science présente des points communs avec plusieurs rôles connexes, mais les frontières entre eux peuvent parfois sembler floues selon l'équipe et l'organisation.

Le tableau suivant apporte des éclaircissements en mettant en évidence l'objectif principal de différents rôles, ainsi que le contexte entourant les livrables types qu'ils produisent.

RôleObjectif principalLivrable type
Data scientistModélisation, expérimentation, génération d'insightsModèles prédictifs, analyses, recommandations
Data analystReporting et analyses descriptivesTableaux de bord, analyses ad hoc, rapports de KPI
Ingénieur MLMise en production et mise à l'échelle des modèlesServices de modèles déployés, pipelines de ML
Data engineerConstruction et maintenance des pipelines de donnéesJeux de données fiables et infrastructure d'ingestion
Analytics engineerModélisation et préparation des données prêtes pour l'analyseTables transformées, couches sémantiques

Dans de nombreuses organisations, en particulier au sein des petites équipes, les data scientists assument des responsabilités qui incombaient auparavant aux ingénieurs ML ou aux analytics engineers. La caractéristique la plus évidente qui distingue les data scientists est leur responsabilité globale du processus de modélisation et d'expérimentation, à savoir la formulation du problème, la sélection et la construction du modèle, ainsi que l'interprétation des résultats en termes commerciaux.

Outils et plateformes utilisés par les data scientists

La suite d'outils moderne de la data science s'articule autour de notebooks interactifs : des environnements basés sur le navigateur pour écrire du code, visualiser les résultats et documenter le travail. La plupart des équipes s'appuient également sur des moteurs SQL, des bibliothèques de ML, des outils de suivi des expérimentations et des outils de BI pour partager les résultats avec les parties prenantes.

Une journée type s'articule autour de plusieurs de ces tâches : prétraitement des données en Python, extraction d'un jeu de données d'entraînement avec SQL, entraînement d'un modèle avec scikit-learn ou PyTorch, suivi des expérimentations avec MLflow et présentation des résultats dans un tableau de bord.

Les langages et bibliothèques courants comprennent Python, SQL, pandas, scikit-learn, PyTorch, Spark et MLflow. Les équipes en entreprise ont largement migré vers le cloud et les plateformes de données unifiées, car le développement local sur un sous-ensemble de données n'est pas viable à l'échelle de la production. Les assistants AI deviennent également la norme, aidant les data scientists à écrire du code, explorer des jeux de données et déboguer des pipelines plus rapidement.

Comment les data scientists génèrent de la valeur commerciale

Les data scientists créent de la valeur commerciale en reliant les résultats des modèles à des décisions qui influent sur le chiffre d'affaires, les coûts et l'expérience client. Par exemple, la prévision de la demande peut aider à réduire le gaspillage de stock et à améliorer l'exécution des commandes. Les modèles d'attrition (churn) permettent aux équipes de fidélisation d'intervenir avant qu'un client ne parte. Les moteurs de recommandation augmentent l'engagement et les taux d'achat. L'optimisation des prix améliore la marge sans réduire le volume. Dans chaque cas, le modèle n'est pas le produit final, c'est le résultat commercial qui l'est.

C'est pourquoi les performances des data scientists sont de plus en plus évaluées sur leur impact plutôt que sur les seules métriques du modèle. Un modèle avec un score de précision légèrement inférieur qui est déployé, adopté et exploité par l'entreprise a bien plus de valeur qu'un modèle plus performant qui ne passe jamais en production. Le choix des métriques et une communication claire avec les parties prenantes sont tout aussi importants que les compétences techniques. Un bon data scientist construit le bon modèle, mesure les bons indicateurs et présente les résultats de manière à inciter à l'action.

Rapport

Le guide pratique de l'IA agentique pour l'entreprise

La place des data scientists dans le cycle de vie de l'AI et du ML

Les data scientists interviennent à chaque étape du cycle de vie du projet, depuis l'identification d'une problématique commerciale jusqu'à la surveillance et au réentraînement d'un modèle déployé.

La liste ci-dessous décrit les principales contributions de la data science pour chaque étape du cycle de vie.

  1. Formulation du problème. Traduire les questions commerciales en un problème de modélisation mesurable avec une métrique cible définie. C'est là que l'expertise métier est la plus cruciale. Une mauvaise formulation du problème produit un mauvais modèle, quelle que soit sa qualité technique.
  2. Accès aux données. Localiser, évaluer et récupérer les jeux de données gouvernés nécessaires au travail. Dans les environnements d'entreprise, cela implique de gérer les autorisations, de comprendre le lignage et de confirmer la qualité des données avant de s'investir dans le feature engineering.
  3. Exploration et préparation. Profiler les données, gérer les valeurs manquantes et les valeurs aberrantes, et structurer les entrées sous une forme adaptée à la modélisation. Cette étape est généralement celle qui prend le plus de temps dans un projet réel.
  4. Feature engineering. Construire les signaux, tels que les variables dérivées, les agrégations et les encodages, qui rendent les modèles prédictifs. Des caractéristiques (features) bien conçues sont réutilisables d'un projet à l'autre et constituent un avantage concurrentiel durable.
  5. Développement du modèle. Entraîner et ajuster les modèles candidats, en comparant leurs performances à une référence (baseline) définie. C'est l'étape la plus souvent associée à la data science dans l'esprit du public, mais c'est rarement la plus chronophage ou celle qui apporte le plus de valeur.
  6. Expérimentation. Validez les résultats par une évaluation hors ligne et, le cas échéant, par des tests en direct tels que des expériences A/B. La rigueur statistique est essentielle à ce stade pour générer des résultats fiables.
  7. Déploiement. Transférez les modèles approuvés en production afin qu'ils puissent fournir des prédictions aux applications et aux équipes qui en ont besoin, que ce soit en mode batch, streaming ou en temps réel, selon le cas d'usage.
  8. Surveillance et réentraînement. Surveillez la dérive des données et la dégradation des performances au fil du temps, réentraînez sur des données fraîches si nécessaire et retirez les modèles qui ne répondent plus aux exigences de l'entreprise.

Les défis auxquels sont confrontés les data scientists

Les data scientists sont confrontés à des défis qui découlent généralement de la manière dont les entreprises sont organisées et dont les données et les outils ont été historiquement conçus. Ils se répartissent en quelques schémas récurrents :

Données et outils fragmentés

Lorsque les données sont dispersées entre des entrepôts de données, des data lakes, des applications SaaS et des systèmes opérationnels, l'assemblage d'un jeu de données d'entraînement peut prendre autant de temps que la construction du modèle lui-même. Rechercher des tables, concilier des définitions contradictoires et joindre manuellement des sources qui devraient déjà être unifiées sont autant de points de friction qui ralentissent les progrès avant même que le travail n'ait réellement commencé. Le passage d'un outil déconnecté à un autre aggrave le problème : chaque changement de contexte entraîne des retouches, des incohérences et des frictions qui entravent l'ensemble du flux de travail.

Accès gouverné aux données

Les data scientists ont besoin d'un large accès aux données pour mener à bien leur travail. Les politiques de sécurité, les réglementations sur la confidentialité, les contrôles de conformité et autres exigences de gouvernance peuvent parfois sembler en contradiction avec ce besoin.

Cependant, ce conflit apparent est généralement le produit d'une gouvernance mal mise en œuvre, et non des exigences de gouvernance elles-mêmes. Lorsque les contrôles d'accès sont clairs, les autorisations bien définies et le lignage des données transparent, les data scientists peuvent avancer plus vite, et non plus lentement, en passant moins de temps à demander des accès, à s'interroger sur la qualité des données ou à se demander s'ils disposent de la bonne version d'un jeu de données.

Passer des modèles du notebook à la production

Les environnements de développement diffèrent des environnements de production, les pipelines de données changent, les exigences en matière d'infrastructure sont plus strictes et les normes d'ingénierie requises par les systèmes de production sont rarement appliquées lors de la phase d'expérimentation. C'est pourquoi de nombreux modèles performants en développement n'arrivent jamais en production. Combler cet écart nécessite les meilleures pratiques MLOps : versionnage des modèles, pipelines CI/CD et surveillance automatisée. Cela requiert également une collaboration étroite entre les data scientists et les ingénieurs responsables de l'infrastructure de production.

Collaborer entre les équipes de données, d'ingénierie et métiers

Les projets de data science peuvent échouer pour des raisons organisationnelles tout autant que techniques. Les data scientists, les ingénieurs de données, les ingénieurs ML et les parties prenantes métiers travaillent souvent avec des outils différents, en utilisant des définitions différentes pour les mêmes métriques et des calendriers différents.

Des définitions communes pour les métriques clés, des bibliothèques de features partagées et des modèles de données communs réduiront les frictions de la collaboration interfonctionnelle. Il en va de même pour une plateforme commune. Lorsque les data scientists et les ingénieurs travaillent dans le même environnement, avec un accès aux mêmes données et au même lignage, les transitions sont plus fluides et les malentendus sont détectés plus tôt.

Garder le rythme face à un paysage de l'AI en évolution rapide

Même dans un secteur réputé pour ses changements rapides, le domaine de l'AI évolue à une vitesse remarquable. L'AI générative a introduit une nouvelle classe de modèles et de cas d'usage que les data scientists doivent comprendre et appliquer presque aussi vite qu'ils sont publiés. Les systèmes agentiques, où les modèles d'AI raisonnent, planifient et exécutent des tâches en plusieurs étapes, suscitent des attentes similaires.

Dans le même temps, les compétences fondamentales que sont la rigueur statistique, la formulation réfléchie des problèmes et l'évaluation minutieuse restent plus importantes que jamais. Les data scientists doivent évaluer et adopter de nouvelles techniques sans abandonner la rigueur qui rend leur travail fiable. Les organisations qui offrent aux data scientists un accès à des outils modernes et du temps pour expérimenter, plutôt que de leur imposer de maintenir des flux de travail hérités tout en restant à jour, seront les mieux placées pour les soutenir.

Comment la plateforme Databricks soutient les data scientists

La plateforme Databricks offre un environnement unifié pour les travaux de data science à travers l'analytique, l'AI et le ML, sans avoir besoin de changer de contexte comme c'est le cas lorsqu'on travaille avec des outils distincts. L'accès gouverné aux données, les notebooks collaboratifs, l'expérimentation ML et le déploiement en production cohabitent sur une seule plateforme, construite sur une architecture Lakehouse ouverte qui s'adapte facilement aux volumes de données de l'entreprise et aux exigences de conformité.

Pour les data scientists, cela signifie moins de temps consacré à l'infrastructure et aux outils, et plus de temps pour le travail créateur de valeur. L'exploration, l'ingénierie des caractéristiques (feature engineering), le développement et le déploiement de modèles se déroulent dans un flux de travail continu plutôt que dans une séquence fragmentée de transitions. Et parce que les actifs de données et d'AI sont gouvernés de manière cohérente sur l'ensemble de la plateforme, les data scientists peuvent être sûrs que les données sur lesquelles ils s'entraînent sont les mêmes que celles que leurs modèles verront en production.

Les fonctionnalités spécifiques de la plateforme Databricks qui soutiennent les flux de travail de data science comprennent :

  • Notebooks collaboratifs. Créez et partagez des analyses en Python, SQL, R et Scala dans un espace de travail unique avec co-édition, intégration Git et contrôles d'accès basés sur les rôles.
  • Unity Catalog. Déployez un accès gouverné aux actifs de données et d'AI, y compris les tables, les caractéristiques (features), les modèles et les fonctions, avec un lignage de bout en bout et des autorisations précises.
  • Agent Bricks. Créez, ajustez précisément (fine-tune) et servez des modèles de ML traditionnel et d'AI générative sur les données de l'entreprise, avec un suivi intégré des expériences via MLflow, le service de modèles (model serving) et des outils de développement d'agents.

L'avenir du rôle de data scientist

L'AI transforme le rôle de data scientist, elle ne l'élimine pas. Les assistants et agents d'AI sont de plus en plus performants pour automatiser les tâches de codage de routine, générer du code standard (boilerplate), exécuter des analyses exploratoires et suggérer des architectures de modèles, ce qui représente de réels gains de productivité. Mais l'AI ne remplace pas le jugement humain. Formuler les problèmes de manière intelligente, évaluer si un résultat est fiable et traduire une découverte technique en une recommandation commerciale exploitable restent des compétences typiquement humaines.

L'essor des flux de travail agentiques l'illustre clairement. Les data scientists travaillent de plus en plus aux côtés d'agents d'AI qui exécutent des tâches complexes en plusieurs étapes à partir d'une simple invite (prompt). Des outils comme le Databricks Data Science Agent, ancré dans Unity Catalog pour un accès gouverné aux données, en sont un exemple concret. Dans ces flux de travail, le rôle du data scientist est d'orienter l'agent vers le bon problème, d'évaluer ses résultats de manière critique et d'assumer la responsabilité des décisions qui en découlent.

Frequently asked questions

Quelle est la différence entre un data scientist et un analyste de données ?

Les analystes de données se concentrent sur la description de ce qui s'est déjà produit à l'aide de tableaux de bord, de requêtes et de rapports KPI. Les data scientists vont plus loin en construisant des modèles prédictifs qui prévoient ce qui va se passer ensuite et recommandent les actions à entreprendre. La distinction la plus claire réside dans la responsabilité du processus de modélisation et d'expérimentation.

Quelle est la différence entre un data scientist et un ingénieur en machine learning ?

Les data scientists formulent les problèmes, construisent les modèles et interprètent les résultats en termes commerciaux. Les ingénieurs ML prennent ces modèles et les font fonctionner de manière fiable en production. Dans les petites équipes, les rôles se chevauchent souvent ; dans les grandes organisations, ils sont généralement distincts.

Comment les data scientists utilisent-ils l'AI générative ?

De deux manières : comme une nouvelle classe de cas d'usage, notamment l'ajustement précis (fine-tuning) des LLM, la création d'applications RAG et le développement d'agents d'AI ; et comme outil de productivité, en utilisant des assistants d'AI pour générer du code, explorer les données et accélérer les analyses.

Pourquoi l'accès gouverné aux données est-il important pour les data scientists ?

Une gouvernance forte est un accélérateur, pas une contrainte. Des autorisations claires, un lignage documenté et des actifs de données bien catalogués signifient moins de temps passé à chercher le bon jeu de données et plus de confiance dans les résultats des modèles.

Comment les data scientists mesurent-ils l'impact commercial ?

En reliant les résultats des modèles aux métriques qui comptent pour les parties prenantes : chiffre d'affaires, rétention, conversion, taux de fraude et coûts. Cela nécessite de définir le succès en termes commerciaux avant de construire le modèle et de suivre les performances au fil du temps pour confirmer que les gains se maintiennent.

Aider les data scientists à avancer plus vite

À mesure que leur rôle s'étend pour englober l'IA générative, les workflows agentiques et le ML en production, les data scientists ont besoin d'environnements qui suivent le rythme : des plateformes unifiées, un accès gouverné aux données et des outils qui réduisent les frictions plutôt que d'en créer.

Découvrez comment la plateforme Databricks accompagne les data scientists dans les domaines des données, de l'analyse, de l'IA et du ML.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.