Les organisations qui visent à devenir axées sur l'IA et les données doivent souvent fournir à leurs équipes internes des produits de données fiables et de haute qualité. La création de tels produits de données garantit que les organisations établissent des normes et une base de confiance pour leurs objectifs en matière de données et d'IA. Une approche pour mettre la qualité et l'utilisabilité au premier plan consiste à utiliser le paradigme de la data mesh pour démocratiser la propriété et la gestion des actifs de données. Nos articles de blog (Partie 1, Partie 2) fournissent des conseils sur la manière dont les clients peuvent exploiter Databricks dans leur entreprise pour aborder les piliers fondamentaux de la data mesh, dont l'un est "les données en tant que produit".
Bien que l'idée de traiter les données comme des produits ait gagné en popularité avec l'émergence de la data mesh, nous avons observé que l'application de la pensée produit résonne même auprès des clients qui n'ont pas choisi d'adopter la data mesh. Quelle que soit la structure organisationnelle ou l'architecture des données, la prise de décision basée sur les données reste un principe directeur universel. La qualité et l'utilisabilité des données sont primordiales pour garantir que ces décisions soient prises sur la base d'informations valides. Ce blog présentera certaines de nos recommandations pour la création de produits de données prêts pour l'entreprise, à la fois de manière générale et spécifiquement avec Databricks.
Les produits de données apportent de la valeur lorsque les utilisateurs et les applications disposent des bonnes données au bon moment, avec la bonne qualité, dans le bon format. Si cette valeur a traditionnellement été réalisée sous la forme d'opérations plus efficaces grâce à des coûts réduits, des processus plus rapides et des risques atténués, les produits de données modernes peuvent également ouvrir la voie à de nouvelles offres à valeur ajoutée et à des opportunités de partage de données au sein de l'industrie ou de l'écosystème de partenaires d'une organisation.
Bien que les produits de données puissent être définis de diverses manières, ils correspondent généralement à la définition trouvée dans Data Jujitsu: The Art of Turning Data into Product de DJ Patil : "Pour commencer, ..., une bonne définition d'un produit de données est un produit qui facilite un objectif final grâce à l'utilisation des données". En tant que tels, les produits de données ne se limitent pas aux données tabulaires ; ils peuvent également être des modèles ML, des tableaux de bord, etc. Pour appliquer cette pensée produit aux données, il est fortement recommandé que chaque produit de données ait un propriétaire de produit de données.
Les propriétaires de produits de données gèrent le développement et surveillent l'utilisation et les performances de leurs produits de données. Pour ce faire, ils doivent comprendre l'activité sous-jacente et être capables de traduire les exigences des consommateurs de données en une conception pour un produit de données de haute qualité et facile à utiliser. En collaboration avec d'autres personnes au sein de l'organisation, ils comblent le fossé entre les collègues commerciaux et techniques, tels que les ingénieurs de données. Le propriétaire du produit de données est responsable de garantir que les produits de son portefeuille s'alignent sur les normes organisationnelles en matière de fiabilité.
Il y a cinq caractéristiques clés qu'un produit de données doit respecter :
Un cycle de vie typique d'un produit de données comprend les phases suivantes :
Dans la figure ci-dessus, le propriétaire du produit de données est responsable de toutes les phases, de la conception initiale au retrait d'un produit de données. Néanmoins, la responsabilité des tâches individuelles peut être partagée avec d'autres parties prenantes telles que les stewards de données, les ingénieurs de données, etc.
La mise en œuvre de produits de données de haute qualité avec Databricks nécessite une approche réfléchie au-delà de la simple exécution technique. Commencez par établir une propriété claire, avec des propriétaires de produits de données dédiés qui comprennent à la fois les besoins commerciaux et les exigences techniques. Définissez des contrats de données complets à l'avance qui incluent des métriques de qualité, des définitions de schéma, des politiques d'utilisation et des paramètres de sécurité pour assurer l'alignement entre les producteurs et les consommateurs.
Lors de la création de pipelines, utilisez Delta Live Tables (DLT) avec des contrôles de qualité implémentés directement dans votre code, en tirant parti des attentes et des contraintes intégrées pour valider les données à chaque étape. Mettez en œuvre une approche de développement par étapes avec des environnements de développement, de test et de production distincts pour garantir la qualité avant la publication. Automatisez la surveillance à l'aide de Lakehouse Monitoring, en configurant des alertes pour les seuils de métriques de qualité afin de détecter les problèmes à un stade précoce.
Documentez en détail dans Unity Catalog, en utilisant à la fois les spécifications techniques et le contexte métier pour aider les utilisateurs à comprendre et à utiliser correctement vos produits de données. Pour une gouvernance efficace, standardisez les conventions de nommage et les métadonnées sur l'ensemble des produits de données afin d'améliorer la découvrabilité et l'interopérabilité. Enfin, mettez en place une boucle de rétroaction formelle avec les consommateurs pour améliorer continuellement vos produits de données en fonction des modèles d'utilisation réels et des besoins des utilisateurs.
La plateforme Databricks Data Intelligence peut être utilisée pour plusieurs des activités impliquées dans le cycle de vie des produits de données :
Pour certaines des activités du cycle de vie des produits de données, telles que la conception du produit de données et du contrat de données, Databricks ne dispose pas actuellement de fonctionnalités pour les prendre en charge. Ces processus doivent être effectués en dehors de la plateforme Databricks et les résultats doivent ensuite être documentés dans Unity Catalog une fois le produit de données publié.
Un contrat de données est un moyen formel d'aligner les domaines et de mettre en œuvre une gouvernance fédérée. Le producteur de données doit le fournir ; cependant, il doit être conçu en tenant compte du consommateur. Le contrat doit être formulé de manière à être consommable par tous les types d'utilisateurs.
Un contrat de données typique a les attributs suivants :
En outre, des actifs de support tels que des notebooks, des tableaux de bord, etc. peuvent être fournis afin d'aider le consommateur à comprendre et à analyser le produit de données, facilitant ainsi une adoption plus aisée.
Une équipe de gouvernance des données dans une entreprise se compose généralement de représentants de différents groupes tels que les propriétaires métier, les experts en conformité et sécurité, et les professionnels des données. Cette équipe doit agir comme un Centre d'Excellence (CoE) pour les questions de conformité et de sécurité des données et soutenir le propriétaire du produit de données qui est responsable du produit de données. Ils jouent un rôle crucial dans la définition du contrat de données en étendant les politiques d'utilisation ainsi qu'en influençant la décision de qui est autorisé à utiliser le produit de données. Pour les grandes organisations, une telle équipe peut aider à piloter et à standardiser le processus de définition du contrat de données en alignement avec les fonctions mondiales telles qu'un bureau de gestion des données.
Malgré les contrats de données établis, la gouvernance des produits de données reste un sujet vaste, englobant des aspects tels que les contrôles d'accès, la classification des informations personnelles identifiables (PII) et diverses politiques d'utilisation, qui peuvent tous différer selon les organisations. Cependant, une tendance constante que nous avons observée concerne la publication des produits de données. À mesure que les consommateurs rencontrent un nombre croissant de jeux de données, ils exigent souvent l'assurance que les données sont organisées, standardisées et officiellement approuvées pour utilisation. Par exemple, un cas d'utilisation de reporting ou de gestion des données de référence au sein d'une grande organisation pourrait nécessiter un degré élevé de cohérence sémantique et d'interopérabilité entre les divers actifs de données de l'entreprise.
C'est là que le concept de 'certification' d'un produit de données peut devenir précieux pour certains produits de données. Dans ce processus, les producteurs de données peuvent d'abord proposer une spécification de contrat de données, généralement soumise à l'examen d'un responsable ou d'une équipe de gouvernance des données. Après approbation, des processus d'intégration et de déploiement continus (CI/CD) peuvent être exécutés pour déployer des pipelines de production qui écrivent physiquement les données sur les comptes de stockage cloud du client. Ces données peuvent ensuite être publiées et facilement découvertes via des tables, des vues ou même des volumes pour les données non tabulaires dans Unity Catalog. Dans ce contexte, Unity Catalog prend en charge l'utilisation de balises ainsi que de markdown pour indiquer le statut de certification et les détails d'un produit de données.
Certains clients peuvent même choisir de promouvoir leurs produits de données certifiés en publiant une liste privée correspondante sur le Databricks Marketplace avec des guides complets et des exemples d'utilisation. De plus, les API REST de Databricks et les intégrations avec des solutions de catalogue d'entreprise telles qu'Alation, Atlan et Collibra facilitent également la découvrabilité des produits de données certifiés via plusieurs canaux, même ceux extérieurs à Databricks.
Automobile : Plateforme d'intelligence véhicule de Rivian
Rivian, le fabricant de véhicules électriques, utilise Databricks pour traiter les données des capteurs IoT de plus de 25 000 véhicules en circulation, chacun générant des téraoctets de données par jour. Leur équipe de systèmes avancés d'aide à la conduite (ADAS) utilise cette plateforme pour analyser les données télémétriques, y compris les informations sur l'inclinaison, le roulis, la vitesse, la suspension et l'activité des airbags, ce qui aide Rivian à comprendre les performances du véhicule et les modèles de conduite. En tirant parti de la plateforme Databricks Lakehouse, ils ont obtenu une augmentation de 30 % à 50 % des performances d'exécution, ce qui a permis d'obtenir des informations plus rapides et une meilleure précision des modèles. Cette approche axée sur les données permet à Rivian de mettre en œuvre la maintenance prédictive, d'optimiser la fiabilité des composants et d'améliorer continuellement l'expérience de conduite du client.
Santé : Personnalisation des ordonnances de Walgreens
Walgreens, l'une des plus grandes chaînes de pharmacies d'Amérique, a transformé son expérience client en utilisant Databricks pour traiter les données de prescription à grande échelle. Avec plus de 825 millions d'ordonnances délivrées annuellement dans près de 9 000 points de vente, Walgreens a construit sa plateforme d'information, de données et d'analyse (IDI) sur Databricks pour traiter 40 000 événements de données par seconde. Cela a optimisé leur chaîne d'approvisionnement en ajustant les niveaux de stock pour économiser des millions de dollars et a augmenté la productivité des pharmaciens de 20 %. La plateforme permet aux pharmaciens de fournir de meilleurs soins grâce à des profils patients robustes qui incluent des alertes d'interaction médicamenteuse, des changements dans les profils médicamenteux et d'autres informations critiques pour une gestion plus sûre des ordonnances.
Fabrication : Analyses alimentées par l'IA de Mahindra
Mahindra & Mahindra Limited, un conglomérat manufacturier mondial, a mis en œuvre des solutions d'IA au niveau de l'entreprise en utilisant Databricks pour améliorer ses opérations commerciales. Leur bot GenAI pour les analystes financiers a permis de réduire de 70 % le temps consacré aux tâches routinières, permettant aux équipes de se concentrer sur des initiatives stratégiques à plus forte valeur ajoutée. L'entreprise utilise la plateforme Databricks Data Intelligence pour de nombreux cas d'utilisation, y compris un chatbot Voix du Client construit avec le LLM open source DBRX de Databricks qui intègre des données internes via Delta Lake et des données externes provenant de sites Web et de médias sociaux. Cette approche complète aide Mahindra à stimuler la croissance, à améliorer l'expérience client et à optimiser l'efficacité opérationnelle.
Télécommunications : L'architecture Data Mesh de T-Mobile
T-Mobile a mis en œuvre avec succès une architecture data mesh en utilisant Databricks pour démocratiser l'accès aux données tout en maintenant la sécurité et la gouvernance. Le géant des télécommunications a intégré son lakehouse dans un Data Mesh en utilisant Unity Catalog et Delta Sharing, permettant aux équipes de toute l'entreprise d'accéder et d'utiliser les données tout en maintenant un modèle de sécurité rationnel et facile à comprendre. Cette approche a permis aux équipes de domaine de créer et de gérer leurs propres produits de données tout en assurant une gouvernance cohérente, accélérant les initiatives d'analyse dans toute l'organisation et améliorant la prise de décision basée sur les données.
Tendances futures des produits de données
L'avenir des produits de données est façonné par plusieurs tendances émergentes qui auront un impact sur la manière dont les organisations exploitent des plateformes comme Databricks. Les produits de données en temps réel gagnent en importance à mesure que les entreprises exigent des informations de plus en plus actuelles, les architectures de streaming devenant la norme pour les produits de données opérationnels critiques. Nous assistons également à l'essor de la création de produits de données en libre-service, où les experts du domaine métier utilisent des interfaces low-code/no-code pour définir et construire des produits de données tout en maintenant des garde-fous de gouvernance.
Les produits de données enrichis par l'IA, qui intègrent automatiquement des fonctionnalités et des informations de machine learning, deviennent plus courants, brouillant la frontière entre les données traditionnelles et les actifs d'IA. Les architectures data mesh arrivent à maturité, les organisations mettant en œuvre une gouvernance informatique fédérée qui équilibre les normes centrales et l'autonomie des domaines. Des produits de données inter-organisationnels qui s'étendent en toute sécurité au-delà des frontières de l'entreprise émergent, les data clean rooms et le calcul préservant la confidentialité permettant de nouvelles informations collaboratives.
Les contrats de données évoluent pour inclure des garanties de qualité, des contrôles de confidentialité et des droits d'utilisation plus sophistiqués, devenant des spécifications exécutables plutôt que de la documentation statique. L'analytique embarquée dans les applications opérationnelles se développe, avec des produits de données conçus spécifiquement pour alimenter les informations dans l'application plutôt que des environnements analytiques séparés. Enfin, des métriques de durabilité sont intégrées aux produits de données, suivant l'impact environnemental aux côtés des KPI commerciaux traditionnels pour soutenir les rapports ESG et les initiatives vertes.
La formulation de produits de données et de contrats de données peut devenir un exercice complexe au sein d'une grande entreprise. Compte tenu de l'émergence de nouvelles technologies pour interagir avec les données, associée aux exigences commerciales et réglementaires modernes, les spécifications des produits de données et des contrats évoluent continuellement. Aujourd'hui, Databricks Marketplace et Unity Catalog servent de composants essentiels pour l'expérience de découverte et d'intégration des données pour les consommateurs de données. Pour les producteurs de données, Unity Catalog offre des fonctionnalités de gouvernance d'entreprise essentielles, notamment la lignée, l'audit et les contrôles d'accès.
Alors que les produits de données s'étendent au-delà des simples tables ou tableaux de bord pour englober les modèles d'IA, les flux et plus encore, les clients peuvent bénéficier d'une expérience de gouvernance unifiée et cohérente sur Databricks pour tous les principaux personas utilisateurs.
Les aspects clés des produits de données d'entreprise mis en évidence dans ce blog peuvent servir de principes directeurs pour aborder le sujet. Pour en savoir plus sur la construction de produits de données de haute qualité à l'aide de la plateforme Databricks Data Intelligence, contactez votre représentant Databricks.
Quelle est la différence entre un produit de données et un jeu de données ordinaire ?
Un produit de données va au-delà de la simple fourniture de données ; il est conçu en tenant compte des besoins spécifiques des utilisateurs, comprend des garanties de qualité, de la documentation et des éléments de support. Contrairement à un jeu de données ordinaire, un produit de données a une propriété claire, des SLA définis et est géré activement tout au long de son cycle de vie pour s'assurer qu'il continue de répondre aux besoins des consommateurs.
Qui devrait posséder les produits de données dans notre organisation ?
Les produits de données doivent être détenus par des personnes qui comprennent à la fois le domaine métier et les aspects techniques des données. Ces propriétaires de produits de données sont responsables de la qualité, de l'utilisabilité et de l'alignement avec les objectifs commerciaux. Selon votre structure organisationnelle, ils peuvent se trouver au sein des domaines métier (dans une approche data mesh) ou au sein d'une équipe de données centrale.
Comment mesurer le succès de nos produits de données ?
Les métriques de succès doivent inclure à la fois des aspects techniques (qualité, disponibilité, performance) et des mesures d'impact commercial. Suivez les modèles d'utilisation, la satisfaction des utilisateurs, le temps nécessaire pour obtenir des informations pour les consommateurs et les résultats commerciaux directs permis par le produit de données. Établissez des métriques de référence avant la mise en œuvre et mesurez les améliorations au fil du temps.
Quel rôle Unity Catalog joue-t-il dans la gestion des produits de données ?
Unity Catalog sert de base à la gouvernance des produits de données en fournissant une gestion centralisée des métadonnées, des contrôles d'accès, un suivi de la lignée et des capacités de découverte. Il vous permet de mettre en œuvre des contrats de données grâce à des fonctionnalités telles que le balisage, les commentaires et les définitions de schéma, tout en fournissant l'auditabilité et les contrôles de conformité nécessaires aux produits de données d'entreprise.
Comment gérer les modifications apportées aux produits de données publiés ?
Mettez en œuvre des processus formels de versioning et de gestion des modifications pour les produits de données. Communiquez les modifications aux consommateurs à l'avance, maintenez la compatibilité ascendante dans la mesure du possible et fournissez des chemins de migration pour les modifications non rétrocompatibles. Utilisez les fonctionnalités d'Unity Catalog pour suivre les versions et gérer la transition entre elles.
Pouvons-nous créer des produits de données sans adopter une architecture data mesh complète ?
Absolument. Bien que le data mesh mette l'accent sur la propriété du domaine des produits de données, vous pouvez appliquer la pensée produit à vos actifs de données, quelle que soit votre structure organisationnelle. Concentrez-vous sur les besoins des utilisateurs, la qualité et l'utilisabilité de vos données, et mettez en œuvre une propriété et une gouvernance claires — ces principes créent de la valeur même sans une mise en œuvre complète du data mesh.
Comment garantir que nos produits de données restent conformes aux réglementations évolutives ?
Intégrez la conformité dans le cycle de vie de vos produits de données, avec des revues régulières par votre équipe de gouvernance. Mettez en œuvre des contrôles basés sur les métadonnées dans Unity Catalog pour appliquer automatiquement les politiques, et utilisez les fonctionnalités de lignée pour comprendre l'impact des changements réglementaires sur vos produits de données. Documentez les exigences de conformité dans vos contrats de données et surveillez leur respect grâce aux journaux d'audit.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
