Parlez moi de Data-Quality !
Pourquoi la gestion de la qualité de données est l'enjeu majeur auquel vous allez devoir faire face ?
Il n'est pas simple de lancer cette série d'articles, que j'espère longue et fructueuse, sur le thème de la Data. Aussi, quoi de mieux pour commencer que de plonger directement au cœur du sujet avec une thématique incontournable ?
Au fil de mes échanges avec divers clients, j'ai constaté que ce sujet est devenu un indicateur clé du degré de maturité et de l'importance accordée à la data au sein des organisations. Souvent, le dialogue s'engage de la manière suivante : les clients nous expliquent avoir mené à bien des projets ambitieux, déployé une infrastructure de données complète et fourni des tableaux de bord détaillés aux différentes branches de l'entreprise. Malgré ces efforts, l'adhésion fait défaut. Leurs utilisateurs internes doutent de la fiabilité des données mises à leur disposition, les percevant comme peu fiables et mettant les équipes en difficulté pour fournir des explications convaincantes. Bien que les témoignages varient en termes de gravité et de contexte, le diagnostic reste largement similaire : la chaîne de valeur de la data n'est pas maîtrisée de manière optimale.
Qualité des Données : Un Enjeu Crucial
Le concept de "Qualité des Données" revêt une importance capitale. Il s'agit de la capacité des données à satisfaire les attentes et les besoins des utilisateurs, en termes de précision, pertinence, exhaustivité, et fiabilité, pour un usage bien défini. Cette qualité est primordiale pour les entreprises et organisations de toutes tailles, influençant directement la prise de décision, l'efficacité opérationnelle, la satisfaction client, et le respect des normes réglementaires.
Les conséquences d'une qualité de données insuffisante sont loin d'être négligeables : prises de décision erronées, pertes de revenus, dégradation de la satisfaction client, et augmentation des risques liés à la conformité réglementaire. Pour illustrer, dans le secteur bancaire, une mauvaise qualité des données peut mener à des évaluations de crédit inexactes. Dans le domaine de la santé, elle pourrait compromettre la précision des diagnostics et l'efficacité des traitements.
Reprendre le Contrôle de vos Données
L'adage "Ce qui ne peut être mesuré ne peut être amélioré" n'a jamais été aussi pertinent. La première étape cruciale est donc d'évaluer la qualité de vos ensembles de données. Avant même de penser à des outils de surveillance de la qualité des données, il est essentiel de déterminer les critères de mesure et les standards de qualité attendus. On pourrait penser, de manière intuitive, que les producteurs de données devraient définir les spécifications de ces dernières, lesquelles seraient ensuite utilisées pour en surveiller la qualité. Cependant, c'est en réalité aux consommateurs de données d'exprimer leurs besoins, afin de co-élaborer avec les producteurs une spécification commune. Cette collaboration aboutit à la création d'un "Contrat de Données", qui matérialise un accord sur les exigences relatives à un jeu de données.
À partir de cette spécification, il devient possible de développer des tests pour évaluer différents indicateurs qualitatifs des données. La mise en œuvre régulière de ces tests permet un contrôle statistique rigoureux, offrant une vision claire de l'ampleur des problématiques à résoudre et de leur évolution dans le temps.
Il est crucial, à cette étape, d'adopter une vision globale de l'ensemble du "produit data", et de ne pas se limiter à l'analyse de tests individuels. L'analyse des données d'utilisation contribue à quantifier l'impact réel des problèmes de qualité et à prioriser les mesures correctives. Le "graphe de dépendance" des données est également un outil précieux, permettant de comprendre les répercussions en aval et de s'attaquer efficacement aux problèmes à leur source.
Correction des Données : Approches Intrusive et Non-Intrusive
Les corrections des données peuvent être catégorisées comme intrusives ou non-intrusives. L'approche intrusive nécessite d'interrompre le traitement des données lors de la détection de problèmes de qualité, ce qui rend les conséquences de la non-qualité immédiatement apparentes. En effet, dans ce scénario, les données ne sont plus actualisées, affectant visiblement l'ensemble du processus décisionnel.
À l'opposé, la gestion non-intrusive des données permet d'identifier et de rectifier les problèmes sans interrompre leur traitement, offrant une solution plus fluide et moins disruptive.
Les architectures de données stratifiées, souvent désignées par le modèle "medallion" avec ses différents niveaux de raffinement (Bronze ou Raw, Silver, Gold), s'adaptent bien à cette segmentation de qualité. La couche Bronze, représentant les données brutes, n'exige que la vérification de l'intégrité et l'application de quelques règles basiques. Les niveaux Silver et Gold, en revanche, sont soumis aux exigences spécifiques des consommateurs, demandant ainsi des critères de qualité nettement plus élevés. Dans une gestion intrusive, les mises à jour vers les couches Silver et Gold sont suspendues en cas de problèmes de qualité, permettant néanmoins une continuité de service, bien que dégradée, le temps de résoudre les anomalies à la source.
La correction des données peut s'effectuer "sur place", en appliquant des règles de gestion spécifiques dès leur arrivée sur la plateforme, ou en intervenant directement sur le système source pour corriger les données à l'origine.
Conclusion
Dans le contexte actuel, marqué par l'avènement des intelligences artificielles génératives et des technologies de Réponse Automatique Générative (RAG), la qualité des données acquiert une importance cruciale. En effet, sans données fiables et précises, il est impossible d'entreprendre des projets innovants dans ces domaines. Il n'y a pas de formule magique ; la qualité des données est le fondement de tout.
Améliorer la qualité des données transformera radicalement la façon dont votre organisation appréhende ces dernières, soulignant leur valeur en tant que véritable levier stratégique.
La gestion de la qualité des données ne se réduit pas à un projet isolé. C'est un processus dynamique et continu, car les données évoluent constamment. L'objectif suprême est de maintenir un niveau de qualité des données qui permette à l'organisation de fonctionner avec efficacité, d'innover et de conserver un avantage compétitif dans son secteur.
Cette introduction ouvre la porte à des discussions plus approfondies. Dans les prochains articles, nous explorerons les contrats de données (Data-Contracts), le lineage, les méthodes d'évaluation de la qualité des données, ainsi que les stratégies pour mobiliser les équipes autour de cet enjeu crucial.
Ou en êtes vous avec la qualité de vos données ?
Voir les Data Catalog, je pourrais partager mon experience sur ce creneau