Manuel vs Automatisé, Observabilité vs Test : Choisir une Approche de Qualité des Données
Manuel vs Automatisé, Observabilité vs Test : Choisir une Approche de Qualité des Données
6 août 2024

Nicola Askham
Nicola Askham
Nicola Askham
Le Coach de Gouvernance des Données
Le Coach de Gouvernance des Données
Le Coach de Gouvernance des Données

Natasha Lauer
Natasha Lauer
Natasha Lauer
Ancien Responsable Marketing chez Soda
Ancien Responsable Marketing chez Soda
Ancien Responsable Marketing chez Soda
Table des matières



Lorsque les équipes parlent de « qualité des données », elles peuvent entendre différentes choses — de la correction des valeurs erronées à la mise en place de la surveillance, en passant par l'établissement de règles garantissant que les données sont adaptées à leur objectif. Une démarche de qualité des données est simplement la méthode que vous choisissez pour identifier, mesurer et maintenir cette adéquation dans votre organisation.
Certaines approches reposent fortement sur l’effort manual (comme la vérification ponctuelle des rapports ou l'exécution de requêtes SQL), tandis que d’autres dépendent de l’automatisation pour appliquer des règles à grande échelle. Dans des environnements plus avancés, vous entendrez également parler de l’observabilité des données (suivi de la santé des ensembles de données en continu) et du test de la qualité des données (vérification des données par rapport aux attentes avant qu'elles n'atteignent les utilisateurs finaux).
Chaque approche reflète un niveau différent de maturité, de ressources et de priorités. Les équipes en début de développement peuvent être à l’aise avec des vérifications manuelles, tandis que les entreprises exploitant des centaines de pipelines chaque jour ont besoin d'automatisation et d'observabilité juste pour suivre le rythme.
En pratique, aucune approche n'est « juste » ou « fausse ». La clé est de comprendre les compromis — coût vs couverture, rapidité vs contrôle, prévention vs détection — et d’adapter la méthode à votre contexte commercial. C’est pourquoi comparer manuellement, automatiquement, observabilité et tests côte à côte peut vous aider à décider de ce qui fonctionne le mieux pour vous aujourd'hui.
Quatre Approches de la Qualité des Données
En tant qu'enthousiaste de la Gouvernance des Données, j'aime bien une bonne définition et je commence souvent mes blogs par une. Habituellement, je n'ai pas besoin de me préoccuper d'une définition lorsque j'écris sur la qualité des données car tout le monde comprend la terminologie. Mais lorsqu'il s'agit de comprendre la meilleure approche pour maîtriser la qualité des données, êtes-vous à l'aise avec la différence entre qualité des données manuelle, automatisée, observabilité des données et tests de qualité des données ? Elles sont toutes là pour s'assurer que les consommateurs dans votre organisation peuvent faire confiance aux données qu'ils utilisent, mais chacune a sa propre façon de fonctionner et ses propres résultats.
1. Qualité des Données Manuelle
La qualité des données manuelle fait référence à une approche traditionnelle où les utilisateurs métier utilisent des règles métier pour définir ce qui rend la qualité des données « suffisamment bonne » pour leur utilisation.
Un analyste de la qualité des données traduit ensuite ces règles en code qui mesure la qualité des données, généralement en utilisant SQL. C'est ce que nous faisons depuis des années et il est parfois appelé qualité opérationnelle des données.
Cependant, ce processus n'est jamais aussi simple que je l'ai décrit ; il implique généralement l'exécution de ces règles sur les données et l'identification des exceptions, que les utilisateurs métier examinent. Cela conduit souvent à un cycle itératif d'affinement des règles pour mieux répondre aux besoins métiers.
Les principaux inconvénients de la qualité des données manuelle sont sa nature chronophage et son intensité en main-d'œuvre.
La traduction des règles métier en code et l'exécution de ces vérifications nécessitent un effort humain important et une expertise considérable. Le processus itératif d'affinement des règles peut être lent, surtout car les exceptions sont identifiées et examinées par les utilisateurs métier.
Cette approche peut également être sujette aux erreurs humaines et peut avoir du mal à suivre l'évolution des besoins de l'entreprise. De plus, elle peut ne pas bien s'adapter à des ensembles de données plus vastes ou à des environnements de données plus complexes.
2. Qualité des Données Automatisée
La qualité des données automatisée utilise l'intelligence artificielle pour améliorer l'efficacité dans la définition et l'application des règles de qualité des données.
Contrairement à la croyance selon laquelle l’IA pourrait remplacer totalement l’implication humaine dans la qualité des données, les outils d'IA assistent les utilisateurs en convertissant les exigences métier en vérifications exécutables sans nécessiter de codage manuel. Cette approche « sans code » permet aux utilisateurs métier d'articuler leurs besoins de qualité des données en langage naturel, que l’IA traduit ensuite en règles exploitables.
Cela accélère considérablement le processus de mise en place de tests de qualité des données et réduit les frais généraux d'implication des ingénieurs.
Une préoccupation majeure est la dépendance vis-à-vis de la qualité des données et des algorithmes d'entraînement — des modèles d'IA mal entraînés peuvent produire des résultats inexacts ou biaisés. La nature de « boîte noire » de certains systèmes d'IA et de ML aggrave ce problème, car leur processus de prise de décision n'est pas toujours transparent, rendant les résultats difficiles à vérifier.
Alors que l'IA gère bien les tâches de routine, elle manque souvent des nuances spécifiques requérant un jugement humain. Une surdépendance à l'automatisation peut également réduire la surveillance humaine, conduisant à la complaisance dans la supervision de la qualité des données.
3. Observabilité des Données
L'observabilité des données est souvent confondue avec la qualité des données et est souvent utilisée de manière interchangeable avec celle-ci, ce qui peut être trompeur et source de confusion.
Originaire des domaines de l'ingénierie logicielle et du DevOps, l'observabilité des données se concentre sur la fiabilité des données dans le temps. Elle implique des métriques, des journaux et de la traçabilité pour détecter les anomalies, identifier les changements de schéma ou les modifications dans les volumes ou types de données. Elle fonctionne dans des environnements de production, signalant les problèmes à mesure qu'ils se produisent.
Il est important de noter que l'observabilité des données est principalement réactive, mais non préventive lorsqu'il s'agit de qualité des données. Au moment où un problème est observé, le dommage pourrait déjà être fait. Bien qu'elle aide à identifier les changements et les anomalies pouvant affecter la fiabilité des données, elle ne prévient pas les problèmes d'entrer en production.
4. Tests de Données
Les tests de qualité des données, notamment dans la partie la plus à gauche du pipeline de données, visent à être préventifs.
Ils impliquent la validation des données avant qu'elles ne passent dans des environnements de production, empêchant ainsi les modifications perturbatrices de nuire aux systèmes en aval.
Les contrats de données entre équipes peuvent définir les comportements de données attendus, garantissant la fiabilité de la qualité des données et évitant les erreurs coûteuses.
Les tests de qualité des données sont essentiels pour garantir la qualité et l'exactitude des données, mais ils peuvent être intensifs en ressources et complexes, tant au niveau de la création que du maintien des cas de test à mesure que les sources de données évoluent. Ils peuvent ne pas s'adapter facilement à la demande croissante de données.
Manuel vs Automatisé - Observabilité vs Test : Quelle Option Choisir ?
Quelle approche est la bonne pour vous ? L'une est-elle meilleure que l'autre ? Eh bien, cela dépend ! Comme pour de nombreuses choses, cela dépend des besoins de votre entreprise, des capacités de votre équipe, de l'échelle à laquelle vous opérez, de la nature de vos ensembles de données, ainsi que du temps et du budget disponibles.
Il y a beaucoup de grands changements qui surviennent en ce moment dans le domaine de la qualité des données, c'est pourquoi j'ai pensé qu'il serait vraiment intéressant de parler à Maarten Masschelein, PDG et cofondateur de Soda, pour nous expliquer tout cela.
J'ai toujours aimé parler avec Maarten parce qu'il a aussi un parcours en gouvernance des données, ayant été l'un des premiers employés chez Collibra. C'est là qu'il a commencé à voir que beaucoup d'entreprises avaient du mal à opérationnaliser à la fois la gouvernance des données et la qualité des données, ce qui lui a donné l'idée de Soda.
Dans le cadre de notre discussion, nous nous sommes donné l'exercice de trouver une bonne analogie. Nous pensons qu'un chef et ses produits saisit bien les distinctions entre les différentes pratiques de qualité des données en les comparant à divers aspects de la gestion d'une cuisine et de la cuisine elle-même.
Imaginez que vous gérez une cuisine, et que vous sélectionnez des produits pour divers plats. Vous classez les ingrédients selon la qualité : certains sont de qualité prime, d'autres légèrement abîmés ou approchant de leur date de péremption.
C'est comme la qualité des données manuelle ou opérationnelle—cette catégorisation et la mise en place de règles basées sur ce que vous savez être nécessaire pour différents plats (ou processus de données).
Vous pourriez avoir une règle selon laquelle les tomates les plus fraîches vont dans une salade, tandis que celles légèrement plus âgées sont cuites dans une sauce où personne ne remarquera de différence.
Ce processus est itératif, car le chef pourrait ajuster ses standards en fonction des résultats, devant parfois affiner ses critères de sélection pour obtenir le meilleur résultat.
« La qualité des données manuelle fait généralement référence au processus où vous impliquez les utilisateurs finaux ou consommateurs de vos données et vous recueillez les exigences, qu'attendent-ils des données ? Parce que nous voulons être sûrs que les données sont adaptées à l'usage. »— Maarten
Ensuite, il y a l'observabilité des données, qui consiste à garder un œil sur l'ensemble de l'exploitation de la cuisine. Vous surveillez constamment comment les ingrédients sont utilisés, combien de temps ils ont été laissés à l'air libre et si les conditions de stockage maintiennent leur qualité au fil du temps. Il s'agit de s'assurer que tout reste fiable et cohérent même si les conditions changent.
« L'observabilité des données relève du domaine de la fiabilité, qui est une mesure de la qualité dans le temps. Cela ne nous dit pas nécessairement si les données sont bonnes pour un usage spécifique, mais garantit qu'à] toute modification, celles-ci sont détectées et signalées pour examen, en maintenant la santé et la stabilité globales de l'environnement de données. »— Maarten
Les tests de qualité des données sont comme tester le goût des différentes parties d'un plat pendant que vous le préparez. Vous pourriez essayer une cuillère de sauce pour vous assurer que l’assaisonnement est correct ou couper dans un morceau de viande pour vérifier si elle est bien cuite. Ces tests aident à détecter les problèmes précocement afin que vous puissiez les corriger avant que le plat ne soit terminé.
« La chose complémentaire à faire est d'ajouter des tests, c'est pourquoi les contrats de données sont si importants, car les gens essaient de définir les points de cession entre les équipes et l'ingénierie logicielle. Vous voulez tester tôt car si vous laissez vos données traverser les pipelines jusqu’à la couche de consommation, tout problème va vous coûter cher.»— Maarten
Enfin, la qualité des données automatisée, surtout lorsqu'elle s'appuie sur l'IA, est comme avoir un assistant intelligent en cuisine qui suggère quoi faire avec les produits en fonction de leur état. Il pourrait dire : « Ces tomates sont en train de ramollir, faisons-en une sauce, » ou « Ce poisson n'est pas aussi frais que nous le souhaiterions; marinons-le et utilisons-le dans un ragoût où la texture ne sera pas aussi perceptible. » Cette approche automatisée aide à s'assurer que chaque ingrédient est utilisé de manière efficace et appropriée, sans dépendre uniquement de l'attention constante d'un chef.
« La partie automatisée se réfère généralement au processus de réaliser un certain nombre de vérifications standard à partir de vos données. La portée potentielle est beaucoup plus large que ce qui constitue la qualité des données automatisée car elle introduit l'automatisation via le machine learning ou le GenAI pour établir et maintenir plus efficacement une bonne qualité des données. »
— Maarten
Soda AI : Une Plateforme de Qualité des Données axée sur le GenAI
Nous avons évoqué le potentiel transformateur de l'IA générative pour la gestion de la qualité des données — nous ne pouvions pas ne pas le faire ! Soda AI peut aider à automatiser ou améliorer votre approche de la qualité des données de plusieurs façons.
Automatisation des contrôles : GenAI peut automatiser la création de contrôles de qualité des données en convertissant les exigences de langage naturel en règles exécutables. Cela est démontré par des outils comme l'assistant Ask AI de Soda pour traduire le langage métier directement en contrôles de qualité des données applicables.
Détection améliorée : En comprenant le contexte et la sémantique des données, les contrôles propulsés par ML peuvent détecter les anomalies et les problèmes de qualité des données plus efficacement.
Débogage et Analyse des Causes Premières : GenAI aide à identifier et comprendre les problèmes au sein des données. Il peut analyser les enregistrements pour repérer des erreurs de formatage ou suggérer des corrections basées sur le contexte.
En dehors de Soda, vous pouvez utiliser l'IA pour la Correction des Données. Au-delà de la détection des problèmes, GenAI peut proposer des correctifs, comme remplir des données manquantes ou incorrectes en exploitant une vaste base de connaissances.
Principaux Points À Retenir
Y a-t-il une solution universelle ? Je ne pense pas. Une combinaison d'approches est nécessaire pour que la cuisine fonctionne en douceur. Les vérifications manuelles et automatisées de la qualité garantissent que les produits répondent aux normes nécessaires avant d'être utilisés dans les recettes, tout comme les vérifications de la qualité des données garantissent que les données sont adaptées à l'usage des affaires. L'observabilité des données maintient la fiabilité continue des ingrédients, assurant que toute modification inattendue est repérée tôt. C'est essentiel pour les ingrédients qui pourraient se dégrader avec le temps ou nécessiter des conditions de stockage spécifiques.
Maarten a mentionné que de nombreux utilisateurs de Soda commencent par mettre en œuvre le tableau de bord d'anomalie pour l'observabilité avant d'évoluer vers les tests de qualité des données et la qualité des données opérationnelle. Cependant, certains choisissent de se concentrer uniquement sur les données les plus critiques avec la qualité des données opérationnelle et les tests.
Tout le monde embrasse-t-il pleinement l'automatisation ? Avec prudence.
« Plus nous pourrons automatiser avec un humain dans la boucle, plus tout le monde sera heureux. Quand tout le monde peut facilement s'impliquer dans la qualité des données, nous aurons tous accès à des produits de données fiables. »
— Maarten
🎧 Vous pouvez écouter la conversation avec Maarten en entier ici.
Et ensuite ?
Découvrez la plateforme de qualité des données de Soda et choisissez quelle saveur convient le mieux aux exigences de votre organisation.
Bonne chance !
À propos de l'Auteur
En collaboration avec Soda, Nicola Askham, connue comme la Coach de la Gouvernance des Données, a rédigé une série complète en trois parties qui aborde des sujets critiques, y compris la gouvernance des données, l'IA et la qualité des données.
Nicola se spécialise dans l'aide aux organisations pour améliorer leurs pratiques de gestion des données. Au cours des vingt dernières années, elle a aidé de nombreuses entreprises à réduire les coûts et les inefficacités grâce à ses initiatives de coaching, de conseil et de formation dédiées.
Lorsque les équipes parlent de « qualité des données », elles peuvent entendre différentes choses — de la correction des valeurs erronées à la mise en place de la surveillance, en passant par l'établissement de règles garantissant que les données sont adaptées à leur objectif. Une démarche de qualité des données est simplement la méthode que vous choisissez pour identifier, mesurer et maintenir cette adéquation dans votre organisation.
Certaines approches reposent fortement sur l’effort manual (comme la vérification ponctuelle des rapports ou l'exécution de requêtes SQL), tandis que d’autres dépendent de l’automatisation pour appliquer des règles à grande échelle. Dans des environnements plus avancés, vous entendrez également parler de l’observabilité des données (suivi de la santé des ensembles de données en continu) et du test de la qualité des données (vérification des données par rapport aux attentes avant qu'elles n'atteignent les utilisateurs finaux).
Chaque approche reflète un niveau différent de maturité, de ressources et de priorités. Les équipes en début de développement peuvent être à l’aise avec des vérifications manuelles, tandis que les entreprises exploitant des centaines de pipelines chaque jour ont besoin d'automatisation et d'observabilité juste pour suivre le rythme.
En pratique, aucune approche n'est « juste » ou « fausse ». La clé est de comprendre les compromis — coût vs couverture, rapidité vs contrôle, prévention vs détection — et d’adapter la méthode à votre contexte commercial. C’est pourquoi comparer manuellement, automatiquement, observabilité et tests côte à côte peut vous aider à décider de ce qui fonctionne le mieux pour vous aujourd'hui.
Quatre Approches de la Qualité des Données
En tant qu'enthousiaste de la Gouvernance des Données, j'aime bien une bonne définition et je commence souvent mes blogs par une. Habituellement, je n'ai pas besoin de me préoccuper d'une définition lorsque j'écris sur la qualité des données car tout le monde comprend la terminologie. Mais lorsqu'il s'agit de comprendre la meilleure approche pour maîtriser la qualité des données, êtes-vous à l'aise avec la différence entre qualité des données manuelle, automatisée, observabilité des données et tests de qualité des données ? Elles sont toutes là pour s'assurer que les consommateurs dans votre organisation peuvent faire confiance aux données qu'ils utilisent, mais chacune a sa propre façon de fonctionner et ses propres résultats.
1. Qualité des Données Manuelle
La qualité des données manuelle fait référence à une approche traditionnelle où les utilisateurs métier utilisent des règles métier pour définir ce qui rend la qualité des données « suffisamment bonne » pour leur utilisation.
Un analyste de la qualité des données traduit ensuite ces règles en code qui mesure la qualité des données, généralement en utilisant SQL. C'est ce que nous faisons depuis des années et il est parfois appelé qualité opérationnelle des données.
Cependant, ce processus n'est jamais aussi simple que je l'ai décrit ; il implique généralement l'exécution de ces règles sur les données et l'identification des exceptions, que les utilisateurs métier examinent. Cela conduit souvent à un cycle itératif d'affinement des règles pour mieux répondre aux besoins métiers.
Les principaux inconvénients de la qualité des données manuelle sont sa nature chronophage et son intensité en main-d'œuvre.
La traduction des règles métier en code et l'exécution de ces vérifications nécessitent un effort humain important et une expertise considérable. Le processus itératif d'affinement des règles peut être lent, surtout car les exceptions sont identifiées et examinées par les utilisateurs métier.
Cette approche peut également être sujette aux erreurs humaines et peut avoir du mal à suivre l'évolution des besoins de l'entreprise. De plus, elle peut ne pas bien s'adapter à des ensembles de données plus vastes ou à des environnements de données plus complexes.
2. Qualité des Données Automatisée
La qualité des données automatisée utilise l'intelligence artificielle pour améliorer l'efficacité dans la définition et l'application des règles de qualité des données.
Contrairement à la croyance selon laquelle l’IA pourrait remplacer totalement l’implication humaine dans la qualité des données, les outils d'IA assistent les utilisateurs en convertissant les exigences métier en vérifications exécutables sans nécessiter de codage manuel. Cette approche « sans code » permet aux utilisateurs métier d'articuler leurs besoins de qualité des données en langage naturel, que l’IA traduit ensuite en règles exploitables.
Cela accélère considérablement le processus de mise en place de tests de qualité des données et réduit les frais généraux d'implication des ingénieurs.
Une préoccupation majeure est la dépendance vis-à-vis de la qualité des données et des algorithmes d'entraînement — des modèles d'IA mal entraînés peuvent produire des résultats inexacts ou biaisés. La nature de « boîte noire » de certains systèmes d'IA et de ML aggrave ce problème, car leur processus de prise de décision n'est pas toujours transparent, rendant les résultats difficiles à vérifier.
Alors que l'IA gère bien les tâches de routine, elle manque souvent des nuances spécifiques requérant un jugement humain. Une surdépendance à l'automatisation peut également réduire la surveillance humaine, conduisant à la complaisance dans la supervision de la qualité des données.
3. Observabilité des Données
L'observabilité des données est souvent confondue avec la qualité des données et est souvent utilisée de manière interchangeable avec celle-ci, ce qui peut être trompeur et source de confusion.
Originaire des domaines de l'ingénierie logicielle et du DevOps, l'observabilité des données se concentre sur la fiabilité des données dans le temps. Elle implique des métriques, des journaux et de la traçabilité pour détecter les anomalies, identifier les changements de schéma ou les modifications dans les volumes ou types de données. Elle fonctionne dans des environnements de production, signalant les problèmes à mesure qu'ils se produisent.
Il est important de noter que l'observabilité des données est principalement réactive, mais non préventive lorsqu'il s'agit de qualité des données. Au moment où un problème est observé, le dommage pourrait déjà être fait. Bien qu'elle aide à identifier les changements et les anomalies pouvant affecter la fiabilité des données, elle ne prévient pas les problèmes d'entrer en production.
4. Tests de Données
Les tests de qualité des données, notamment dans la partie la plus à gauche du pipeline de données, visent à être préventifs.
Ils impliquent la validation des données avant qu'elles ne passent dans des environnements de production, empêchant ainsi les modifications perturbatrices de nuire aux systèmes en aval.
Les contrats de données entre équipes peuvent définir les comportements de données attendus, garantissant la fiabilité de la qualité des données et évitant les erreurs coûteuses.
Les tests de qualité des données sont essentiels pour garantir la qualité et l'exactitude des données, mais ils peuvent être intensifs en ressources et complexes, tant au niveau de la création que du maintien des cas de test à mesure que les sources de données évoluent. Ils peuvent ne pas s'adapter facilement à la demande croissante de données.
Manuel vs Automatisé - Observabilité vs Test : Quelle Option Choisir ?
Quelle approche est la bonne pour vous ? L'une est-elle meilleure que l'autre ? Eh bien, cela dépend ! Comme pour de nombreuses choses, cela dépend des besoins de votre entreprise, des capacités de votre équipe, de l'échelle à laquelle vous opérez, de la nature de vos ensembles de données, ainsi que du temps et du budget disponibles.
Il y a beaucoup de grands changements qui surviennent en ce moment dans le domaine de la qualité des données, c'est pourquoi j'ai pensé qu'il serait vraiment intéressant de parler à Maarten Masschelein, PDG et cofondateur de Soda, pour nous expliquer tout cela.
J'ai toujours aimé parler avec Maarten parce qu'il a aussi un parcours en gouvernance des données, ayant été l'un des premiers employés chez Collibra. C'est là qu'il a commencé à voir que beaucoup d'entreprises avaient du mal à opérationnaliser à la fois la gouvernance des données et la qualité des données, ce qui lui a donné l'idée de Soda.
Dans le cadre de notre discussion, nous nous sommes donné l'exercice de trouver une bonne analogie. Nous pensons qu'un chef et ses produits saisit bien les distinctions entre les différentes pratiques de qualité des données en les comparant à divers aspects de la gestion d'une cuisine et de la cuisine elle-même.
Imaginez que vous gérez une cuisine, et que vous sélectionnez des produits pour divers plats. Vous classez les ingrédients selon la qualité : certains sont de qualité prime, d'autres légèrement abîmés ou approchant de leur date de péremption.
C'est comme la qualité des données manuelle ou opérationnelle—cette catégorisation et la mise en place de règles basées sur ce que vous savez être nécessaire pour différents plats (ou processus de données).
Vous pourriez avoir une règle selon laquelle les tomates les plus fraîches vont dans une salade, tandis que celles légèrement plus âgées sont cuites dans une sauce où personne ne remarquera de différence.
Ce processus est itératif, car le chef pourrait ajuster ses standards en fonction des résultats, devant parfois affiner ses critères de sélection pour obtenir le meilleur résultat.
« La qualité des données manuelle fait généralement référence au processus où vous impliquez les utilisateurs finaux ou consommateurs de vos données et vous recueillez les exigences, qu'attendent-ils des données ? Parce que nous voulons être sûrs que les données sont adaptées à l'usage. »— Maarten
Ensuite, il y a l'observabilité des données, qui consiste à garder un œil sur l'ensemble de l'exploitation de la cuisine. Vous surveillez constamment comment les ingrédients sont utilisés, combien de temps ils ont été laissés à l'air libre et si les conditions de stockage maintiennent leur qualité au fil du temps. Il s'agit de s'assurer que tout reste fiable et cohérent même si les conditions changent.
« L'observabilité des données relève du domaine de la fiabilité, qui est une mesure de la qualité dans le temps. Cela ne nous dit pas nécessairement si les données sont bonnes pour un usage spécifique, mais garantit qu'à] toute modification, celles-ci sont détectées et signalées pour examen, en maintenant la santé et la stabilité globales de l'environnement de données. »— Maarten
Les tests de qualité des données sont comme tester le goût des différentes parties d'un plat pendant que vous le préparez. Vous pourriez essayer une cuillère de sauce pour vous assurer que l’assaisonnement est correct ou couper dans un morceau de viande pour vérifier si elle est bien cuite. Ces tests aident à détecter les problèmes précocement afin que vous puissiez les corriger avant que le plat ne soit terminé.
« La chose complémentaire à faire est d'ajouter des tests, c'est pourquoi les contrats de données sont si importants, car les gens essaient de définir les points de cession entre les équipes et l'ingénierie logicielle. Vous voulez tester tôt car si vous laissez vos données traverser les pipelines jusqu’à la couche de consommation, tout problème va vous coûter cher.»— Maarten
Enfin, la qualité des données automatisée, surtout lorsqu'elle s'appuie sur l'IA, est comme avoir un assistant intelligent en cuisine qui suggère quoi faire avec les produits en fonction de leur état. Il pourrait dire : « Ces tomates sont en train de ramollir, faisons-en une sauce, » ou « Ce poisson n'est pas aussi frais que nous le souhaiterions; marinons-le et utilisons-le dans un ragoût où la texture ne sera pas aussi perceptible. » Cette approche automatisée aide à s'assurer que chaque ingrédient est utilisé de manière efficace et appropriée, sans dépendre uniquement de l'attention constante d'un chef.
« La partie automatisée se réfère généralement au processus de réaliser un certain nombre de vérifications standard à partir de vos données. La portée potentielle est beaucoup plus large que ce qui constitue la qualité des données automatisée car elle introduit l'automatisation via le machine learning ou le GenAI pour établir et maintenir plus efficacement une bonne qualité des données. »
— Maarten
Soda AI : Une Plateforme de Qualité des Données axée sur le GenAI
Nous avons évoqué le potentiel transformateur de l'IA générative pour la gestion de la qualité des données — nous ne pouvions pas ne pas le faire ! Soda AI peut aider à automatiser ou améliorer votre approche de la qualité des données de plusieurs façons.
Automatisation des contrôles : GenAI peut automatiser la création de contrôles de qualité des données en convertissant les exigences de langage naturel en règles exécutables. Cela est démontré par des outils comme l'assistant Ask AI de Soda pour traduire le langage métier directement en contrôles de qualité des données applicables.
Détection améliorée : En comprenant le contexte et la sémantique des données, les contrôles propulsés par ML peuvent détecter les anomalies et les problèmes de qualité des données plus efficacement.
Débogage et Analyse des Causes Premières : GenAI aide à identifier et comprendre les problèmes au sein des données. Il peut analyser les enregistrements pour repérer des erreurs de formatage ou suggérer des corrections basées sur le contexte.
En dehors de Soda, vous pouvez utiliser l'IA pour la Correction des Données. Au-delà de la détection des problèmes, GenAI peut proposer des correctifs, comme remplir des données manquantes ou incorrectes en exploitant une vaste base de connaissances.
Principaux Points À Retenir
Y a-t-il une solution universelle ? Je ne pense pas. Une combinaison d'approches est nécessaire pour que la cuisine fonctionne en douceur. Les vérifications manuelles et automatisées de la qualité garantissent que les produits répondent aux normes nécessaires avant d'être utilisés dans les recettes, tout comme les vérifications de la qualité des données garantissent que les données sont adaptées à l'usage des affaires. L'observabilité des données maintient la fiabilité continue des ingrédients, assurant que toute modification inattendue est repérée tôt. C'est essentiel pour les ingrédients qui pourraient se dégrader avec le temps ou nécessiter des conditions de stockage spécifiques.
Maarten a mentionné que de nombreux utilisateurs de Soda commencent par mettre en œuvre le tableau de bord d'anomalie pour l'observabilité avant d'évoluer vers les tests de qualité des données et la qualité des données opérationnelle. Cependant, certains choisissent de se concentrer uniquement sur les données les plus critiques avec la qualité des données opérationnelle et les tests.
Tout le monde embrasse-t-il pleinement l'automatisation ? Avec prudence.
« Plus nous pourrons automatiser avec un humain dans la boucle, plus tout le monde sera heureux. Quand tout le monde peut facilement s'impliquer dans la qualité des données, nous aurons tous accès à des produits de données fiables. »
— Maarten
🎧 Vous pouvez écouter la conversation avec Maarten en entier ici.
Et ensuite ?
Découvrez la plateforme de qualité des données de Soda et choisissez quelle saveur convient le mieux aux exigences de votre organisation.
Bonne chance !
À propos de l'Auteur
En collaboration avec Soda, Nicola Askham, connue comme la Coach de la Gouvernance des Données, a rédigé une série complète en trois parties qui aborde des sujets critiques, y compris la gouvernance des données, l'IA et la qualité des données.
Nicola se spécialise dans l'aide aux organisations pour améliorer leurs pratiques de gestion des données. Au cours des vingt dernières années, elle a aidé de nombreuses entreprises à réduire les coûts et les inefficacités grâce à ses initiatives de coaching, de conseil et de formation dédiées.
Lorsque les équipes parlent de « qualité des données », elles peuvent entendre différentes choses — de la correction des valeurs erronées à la mise en place de la surveillance, en passant par l'établissement de règles garantissant que les données sont adaptées à leur objectif. Une démarche de qualité des données est simplement la méthode que vous choisissez pour identifier, mesurer et maintenir cette adéquation dans votre organisation.
Certaines approches reposent fortement sur l’effort manual (comme la vérification ponctuelle des rapports ou l'exécution de requêtes SQL), tandis que d’autres dépendent de l’automatisation pour appliquer des règles à grande échelle. Dans des environnements plus avancés, vous entendrez également parler de l’observabilité des données (suivi de la santé des ensembles de données en continu) et du test de la qualité des données (vérification des données par rapport aux attentes avant qu'elles n'atteignent les utilisateurs finaux).
Chaque approche reflète un niveau différent de maturité, de ressources et de priorités. Les équipes en début de développement peuvent être à l’aise avec des vérifications manuelles, tandis que les entreprises exploitant des centaines de pipelines chaque jour ont besoin d'automatisation et d'observabilité juste pour suivre le rythme.
En pratique, aucune approche n'est « juste » ou « fausse ». La clé est de comprendre les compromis — coût vs couverture, rapidité vs contrôle, prévention vs détection — et d’adapter la méthode à votre contexte commercial. C’est pourquoi comparer manuellement, automatiquement, observabilité et tests côte à côte peut vous aider à décider de ce qui fonctionne le mieux pour vous aujourd'hui.
Quatre Approches de la Qualité des Données
En tant qu'enthousiaste de la Gouvernance des Données, j'aime bien une bonne définition et je commence souvent mes blogs par une. Habituellement, je n'ai pas besoin de me préoccuper d'une définition lorsque j'écris sur la qualité des données car tout le monde comprend la terminologie. Mais lorsqu'il s'agit de comprendre la meilleure approche pour maîtriser la qualité des données, êtes-vous à l'aise avec la différence entre qualité des données manuelle, automatisée, observabilité des données et tests de qualité des données ? Elles sont toutes là pour s'assurer que les consommateurs dans votre organisation peuvent faire confiance aux données qu'ils utilisent, mais chacune a sa propre façon de fonctionner et ses propres résultats.
1. Qualité des Données Manuelle
La qualité des données manuelle fait référence à une approche traditionnelle où les utilisateurs métier utilisent des règles métier pour définir ce qui rend la qualité des données « suffisamment bonne » pour leur utilisation.
Un analyste de la qualité des données traduit ensuite ces règles en code qui mesure la qualité des données, généralement en utilisant SQL. C'est ce que nous faisons depuis des années et il est parfois appelé qualité opérationnelle des données.
Cependant, ce processus n'est jamais aussi simple que je l'ai décrit ; il implique généralement l'exécution de ces règles sur les données et l'identification des exceptions, que les utilisateurs métier examinent. Cela conduit souvent à un cycle itératif d'affinement des règles pour mieux répondre aux besoins métiers.
Les principaux inconvénients de la qualité des données manuelle sont sa nature chronophage et son intensité en main-d'œuvre.
La traduction des règles métier en code et l'exécution de ces vérifications nécessitent un effort humain important et une expertise considérable. Le processus itératif d'affinement des règles peut être lent, surtout car les exceptions sont identifiées et examinées par les utilisateurs métier.
Cette approche peut également être sujette aux erreurs humaines et peut avoir du mal à suivre l'évolution des besoins de l'entreprise. De plus, elle peut ne pas bien s'adapter à des ensembles de données plus vastes ou à des environnements de données plus complexes.
2. Qualité des Données Automatisée
La qualité des données automatisée utilise l'intelligence artificielle pour améliorer l'efficacité dans la définition et l'application des règles de qualité des données.
Contrairement à la croyance selon laquelle l’IA pourrait remplacer totalement l’implication humaine dans la qualité des données, les outils d'IA assistent les utilisateurs en convertissant les exigences métier en vérifications exécutables sans nécessiter de codage manuel. Cette approche « sans code » permet aux utilisateurs métier d'articuler leurs besoins de qualité des données en langage naturel, que l’IA traduit ensuite en règles exploitables.
Cela accélère considérablement le processus de mise en place de tests de qualité des données et réduit les frais généraux d'implication des ingénieurs.
Une préoccupation majeure est la dépendance vis-à-vis de la qualité des données et des algorithmes d'entraînement — des modèles d'IA mal entraînés peuvent produire des résultats inexacts ou biaisés. La nature de « boîte noire » de certains systèmes d'IA et de ML aggrave ce problème, car leur processus de prise de décision n'est pas toujours transparent, rendant les résultats difficiles à vérifier.
Alors que l'IA gère bien les tâches de routine, elle manque souvent des nuances spécifiques requérant un jugement humain. Une surdépendance à l'automatisation peut également réduire la surveillance humaine, conduisant à la complaisance dans la supervision de la qualité des données.
3. Observabilité des Données
L'observabilité des données est souvent confondue avec la qualité des données et est souvent utilisée de manière interchangeable avec celle-ci, ce qui peut être trompeur et source de confusion.
Originaire des domaines de l'ingénierie logicielle et du DevOps, l'observabilité des données se concentre sur la fiabilité des données dans le temps. Elle implique des métriques, des journaux et de la traçabilité pour détecter les anomalies, identifier les changements de schéma ou les modifications dans les volumes ou types de données. Elle fonctionne dans des environnements de production, signalant les problèmes à mesure qu'ils se produisent.
Il est important de noter que l'observabilité des données est principalement réactive, mais non préventive lorsqu'il s'agit de qualité des données. Au moment où un problème est observé, le dommage pourrait déjà être fait. Bien qu'elle aide à identifier les changements et les anomalies pouvant affecter la fiabilité des données, elle ne prévient pas les problèmes d'entrer en production.
4. Tests de Données
Les tests de qualité des données, notamment dans la partie la plus à gauche du pipeline de données, visent à être préventifs.
Ils impliquent la validation des données avant qu'elles ne passent dans des environnements de production, empêchant ainsi les modifications perturbatrices de nuire aux systèmes en aval.
Les contrats de données entre équipes peuvent définir les comportements de données attendus, garantissant la fiabilité de la qualité des données et évitant les erreurs coûteuses.
Les tests de qualité des données sont essentiels pour garantir la qualité et l'exactitude des données, mais ils peuvent être intensifs en ressources et complexes, tant au niveau de la création que du maintien des cas de test à mesure que les sources de données évoluent. Ils peuvent ne pas s'adapter facilement à la demande croissante de données.
Manuel vs Automatisé - Observabilité vs Test : Quelle Option Choisir ?
Quelle approche est la bonne pour vous ? L'une est-elle meilleure que l'autre ? Eh bien, cela dépend ! Comme pour de nombreuses choses, cela dépend des besoins de votre entreprise, des capacités de votre équipe, de l'échelle à laquelle vous opérez, de la nature de vos ensembles de données, ainsi que du temps et du budget disponibles.
Il y a beaucoup de grands changements qui surviennent en ce moment dans le domaine de la qualité des données, c'est pourquoi j'ai pensé qu'il serait vraiment intéressant de parler à Maarten Masschelein, PDG et cofondateur de Soda, pour nous expliquer tout cela.
J'ai toujours aimé parler avec Maarten parce qu'il a aussi un parcours en gouvernance des données, ayant été l'un des premiers employés chez Collibra. C'est là qu'il a commencé à voir que beaucoup d'entreprises avaient du mal à opérationnaliser à la fois la gouvernance des données et la qualité des données, ce qui lui a donné l'idée de Soda.
Dans le cadre de notre discussion, nous nous sommes donné l'exercice de trouver une bonne analogie. Nous pensons qu'un chef et ses produits saisit bien les distinctions entre les différentes pratiques de qualité des données en les comparant à divers aspects de la gestion d'une cuisine et de la cuisine elle-même.
Imaginez que vous gérez une cuisine, et que vous sélectionnez des produits pour divers plats. Vous classez les ingrédients selon la qualité : certains sont de qualité prime, d'autres légèrement abîmés ou approchant de leur date de péremption.
C'est comme la qualité des données manuelle ou opérationnelle—cette catégorisation et la mise en place de règles basées sur ce que vous savez être nécessaire pour différents plats (ou processus de données).
Vous pourriez avoir une règle selon laquelle les tomates les plus fraîches vont dans une salade, tandis que celles légèrement plus âgées sont cuites dans une sauce où personne ne remarquera de différence.
Ce processus est itératif, car le chef pourrait ajuster ses standards en fonction des résultats, devant parfois affiner ses critères de sélection pour obtenir le meilleur résultat.
« La qualité des données manuelle fait généralement référence au processus où vous impliquez les utilisateurs finaux ou consommateurs de vos données et vous recueillez les exigences, qu'attendent-ils des données ? Parce que nous voulons être sûrs que les données sont adaptées à l'usage. »— Maarten
Ensuite, il y a l'observabilité des données, qui consiste à garder un œil sur l'ensemble de l'exploitation de la cuisine. Vous surveillez constamment comment les ingrédients sont utilisés, combien de temps ils ont été laissés à l'air libre et si les conditions de stockage maintiennent leur qualité au fil du temps. Il s'agit de s'assurer que tout reste fiable et cohérent même si les conditions changent.
« L'observabilité des données relève du domaine de la fiabilité, qui est une mesure de la qualité dans le temps. Cela ne nous dit pas nécessairement si les données sont bonnes pour un usage spécifique, mais garantit qu'à] toute modification, celles-ci sont détectées et signalées pour examen, en maintenant la santé et la stabilité globales de l'environnement de données. »— Maarten
Les tests de qualité des données sont comme tester le goût des différentes parties d'un plat pendant que vous le préparez. Vous pourriez essayer une cuillère de sauce pour vous assurer que l’assaisonnement est correct ou couper dans un morceau de viande pour vérifier si elle est bien cuite. Ces tests aident à détecter les problèmes précocement afin que vous puissiez les corriger avant que le plat ne soit terminé.
« La chose complémentaire à faire est d'ajouter des tests, c'est pourquoi les contrats de données sont si importants, car les gens essaient de définir les points de cession entre les équipes et l'ingénierie logicielle. Vous voulez tester tôt car si vous laissez vos données traverser les pipelines jusqu’à la couche de consommation, tout problème va vous coûter cher.»— Maarten
Enfin, la qualité des données automatisée, surtout lorsqu'elle s'appuie sur l'IA, est comme avoir un assistant intelligent en cuisine qui suggère quoi faire avec les produits en fonction de leur état. Il pourrait dire : « Ces tomates sont en train de ramollir, faisons-en une sauce, » ou « Ce poisson n'est pas aussi frais que nous le souhaiterions; marinons-le et utilisons-le dans un ragoût où la texture ne sera pas aussi perceptible. » Cette approche automatisée aide à s'assurer que chaque ingrédient est utilisé de manière efficace et appropriée, sans dépendre uniquement de l'attention constante d'un chef.
« La partie automatisée se réfère généralement au processus de réaliser un certain nombre de vérifications standard à partir de vos données. La portée potentielle est beaucoup plus large que ce qui constitue la qualité des données automatisée car elle introduit l'automatisation via le machine learning ou le GenAI pour établir et maintenir plus efficacement une bonne qualité des données. »
— Maarten
Soda AI : Une Plateforme de Qualité des Données axée sur le GenAI
Nous avons évoqué le potentiel transformateur de l'IA générative pour la gestion de la qualité des données — nous ne pouvions pas ne pas le faire ! Soda AI peut aider à automatiser ou améliorer votre approche de la qualité des données de plusieurs façons.
Automatisation des contrôles : GenAI peut automatiser la création de contrôles de qualité des données en convertissant les exigences de langage naturel en règles exécutables. Cela est démontré par des outils comme l'assistant Ask AI de Soda pour traduire le langage métier directement en contrôles de qualité des données applicables.
Détection améliorée : En comprenant le contexte et la sémantique des données, les contrôles propulsés par ML peuvent détecter les anomalies et les problèmes de qualité des données plus efficacement.
Débogage et Analyse des Causes Premières : GenAI aide à identifier et comprendre les problèmes au sein des données. Il peut analyser les enregistrements pour repérer des erreurs de formatage ou suggérer des corrections basées sur le contexte.
En dehors de Soda, vous pouvez utiliser l'IA pour la Correction des Données. Au-delà de la détection des problèmes, GenAI peut proposer des correctifs, comme remplir des données manquantes ou incorrectes en exploitant une vaste base de connaissances.
Principaux Points À Retenir
Y a-t-il une solution universelle ? Je ne pense pas. Une combinaison d'approches est nécessaire pour que la cuisine fonctionne en douceur. Les vérifications manuelles et automatisées de la qualité garantissent que les produits répondent aux normes nécessaires avant d'être utilisés dans les recettes, tout comme les vérifications de la qualité des données garantissent que les données sont adaptées à l'usage des affaires. L'observabilité des données maintient la fiabilité continue des ingrédients, assurant que toute modification inattendue est repérée tôt. C'est essentiel pour les ingrédients qui pourraient se dégrader avec le temps ou nécessiter des conditions de stockage spécifiques.
Maarten a mentionné que de nombreux utilisateurs de Soda commencent par mettre en œuvre le tableau de bord d'anomalie pour l'observabilité avant d'évoluer vers les tests de qualité des données et la qualité des données opérationnelle. Cependant, certains choisissent de se concentrer uniquement sur les données les plus critiques avec la qualité des données opérationnelle et les tests.
Tout le monde embrasse-t-il pleinement l'automatisation ? Avec prudence.
« Plus nous pourrons automatiser avec un humain dans la boucle, plus tout le monde sera heureux. Quand tout le monde peut facilement s'impliquer dans la qualité des données, nous aurons tous accès à des produits de données fiables. »
— Maarten
🎧 Vous pouvez écouter la conversation avec Maarten en entier ici.
Et ensuite ?
Découvrez la plateforme de qualité des données de Soda et choisissez quelle saveur convient le mieux aux exigences de votre organisation.
Bonne chance !
À propos de l'Auteur
En collaboration avec Soda, Nicola Askham, connue comme la Coach de la Gouvernance des Données, a rédigé une série complète en trois parties qui aborde des sujets critiques, y compris la gouvernance des données, l'IA et la qualité des données.
Nicola se spécialise dans l'aide aux organisations pour améliorer leurs pratiques de gestion des données. Au cours des vingt dernières années, elle a aidé de nombreuses entreprises à réduire les coûts et les inefficacités grâce à ses initiatives de coaching, de conseil et de formation dédiées.
Trusted by the world’s leading enterprises
Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.
At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava
Director of Data Governance, Quality and MLOps
Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake
Director of Product-Data Platform
Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta
Data Engineering Manager
Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie
Head of Data Engineering
4,4 sur 5
Commencez à faire confiance à vos données. Aujourd'hui.
Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.
Adopté par




Trusted by the world’s leading enterprises
Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.
At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava
Director of Data Governance, Quality and MLOps
Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake
Director of Product-Data Platform
Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta
Data Engineering Manager
Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie
Head of Data Engineering
4,4 sur 5
Commencez à faire confiance à vos données. Aujourd'hui.
Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.
Adopté par
Solutions




Trusted by the world’s leading enterprises
Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.
At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava
Director of Data Governance, Quality and MLOps
Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake
Director of Product-Data Platform
Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta
Data Engineering Manager
Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie
Head of Data Engineering
4,4 sur 5
Commencez à faire confiance à vos données. Aujourd'hui.
Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.
Adopté par
Solutions



