Article Invité : Prévention des Problèmes avec les Data Contracts & Tests
Article Invité : Prévention des Problèmes avec les Data Contracts & Tests
3 juin 2025

Dylan Anderson
Dylan Anderson
Dylan Anderson
Créateur de la newsletter sur l'écosystème des données
Créateur de la newsletter sur l'écosystème des données
Créateur de la newsletter sur l'écosystème des données
Table des matières



Alors que les données ont évolué de l'analytique vers l'IA, le monde s'est émerveillé des possibilités. Les influenceurs crient : « Tout est possible dans ce monde. Le Big Data, l'IA, et l'IA changeront la donne ». Pourtant, ces gens oublient également un élément clé de ce parcours—la qualité des données.
Les professionnels des données et les dirigeants d'entreprise (au-delà des ingénieurs, analystes ou responsables de la gouvernance) commencent à s'en apercevoir, souvent par nécessité, mais ils le remarquent tout de même…
Bien que moins de personnes crient « Qualité des données » sur les toits (comme elles le font pour l'IA), les bons outils, approches et processus commencent à trouver leur chemin dans les organisations.
Et si vous avez suivi notre parcours de qualité des données jusqu'à présent, vous avez vu ce que cela signifie :
Le problème sous-jacent des causes profondes et la tendance des entreprises à ne traiter que les symptômes
Approches globales pour gérer la qualité des données
Comprendre comment le domaine s'est adapté au monde des données d'aujourd'hui
Explorer le rôle de la détection des problèmes de données par l'observabilité
Chacun de ces articles pose les bases nécessaires pour comprendre comment gérer efficacement la qualité des données. Cependant, nous n'avons même pas abordé correctement la zone la plus « en vogue » de cette industrie : déplacer à gauche.

L'IA est tellement 2023, mais l'IA avec la qualité des données, maintenant c'est tendance (ou peu importe ce que disent les jeunes de nos jours)
Déplacer à gauche signifie déménager les considérations de qualité plus tôt dans le cycle de vie des données et se concentrer sur la prévention plutôt que sur la réaction. Mon point de vue sur l'observabilité est qu'elle devrait être faite à la source (comme définie la semaine dernière), ce qui représente un changement vers la gauche. De plus, il est nécessaire de mettre en œuvre des mesures préventives, guidées par le business, qui empêchent les problèmes de se propager dans votre écosystème de données.
Donc, alors que nous continuons à déplacer à gauche, il y a deux pratiques clés que nous devons expliquer davantage : les contrats de données et les tests.
Ensemble, ils représentent une évolution cruciale dans la gestion de la qualité des données, permettant aux organisations de dépasser les limitations des approches basées uniquement sur l'observabilité et de construire la qualité dans le tissu même de leurs opérations de données. Allons-y !
Qualité des Données au-delà de l'Observabilité
Avant de passer à ce déplacement à gauche, il vaut la peine de revenir une dernière fois à l'Observabilité.
Il y a 5-10 ans, il y avait des outils MDM et des catalogues de données, la qualité des données a vraiment décollé lorsque les entreprises ont commencé à investir dans les outils d'observabilité des données . Nous avons discuté de cela en détail dans l'article de la semaine dernière, y compris la valeur que ces outils apportent au sein d'une plateforme dans tout l'écosystème de données.
Avec les outils d'observabilité, nous avons une visibilité sur les flux de données, les alertes d'anomalies et la capacité de retracer facilement les problèmes jusqu'à leurs sources avec des tableaux de bord intuitifs de santé de qualité. Même cette première étape a été transformatrice pour de nombreuses organisations.
Mais l'observabilité n'est qu'un début. Dans le jeu de la plateforme, elle ne traite que la composante de détection, et à mesure que les volumes/sources de données augmentent exponentiellement et que les écosystèmes de données deviennent de plus en plus complexes, la détection seule devient insuffisante pour plusieurs raisons :
Réaction vs Prévention : La fonctionnalité d'observabilité vous alerte après que des problèmes sont survenus, ce qui signifie que vos consommateurs de données peuvent déjà être affectés
Défis de l'Échelle : Avec des volumes de données massifs, il devient impossible de corriger manuellement chaque erreur que les outils d'observabilité détectent
Persistance des Causes Profondes : Sans aborder les problèmes structurels sous-jacents, les mêmes problèmes continueront de se reproduire
Fatigue des Alertes: Recevoir des notifications d'erreurs ou de problèmes est bien, mais pas si bien lorsque ces alertes ne s'arrêtent pas…
C'est pourquoi la plupart des outils d'observabilité évoluent vers une approche complète avec la plateforme de qualité de données qui s'étend au-delà de la détection pour inclure des mesures préventives. Cela nous permet de penser au déplacement à gauche de manière plus holistique, en considérant les exigences commerciales, les normes de qualité, les mesures de mise en œuvre et la responsabilité nécessaires pour garantir que les données peuvent être utilisées et que les insights ne tournent pas mal.
Dans l'idée de « déplacement à gauche », le producteur de données est responsable de la qualité des données (au lieu du consommateur) et cela a lieu plus tôt dans le processus (en amont). Pourtant, les deux parties doivent travailler ensemble pour s'assurer que les bonnes exigences, outils et processus de gouvernance sont mis en place pour résoudre les problèmes.

Déplacer à gauche signifie simplement penser plus en amont, comme on pourrait le penser avec le bon sens.
Donc, tandis que la détection est essentielle, l'application est la prochaine étape que les entreprises doivent prendre dans leur parcours de qualité des données.
Contrats de Données : Établir les Normes à l'Avance
Le monde des affaires tourne autour des contrats. Pensez à vos SOWs, SLAs, contrats de travail, baux, etc.
Pourquoi cela ? Pour que les deux parties impliquées dans l'accord soient alignées sur les règles et spécifications de ce qui se passe dans cette action
Étant donné que de nombreux problèmes dans l'écosystème des données proviennent d'un manque de communication, le concept de contrats a un mérite considérable !
Je veux dire, réfléchissez à combien les organisations dépensent pour leurs plateformes sans établir le lien entre les producteurs/générateurs de données et les consommateurs de données. Andrew Jones (l'homme qui a inventé le terme Data Contracts) le dit bien dans son livre Driving Data Quality with Data Contracts :
« Les générateurs de données sont éloignés des points de consommation et n'ont aucune idée de qui consomme leurs données, pourquoi ils en ont besoin, et les processus et résultats commerciaux importants qui sont générés par ces données.
De l'autre côté, les consommateurs de données ne savent même pas qui génère les données dont ils dépendent tant et n'ont aucun pouvoir sur leur aspect pour répondre à leurs exigences.
Ainsi, à leur base, les contrats de données sont des accords formels entre les producteurs et consommateurs de données qui définissent explicitement les attentes quant à la structure des données, ce qu'elles signifient et qui en est responsable.
Comme de nombreux autres aspects des données, les contrats s'inspirent de l'ingénierie logicielle et du principe d'encapsulation. L'encapsulation se concentre sur la garantie qu'un changement dans une partie d'un système ne perturbe pas le reste du système. Le contrat, par conséquent, fonctionne pour maintenir le système, en appliquant une gestion des données qui respecte les exigences établies entre producteurs et consommateurs.
Avec cela en tête, un contrat de données efficace repose sur cinq piliers fondamentaux :
Sémantique d'Entreprise : Définitions claires de ce que chaque élément de données représente en termes d'affaires, représentées par une interface généralement convenue (c'est-à-dire le contrat) pour permettre à tout le monde de partager la même compréhension
Attentes de Données : Spécifications explicites pour le schéma, le format, les contraintes et les seuils de qualité que les données doivent respecter. Ceux-ci sont souvent établis et maintenus dans des formats SLA
Propriété Claire : Responsabilités définies pour ceux qui produisent les données, ceux qui les utilisent, ceux qui les maintiennent et ceux à contacter en cas de problème
Application Automatisée : Mécanismes pour valider automatiquement les données par rapport aux spécifications du contrat et gérer les violations
Exigences de Sécurité & Confidentialité : Spécifications sur la façon dont les données doivent être protégées, qui peut y accéder, et comment elles peuvent être utilisées

Une vue d'ensemble de la façon dont un contrat de données s'intègre entre les sources en amont et les pipelines de données, et comment les producteurs & consommateurs interagissent avec celui-ci.
Chacun de ces piliers est important, car ils fournissent une base pour améliorer et surveiller la qualité des données. Mais plus que cela, les contrats de données changent la culture sur la manière dont les données sont utilisées et traitées en appliquant la discipline à la façon dont les données sont générées et traitées pour répondre aux besoins de consommation des données. Au lieu que les équipes techniques devinent comment les données doivent répondre aux attentes commerciales, elles reçoivent des instructions spécifiques sur les besoins de l'entreprise, la façon dont les parties prenantes utiliseront ces données, et les spécifications pour les gérer.
L'avènement de GenAI et des outils low-code/no-code ajoute également un autre élément. Des outils comme Soda intègrent des interfaces simples et intuitives dans un environnement unifié, permettant aux consommateurs de données et aux utilisateurs commerciaux de définir des règles commerciales, établir des normes de données et aligner des stratégies préventives, telles que les contrats de données, avec des capacités avancées comme la détection des anomalies. Cette approche embrasse à la fois les méthodologies "shift left" et "shift right", favorisant une culture plus proactive et réactive de la gestion des données. En revenant à l'aspect culturel, permettre cette collaboration aide à créer l'adhésion et est une gestion transformationnelle/du changement en action (ce qui est la partie la plus difficile de la gestion et de l'utilisation des données).
Alors, quels sont les avantages de cela ?
Améliore la Culture des Données – Plutôt que des processus opaques et des RACIs sur la façon d'utiliser les données, les parties prenantes ont une interface directe et un outil pour définir les normes et définitions.
Clarté de la Propriété – Établit qui est responsable des ensembles de données, permettant une communication directe lorsque des problèmes surviennent ou que des questions doivent être posées. Dans de nombreuses organisations, c'est l'un des principaux obstacles au progrès.
Données Modélisées Sémantiquement – Les équipes d'ingénierie s'appuient sur une structure, mais souvent cela n'est pas construit en pensant à l'entreprise. Aligner les deux par des contrats garantit que les consommateurs de données peuvent tirer des insights des données générées.
Vérification de la Qualité – Les contrôles de qualité des données aident à valider les données par rapport aux exigences des contrats en utilisant le langage et les normes établis par l'entreprise.
Transparence des Flux de Données – Combinés à l'observabilité et aux tests, les contrats de données décomposent les grands pipelines en composants de données gérables, permettant de comprendre les transformations et les structures, et améliorant le temps de résolution.
Honnêtement, il y a de nombreux autres avantages au-delà de ces cinq, mais cela dépend vraiment de la façon dont vous mettez en œuvre et utilisez les contrats de données. C'est toujours un domaine très précoce et émergent, et les équipes peuvent emprunter de multiples directions avec elles (surtout en fonction des outils/facon de les intégrer dans leur écosystème). L'essentiel est de s'assurer que les producteurs et consommateurs de données comprennent l'importance des contrats et que l'interface pour les utiliser soit claire/facile à utiliser.
Cet article n'entre pas dans les détails techniques de la mise en place d'un Contrat de Données, mais je vous encourage vivement à lire le livre d'Andrew Jones ou à consulter le site de Soda pour savoir comment faire. Les plateformes de qualité des données, comme celle de Soda, commencent même à améliorer l'interface utilisateur du développement des contrats avec des ML intégrés et une interface low-code/no-code, facilitant le développement des contrats. Rendre cela plus intuitif est définitivement la prochaine étape et aidera immensément les organisations à mettre en œuvre ces outils utiles !
Explication des Contrôles de Qualité & Tests
Avec des contrats, nous avons établi à quoi "bon" ressemble.
Nous devons maintenant appliquer ces spécifications par des contrôles de qualité des données et des tests. Ces deux éléments garantissent que les données répondent effectivement à ces normes tout au long de leur parcours de transformations de données.
Cette pratique déplace les contrôles de qualité de la validation post-traitement (standard dans les jeux d'observabilité pure) à la vérification en cours de processus, en intégrant directement avec les flux de travail CI/CD et les pipelines de données. Par conséquent, à mesure que des modifications de code sont apportées, les équipes peuvent plus efficacement identifier et résoudre les problèmes avant qu'ils n'impactent les systèmes en aval.
Bien que tout cela ait du sens au niveau élevé, les spécificités deviennent rapidement compliquées. Écrire cette section a pris beaucoup de temps car il y a tellement de façons d'aborder les tests, et cela ne s'aligne pas toujours sur les contrôles de qualité des données, les postes de contrôle ou les contrats.
Repartons cela en trois étapes qui relient les contrats, les postes de contrôle de qualité et les tests.

1) Comment Mettre en Place des Portes de Qualité pour Appliquer les Flux de Données
Les portes de qualité servent de points de contrôle à des étapes critiques dans vos flux de données où les données doivent satisfaire des critères spécifiés avant de continuer. Elles permettent essentiellement d'opérationnaliser vos contrats de données.
Pour mettre en place des portes de qualité efficaces :
Identifier des points de transition critiques dans votre flux de données où la validation de la qualité apporte une valeur maximale
Définir des critères clairs de pass/fail basés sur vos contrats de données
Établir des protocoles de réponse pour ce qui se passe lorsque les données ne respectent pas les normes
Mettre en œuvre des mécanismes automatisés pour appliquer ces portes sans intervention manuelle (les plateformes/outils de qualité des données sont essentiels pour cela)
L'implémentation la plus efficace des portes de qualité suit une approche par niveaux :
Portes critiques: Bloquer les données non conformes entièrement (par exemple, rejeter les enregistrements avec des champs obligatoires manquants)
Portes d'avertissement: Permettre aux données de progresser mais signaler des problèmes potentiels pour examen (par exemple, des distributions de valeurs inhabituelles)
Portes de surveillance: Suivre les métriques de qualité sans entraver le flux de données (par exemple, suivi de statistiques au niveau des champs)
Ceci s'intègrerait et s'alignerait avec toutes les fonctionnalités d'observabilité que la plateforme pourrait avoir, en alertant les utilisateurs ou les équipes d'ingénierie selon la priorité. Alors que les outils d'observabilité commencent à intégrer l'apprentissage machine et l'intelligence artificielle pour mieux détecter ces dégradations de qualité, nous pourrions voir de meilleurs diagnostics du problème ou même des correctifs automatisés. Cela sera crucial pour alléger la charge des équipes d'ingénierie déjà surchargées.
2) Où Implémenter les Tests à Différentes Étapes du Cycle de Vie des Données
Avec les portes de qualité mises en place et les normes de données définies par les contrats, le prochain mécanisme d'application (et le plus important) entre en jeu—les Tests !
Les tests sont une pratique fondamentale dans toutes les disciplines de l'ingénierie, mais les tests de qualité des données présentent des défis uniques par rapport aux tests logiciels traditionnels. Alors que les tests logiciels vérifient généralement des fonctions déterministes avec des entrées et sorties clairement définies, les tests de qualité des données doivent gérer la variabilité inhérente, le volume et la nature évolutive des données elles-mêmes.
Dans l'écosystème moderne des données, les tests apparaissent sous différentes formes à des étapes clés du cycle de vie :
1. Tests de Développement - Appliqués pendant le développement de code pour détecter les problèmes avant qu'ils n'entrent en production. Les ingénieurs de données mettent en œuvre des tests unitaires pour la logique de transformation et des contrôles de validation contre des ensembles de données d'échantillon. Contrairement aux tests logiciels traditionnels, les tests de développement de données doivent tenir compte de la représentativité des distributions de données et des cas extrêmes qui pourraient uniquement apparaître dans les données en échelle de production. Cette étape est cruciale car détecter les problèmes pendant le développement peut être 10 fois moins coûteux que de les adresser en production.
2. Tests de Pipeline CI/CD (Intégration Continue et Déploiement/Delivery) - Le CI/CD est où de nombreuses équipes, plateformes et outils de données échouent. Ici, les tests vont au-delà des processus de déploiement des codes et des fonctionnalités, en validant également la compatibilité des données et la préservation de la qualité. Sur la base des contrats (ou des entrées manuelles), les pipelines sont testés pour l'évolution du schéma, la compatibilité à rebours et la précision des transformations. Ces tests garantissent que les changements des pipelines de données n'affaiblissent pas les normes de qualité existantes ou n'introduisent pas de distorsions de données subtiles qui pourraient ne pas être détectées dans les tests de fonctionnalités.
3. Tests en Runtime - À mesure que le traitement et les transformations se produisent, cette couche de tests assure que les pipelines fonctionnent à l'échelle de production et à la vitesse tout en vérifiant que chaque étape de transformation préserve ou améliore la qualité des données. Les tests en runtime détectent les problèmes qui ne se manifestent qu'avec des volumes de données à l'échelle de production ou des motifs de données spécifiques qui n'étaient pas présents dans les ensembles de données de test. Dans les architectures de données modernes, cela implique souvent d'intégrer les contrôles de qualité directement dans les frameworks de traitement de données comme Spark, Flink ou dbt.
4. Tests Programmés - Il s'agit de tests périodiques pour vérifier la qualité continue des ensembles de données statiques, qui peuvent être stockés dans un entrepôt ou un data mart. Reconnaissant que la qualité des données est une préoccupation continue, ces tests identifient les dérives de qualité dans les ensembles de données existants et détectent les motifs ou anomalies émergents qui se développent au fil du temps. Les tests programmés garantissent que vos actifs de données restent fiables tout au long de leur cycle de vie.
Il y a beaucoup d'autres éléments de testing que nous n'abordons pas ici (par exemple, ML Ops, systèmes, etc.), mais ce que vous pouvez voir de ces quatre exemples est que les tests de qualité des données représentent beaucoup de travail. Avec la quantité croissante de données et la multitude de sources, ils doivent gérer l'incertitude, l'évolution et le contexte d'une manière que les tests traditionnels n'ont pas. Même si les valeurs de données sont techniquement valides, elles peuvent néanmoins représenter des problèmes dans le contexte (comme un changement soudain de distribution), et les tests doivent être suffisamment sophistiqués pour identifier ces problèmes nuancés tout en évitant les fausses alertes. D'où la combinaison avec les contrats et le besoin d'automatiser !
3) Quels Types de Tests sont Couramment Réalisés pour Vérifier les Données
Okay, maintenant que nous comprenons les portes de contrôle et où les tests sont réalisés, quels types de tests sont réalisés? Cela revient à mon graphique préféré de mon premier article sur la qualité des données, qui discutait des différentes mesures de qualité, car chacun de ces tests aborde un composant de cela.
Il vaut la peine de noter que c'est un sous-ensemble de tests, et le contexte spécifique ou les sources de données peuvent justifier des tests/approches uniques pour déterminer et valider la qualité :
Schéma : Valide que les données adhèrent aux structures attendues, y compris les noms de champs, les types de données et les relations, empêchant les problèmes structurels de base qui casseraient les processus en aval
Actualité : Garantit que les données répondent aux exigences de fraîcheur et arrivent dans des délais attendus, empêchant la prise de décision basée sur des informations obsolètes ou retardées
Niveau ligne : Valide les enregistrements individuels par rapport aux règles et contraintes commerciales. Cela inclut la validation du format, les contrôles des champs obligatoires et la conformité aux exigences spécifiques à l'entreprise
Unicité : Vérifie que les valeurs censées être uniques (comme les ID ou clés) ne contiennent pas de doublons, aidant à maintenir l'intégrité des données et empêchant les problèmes de jointure
Valeurs nulles/blanches : Identifie les valeurs manquantes et s'assure qu'elles sont traitées de manière appropriée en fonction des exigences de l'entreprise, prévenant les erreurs inattendues liées aux valeurs nulles dans les transformations et analyses
Volume : Confirme que les quantités attendues de données sont présentes, attrapant les problèmes de transferts de données incomplets ou de lots manquants. Ce test fournit un avertissement précoce des échecs d'absorption ou de traitement
Relation : Valide que les relations entre les ensembles de données sont maintenues, y compris l'intégrité référentielle et la cardinalité attendue. Si une organisation a un modèle de données correctement configuré, ce type de test est crucial pour le maintenir !
Plage/Seuil : Assure que les valeurs numériques se situent dans des limites acceptables et signale les valeurs extrêmes pour examen
Patron : Détecte si les données correspondent aux patterns attendus, comme les adresses e-mail ou les numéros de carte de crédit, pour empêcher les entrées invalides. Cela deviendra plus courant à mesure que l'apprentissage machine/IA avancera et est un élément différenciateur clé dans certaines plateformes de qualité de données existantes
Tous ces types de tests peuvent être utilisés en conjonction avec les différentes situations identifiées ci-dessus pour vérifier la qualité des données aux portes de qualité spécifiées. En combinant ces trois éléments, toute personne peut voir comment la gestion de la qualité passe de la détection réactive à la prévention proactive, réduisant ainsi très significativement l'impact commercial des problèmes de qualité des données.
Cartographie du Flux des Données de la Source au Produit (et Où Vous Devez Considérer la Qualité !)
Comme nous pouvons le voir, l'application est cruciale pour établir des normes et maintenir une haute qualité des données dans toute l'organisation. La plus grande question est de savoir comment l'intégrer tout au long de votre cycle de vie des données ?
Ci-dessous, vous pouvez voir la vue d'ensemble du point de vue du passage de l'écosystème des données avec l'application—les contrats, les portes de qualité et les composants de test soulignés le long du parcours des données.

Avoir les tests, l'observabilité et les contrats appropriés aux bons endroits est crucial pour un système de qualité des données de bout en bout.
Systèmes Sources : Vérification des Données dès le Début
Comme je l'ai déjà décrit, le suivi de la qualité des données doit commencer là où les données prennent leur origine, à la source. Les Contrats de Données établissent les attentes initiales pour la structure, la sémantique et les exigences de qualité des données des systèmes producteurs. En travaillant avec les propriétaires de systèmes sources, l'équipe/les ingénieurs de qualité des données peuvent établir des attentes claires concernant la qualité des données d'origine. Cela devrait également inclure les SLA de la source de données et des informations sur leur schéma et leurs connecteurs/API.
Les Portes de Qualité devraient être établies aux points de terminaison API et là où les données sont extraites de la source, garantissant l'alignement des données sur ces normes. Enfin, les Tests devraient se concentrer sur la validation du format, l'exhaustivité et la vérification des règles d'affaires lors de la création de données. Ainsi, si les systèmes sources modifient leur schéma, format ou API, l'équipe de données le saura. Les outils d'observabilité sont d'une aide appréciable à cet égard, automatisant de nombreux aspects du test à la source.
Ingestion des Données : Là Où se Produisent la Plupart des Problèmes
L'ingestion des données est un défi; la transition des systèmes externes vers les systèmes internes n'est presque jamais simple. C'est là que commence la propriété des données et où les données évoluent du brut au légèrement nettoyé, avec un traitement initial et une standardisation intégrée dans les pipelines d'ingestion (bien que la plupart du nettoyage soit traité à la couche de transformation).
Vous pouvez probablement utiliser les mêmes composants de Contrats de Données que ceux mis en place pour le système source initial. Cependant, il devrait y avoir des exigences post-ingestion plus spécifiques guidées par le consommateur qui doivent être prises en compte. Celles-ci se concentreraient sur les changements de traitement initiaux ou la standardisation des KPI, surtout si plusieurs sources de données se rejoignent. Cependant, il est probable que tout cela sera intégré dans le contrat initial.
Si vous utilisez une approche ETL standard, les Portes de Qualité peuvent être établies entre les phases d'extraction et de chargement pour identifier les problèmes lors de la transition de la source vers le stockage. Les tests CI/CD et autres pipelines seront cruciaux à cette étape, car ils valident le schéma et les normes de données, le volume et la duplication à mesure que les données entrent dans les systèmes internes. Cela ressemble aux tests du système source, mais les normes de qualité entre les systèmes (et l'adhésion au modèle de données de l'organisation) seront plus marquées. Le non-respect de ces normes entraînera le rejet et la notification aux ingénieurs.
Couche de Transformation : Préservation de la Qualité à travers le Changement
La couche de transformation voit souvent la plus forte concentration de problèmes de qualité des données, car les transformations peuvent introduire des erreurs, des incohérences ou des effets secondaires involontaires. C'est là où le nettoyage et la standardisation plus robustes ont lieu, aidant à construire les actifs de données de base que les équipes d'analyse et d'affaires utiliseront dans leur travail de données.
Comme précédemment, les Contrats de Données doivent inclure la stipulation des transformations nécessaires pour que les consommateurs de données obtiennent les insights qu'ils désirent/nécessitent. Ici, l'accent doit être mis sur les règles d'affaire, en s'assurant que la logique commerciale est correctement appliquée et maintenue à travers les transformations. Les Portes de Qualité doivent se situer entre les principales étapes de transformation (par exemple, transformation des KPI, fusion des données clients de plusieurs sources, etc.), car c'est là que le traitement est le plus susceptible de mal tourner. Pour vérifier les portes de qualité, les Tests devraient valider des éléments similaires à ceux précédemment (par exemple, nulls, blancs, volume, plages, etc.) ainsi que les relations et les règles d'affaires. Les tests de performance par les ingénieurs devraient également être pris en compte ici, car la réduction des ressources informatiques requises présente des avantages tant du point de vue des coûts que du temps.
Couche de Service : Validation de la Qualité pour les Consommateurs
La couche de service est là où les consommateurs de données commencent à accéder aux données et à évaluer si elles leur font vraiment confiance. Par conséquent, une couche de service de haute qualité est essentielle pour stimuler l'adoption et assurer une valeur commerciale des investissements dans les données.
Voici où les Contrats de Données sont remplis. Les données servies correspondent-elles à ce que veulent les consommateurs de données ? Les Portes de Qualité établies entre le stockage et les points d'accès aux données devraient le vérifier, garantissant que les données sont de haute qualité et respectent les normes de contrat. Dans Testing, les mêmes tests peuvent être effectués comme avant pour garantir la qualité, mais vous pouvez ajouter des cas d'utilisation spécifiques ou des tests de fraîcheur pour assurer que les données fonctionneront contre les besoins du consommateur.
Avec cela, les données deviennent disponibles et la confiance est établie—ou pas. Un autre point est d'inclure des mécanismes de feedback et des canaux pour que les consommateurs de données signalent les problèmes de qualité ou suggèrent de nouveaux contrôles de qualité. Les outils de plateforme de qualité des données sont utiles pour cela, étant donné leur intégration des alertes et notifications, qui fournissent un mécanisme de communication entre les producteurs de données, les correcteurs (également connus sous le nom d'ingénieurs) et les consommateurs.
La Considération Holistique de l'Application de la Qualité des Données
Alors que l'attention sur la qualité des données continue d'évoluer, il est clair que penser de manière plus holistique est la réponse.
Le passage de la réactivité à la proactivité se produit au moment où nous parlons et les organisations reconnaissent la nécessité de construire de la qualité dans leur écosystème de données plutôt que d'essayer de l'inspecter après coup.
Et il est extrêmement encourageant de voir des entreprises créer des produits holistiques qui englobent l'observabilité et l'application. En fournissant une solution de bout en bout pour valider la qualité des données, ces outils permettent aux entreprises de définir, de surveiller et de gérer leurs données de la source à la consommation. Avec des contrats de données établissant les normes, des tests validant ces normes et des portes de qualité les appliquant aux étapes critiques, les organisations obtiennent une plateforme unifiée pour améliorer l'un de leurs points de douleur les plus importants.

Ce qui rend une approche de plateforme puissante est la façon dont elle connecte les différents mécanismes de contrôle de qualité. Lorsqu'un test de pipeline échoue, la plateforme le lie immédiatement aux spécifications de contrat pertinentes, fournit un contexte à partir des données d'observabilité et déclenche des actions de porte appropriées—tout cela dans un seul workflow.
Alors que les volumes de données continuent de croître et que les écosystèmes deviennent plus complexes, les organisations qui prospéreront seront celles qui adopteront la gestion proactive de la qualité. L'approche de déplacement à gauche n'est pas juste une amélioration technique—c'est un changement culturel qui affecte la façon dont les équipes de données travaillent, collaborent et fournissent de la valeur.
Avec cela en tête, une partie de la construction de la qualité dans le tissu même de vos opérations de données mène à notre prochain sujet—la propriété. Avoir des propriétaires de données, les gouverner et mettre en place la responsabilité appropriée est l'une des tâches les plus difficiles dans le domaine des données aujourd'hui, cela vaut donc dix minutes de votre temps de lecture dans notre prochain article ! Jusque-là, passez un bon dimanche et n'oubliez pas de vous abonner, commenter et partager cet article !
Alors que les données ont évolué de l'analytique vers l'IA, le monde s'est émerveillé des possibilités. Les influenceurs crient : « Tout est possible dans ce monde. Le Big Data, l'IA, et l'IA changeront la donne ». Pourtant, ces gens oublient également un élément clé de ce parcours—la qualité des données.
Les professionnels des données et les dirigeants d'entreprise (au-delà des ingénieurs, analystes ou responsables de la gouvernance) commencent à s'en apercevoir, souvent par nécessité, mais ils le remarquent tout de même…
Bien que moins de personnes crient « Qualité des données » sur les toits (comme elles le font pour l'IA), les bons outils, approches et processus commencent à trouver leur chemin dans les organisations.
Et si vous avez suivi notre parcours de qualité des données jusqu'à présent, vous avez vu ce que cela signifie :
Le problème sous-jacent des causes profondes et la tendance des entreprises à ne traiter que les symptômes
Approches globales pour gérer la qualité des données
Comprendre comment le domaine s'est adapté au monde des données d'aujourd'hui
Explorer le rôle de la détection des problèmes de données par l'observabilité
Chacun de ces articles pose les bases nécessaires pour comprendre comment gérer efficacement la qualité des données. Cependant, nous n'avons même pas abordé correctement la zone la plus « en vogue » de cette industrie : déplacer à gauche.

L'IA est tellement 2023, mais l'IA avec la qualité des données, maintenant c'est tendance (ou peu importe ce que disent les jeunes de nos jours)
Déplacer à gauche signifie déménager les considérations de qualité plus tôt dans le cycle de vie des données et se concentrer sur la prévention plutôt que sur la réaction. Mon point de vue sur l'observabilité est qu'elle devrait être faite à la source (comme définie la semaine dernière), ce qui représente un changement vers la gauche. De plus, il est nécessaire de mettre en œuvre des mesures préventives, guidées par le business, qui empêchent les problèmes de se propager dans votre écosystème de données.
Donc, alors que nous continuons à déplacer à gauche, il y a deux pratiques clés que nous devons expliquer davantage : les contrats de données et les tests.
Ensemble, ils représentent une évolution cruciale dans la gestion de la qualité des données, permettant aux organisations de dépasser les limitations des approches basées uniquement sur l'observabilité et de construire la qualité dans le tissu même de leurs opérations de données. Allons-y !
Qualité des Données au-delà de l'Observabilité
Avant de passer à ce déplacement à gauche, il vaut la peine de revenir une dernière fois à l'Observabilité.
Il y a 5-10 ans, il y avait des outils MDM et des catalogues de données, la qualité des données a vraiment décollé lorsque les entreprises ont commencé à investir dans les outils d'observabilité des données . Nous avons discuté de cela en détail dans l'article de la semaine dernière, y compris la valeur que ces outils apportent au sein d'une plateforme dans tout l'écosystème de données.
Avec les outils d'observabilité, nous avons une visibilité sur les flux de données, les alertes d'anomalies et la capacité de retracer facilement les problèmes jusqu'à leurs sources avec des tableaux de bord intuitifs de santé de qualité. Même cette première étape a été transformatrice pour de nombreuses organisations.
Mais l'observabilité n'est qu'un début. Dans le jeu de la plateforme, elle ne traite que la composante de détection, et à mesure que les volumes/sources de données augmentent exponentiellement et que les écosystèmes de données deviennent de plus en plus complexes, la détection seule devient insuffisante pour plusieurs raisons :
Réaction vs Prévention : La fonctionnalité d'observabilité vous alerte après que des problèmes sont survenus, ce qui signifie que vos consommateurs de données peuvent déjà être affectés
Défis de l'Échelle : Avec des volumes de données massifs, il devient impossible de corriger manuellement chaque erreur que les outils d'observabilité détectent
Persistance des Causes Profondes : Sans aborder les problèmes structurels sous-jacents, les mêmes problèmes continueront de se reproduire
Fatigue des Alertes: Recevoir des notifications d'erreurs ou de problèmes est bien, mais pas si bien lorsque ces alertes ne s'arrêtent pas…
C'est pourquoi la plupart des outils d'observabilité évoluent vers une approche complète avec la plateforme de qualité de données qui s'étend au-delà de la détection pour inclure des mesures préventives. Cela nous permet de penser au déplacement à gauche de manière plus holistique, en considérant les exigences commerciales, les normes de qualité, les mesures de mise en œuvre et la responsabilité nécessaires pour garantir que les données peuvent être utilisées et que les insights ne tournent pas mal.
Dans l'idée de « déplacement à gauche », le producteur de données est responsable de la qualité des données (au lieu du consommateur) et cela a lieu plus tôt dans le processus (en amont). Pourtant, les deux parties doivent travailler ensemble pour s'assurer que les bonnes exigences, outils et processus de gouvernance sont mis en place pour résoudre les problèmes.

Déplacer à gauche signifie simplement penser plus en amont, comme on pourrait le penser avec le bon sens.
Donc, tandis que la détection est essentielle, l'application est la prochaine étape que les entreprises doivent prendre dans leur parcours de qualité des données.
Contrats de Données : Établir les Normes à l'Avance
Le monde des affaires tourne autour des contrats. Pensez à vos SOWs, SLAs, contrats de travail, baux, etc.
Pourquoi cela ? Pour que les deux parties impliquées dans l'accord soient alignées sur les règles et spécifications de ce qui se passe dans cette action
Étant donné que de nombreux problèmes dans l'écosystème des données proviennent d'un manque de communication, le concept de contrats a un mérite considérable !
Je veux dire, réfléchissez à combien les organisations dépensent pour leurs plateformes sans établir le lien entre les producteurs/générateurs de données et les consommateurs de données. Andrew Jones (l'homme qui a inventé le terme Data Contracts) le dit bien dans son livre Driving Data Quality with Data Contracts :
« Les générateurs de données sont éloignés des points de consommation et n'ont aucune idée de qui consomme leurs données, pourquoi ils en ont besoin, et les processus et résultats commerciaux importants qui sont générés par ces données.
De l'autre côté, les consommateurs de données ne savent même pas qui génère les données dont ils dépendent tant et n'ont aucun pouvoir sur leur aspect pour répondre à leurs exigences.
Ainsi, à leur base, les contrats de données sont des accords formels entre les producteurs et consommateurs de données qui définissent explicitement les attentes quant à la structure des données, ce qu'elles signifient et qui en est responsable.
Comme de nombreux autres aspects des données, les contrats s'inspirent de l'ingénierie logicielle et du principe d'encapsulation. L'encapsulation se concentre sur la garantie qu'un changement dans une partie d'un système ne perturbe pas le reste du système. Le contrat, par conséquent, fonctionne pour maintenir le système, en appliquant une gestion des données qui respecte les exigences établies entre producteurs et consommateurs.
Avec cela en tête, un contrat de données efficace repose sur cinq piliers fondamentaux :
Sémantique d'Entreprise : Définitions claires de ce que chaque élément de données représente en termes d'affaires, représentées par une interface généralement convenue (c'est-à-dire le contrat) pour permettre à tout le monde de partager la même compréhension
Attentes de Données : Spécifications explicites pour le schéma, le format, les contraintes et les seuils de qualité que les données doivent respecter. Ceux-ci sont souvent établis et maintenus dans des formats SLA
Propriété Claire : Responsabilités définies pour ceux qui produisent les données, ceux qui les utilisent, ceux qui les maintiennent et ceux à contacter en cas de problème
Application Automatisée : Mécanismes pour valider automatiquement les données par rapport aux spécifications du contrat et gérer les violations
Exigences de Sécurité & Confidentialité : Spécifications sur la façon dont les données doivent être protégées, qui peut y accéder, et comment elles peuvent être utilisées

Une vue d'ensemble de la façon dont un contrat de données s'intègre entre les sources en amont et les pipelines de données, et comment les producteurs & consommateurs interagissent avec celui-ci.
Chacun de ces piliers est important, car ils fournissent une base pour améliorer et surveiller la qualité des données. Mais plus que cela, les contrats de données changent la culture sur la manière dont les données sont utilisées et traitées en appliquant la discipline à la façon dont les données sont générées et traitées pour répondre aux besoins de consommation des données. Au lieu que les équipes techniques devinent comment les données doivent répondre aux attentes commerciales, elles reçoivent des instructions spécifiques sur les besoins de l'entreprise, la façon dont les parties prenantes utiliseront ces données, et les spécifications pour les gérer.
L'avènement de GenAI et des outils low-code/no-code ajoute également un autre élément. Des outils comme Soda intègrent des interfaces simples et intuitives dans un environnement unifié, permettant aux consommateurs de données et aux utilisateurs commerciaux de définir des règles commerciales, établir des normes de données et aligner des stratégies préventives, telles que les contrats de données, avec des capacités avancées comme la détection des anomalies. Cette approche embrasse à la fois les méthodologies "shift left" et "shift right", favorisant une culture plus proactive et réactive de la gestion des données. En revenant à l'aspect culturel, permettre cette collaboration aide à créer l'adhésion et est une gestion transformationnelle/du changement en action (ce qui est la partie la plus difficile de la gestion et de l'utilisation des données).
Alors, quels sont les avantages de cela ?
Améliore la Culture des Données – Plutôt que des processus opaques et des RACIs sur la façon d'utiliser les données, les parties prenantes ont une interface directe et un outil pour définir les normes et définitions.
Clarté de la Propriété – Établit qui est responsable des ensembles de données, permettant une communication directe lorsque des problèmes surviennent ou que des questions doivent être posées. Dans de nombreuses organisations, c'est l'un des principaux obstacles au progrès.
Données Modélisées Sémantiquement – Les équipes d'ingénierie s'appuient sur une structure, mais souvent cela n'est pas construit en pensant à l'entreprise. Aligner les deux par des contrats garantit que les consommateurs de données peuvent tirer des insights des données générées.
Vérification de la Qualité – Les contrôles de qualité des données aident à valider les données par rapport aux exigences des contrats en utilisant le langage et les normes établis par l'entreprise.
Transparence des Flux de Données – Combinés à l'observabilité et aux tests, les contrats de données décomposent les grands pipelines en composants de données gérables, permettant de comprendre les transformations et les structures, et améliorant le temps de résolution.
Honnêtement, il y a de nombreux autres avantages au-delà de ces cinq, mais cela dépend vraiment de la façon dont vous mettez en œuvre et utilisez les contrats de données. C'est toujours un domaine très précoce et émergent, et les équipes peuvent emprunter de multiples directions avec elles (surtout en fonction des outils/facon de les intégrer dans leur écosystème). L'essentiel est de s'assurer que les producteurs et consommateurs de données comprennent l'importance des contrats et que l'interface pour les utiliser soit claire/facile à utiliser.
Cet article n'entre pas dans les détails techniques de la mise en place d'un Contrat de Données, mais je vous encourage vivement à lire le livre d'Andrew Jones ou à consulter le site de Soda pour savoir comment faire. Les plateformes de qualité des données, comme celle de Soda, commencent même à améliorer l'interface utilisateur du développement des contrats avec des ML intégrés et une interface low-code/no-code, facilitant le développement des contrats. Rendre cela plus intuitif est définitivement la prochaine étape et aidera immensément les organisations à mettre en œuvre ces outils utiles !
Explication des Contrôles de Qualité & Tests
Avec des contrats, nous avons établi à quoi "bon" ressemble.
Nous devons maintenant appliquer ces spécifications par des contrôles de qualité des données et des tests. Ces deux éléments garantissent que les données répondent effectivement à ces normes tout au long de leur parcours de transformations de données.
Cette pratique déplace les contrôles de qualité de la validation post-traitement (standard dans les jeux d'observabilité pure) à la vérification en cours de processus, en intégrant directement avec les flux de travail CI/CD et les pipelines de données. Par conséquent, à mesure que des modifications de code sont apportées, les équipes peuvent plus efficacement identifier et résoudre les problèmes avant qu'ils n'impactent les systèmes en aval.
Bien que tout cela ait du sens au niveau élevé, les spécificités deviennent rapidement compliquées. Écrire cette section a pris beaucoup de temps car il y a tellement de façons d'aborder les tests, et cela ne s'aligne pas toujours sur les contrôles de qualité des données, les postes de contrôle ou les contrats.
Repartons cela en trois étapes qui relient les contrats, les postes de contrôle de qualité et les tests.

1) Comment Mettre en Place des Portes de Qualité pour Appliquer les Flux de Données
Les portes de qualité servent de points de contrôle à des étapes critiques dans vos flux de données où les données doivent satisfaire des critères spécifiés avant de continuer. Elles permettent essentiellement d'opérationnaliser vos contrats de données.
Pour mettre en place des portes de qualité efficaces :
Identifier des points de transition critiques dans votre flux de données où la validation de la qualité apporte une valeur maximale
Définir des critères clairs de pass/fail basés sur vos contrats de données
Établir des protocoles de réponse pour ce qui se passe lorsque les données ne respectent pas les normes
Mettre en œuvre des mécanismes automatisés pour appliquer ces portes sans intervention manuelle (les plateformes/outils de qualité des données sont essentiels pour cela)
L'implémentation la plus efficace des portes de qualité suit une approche par niveaux :
Portes critiques: Bloquer les données non conformes entièrement (par exemple, rejeter les enregistrements avec des champs obligatoires manquants)
Portes d'avertissement: Permettre aux données de progresser mais signaler des problèmes potentiels pour examen (par exemple, des distributions de valeurs inhabituelles)
Portes de surveillance: Suivre les métriques de qualité sans entraver le flux de données (par exemple, suivi de statistiques au niveau des champs)
Ceci s'intègrerait et s'alignerait avec toutes les fonctionnalités d'observabilité que la plateforme pourrait avoir, en alertant les utilisateurs ou les équipes d'ingénierie selon la priorité. Alors que les outils d'observabilité commencent à intégrer l'apprentissage machine et l'intelligence artificielle pour mieux détecter ces dégradations de qualité, nous pourrions voir de meilleurs diagnostics du problème ou même des correctifs automatisés. Cela sera crucial pour alléger la charge des équipes d'ingénierie déjà surchargées.
2) Où Implémenter les Tests à Différentes Étapes du Cycle de Vie des Données
Avec les portes de qualité mises en place et les normes de données définies par les contrats, le prochain mécanisme d'application (et le plus important) entre en jeu—les Tests !
Les tests sont une pratique fondamentale dans toutes les disciplines de l'ingénierie, mais les tests de qualité des données présentent des défis uniques par rapport aux tests logiciels traditionnels. Alors que les tests logiciels vérifient généralement des fonctions déterministes avec des entrées et sorties clairement définies, les tests de qualité des données doivent gérer la variabilité inhérente, le volume et la nature évolutive des données elles-mêmes.
Dans l'écosystème moderne des données, les tests apparaissent sous différentes formes à des étapes clés du cycle de vie :
1. Tests de Développement - Appliqués pendant le développement de code pour détecter les problèmes avant qu'ils n'entrent en production. Les ingénieurs de données mettent en œuvre des tests unitaires pour la logique de transformation et des contrôles de validation contre des ensembles de données d'échantillon. Contrairement aux tests logiciels traditionnels, les tests de développement de données doivent tenir compte de la représentativité des distributions de données et des cas extrêmes qui pourraient uniquement apparaître dans les données en échelle de production. Cette étape est cruciale car détecter les problèmes pendant le développement peut être 10 fois moins coûteux que de les adresser en production.
2. Tests de Pipeline CI/CD (Intégration Continue et Déploiement/Delivery) - Le CI/CD est où de nombreuses équipes, plateformes et outils de données échouent. Ici, les tests vont au-delà des processus de déploiement des codes et des fonctionnalités, en validant également la compatibilité des données et la préservation de la qualité. Sur la base des contrats (ou des entrées manuelles), les pipelines sont testés pour l'évolution du schéma, la compatibilité à rebours et la précision des transformations. Ces tests garantissent que les changements des pipelines de données n'affaiblissent pas les normes de qualité existantes ou n'introduisent pas de distorsions de données subtiles qui pourraient ne pas être détectées dans les tests de fonctionnalités.
3. Tests en Runtime - À mesure que le traitement et les transformations se produisent, cette couche de tests assure que les pipelines fonctionnent à l'échelle de production et à la vitesse tout en vérifiant que chaque étape de transformation préserve ou améliore la qualité des données. Les tests en runtime détectent les problèmes qui ne se manifestent qu'avec des volumes de données à l'échelle de production ou des motifs de données spécifiques qui n'étaient pas présents dans les ensembles de données de test. Dans les architectures de données modernes, cela implique souvent d'intégrer les contrôles de qualité directement dans les frameworks de traitement de données comme Spark, Flink ou dbt.
4. Tests Programmés - Il s'agit de tests périodiques pour vérifier la qualité continue des ensembles de données statiques, qui peuvent être stockés dans un entrepôt ou un data mart. Reconnaissant que la qualité des données est une préoccupation continue, ces tests identifient les dérives de qualité dans les ensembles de données existants et détectent les motifs ou anomalies émergents qui se développent au fil du temps. Les tests programmés garantissent que vos actifs de données restent fiables tout au long de leur cycle de vie.
Il y a beaucoup d'autres éléments de testing que nous n'abordons pas ici (par exemple, ML Ops, systèmes, etc.), mais ce que vous pouvez voir de ces quatre exemples est que les tests de qualité des données représentent beaucoup de travail. Avec la quantité croissante de données et la multitude de sources, ils doivent gérer l'incertitude, l'évolution et le contexte d'une manière que les tests traditionnels n'ont pas. Même si les valeurs de données sont techniquement valides, elles peuvent néanmoins représenter des problèmes dans le contexte (comme un changement soudain de distribution), et les tests doivent être suffisamment sophistiqués pour identifier ces problèmes nuancés tout en évitant les fausses alertes. D'où la combinaison avec les contrats et le besoin d'automatiser !
3) Quels Types de Tests sont Couramment Réalisés pour Vérifier les Données
Okay, maintenant que nous comprenons les portes de contrôle et où les tests sont réalisés, quels types de tests sont réalisés? Cela revient à mon graphique préféré de mon premier article sur la qualité des données, qui discutait des différentes mesures de qualité, car chacun de ces tests aborde un composant de cela.
Il vaut la peine de noter que c'est un sous-ensemble de tests, et le contexte spécifique ou les sources de données peuvent justifier des tests/approches uniques pour déterminer et valider la qualité :
Schéma : Valide que les données adhèrent aux structures attendues, y compris les noms de champs, les types de données et les relations, empêchant les problèmes structurels de base qui casseraient les processus en aval
Actualité : Garantit que les données répondent aux exigences de fraîcheur et arrivent dans des délais attendus, empêchant la prise de décision basée sur des informations obsolètes ou retardées
Niveau ligne : Valide les enregistrements individuels par rapport aux règles et contraintes commerciales. Cela inclut la validation du format, les contrôles des champs obligatoires et la conformité aux exigences spécifiques à l'entreprise
Unicité : Vérifie que les valeurs censées être uniques (comme les ID ou clés) ne contiennent pas de doublons, aidant à maintenir l'intégrité des données et empêchant les problèmes de jointure
Valeurs nulles/blanches : Identifie les valeurs manquantes et s'assure qu'elles sont traitées de manière appropriée en fonction des exigences de l'entreprise, prévenant les erreurs inattendues liées aux valeurs nulles dans les transformations et analyses
Volume : Confirme que les quantités attendues de données sont présentes, attrapant les problèmes de transferts de données incomplets ou de lots manquants. Ce test fournit un avertissement précoce des échecs d'absorption ou de traitement
Relation : Valide que les relations entre les ensembles de données sont maintenues, y compris l'intégrité référentielle et la cardinalité attendue. Si une organisation a un modèle de données correctement configuré, ce type de test est crucial pour le maintenir !
Plage/Seuil : Assure que les valeurs numériques se situent dans des limites acceptables et signale les valeurs extrêmes pour examen
Patron : Détecte si les données correspondent aux patterns attendus, comme les adresses e-mail ou les numéros de carte de crédit, pour empêcher les entrées invalides. Cela deviendra plus courant à mesure que l'apprentissage machine/IA avancera et est un élément différenciateur clé dans certaines plateformes de qualité de données existantes
Tous ces types de tests peuvent être utilisés en conjonction avec les différentes situations identifiées ci-dessus pour vérifier la qualité des données aux portes de qualité spécifiées. En combinant ces trois éléments, toute personne peut voir comment la gestion de la qualité passe de la détection réactive à la prévention proactive, réduisant ainsi très significativement l'impact commercial des problèmes de qualité des données.
Cartographie du Flux des Données de la Source au Produit (et Où Vous Devez Considérer la Qualité !)
Comme nous pouvons le voir, l'application est cruciale pour établir des normes et maintenir une haute qualité des données dans toute l'organisation. La plus grande question est de savoir comment l'intégrer tout au long de votre cycle de vie des données ?
Ci-dessous, vous pouvez voir la vue d'ensemble du point de vue du passage de l'écosystème des données avec l'application—les contrats, les portes de qualité et les composants de test soulignés le long du parcours des données.

Avoir les tests, l'observabilité et les contrats appropriés aux bons endroits est crucial pour un système de qualité des données de bout en bout.
Systèmes Sources : Vérification des Données dès le Début
Comme je l'ai déjà décrit, le suivi de la qualité des données doit commencer là où les données prennent leur origine, à la source. Les Contrats de Données établissent les attentes initiales pour la structure, la sémantique et les exigences de qualité des données des systèmes producteurs. En travaillant avec les propriétaires de systèmes sources, l'équipe/les ingénieurs de qualité des données peuvent établir des attentes claires concernant la qualité des données d'origine. Cela devrait également inclure les SLA de la source de données et des informations sur leur schéma et leurs connecteurs/API.
Les Portes de Qualité devraient être établies aux points de terminaison API et là où les données sont extraites de la source, garantissant l'alignement des données sur ces normes. Enfin, les Tests devraient se concentrer sur la validation du format, l'exhaustivité et la vérification des règles d'affaires lors de la création de données. Ainsi, si les systèmes sources modifient leur schéma, format ou API, l'équipe de données le saura. Les outils d'observabilité sont d'une aide appréciable à cet égard, automatisant de nombreux aspects du test à la source.
Ingestion des Données : Là Où se Produisent la Plupart des Problèmes
L'ingestion des données est un défi; la transition des systèmes externes vers les systèmes internes n'est presque jamais simple. C'est là que commence la propriété des données et où les données évoluent du brut au légèrement nettoyé, avec un traitement initial et une standardisation intégrée dans les pipelines d'ingestion (bien que la plupart du nettoyage soit traité à la couche de transformation).
Vous pouvez probablement utiliser les mêmes composants de Contrats de Données que ceux mis en place pour le système source initial. Cependant, il devrait y avoir des exigences post-ingestion plus spécifiques guidées par le consommateur qui doivent être prises en compte. Celles-ci se concentreraient sur les changements de traitement initiaux ou la standardisation des KPI, surtout si plusieurs sources de données se rejoignent. Cependant, il est probable que tout cela sera intégré dans le contrat initial.
Si vous utilisez une approche ETL standard, les Portes de Qualité peuvent être établies entre les phases d'extraction et de chargement pour identifier les problèmes lors de la transition de la source vers le stockage. Les tests CI/CD et autres pipelines seront cruciaux à cette étape, car ils valident le schéma et les normes de données, le volume et la duplication à mesure que les données entrent dans les systèmes internes. Cela ressemble aux tests du système source, mais les normes de qualité entre les systèmes (et l'adhésion au modèle de données de l'organisation) seront plus marquées. Le non-respect de ces normes entraînera le rejet et la notification aux ingénieurs.
Couche de Transformation : Préservation de la Qualité à travers le Changement
La couche de transformation voit souvent la plus forte concentration de problèmes de qualité des données, car les transformations peuvent introduire des erreurs, des incohérences ou des effets secondaires involontaires. C'est là où le nettoyage et la standardisation plus robustes ont lieu, aidant à construire les actifs de données de base que les équipes d'analyse et d'affaires utiliseront dans leur travail de données.
Comme précédemment, les Contrats de Données doivent inclure la stipulation des transformations nécessaires pour que les consommateurs de données obtiennent les insights qu'ils désirent/nécessitent. Ici, l'accent doit être mis sur les règles d'affaire, en s'assurant que la logique commerciale est correctement appliquée et maintenue à travers les transformations. Les Portes de Qualité doivent se situer entre les principales étapes de transformation (par exemple, transformation des KPI, fusion des données clients de plusieurs sources, etc.), car c'est là que le traitement est le plus susceptible de mal tourner. Pour vérifier les portes de qualité, les Tests devraient valider des éléments similaires à ceux précédemment (par exemple, nulls, blancs, volume, plages, etc.) ainsi que les relations et les règles d'affaires. Les tests de performance par les ingénieurs devraient également être pris en compte ici, car la réduction des ressources informatiques requises présente des avantages tant du point de vue des coûts que du temps.
Couche de Service : Validation de la Qualité pour les Consommateurs
La couche de service est là où les consommateurs de données commencent à accéder aux données et à évaluer si elles leur font vraiment confiance. Par conséquent, une couche de service de haute qualité est essentielle pour stimuler l'adoption et assurer une valeur commerciale des investissements dans les données.
Voici où les Contrats de Données sont remplis. Les données servies correspondent-elles à ce que veulent les consommateurs de données ? Les Portes de Qualité établies entre le stockage et les points d'accès aux données devraient le vérifier, garantissant que les données sont de haute qualité et respectent les normes de contrat. Dans Testing, les mêmes tests peuvent être effectués comme avant pour garantir la qualité, mais vous pouvez ajouter des cas d'utilisation spécifiques ou des tests de fraîcheur pour assurer que les données fonctionneront contre les besoins du consommateur.
Avec cela, les données deviennent disponibles et la confiance est établie—ou pas. Un autre point est d'inclure des mécanismes de feedback et des canaux pour que les consommateurs de données signalent les problèmes de qualité ou suggèrent de nouveaux contrôles de qualité. Les outils de plateforme de qualité des données sont utiles pour cela, étant donné leur intégration des alertes et notifications, qui fournissent un mécanisme de communication entre les producteurs de données, les correcteurs (également connus sous le nom d'ingénieurs) et les consommateurs.
La Considération Holistique de l'Application de la Qualité des Données
Alors que l'attention sur la qualité des données continue d'évoluer, il est clair que penser de manière plus holistique est la réponse.
Le passage de la réactivité à la proactivité se produit au moment où nous parlons et les organisations reconnaissent la nécessité de construire de la qualité dans leur écosystème de données plutôt que d'essayer de l'inspecter après coup.
Et il est extrêmement encourageant de voir des entreprises créer des produits holistiques qui englobent l'observabilité et l'application. En fournissant une solution de bout en bout pour valider la qualité des données, ces outils permettent aux entreprises de définir, de surveiller et de gérer leurs données de la source à la consommation. Avec des contrats de données établissant les normes, des tests validant ces normes et des portes de qualité les appliquant aux étapes critiques, les organisations obtiennent une plateforme unifiée pour améliorer l'un de leurs points de douleur les plus importants.

Ce qui rend une approche de plateforme puissante est la façon dont elle connecte les différents mécanismes de contrôle de qualité. Lorsqu'un test de pipeline échoue, la plateforme le lie immédiatement aux spécifications de contrat pertinentes, fournit un contexte à partir des données d'observabilité et déclenche des actions de porte appropriées—tout cela dans un seul workflow.
Alors que les volumes de données continuent de croître et que les écosystèmes deviennent plus complexes, les organisations qui prospéreront seront celles qui adopteront la gestion proactive de la qualité. L'approche de déplacement à gauche n'est pas juste une amélioration technique—c'est un changement culturel qui affecte la façon dont les équipes de données travaillent, collaborent et fournissent de la valeur.
Avec cela en tête, une partie de la construction de la qualité dans le tissu même de vos opérations de données mène à notre prochain sujet—la propriété. Avoir des propriétaires de données, les gouverner et mettre en place la responsabilité appropriée est l'une des tâches les plus difficiles dans le domaine des données aujourd'hui, cela vaut donc dix minutes de votre temps de lecture dans notre prochain article ! Jusque-là, passez un bon dimanche et n'oubliez pas de vous abonner, commenter et partager cet article !
Alors que les données ont évolué de l'analytique vers l'IA, le monde s'est émerveillé des possibilités. Les influenceurs crient : « Tout est possible dans ce monde. Le Big Data, l'IA, et l'IA changeront la donne ». Pourtant, ces gens oublient également un élément clé de ce parcours—la qualité des données.
Les professionnels des données et les dirigeants d'entreprise (au-delà des ingénieurs, analystes ou responsables de la gouvernance) commencent à s'en apercevoir, souvent par nécessité, mais ils le remarquent tout de même…
Bien que moins de personnes crient « Qualité des données » sur les toits (comme elles le font pour l'IA), les bons outils, approches et processus commencent à trouver leur chemin dans les organisations.
Et si vous avez suivi notre parcours de qualité des données jusqu'à présent, vous avez vu ce que cela signifie :
Le problème sous-jacent des causes profondes et la tendance des entreprises à ne traiter que les symptômes
Approches globales pour gérer la qualité des données
Comprendre comment le domaine s'est adapté au monde des données d'aujourd'hui
Explorer le rôle de la détection des problèmes de données par l'observabilité
Chacun de ces articles pose les bases nécessaires pour comprendre comment gérer efficacement la qualité des données. Cependant, nous n'avons même pas abordé correctement la zone la plus « en vogue » de cette industrie : déplacer à gauche.

L'IA est tellement 2023, mais l'IA avec la qualité des données, maintenant c'est tendance (ou peu importe ce que disent les jeunes de nos jours)
Déplacer à gauche signifie déménager les considérations de qualité plus tôt dans le cycle de vie des données et se concentrer sur la prévention plutôt que sur la réaction. Mon point de vue sur l'observabilité est qu'elle devrait être faite à la source (comme définie la semaine dernière), ce qui représente un changement vers la gauche. De plus, il est nécessaire de mettre en œuvre des mesures préventives, guidées par le business, qui empêchent les problèmes de se propager dans votre écosystème de données.
Donc, alors que nous continuons à déplacer à gauche, il y a deux pratiques clés que nous devons expliquer davantage : les contrats de données et les tests.
Ensemble, ils représentent une évolution cruciale dans la gestion de la qualité des données, permettant aux organisations de dépasser les limitations des approches basées uniquement sur l'observabilité et de construire la qualité dans le tissu même de leurs opérations de données. Allons-y !
Qualité des Données au-delà de l'Observabilité
Avant de passer à ce déplacement à gauche, il vaut la peine de revenir une dernière fois à l'Observabilité.
Il y a 5-10 ans, il y avait des outils MDM et des catalogues de données, la qualité des données a vraiment décollé lorsque les entreprises ont commencé à investir dans les outils d'observabilité des données . Nous avons discuté de cela en détail dans l'article de la semaine dernière, y compris la valeur que ces outils apportent au sein d'une plateforme dans tout l'écosystème de données.
Avec les outils d'observabilité, nous avons une visibilité sur les flux de données, les alertes d'anomalies et la capacité de retracer facilement les problèmes jusqu'à leurs sources avec des tableaux de bord intuitifs de santé de qualité. Même cette première étape a été transformatrice pour de nombreuses organisations.
Mais l'observabilité n'est qu'un début. Dans le jeu de la plateforme, elle ne traite que la composante de détection, et à mesure que les volumes/sources de données augmentent exponentiellement et que les écosystèmes de données deviennent de plus en plus complexes, la détection seule devient insuffisante pour plusieurs raisons :
Réaction vs Prévention : La fonctionnalité d'observabilité vous alerte après que des problèmes sont survenus, ce qui signifie que vos consommateurs de données peuvent déjà être affectés
Défis de l'Échelle : Avec des volumes de données massifs, il devient impossible de corriger manuellement chaque erreur que les outils d'observabilité détectent
Persistance des Causes Profondes : Sans aborder les problèmes structurels sous-jacents, les mêmes problèmes continueront de se reproduire
Fatigue des Alertes: Recevoir des notifications d'erreurs ou de problèmes est bien, mais pas si bien lorsque ces alertes ne s'arrêtent pas…
C'est pourquoi la plupart des outils d'observabilité évoluent vers une approche complète avec la plateforme de qualité de données qui s'étend au-delà de la détection pour inclure des mesures préventives. Cela nous permet de penser au déplacement à gauche de manière plus holistique, en considérant les exigences commerciales, les normes de qualité, les mesures de mise en œuvre et la responsabilité nécessaires pour garantir que les données peuvent être utilisées et que les insights ne tournent pas mal.
Dans l'idée de « déplacement à gauche », le producteur de données est responsable de la qualité des données (au lieu du consommateur) et cela a lieu plus tôt dans le processus (en amont). Pourtant, les deux parties doivent travailler ensemble pour s'assurer que les bonnes exigences, outils et processus de gouvernance sont mis en place pour résoudre les problèmes.

Déplacer à gauche signifie simplement penser plus en amont, comme on pourrait le penser avec le bon sens.
Donc, tandis que la détection est essentielle, l'application est la prochaine étape que les entreprises doivent prendre dans leur parcours de qualité des données.
Contrats de Données : Établir les Normes à l'Avance
Le monde des affaires tourne autour des contrats. Pensez à vos SOWs, SLAs, contrats de travail, baux, etc.
Pourquoi cela ? Pour que les deux parties impliquées dans l'accord soient alignées sur les règles et spécifications de ce qui se passe dans cette action
Étant donné que de nombreux problèmes dans l'écosystème des données proviennent d'un manque de communication, le concept de contrats a un mérite considérable !
Je veux dire, réfléchissez à combien les organisations dépensent pour leurs plateformes sans établir le lien entre les producteurs/générateurs de données et les consommateurs de données. Andrew Jones (l'homme qui a inventé le terme Data Contracts) le dit bien dans son livre Driving Data Quality with Data Contracts :
« Les générateurs de données sont éloignés des points de consommation et n'ont aucune idée de qui consomme leurs données, pourquoi ils en ont besoin, et les processus et résultats commerciaux importants qui sont générés par ces données.
De l'autre côté, les consommateurs de données ne savent même pas qui génère les données dont ils dépendent tant et n'ont aucun pouvoir sur leur aspect pour répondre à leurs exigences.
Ainsi, à leur base, les contrats de données sont des accords formels entre les producteurs et consommateurs de données qui définissent explicitement les attentes quant à la structure des données, ce qu'elles signifient et qui en est responsable.
Comme de nombreux autres aspects des données, les contrats s'inspirent de l'ingénierie logicielle et du principe d'encapsulation. L'encapsulation se concentre sur la garantie qu'un changement dans une partie d'un système ne perturbe pas le reste du système. Le contrat, par conséquent, fonctionne pour maintenir le système, en appliquant une gestion des données qui respecte les exigences établies entre producteurs et consommateurs.
Avec cela en tête, un contrat de données efficace repose sur cinq piliers fondamentaux :
Sémantique d'Entreprise : Définitions claires de ce que chaque élément de données représente en termes d'affaires, représentées par une interface généralement convenue (c'est-à-dire le contrat) pour permettre à tout le monde de partager la même compréhension
Attentes de Données : Spécifications explicites pour le schéma, le format, les contraintes et les seuils de qualité que les données doivent respecter. Ceux-ci sont souvent établis et maintenus dans des formats SLA
Propriété Claire : Responsabilités définies pour ceux qui produisent les données, ceux qui les utilisent, ceux qui les maintiennent et ceux à contacter en cas de problème
Application Automatisée : Mécanismes pour valider automatiquement les données par rapport aux spécifications du contrat et gérer les violations
Exigences de Sécurité & Confidentialité : Spécifications sur la façon dont les données doivent être protégées, qui peut y accéder, et comment elles peuvent être utilisées

Une vue d'ensemble de la façon dont un contrat de données s'intègre entre les sources en amont et les pipelines de données, et comment les producteurs & consommateurs interagissent avec celui-ci.
Chacun de ces piliers est important, car ils fournissent une base pour améliorer et surveiller la qualité des données. Mais plus que cela, les contrats de données changent la culture sur la manière dont les données sont utilisées et traitées en appliquant la discipline à la façon dont les données sont générées et traitées pour répondre aux besoins de consommation des données. Au lieu que les équipes techniques devinent comment les données doivent répondre aux attentes commerciales, elles reçoivent des instructions spécifiques sur les besoins de l'entreprise, la façon dont les parties prenantes utiliseront ces données, et les spécifications pour les gérer.
L'avènement de GenAI et des outils low-code/no-code ajoute également un autre élément. Des outils comme Soda intègrent des interfaces simples et intuitives dans un environnement unifié, permettant aux consommateurs de données et aux utilisateurs commerciaux de définir des règles commerciales, établir des normes de données et aligner des stratégies préventives, telles que les contrats de données, avec des capacités avancées comme la détection des anomalies. Cette approche embrasse à la fois les méthodologies "shift left" et "shift right", favorisant une culture plus proactive et réactive de la gestion des données. En revenant à l'aspect culturel, permettre cette collaboration aide à créer l'adhésion et est une gestion transformationnelle/du changement en action (ce qui est la partie la plus difficile de la gestion et de l'utilisation des données).
Alors, quels sont les avantages de cela ?
Améliore la Culture des Données – Plutôt que des processus opaques et des RACIs sur la façon d'utiliser les données, les parties prenantes ont une interface directe et un outil pour définir les normes et définitions.
Clarté de la Propriété – Établit qui est responsable des ensembles de données, permettant une communication directe lorsque des problèmes surviennent ou que des questions doivent être posées. Dans de nombreuses organisations, c'est l'un des principaux obstacles au progrès.
Données Modélisées Sémantiquement – Les équipes d'ingénierie s'appuient sur une structure, mais souvent cela n'est pas construit en pensant à l'entreprise. Aligner les deux par des contrats garantit que les consommateurs de données peuvent tirer des insights des données générées.
Vérification de la Qualité – Les contrôles de qualité des données aident à valider les données par rapport aux exigences des contrats en utilisant le langage et les normes établis par l'entreprise.
Transparence des Flux de Données – Combinés à l'observabilité et aux tests, les contrats de données décomposent les grands pipelines en composants de données gérables, permettant de comprendre les transformations et les structures, et améliorant le temps de résolution.
Honnêtement, il y a de nombreux autres avantages au-delà de ces cinq, mais cela dépend vraiment de la façon dont vous mettez en œuvre et utilisez les contrats de données. C'est toujours un domaine très précoce et émergent, et les équipes peuvent emprunter de multiples directions avec elles (surtout en fonction des outils/facon de les intégrer dans leur écosystème). L'essentiel est de s'assurer que les producteurs et consommateurs de données comprennent l'importance des contrats et que l'interface pour les utiliser soit claire/facile à utiliser.
Cet article n'entre pas dans les détails techniques de la mise en place d'un Contrat de Données, mais je vous encourage vivement à lire le livre d'Andrew Jones ou à consulter le site de Soda pour savoir comment faire. Les plateformes de qualité des données, comme celle de Soda, commencent même à améliorer l'interface utilisateur du développement des contrats avec des ML intégrés et une interface low-code/no-code, facilitant le développement des contrats. Rendre cela plus intuitif est définitivement la prochaine étape et aidera immensément les organisations à mettre en œuvre ces outils utiles !
Explication des Contrôles de Qualité & Tests
Avec des contrats, nous avons établi à quoi "bon" ressemble.
Nous devons maintenant appliquer ces spécifications par des contrôles de qualité des données et des tests. Ces deux éléments garantissent que les données répondent effectivement à ces normes tout au long de leur parcours de transformations de données.
Cette pratique déplace les contrôles de qualité de la validation post-traitement (standard dans les jeux d'observabilité pure) à la vérification en cours de processus, en intégrant directement avec les flux de travail CI/CD et les pipelines de données. Par conséquent, à mesure que des modifications de code sont apportées, les équipes peuvent plus efficacement identifier et résoudre les problèmes avant qu'ils n'impactent les systèmes en aval.
Bien que tout cela ait du sens au niveau élevé, les spécificités deviennent rapidement compliquées. Écrire cette section a pris beaucoup de temps car il y a tellement de façons d'aborder les tests, et cela ne s'aligne pas toujours sur les contrôles de qualité des données, les postes de contrôle ou les contrats.
Repartons cela en trois étapes qui relient les contrats, les postes de contrôle de qualité et les tests.

1) Comment Mettre en Place des Portes de Qualité pour Appliquer les Flux de Données
Les portes de qualité servent de points de contrôle à des étapes critiques dans vos flux de données où les données doivent satisfaire des critères spécifiés avant de continuer. Elles permettent essentiellement d'opérationnaliser vos contrats de données.
Pour mettre en place des portes de qualité efficaces :
Identifier des points de transition critiques dans votre flux de données où la validation de la qualité apporte une valeur maximale
Définir des critères clairs de pass/fail basés sur vos contrats de données
Établir des protocoles de réponse pour ce qui se passe lorsque les données ne respectent pas les normes
Mettre en œuvre des mécanismes automatisés pour appliquer ces portes sans intervention manuelle (les plateformes/outils de qualité des données sont essentiels pour cela)
L'implémentation la plus efficace des portes de qualité suit une approche par niveaux :
Portes critiques: Bloquer les données non conformes entièrement (par exemple, rejeter les enregistrements avec des champs obligatoires manquants)
Portes d'avertissement: Permettre aux données de progresser mais signaler des problèmes potentiels pour examen (par exemple, des distributions de valeurs inhabituelles)
Portes de surveillance: Suivre les métriques de qualité sans entraver le flux de données (par exemple, suivi de statistiques au niveau des champs)
Ceci s'intègrerait et s'alignerait avec toutes les fonctionnalités d'observabilité que la plateforme pourrait avoir, en alertant les utilisateurs ou les équipes d'ingénierie selon la priorité. Alors que les outils d'observabilité commencent à intégrer l'apprentissage machine et l'intelligence artificielle pour mieux détecter ces dégradations de qualité, nous pourrions voir de meilleurs diagnostics du problème ou même des correctifs automatisés. Cela sera crucial pour alléger la charge des équipes d'ingénierie déjà surchargées.
2) Où Implémenter les Tests à Différentes Étapes du Cycle de Vie des Données
Avec les portes de qualité mises en place et les normes de données définies par les contrats, le prochain mécanisme d'application (et le plus important) entre en jeu—les Tests !
Les tests sont une pratique fondamentale dans toutes les disciplines de l'ingénierie, mais les tests de qualité des données présentent des défis uniques par rapport aux tests logiciels traditionnels. Alors que les tests logiciels vérifient généralement des fonctions déterministes avec des entrées et sorties clairement définies, les tests de qualité des données doivent gérer la variabilité inhérente, le volume et la nature évolutive des données elles-mêmes.
Dans l'écosystème moderne des données, les tests apparaissent sous différentes formes à des étapes clés du cycle de vie :
1. Tests de Développement - Appliqués pendant le développement de code pour détecter les problèmes avant qu'ils n'entrent en production. Les ingénieurs de données mettent en œuvre des tests unitaires pour la logique de transformation et des contrôles de validation contre des ensembles de données d'échantillon. Contrairement aux tests logiciels traditionnels, les tests de développement de données doivent tenir compte de la représentativité des distributions de données et des cas extrêmes qui pourraient uniquement apparaître dans les données en échelle de production. Cette étape est cruciale car détecter les problèmes pendant le développement peut être 10 fois moins coûteux que de les adresser en production.
2. Tests de Pipeline CI/CD (Intégration Continue et Déploiement/Delivery) - Le CI/CD est où de nombreuses équipes, plateformes et outils de données échouent. Ici, les tests vont au-delà des processus de déploiement des codes et des fonctionnalités, en validant également la compatibilité des données et la préservation de la qualité. Sur la base des contrats (ou des entrées manuelles), les pipelines sont testés pour l'évolution du schéma, la compatibilité à rebours et la précision des transformations. Ces tests garantissent que les changements des pipelines de données n'affaiblissent pas les normes de qualité existantes ou n'introduisent pas de distorsions de données subtiles qui pourraient ne pas être détectées dans les tests de fonctionnalités.
3. Tests en Runtime - À mesure que le traitement et les transformations se produisent, cette couche de tests assure que les pipelines fonctionnent à l'échelle de production et à la vitesse tout en vérifiant que chaque étape de transformation préserve ou améliore la qualité des données. Les tests en runtime détectent les problèmes qui ne se manifestent qu'avec des volumes de données à l'échelle de production ou des motifs de données spécifiques qui n'étaient pas présents dans les ensembles de données de test. Dans les architectures de données modernes, cela implique souvent d'intégrer les contrôles de qualité directement dans les frameworks de traitement de données comme Spark, Flink ou dbt.
4. Tests Programmés - Il s'agit de tests périodiques pour vérifier la qualité continue des ensembles de données statiques, qui peuvent être stockés dans un entrepôt ou un data mart. Reconnaissant que la qualité des données est une préoccupation continue, ces tests identifient les dérives de qualité dans les ensembles de données existants et détectent les motifs ou anomalies émergents qui se développent au fil du temps. Les tests programmés garantissent que vos actifs de données restent fiables tout au long de leur cycle de vie.
Il y a beaucoup d'autres éléments de testing que nous n'abordons pas ici (par exemple, ML Ops, systèmes, etc.), mais ce que vous pouvez voir de ces quatre exemples est que les tests de qualité des données représentent beaucoup de travail. Avec la quantité croissante de données et la multitude de sources, ils doivent gérer l'incertitude, l'évolution et le contexte d'une manière que les tests traditionnels n'ont pas. Même si les valeurs de données sont techniquement valides, elles peuvent néanmoins représenter des problèmes dans le contexte (comme un changement soudain de distribution), et les tests doivent être suffisamment sophistiqués pour identifier ces problèmes nuancés tout en évitant les fausses alertes. D'où la combinaison avec les contrats et le besoin d'automatiser !
3) Quels Types de Tests sont Couramment Réalisés pour Vérifier les Données
Okay, maintenant que nous comprenons les portes de contrôle et où les tests sont réalisés, quels types de tests sont réalisés? Cela revient à mon graphique préféré de mon premier article sur la qualité des données, qui discutait des différentes mesures de qualité, car chacun de ces tests aborde un composant de cela.
Il vaut la peine de noter que c'est un sous-ensemble de tests, et le contexte spécifique ou les sources de données peuvent justifier des tests/approches uniques pour déterminer et valider la qualité :
Schéma : Valide que les données adhèrent aux structures attendues, y compris les noms de champs, les types de données et les relations, empêchant les problèmes structurels de base qui casseraient les processus en aval
Actualité : Garantit que les données répondent aux exigences de fraîcheur et arrivent dans des délais attendus, empêchant la prise de décision basée sur des informations obsolètes ou retardées
Niveau ligne : Valide les enregistrements individuels par rapport aux règles et contraintes commerciales. Cela inclut la validation du format, les contrôles des champs obligatoires et la conformité aux exigences spécifiques à l'entreprise
Unicité : Vérifie que les valeurs censées être uniques (comme les ID ou clés) ne contiennent pas de doublons, aidant à maintenir l'intégrité des données et empêchant les problèmes de jointure
Valeurs nulles/blanches : Identifie les valeurs manquantes et s'assure qu'elles sont traitées de manière appropriée en fonction des exigences de l'entreprise, prévenant les erreurs inattendues liées aux valeurs nulles dans les transformations et analyses
Volume : Confirme que les quantités attendues de données sont présentes, attrapant les problèmes de transferts de données incomplets ou de lots manquants. Ce test fournit un avertissement précoce des échecs d'absorption ou de traitement
Relation : Valide que les relations entre les ensembles de données sont maintenues, y compris l'intégrité référentielle et la cardinalité attendue. Si une organisation a un modèle de données correctement configuré, ce type de test est crucial pour le maintenir !
Plage/Seuil : Assure que les valeurs numériques se situent dans des limites acceptables et signale les valeurs extrêmes pour examen
Patron : Détecte si les données correspondent aux patterns attendus, comme les adresses e-mail ou les numéros de carte de crédit, pour empêcher les entrées invalides. Cela deviendra plus courant à mesure que l'apprentissage machine/IA avancera et est un élément différenciateur clé dans certaines plateformes de qualité de données existantes
Tous ces types de tests peuvent être utilisés en conjonction avec les différentes situations identifiées ci-dessus pour vérifier la qualité des données aux portes de qualité spécifiées. En combinant ces trois éléments, toute personne peut voir comment la gestion de la qualité passe de la détection réactive à la prévention proactive, réduisant ainsi très significativement l'impact commercial des problèmes de qualité des données.
Cartographie du Flux des Données de la Source au Produit (et Où Vous Devez Considérer la Qualité !)
Comme nous pouvons le voir, l'application est cruciale pour établir des normes et maintenir une haute qualité des données dans toute l'organisation. La plus grande question est de savoir comment l'intégrer tout au long de votre cycle de vie des données ?
Ci-dessous, vous pouvez voir la vue d'ensemble du point de vue du passage de l'écosystème des données avec l'application—les contrats, les portes de qualité et les composants de test soulignés le long du parcours des données.

Avoir les tests, l'observabilité et les contrats appropriés aux bons endroits est crucial pour un système de qualité des données de bout en bout.
Systèmes Sources : Vérification des Données dès le Début
Comme je l'ai déjà décrit, le suivi de la qualité des données doit commencer là où les données prennent leur origine, à la source. Les Contrats de Données établissent les attentes initiales pour la structure, la sémantique et les exigences de qualité des données des systèmes producteurs. En travaillant avec les propriétaires de systèmes sources, l'équipe/les ingénieurs de qualité des données peuvent établir des attentes claires concernant la qualité des données d'origine. Cela devrait également inclure les SLA de la source de données et des informations sur leur schéma et leurs connecteurs/API.
Les Portes de Qualité devraient être établies aux points de terminaison API et là où les données sont extraites de la source, garantissant l'alignement des données sur ces normes. Enfin, les Tests devraient se concentrer sur la validation du format, l'exhaustivité et la vérification des règles d'affaires lors de la création de données. Ainsi, si les systèmes sources modifient leur schéma, format ou API, l'équipe de données le saura. Les outils d'observabilité sont d'une aide appréciable à cet égard, automatisant de nombreux aspects du test à la source.
Ingestion des Données : Là Où se Produisent la Plupart des Problèmes
L'ingestion des données est un défi; la transition des systèmes externes vers les systèmes internes n'est presque jamais simple. C'est là que commence la propriété des données et où les données évoluent du brut au légèrement nettoyé, avec un traitement initial et une standardisation intégrée dans les pipelines d'ingestion (bien que la plupart du nettoyage soit traité à la couche de transformation).
Vous pouvez probablement utiliser les mêmes composants de Contrats de Données que ceux mis en place pour le système source initial. Cependant, il devrait y avoir des exigences post-ingestion plus spécifiques guidées par le consommateur qui doivent être prises en compte. Celles-ci se concentreraient sur les changements de traitement initiaux ou la standardisation des KPI, surtout si plusieurs sources de données se rejoignent. Cependant, il est probable que tout cela sera intégré dans le contrat initial.
Si vous utilisez une approche ETL standard, les Portes de Qualité peuvent être établies entre les phases d'extraction et de chargement pour identifier les problèmes lors de la transition de la source vers le stockage. Les tests CI/CD et autres pipelines seront cruciaux à cette étape, car ils valident le schéma et les normes de données, le volume et la duplication à mesure que les données entrent dans les systèmes internes. Cela ressemble aux tests du système source, mais les normes de qualité entre les systèmes (et l'adhésion au modèle de données de l'organisation) seront plus marquées. Le non-respect de ces normes entraînera le rejet et la notification aux ingénieurs.
Couche de Transformation : Préservation de la Qualité à travers le Changement
La couche de transformation voit souvent la plus forte concentration de problèmes de qualité des données, car les transformations peuvent introduire des erreurs, des incohérences ou des effets secondaires involontaires. C'est là où le nettoyage et la standardisation plus robustes ont lieu, aidant à construire les actifs de données de base que les équipes d'analyse et d'affaires utiliseront dans leur travail de données.
Comme précédemment, les Contrats de Données doivent inclure la stipulation des transformations nécessaires pour que les consommateurs de données obtiennent les insights qu'ils désirent/nécessitent. Ici, l'accent doit être mis sur les règles d'affaire, en s'assurant que la logique commerciale est correctement appliquée et maintenue à travers les transformations. Les Portes de Qualité doivent se situer entre les principales étapes de transformation (par exemple, transformation des KPI, fusion des données clients de plusieurs sources, etc.), car c'est là que le traitement est le plus susceptible de mal tourner. Pour vérifier les portes de qualité, les Tests devraient valider des éléments similaires à ceux précédemment (par exemple, nulls, blancs, volume, plages, etc.) ainsi que les relations et les règles d'affaires. Les tests de performance par les ingénieurs devraient également être pris en compte ici, car la réduction des ressources informatiques requises présente des avantages tant du point de vue des coûts que du temps.
Couche de Service : Validation de la Qualité pour les Consommateurs
La couche de service est là où les consommateurs de données commencent à accéder aux données et à évaluer si elles leur font vraiment confiance. Par conséquent, une couche de service de haute qualité est essentielle pour stimuler l'adoption et assurer une valeur commerciale des investissements dans les données.
Voici où les Contrats de Données sont remplis. Les données servies correspondent-elles à ce que veulent les consommateurs de données ? Les Portes de Qualité établies entre le stockage et les points d'accès aux données devraient le vérifier, garantissant que les données sont de haute qualité et respectent les normes de contrat. Dans Testing, les mêmes tests peuvent être effectués comme avant pour garantir la qualité, mais vous pouvez ajouter des cas d'utilisation spécifiques ou des tests de fraîcheur pour assurer que les données fonctionneront contre les besoins du consommateur.
Avec cela, les données deviennent disponibles et la confiance est établie—ou pas. Un autre point est d'inclure des mécanismes de feedback et des canaux pour que les consommateurs de données signalent les problèmes de qualité ou suggèrent de nouveaux contrôles de qualité. Les outils de plateforme de qualité des données sont utiles pour cela, étant donné leur intégration des alertes et notifications, qui fournissent un mécanisme de communication entre les producteurs de données, les correcteurs (également connus sous le nom d'ingénieurs) et les consommateurs.
La Considération Holistique de l'Application de la Qualité des Données
Alors que l'attention sur la qualité des données continue d'évoluer, il est clair que penser de manière plus holistique est la réponse.
Le passage de la réactivité à la proactivité se produit au moment où nous parlons et les organisations reconnaissent la nécessité de construire de la qualité dans leur écosystème de données plutôt que d'essayer de l'inspecter après coup.
Et il est extrêmement encourageant de voir des entreprises créer des produits holistiques qui englobent l'observabilité et l'application. En fournissant une solution de bout en bout pour valider la qualité des données, ces outils permettent aux entreprises de définir, de surveiller et de gérer leurs données de la source à la consommation. Avec des contrats de données établissant les normes, des tests validant ces normes et des portes de qualité les appliquant aux étapes critiques, les organisations obtiennent une plateforme unifiée pour améliorer l'un de leurs points de douleur les plus importants.

Ce qui rend une approche de plateforme puissante est la façon dont elle connecte les différents mécanismes de contrôle de qualité. Lorsqu'un test de pipeline échoue, la plateforme le lie immédiatement aux spécifications de contrat pertinentes, fournit un contexte à partir des données d'observabilité et déclenche des actions de porte appropriées—tout cela dans un seul workflow.
Alors que les volumes de données continuent de croître et que les écosystèmes deviennent plus complexes, les organisations qui prospéreront seront celles qui adopteront la gestion proactive de la qualité. L'approche de déplacement à gauche n'est pas juste une amélioration technique—c'est un changement culturel qui affecte la façon dont les équipes de données travaillent, collaborent et fournissent de la valeur.
Avec cela en tête, une partie de la construction de la qualité dans le tissu même de vos opérations de données mène à notre prochain sujet—la propriété. Avoir des propriétaires de données, les gouverner et mettre en place la responsabilité appropriée est l'une des tâches les plus difficiles dans le domaine des données aujourd'hui, cela vaut donc dix minutes de votre temps de lecture dans notre prochain article ! Jusque-là, passez un bon dimanche et n'oubliez pas de vous abonner, commenter et partager cet article !
Trusted by the world’s leading enterprises
Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.
At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava
Director of Data Governance, Quality and MLOps
Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake
Director of Product-Data Platform
Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta
Data Engineering Manager
Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie
Head of Data Engineering
4,4 sur 5
Commencez à faire confiance à vos données. Aujourd'hui.
Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.
Adopté par




Trusted by the world’s leading enterprises
Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.
At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava
Director of Data Governance, Quality and MLOps
Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake
Director of Product-Data Platform
Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta
Data Engineering Manager
Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie
Head of Data Engineering
4,4 sur 5
Commencez à faire confiance à vos données. Aujourd'hui.
Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.
Adopté par
Solutions




Trusted by the world’s leading enterprises
Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.
At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava
Director of Data Governance, Quality and MLOps
Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake
Director of Product-Data Platform
Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta
Data Engineering Manager
Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie
Head of Data Engineering
4,4 sur 5
Commencez à faire confiance à vos données. Aujourd'hui.
Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.
Adopté par
Solutions



