Élaboration de la qualité des données dans une pile de données moderne

Élaboration de la qualité des données dans une pile de données moderne

22 juin 2023

Koen Van Duyse

Koen Van Duyse

Koen Van Duyse

Ancien Responsable des Clients et Partenaires chez Soda

Ancien Responsable des Clients et Partenaires chez Soda

Ancien Responsable des Clients et Partenaires chez Soda

Table des matières

Nous voulions fournir des ensembles de données de haute qualité, livrés en quasi temps réel, afin que les tableaux de bord reflètent les données en direct dès qu'elles arrivent. Et au-delà de la simple résolution des problèmes techniques, nous voulions transformer l'organisation en une véritable entreprise axée sur les données — permettant une prise de décision ancrée dans des données précises et opportunes.

Nous voulions fournir des ensembles de données de haute qualité, livrés en quasi temps réel, afin que les tableaux de bord reflètent les données en direct dès qu'elles arrivent. Et au-delà de la simple résolution des problèmes techniques, nous voulions transformer l'organisation en une véritable entreprise axée sur les données — permettant une prise de décision ancrée dans des données précises et opportunes.

Nous voulions fournir des ensembles de données de haute qualité, livrés en quasi temps réel, afin que les tableaux de bord reflètent les données en direct dès qu'elles arrivent. Et au-delà de la simple résolution des problèmes techniques, nous voulions transformer l'organisation en une véritable entreprise axée sur les données — permettant une prise de décision ancrée dans des données précises et opportunes.

Gu Xie

Gu Xie

Responsable de l'ingénierie des données

Responsable de l'ingénierie des données

Responsable de l'ingénierie des données

à

Group1001

Group1001

Group1001

Group 1001 est une entreprise de services financiers axée sur la technologie qui gère un portefeuille diversifié de produits d'assurance et d'investissement. La vision de l'entreprise pour les données est pragmatique : chaque système doit permettre des décisions plus rapides et plus précises tout en maintenant une confiance totale dans les informations sous-jacentes.

Mais à mesure que les volumes de données augmentaient et que les systèmes se développaient, l'équipe de données faisait face à des difficultés croissantes pour maintenir l'exactitude, la rapidité et la cohérence des sources. Les équipes passaient des heures à vérifier manuellement l'intégrité des données et à réconcilier les incohérences entre les systèmes. Ce processus était chronophage, sujet aux erreurs et offrait une évolutivité limitée.

Pour surmonter ces défis, en 2022, Gu Xie, alors nouveau responsable de l'ingénierie des données chez Group 1001, a entrepris de créer une architecture de données moderne : un écosystème modulaire et interopérable d'outils conçus pour automatiser, intégrer et étendre les opérations de données. Dans cette transformation, Soda est devenue le composant critique qui a rendu la qualité des données visible, automatisée et accessible à tous.

En moins d'un an, une équipe de cinq personnes chez Group 1001 a construit une architecture de données moderne qui a automatisé des centaines de vérifications de qualité et a multiplié par 10 la productivité, prouvant que la fiabilité à l'échelle de l'entreprise ne nécessite pas des équipes à grande échelle.

Le défi : passer des vérifications manuelles à une architecture de données moderne

Avant la modernisation, les efforts de l'équipe de données étaient principalement axés sur la validation manuelle et la réconciliation. Les ingénieurs en données commençaient souvent leurs matins par un examen des pipelines cassés et des tables incohérentes, résolvant les problèmes avant que les utilisateurs commerciaux ne puissent commencer leur journée.

« Je devais me lever à 6 heures du matin chaque matin. Et si quelqu'un me connaît, je ne suis pas une personne du matin. Mais je devais effectuer ces vérifications pour m'assurer que les données étaient réellement présentes. Bien souvent, on ne savait même pas si les données étaient là. Nous vérifiions simplement les bases pour pouvoir exécuter des rapports et informer l'entreprise lorsqu'il y avait un problème. » — Gu Xie

Cette approche réactive a entraîné des goulots d'étranglement qui ralentissaient l'analyse et réduisaient la confiance dans les rapports. En raison du manque de surveillance automatisée, les problèmes étaient souvent découverts après qu'ils avaient atteint les tableaux de bord ou les applications commerciales en aval.

L'infrastructure de l'entreprise évoluait également rapidement. De nouveaux outils d'ingestion, de transformation et d'orchestration ont été introduits, chacun avec leur propre modèle opérationnel. En conséquence, l'intégration et l'assurance de normes cohérentes de qualité des données à travers cette pile diversifiée sont devenues critiques.

À l'époque, leur petite équipe de données, composée de seulement 5 personnes en charge d'un écosystème qui soutenait de multiples fonctions commerciales, comprenait qu'ils avaient besoin d'outils non seulement performants en isolation mais aussi intégrés naturellement dans un écosystème cohérent. Pour évoluer efficacement, ils avaient besoin d'outils qui réduisent la charge opérationnelle, automatisent les tâches répétitives et fournissent de la transparence tout au long du cycle de vie des données.

En résumé, l'équipe avait des priorités claires :

  • Automatiser la validation de la qualité pour éliminer les vérifications manuelles.

  • Intégrer l'observation directement dans les pipelines et les flux de travail.

  • S'intégrer sans heurts avec les technologies existantes, sans ajouter de frictions.

  • Permettre les tests de qualité en libre-service pour les analystes et les utilisateurs métiers.

La solution : concevoir pour l'intégration et l'efficacité

Le principe directeur de Group 1001 était clair : l'efficacité par l'interopérabilité. Au lieu de construire un système monolithique, l'équipe a adopté une approche modulaire, combinant des outils répondant à leurs besoins et s'ajustant avec un minimum de friction.

L'équipe a commencé par moderniser l'ingestion et le stockage. Fivetran a automatisé le transfert des données depuis les systèmes opérationnels vers Snowflake, garantissant la rapidité et la cohérence. Coalesce a simplifié les pipelines de transformation, tandis que Dagster gérait les flux de travail complexes avec fiabilité et visibilité.

La dernière pièce était la qualité des données. Group 1001 avait besoin d'une solution légère, flexible et facile à intégrer dans les pipelines existants. Lors de l'évaluation des solutions de qualité des données, Group 1001 faisait face à une décision commune : construire ou acheter ?

Construire à partir de zéro nécessiterait :

  • Développement et maintenance de cadre personnalisé

  • Création de bibliothèque de modèles de vérification

  • Système de suivi des échecs et d'alerte

  • Interface utilisateur pour les non-techniciens

  • Ressources d'ingénierie continues pour les mises à jour

Ayant déjà construit des processus de qualité des données depuis zéro dans ses rôles antérieurs, Gu comprenait le véritable coût du développement personnalisé.

« Au début, nous exécutons manuellement des requêtes quotidiennes. Je pensais : “Eh bien, nous pourrions construire un simple wrapper pour les exécuter automatiquement”, mais pour les opérations à l'échelle de l'entreprise, cela ne suffit pas. Vous avez besoin de vérifications standardisées, de modèles pour l'unicité, la fraîcheur, les vérifications de référence, les validations statistiques, et plus. En plus de cela, vous avez besoin d'une façon de suivre les échecs, d'apprendre d'eux et de répondre de manière appropriée.

Quand j’ai évalué Soda, surtout l'offre cloud, j'ai vu toutes ces capacités déjà intégrées : bibliothèques de vérifications, personnalisation, flexibilité et modèles. Essentiellement, cela signifiait que je n'avais pas à reconstruire ce qui existait déjà - c'était prêt à évoluer pour l'organisation.” — Gu Xie

Après avoir considéré plusieurs outils, Group 1001 a choisi Soda pour sa flexibilité et ses capacités intégrées. Mais ce qui a le plus séduit l'équipe de données, c'est la façon dont Soda s'est intégré sans effort dans leur écosystème de données plus large.

« Trois jours plus tard, nous avons déployé Soda, en utilisant la version open-source, en production. Maintenant, il exécute automatiquement toutes les vérifications que nous effectuions manuellement et même arrête l'actualisation des rapports si quelque chose ne va pas, de sorte que l'activité n'est jamais impactée. Et parce que nous avons cette vérification en place, je peux maintenant dormir et me concentrer sur d'autres tâches. C’est de la valeur ajoutée là - c'est assez clair si vous me demandez. » — Gu Xie

Au début de ce projet, lors de la migration des données de PostgreSQL vers Snowflake, les vérifications Soda ont été utilisées pour vérifier les comptes de lignes et l'alignement des schémas, garantissant une réconciliation précise. Cette capacité a éliminé des heures de comparaison manuelle et a considérablement réduit le risque lors des transitions.

« Nous avons combiné Snowflake avec Airflow à l'époque, et utilisé Soda pour gérer beaucoup de la réconciliation lors de la migration. C'était essentiel pour s'assurer que la qualité des données était maintenue tout en réglant la migration sur quelques semaines avant mise en service. » - Gu Xie

L'équipe a commencé avec le cadre open-source de Soda pour gérer les vérifications répétitives de qualité, surveiller les comptes d'enregistrements, la complétude et les changements de schémas. À mesure que les besoins augmentaient, ils ont adopté Soda Cloud, débloquant plus de fonctionnalités de collaboration, de gouvernance et d'alerte.

Soda se connecte maintenant à chaque couche majeure de la pile de Group 1001 :

  • Dagster déclenche les vérifications Soda pendant les exécutions de pipelines, attrapant les problèmes avant que les données n'atteignent les utilisateurs finaux.

  • Snowflake sert de fondation, Soda vérifiant la cohérence des données à travers les migrations et mises à jour.

  • Coalesce intègre des tests post-transformation, garantissant que les résultats respectent les seuils de qualité définis.

  • Atlan expose les mesures de qualité de Soda dans son catalogue, reliant l'observabilité à la traçabilité des données.

Voir toutes les intégrations Soda

Cette architecture permet une couverture complète de la qualité des données avec un minimum d'effort d'ingénierie.

Image prise de Group 1001 augmente la productivité par 10x par Fivetran

« Le vrai retour sur investissement a toujours été la productivité de nos ingénieurs, la productivité de nos analystes - pour ne pas passer du temps à dépanner et à éteindre des incendies chaque jour, pour passer plus de temps à découvrir de nouvelles informations et à apporter plus de valeur. » — Gu Xie

L'impact : la qualité des données comme un catalyseur

L'introduction de Soda a déplacé l'état d'esprit de l'équipe de données de correctifs réactifs à une surveillance proactive. Ce qui nécessitait autrefois une inspection manuelle se produit maintenant automatiquement sur des centaines de jeux de données.

Chaque vérification de qualité s'exécute dans le cadre de l'exécution du pipeline, créant une boucle continue de validation.

La configuration conviviale en YAML de Soda la rend également accessible aux non-ingénieurs. Les analystes de données pouvaient créer leurs propres tests, examiner les résultats dans Soda Cloud et collaborer avec les ingénieurs pour affiner les seuils, le tout sans beaucoup d'expérience en codage.

La simplicité de la configuration YAML signifie qu'un membre de l'équipe QA, sans expertise approfondie en SQL, peut créer et déployer des vérifications de manière indépendante pour les flux de données de fournisseurs. Cette capacité en libre-service s'est avérée essentielle pour étendre la fiabilité des données. Les analystes, qui s'appuyaient autrefois sur les ingénieurs pour la validation, peuvent maintenant surveiller indépendamment leurs propres ensembles de données, réduisant la dépendance et le temps de réponse.

« Avec SodaCloud, nous n'avons pas besoin d'un utilisateur très technique pour créer des vérifications. Un analyste commercial ou un analyste de données peut écrire et provisionner des vérifications eux-mêmes grâce au libre-service. C'est ce que j'ai vraiment aimé avec SodaCloud - cela a permis une vision plus grande pour l'organisation. » — Gu Xie

Exemple de checks.yaml Soda

dataset: dim_product

owner: zaynabissa@company.com

columns:
- name: id
  data_type: VARCHAR
  checks:
  - type: duplicate_count
- name: size
  data_type: VARCHAR
  checks:
  - type: invalid_count
    valid_values: ['S', 'M', 'L']
    must_be_greater_than_or_equal: 10
- name: distance
  checks:
  - type: invalid_count
    valid_min: 0
    valid_max: 1000
- name: created
  optional: true

checks:
  - type: row_count

Les résultats de la nouvelle architecture de données de Group 1001 ont été immédiats :

Réduction de la charge opérationnelle

Les étapes de validation répétitives antérieures sont maintenant automatisées. Les ingénieurs passent moins de temps à dépanner, et les problèmes sont détectés plus tôt, avant d'atteindre les utilisateurs finaux. Cette approche proactive a considérablement réduit les temps d'arrêt et les révisions.

Couverture de qualité évolutive

Chaque pipeline comprend désormais des vérifications automatisées. Les nouveaux ensembles de données sont intégrés avec des règles standardisées et les problèmes sont détectés avant leur propagation. L'équipe peut facilement étendre la surveillance à mesure que de nouvelles sources ou transformations sont ajoutées.

Amélioration de la collaboration et de la confiance

En intégrant Soda avec Atlan, Group 1001 a amené la visibilité de la qualité dans son catalogue, permettant aux consommateurs de données d'évaluer instantanément les niveaux de confiance. Les parties prenantes commerciales ont maintenant plus de confiance dans les rapports et les informations qu'elles utilisent pour prendre des décisions.

Pour Group 1001, le résultat le plus important de ce processus de modernisation a été que les données sont devenues un actif sur lequel ils peuvent compter, et non une responsabilité à contourner.

Métrique

Avant Soda

Après Soda

Vérifications de la qualité des données

Manuel, 6h du matin quotidien

Automatisé, continu

Détection des problèmes

Après impact commercial

Avant propagation

Livraison analytique

Mois

Quelques jours

Risque de migration

Élevé (validation manuelle)

Faible (réconciliation automatisée)

Capacité de l'équipe

Centré sur les urgences

Centré sur le travail stratégique

Confiance commerciale

Données retardées, peu fiables

Données en quasi temps réel, fiables

Auteurs des vérifications de qualité

Seulement ingénieurs

Analystes + Ingénieurs

Cette transformation a été réalisée par une équipe de 5 personnes en moins de 12 mois, démontrant que les bons choix d'outillage peuvent fournir un impact à l'échelle de l'entreprise sans équipes à grande échelle.

Construire une culture de confiance dans les données

Au-delà de la technologie, l'adoption de Soda a aidé à faire évoluer la culture des données de Group 1001. La qualité des données n'est plus la responsabilité exclusive des ingénieurs, elle fait partie de la façon dont chaque équipe travaille avec les données. Analyses et ingénieurs contribuent à définir les attentes de qualité, écrire des vérifications et examiner les résultats.

La transparence des tableaux de bord Soda Cloud rend les problèmes de qualité visibles pour tout le monde, favorisant la responsabilisation et l'amélioration continue.

« Maintenant, nous sommes proactifs. Nous savons qu'il y a un problème, nous informons les équipes, nous le résolvons, et en le résolvant, nous pouvons également appliquer une autre règle de qualité des données pour s'assurer que cela ne se reproduise plus. C'est comme ça que nous reprenons le contrôle de nos ensembles de données. » — Gu Xie

Cette approche collaborative a également influencé la gouvernance interne. L'équipe codifie maintenant les leçons apprises dans des modèles réutilisables, garantissant que les normes de qualité sont constamment appliquées à de nouveaux projets. Avec le temps, ce cadre est devenu une base pour la confiance dans les données à travers l'organisation.

« La façon dont je vois Soda et la façon dont cela nous aide réellement à transformer et la valeur que nous obtenons est le fait que nous pouvons dormir la nuit en sachant que nos processus fonctionnent, que nous pouvons faire confiance que si tout est terminé et le cycle est complet et que nous pouvons voir les données maintenant dans notre tableau de bord rafraîchi, nous pouvons lui faire confiance. » — Gu Xie

Regard vers l'avenir : observabilité pilotée par les métadonnées

La prochaine phase de Group 1001 se concentre sur le renforcement du lien entre les métadonnées et l'observabilité de la qualité. En reliant les métriques de validation de Soda avec les données de traçabilité d'Atlan, l'entreprise vise à créer une boucle de rétroaction intelligente qui priorise automatiquement les améliorations de qualité en fonction de l'utilisation des données et de l'impact commercial.

Pour Gu Xie, la stratégie reste claire : garder la pile modulaire, interopérable et axée sur permettre aux gens de faire plus avec les données.

« Parce que nous utilisons ce catalogue pour héberger tous les actifs de données, nous pouvons maintenant le partager avec les départements, les équipes et même différentes entreprises. Nous pouvons maintenant véritablement démocratiser les données au sein de l'organisation. » — Gu Xie

Points clés à retenir

Le parcours de Group 1001 offre des enseignements pratiques pour les organisations confrontées à des défis similaires :

  • Si vous vous réveillez pour vérifier les données manuellement : Commencez par l'automatisation. N'attendez pas d'avoir une infrastructure parfaite ; résolvez le point douloureux immédiat.

  • Si vous avez une petite équipe soutenant de grands besoins : Les meilleurs outils sont votre multiplicateur de force. 

  • Si vous planifiez une migration de plateforme : Faites de la qualité des données votre filet de sécurité. La validation automatisée est moins chère que l'échec de la migration.

  • Si votre organisation ne fait pas confiance aux données : Commencez à mesurer ce qui compte. Pas le nombre de vérifications, mais la réduction des problèmes récurrents. 

  • Si vous hésitez entre construire ou acheter : Considérez le coût d'opportunité. Les semaines passées à construire une infrastructure de qualité des données sont des semaines non passées à fournir des informations commerciales. Soda a donné à Group 1001 des capacités de niveau entreprise en quelques jours, pas des mois.

Clause de non-responsabilité : Ce matériel a été créé en 2023. Veuillez noter que les chiffres et les statistiques peuvent avoir changé depuis sa publication.

Regardez l'entretien

Écoutez plus de Gu Xie, responsable de l'ingénierie des données chez Group 1001, dans l'interview podcast Fizz : Construire une architecture de données moderne

Contactez-nous

Planifiez une démonstration avec l'équipe Soda pour découvrir comment vous pourriez optimiser votre stratégie de qualité des données à travers tout votre écosystème de données.

Group 1001 est une entreprise de services financiers axée sur la technologie qui gère un portefeuille diversifié de produits d'assurance et d'investissement. La vision de l'entreprise pour les données est pragmatique : chaque système doit permettre des décisions plus rapides et plus précises tout en maintenant une confiance totale dans les informations sous-jacentes.

Mais à mesure que les volumes de données augmentaient et que les systèmes se développaient, l'équipe de données faisait face à des difficultés croissantes pour maintenir l'exactitude, la rapidité et la cohérence des sources. Les équipes passaient des heures à vérifier manuellement l'intégrité des données et à réconcilier les incohérences entre les systèmes. Ce processus était chronophage, sujet aux erreurs et offrait une évolutivité limitée.

Pour surmonter ces défis, en 2022, Gu Xie, alors nouveau responsable de l'ingénierie des données chez Group 1001, a entrepris de créer une architecture de données moderne : un écosystème modulaire et interopérable d'outils conçus pour automatiser, intégrer et étendre les opérations de données. Dans cette transformation, Soda est devenue le composant critique qui a rendu la qualité des données visible, automatisée et accessible à tous.

En moins d'un an, une équipe de cinq personnes chez Group 1001 a construit une architecture de données moderne qui a automatisé des centaines de vérifications de qualité et a multiplié par 10 la productivité, prouvant que la fiabilité à l'échelle de l'entreprise ne nécessite pas des équipes à grande échelle.

Le défi : passer des vérifications manuelles à une architecture de données moderne

Avant la modernisation, les efforts de l'équipe de données étaient principalement axés sur la validation manuelle et la réconciliation. Les ingénieurs en données commençaient souvent leurs matins par un examen des pipelines cassés et des tables incohérentes, résolvant les problèmes avant que les utilisateurs commerciaux ne puissent commencer leur journée.

« Je devais me lever à 6 heures du matin chaque matin. Et si quelqu'un me connaît, je ne suis pas une personne du matin. Mais je devais effectuer ces vérifications pour m'assurer que les données étaient réellement présentes. Bien souvent, on ne savait même pas si les données étaient là. Nous vérifiions simplement les bases pour pouvoir exécuter des rapports et informer l'entreprise lorsqu'il y avait un problème. » — Gu Xie

Cette approche réactive a entraîné des goulots d'étranglement qui ralentissaient l'analyse et réduisaient la confiance dans les rapports. En raison du manque de surveillance automatisée, les problèmes étaient souvent découverts après qu'ils avaient atteint les tableaux de bord ou les applications commerciales en aval.

L'infrastructure de l'entreprise évoluait également rapidement. De nouveaux outils d'ingestion, de transformation et d'orchestration ont été introduits, chacun avec leur propre modèle opérationnel. En conséquence, l'intégration et l'assurance de normes cohérentes de qualité des données à travers cette pile diversifiée sont devenues critiques.

À l'époque, leur petite équipe de données, composée de seulement 5 personnes en charge d'un écosystème qui soutenait de multiples fonctions commerciales, comprenait qu'ils avaient besoin d'outils non seulement performants en isolation mais aussi intégrés naturellement dans un écosystème cohérent. Pour évoluer efficacement, ils avaient besoin d'outils qui réduisent la charge opérationnelle, automatisent les tâches répétitives et fournissent de la transparence tout au long du cycle de vie des données.

En résumé, l'équipe avait des priorités claires :

  • Automatiser la validation de la qualité pour éliminer les vérifications manuelles.

  • Intégrer l'observation directement dans les pipelines et les flux de travail.

  • S'intégrer sans heurts avec les technologies existantes, sans ajouter de frictions.

  • Permettre les tests de qualité en libre-service pour les analystes et les utilisateurs métiers.

La solution : concevoir pour l'intégration et l'efficacité

Le principe directeur de Group 1001 était clair : l'efficacité par l'interopérabilité. Au lieu de construire un système monolithique, l'équipe a adopté une approche modulaire, combinant des outils répondant à leurs besoins et s'ajustant avec un minimum de friction.

L'équipe a commencé par moderniser l'ingestion et le stockage. Fivetran a automatisé le transfert des données depuis les systèmes opérationnels vers Snowflake, garantissant la rapidité et la cohérence. Coalesce a simplifié les pipelines de transformation, tandis que Dagster gérait les flux de travail complexes avec fiabilité et visibilité.

La dernière pièce était la qualité des données. Group 1001 avait besoin d'une solution légère, flexible et facile à intégrer dans les pipelines existants. Lors de l'évaluation des solutions de qualité des données, Group 1001 faisait face à une décision commune : construire ou acheter ?

Construire à partir de zéro nécessiterait :

  • Développement et maintenance de cadre personnalisé

  • Création de bibliothèque de modèles de vérification

  • Système de suivi des échecs et d'alerte

  • Interface utilisateur pour les non-techniciens

  • Ressources d'ingénierie continues pour les mises à jour

Ayant déjà construit des processus de qualité des données depuis zéro dans ses rôles antérieurs, Gu comprenait le véritable coût du développement personnalisé.

« Au début, nous exécutons manuellement des requêtes quotidiennes. Je pensais : “Eh bien, nous pourrions construire un simple wrapper pour les exécuter automatiquement”, mais pour les opérations à l'échelle de l'entreprise, cela ne suffit pas. Vous avez besoin de vérifications standardisées, de modèles pour l'unicité, la fraîcheur, les vérifications de référence, les validations statistiques, et plus. En plus de cela, vous avez besoin d'une façon de suivre les échecs, d'apprendre d'eux et de répondre de manière appropriée.

Quand j’ai évalué Soda, surtout l'offre cloud, j'ai vu toutes ces capacités déjà intégrées : bibliothèques de vérifications, personnalisation, flexibilité et modèles. Essentiellement, cela signifiait que je n'avais pas à reconstruire ce qui existait déjà - c'était prêt à évoluer pour l'organisation.” — Gu Xie

Après avoir considéré plusieurs outils, Group 1001 a choisi Soda pour sa flexibilité et ses capacités intégrées. Mais ce qui a le plus séduit l'équipe de données, c'est la façon dont Soda s'est intégré sans effort dans leur écosystème de données plus large.

« Trois jours plus tard, nous avons déployé Soda, en utilisant la version open-source, en production. Maintenant, il exécute automatiquement toutes les vérifications que nous effectuions manuellement et même arrête l'actualisation des rapports si quelque chose ne va pas, de sorte que l'activité n'est jamais impactée. Et parce que nous avons cette vérification en place, je peux maintenant dormir et me concentrer sur d'autres tâches. C’est de la valeur ajoutée là - c'est assez clair si vous me demandez. » — Gu Xie

Au début de ce projet, lors de la migration des données de PostgreSQL vers Snowflake, les vérifications Soda ont été utilisées pour vérifier les comptes de lignes et l'alignement des schémas, garantissant une réconciliation précise. Cette capacité a éliminé des heures de comparaison manuelle et a considérablement réduit le risque lors des transitions.

« Nous avons combiné Snowflake avec Airflow à l'époque, et utilisé Soda pour gérer beaucoup de la réconciliation lors de la migration. C'était essentiel pour s'assurer que la qualité des données était maintenue tout en réglant la migration sur quelques semaines avant mise en service. » - Gu Xie

L'équipe a commencé avec le cadre open-source de Soda pour gérer les vérifications répétitives de qualité, surveiller les comptes d'enregistrements, la complétude et les changements de schémas. À mesure que les besoins augmentaient, ils ont adopté Soda Cloud, débloquant plus de fonctionnalités de collaboration, de gouvernance et d'alerte.

Soda se connecte maintenant à chaque couche majeure de la pile de Group 1001 :

  • Dagster déclenche les vérifications Soda pendant les exécutions de pipelines, attrapant les problèmes avant que les données n'atteignent les utilisateurs finaux.

  • Snowflake sert de fondation, Soda vérifiant la cohérence des données à travers les migrations et mises à jour.

  • Coalesce intègre des tests post-transformation, garantissant que les résultats respectent les seuils de qualité définis.

  • Atlan expose les mesures de qualité de Soda dans son catalogue, reliant l'observabilité à la traçabilité des données.

Voir toutes les intégrations Soda

Cette architecture permet une couverture complète de la qualité des données avec un minimum d'effort d'ingénierie.

Image prise de Group 1001 augmente la productivité par 10x par Fivetran

« Le vrai retour sur investissement a toujours été la productivité de nos ingénieurs, la productivité de nos analystes - pour ne pas passer du temps à dépanner et à éteindre des incendies chaque jour, pour passer plus de temps à découvrir de nouvelles informations et à apporter plus de valeur. » — Gu Xie

L'impact : la qualité des données comme un catalyseur

L'introduction de Soda a déplacé l'état d'esprit de l'équipe de données de correctifs réactifs à une surveillance proactive. Ce qui nécessitait autrefois une inspection manuelle se produit maintenant automatiquement sur des centaines de jeux de données.

Chaque vérification de qualité s'exécute dans le cadre de l'exécution du pipeline, créant une boucle continue de validation.

La configuration conviviale en YAML de Soda la rend également accessible aux non-ingénieurs. Les analystes de données pouvaient créer leurs propres tests, examiner les résultats dans Soda Cloud et collaborer avec les ingénieurs pour affiner les seuils, le tout sans beaucoup d'expérience en codage.

La simplicité de la configuration YAML signifie qu'un membre de l'équipe QA, sans expertise approfondie en SQL, peut créer et déployer des vérifications de manière indépendante pour les flux de données de fournisseurs. Cette capacité en libre-service s'est avérée essentielle pour étendre la fiabilité des données. Les analystes, qui s'appuyaient autrefois sur les ingénieurs pour la validation, peuvent maintenant surveiller indépendamment leurs propres ensembles de données, réduisant la dépendance et le temps de réponse.

« Avec SodaCloud, nous n'avons pas besoin d'un utilisateur très technique pour créer des vérifications. Un analyste commercial ou un analyste de données peut écrire et provisionner des vérifications eux-mêmes grâce au libre-service. C'est ce que j'ai vraiment aimé avec SodaCloud - cela a permis une vision plus grande pour l'organisation. » — Gu Xie

Exemple de checks.yaml Soda

dataset: dim_product

owner: zaynabissa@company.com

columns:
- name: id
  data_type: VARCHAR
  checks:
  - type: duplicate_count
- name: size
  data_type: VARCHAR
  checks:
  - type: invalid_count
    valid_values: ['S', 'M', 'L']
    must_be_greater_than_or_equal: 10
- name: distance
  checks:
  - type: invalid_count
    valid_min: 0
    valid_max: 1000
- name: created
  optional: true

checks:
  - type: row_count

Les résultats de la nouvelle architecture de données de Group 1001 ont été immédiats :

Réduction de la charge opérationnelle

Les étapes de validation répétitives antérieures sont maintenant automatisées. Les ingénieurs passent moins de temps à dépanner, et les problèmes sont détectés plus tôt, avant d'atteindre les utilisateurs finaux. Cette approche proactive a considérablement réduit les temps d'arrêt et les révisions.

Couverture de qualité évolutive

Chaque pipeline comprend désormais des vérifications automatisées. Les nouveaux ensembles de données sont intégrés avec des règles standardisées et les problèmes sont détectés avant leur propagation. L'équipe peut facilement étendre la surveillance à mesure que de nouvelles sources ou transformations sont ajoutées.

Amélioration de la collaboration et de la confiance

En intégrant Soda avec Atlan, Group 1001 a amené la visibilité de la qualité dans son catalogue, permettant aux consommateurs de données d'évaluer instantanément les niveaux de confiance. Les parties prenantes commerciales ont maintenant plus de confiance dans les rapports et les informations qu'elles utilisent pour prendre des décisions.

Pour Group 1001, le résultat le plus important de ce processus de modernisation a été que les données sont devenues un actif sur lequel ils peuvent compter, et non une responsabilité à contourner.

Métrique

Avant Soda

Après Soda

Vérifications de la qualité des données

Manuel, 6h du matin quotidien

Automatisé, continu

Détection des problèmes

Après impact commercial

Avant propagation

Livraison analytique

Mois

Quelques jours

Risque de migration

Élevé (validation manuelle)

Faible (réconciliation automatisée)

Capacité de l'équipe

Centré sur les urgences

Centré sur le travail stratégique

Confiance commerciale

Données retardées, peu fiables

Données en quasi temps réel, fiables

Auteurs des vérifications de qualité

Seulement ingénieurs

Analystes + Ingénieurs

Cette transformation a été réalisée par une équipe de 5 personnes en moins de 12 mois, démontrant que les bons choix d'outillage peuvent fournir un impact à l'échelle de l'entreprise sans équipes à grande échelle.

Construire une culture de confiance dans les données

Au-delà de la technologie, l'adoption de Soda a aidé à faire évoluer la culture des données de Group 1001. La qualité des données n'est plus la responsabilité exclusive des ingénieurs, elle fait partie de la façon dont chaque équipe travaille avec les données. Analyses et ingénieurs contribuent à définir les attentes de qualité, écrire des vérifications et examiner les résultats.

La transparence des tableaux de bord Soda Cloud rend les problèmes de qualité visibles pour tout le monde, favorisant la responsabilisation et l'amélioration continue.

« Maintenant, nous sommes proactifs. Nous savons qu'il y a un problème, nous informons les équipes, nous le résolvons, et en le résolvant, nous pouvons également appliquer une autre règle de qualité des données pour s'assurer que cela ne se reproduise plus. C'est comme ça que nous reprenons le contrôle de nos ensembles de données. » — Gu Xie

Cette approche collaborative a également influencé la gouvernance interne. L'équipe codifie maintenant les leçons apprises dans des modèles réutilisables, garantissant que les normes de qualité sont constamment appliquées à de nouveaux projets. Avec le temps, ce cadre est devenu une base pour la confiance dans les données à travers l'organisation.

« La façon dont je vois Soda et la façon dont cela nous aide réellement à transformer et la valeur que nous obtenons est le fait que nous pouvons dormir la nuit en sachant que nos processus fonctionnent, que nous pouvons faire confiance que si tout est terminé et le cycle est complet et que nous pouvons voir les données maintenant dans notre tableau de bord rafraîchi, nous pouvons lui faire confiance. » — Gu Xie

Regard vers l'avenir : observabilité pilotée par les métadonnées

La prochaine phase de Group 1001 se concentre sur le renforcement du lien entre les métadonnées et l'observabilité de la qualité. En reliant les métriques de validation de Soda avec les données de traçabilité d'Atlan, l'entreprise vise à créer une boucle de rétroaction intelligente qui priorise automatiquement les améliorations de qualité en fonction de l'utilisation des données et de l'impact commercial.

Pour Gu Xie, la stratégie reste claire : garder la pile modulaire, interopérable et axée sur permettre aux gens de faire plus avec les données.

« Parce que nous utilisons ce catalogue pour héberger tous les actifs de données, nous pouvons maintenant le partager avec les départements, les équipes et même différentes entreprises. Nous pouvons maintenant véritablement démocratiser les données au sein de l'organisation. » — Gu Xie

Points clés à retenir

Le parcours de Group 1001 offre des enseignements pratiques pour les organisations confrontées à des défis similaires :

  • Si vous vous réveillez pour vérifier les données manuellement : Commencez par l'automatisation. N'attendez pas d'avoir une infrastructure parfaite ; résolvez le point douloureux immédiat.

  • Si vous avez une petite équipe soutenant de grands besoins : Les meilleurs outils sont votre multiplicateur de force. 

  • Si vous planifiez une migration de plateforme : Faites de la qualité des données votre filet de sécurité. La validation automatisée est moins chère que l'échec de la migration.

  • Si votre organisation ne fait pas confiance aux données : Commencez à mesurer ce qui compte. Pas le nombre de vérifications, mais la réduction des problèmes récurrents. 

  • Si vous hésitez entre construire ou acheter : Considérez le coût d'opportunité. Les semaines passées à construire une infrastructure de qualité des données sont des semaines non passées à fournir des informations commerciales. Soda a donné à Group 1001 des capacités de niveau entreprise en quelques jours, pas des mois.

Clause de non-responsabilité : Ce matériel a été créé en 2023. Veuillez noter que les chiffres et les statistiques peuvent avoir changé depuis sa publication.

Regardez l'entretien

Écoutez plus de Gu Xie, responsable de l'ingénierie des données chez Group 1001, dans l'interview podcast Fizz : Construire une architecture de données moderne

Contactez-nous

Planifiez une démonstration avec l'équipe Soda pour découvrir comment vous pourriez optimiser votre stratégie de qualité des données à travers tout votre écosystème de données.

Group 1001 est une entreprise de services financiers axée sur la technologie qui gère un portefeuille diversifié de produits d'assurance et d'investissement. La vision de l'entreprise pour les données est pragmatique : chaque système doit permettre des décisions plus rapides et plus précises tout en maintenant une confiance totale dans les informations sous-jacentes.

Mais à mesure que les volumes de données augmentaient et que les systèmes se développaient, l'équipe de données faisait face à des difficultés croissantes pour maintenir l'exactitude, la rapidité et la cohérence des sources. Les équipes passaient des heures à vérifier manuellement l'intégrité des données et à réconcilier les incohérences entre les systèmes. Ce processus était chronophage, sujet aux erreurs et offrait une évolutivité limitée.

Pour surmonter ces défis, en 2022, Gu Xie, alors nouveau responsable de l'ingénierie des données chez Group 1001, a entrepris de créer une architecture de données moderne : un écosystème modulaire et interopérable d'outils conçus pour automatiser, intégrer et étendre les opérations de données. Dans cette transformation, Soda est devenue le composant critique qui a rendu la qualité des données visible, automatisée et accessible à tous.

En moins d'un an, une équipe de cinq personnes chez Group 1001 a construit une architecture de données moderne qui a automatisé des centaines de vérifications de qualité et a multiplié par 10 la productivité, prouvant que la fiabilité à l'échelle de l'entreprise ne nécessite pas des équipes à grande échelle.

Le défi : passer des vérifications manuelles à une architecture de données moderne

Avant la modernisation, les efforts de l'équipe de données étaient principalement axés sur la validation manuelle et la réconciliation. Les ingénieurs en données commençaient souvent leurs matins par un examen des pipelines cassés et des tables incohérentes, résolvant les problèmes avant que les utilisateurs commerciaux ne puissent commencer leur journée.

« Je devais me lever à 6 heures du matin chaque matin. Et si quelqu'un me connaît, je ne suis pas une personne du matin. Mais je devais effectuer ces vérifications pour m'assurer que les données étaient réellement présentes. Bien souvent, on ne savait même pas si les données étaient là. Nous vérifiions simplement les bases pour pouvoir exécuter des rapports et informer l'entreprise lorsqu'il y avait un problème. » — Gu Xie

Cette approche réactive a entraîné des goulots d'étranglement qui ralentissaient l'analyse et réduisaient la confiance dans les rapports. En raison du manque de surveillance automatisée, les problèmes étaient souvent découverts après qu'ils avaient atteint les tableaux de bord ou les applications commerciales en aval.

L'infrastructure de l'entreprise évoluait également rapidement. De nouveaux outils d'ingestion, de transformation et d'orchestration ont été introduits, chacun avec leur propre modèle opérationnel. En conséquence, l'intégration et l'assurance de normes cohérentes de qualité des données à travers cette pile diversifiée sont devenues critiques.

À l'époque, leur petite équipe de données, composée de seulement 5 personnes en charge d'un écosystème qui soutenait de multiples fonctions commerciales, comprenait qu'ils avaient besoin d'outils non seulement performants en isolation mais aussi intégrés naturellement dans un écosystème cohérent. Pour évoluer efficacement, ils avaient besoin d'outils qui réduisent la charge opérationnelle, automatisent les tâches répétitives et fournissent de la transparence tout au long du cycle de vie des données.

En résumé, l'équipe avait des priorités claires :

  • Automatiser la validation de la qualité pour éliminer les vérifications manuelles.

  • Intégrer l'observation directement dans les pipelines et les flux de travail.

  • S'intégrer sans heurts avec les technologies existantes, sans ajouter de frictions.

  • Permettre les tests de qualité en libre-service pour les analystes et les utilisateurs métiers.

La solution : concevoir pour l'intégration et l'efficacité

Le principe directeur de Group 1001 était clair : l'efficacité par l'interopérabilité. Au lieu de construire un système monolithique, l'équipe a adopté une approche modulaire, combinant des outils répondant à leurs besoins et s'ajustant avec un minimum de friction.

L'équipe a commencé par moderniser l'ingestion et le stockage. Fivetran a automatisé le transfert des données depuis les systèmes opérationnels vers Snowflake, garantissant la rapidité et la cohérence. Coalesce a simplifié les pipelines de transformation, tandis que Dagster gérait les flux de travail complexes avec fiabilité et visibilité.

La dernière pièce était la qualité des données. Group 1001 avait besoin d'une solution légère, flexible et facile à intégrer dans les pipelines existants. Lors de l'évaluation des solutions de qualité des données, Group 1001 faisait face à une décision commune : construire ou acheter ?

Construire à partir de zéro nécessiterait :

  • Développement et maintenance de cadre personnalisé

  • Création de bibliothèque de modèles de vérification

  • Système de suivi des échecs et d'alerte

  • Interface utilisateur pour les non-techniciens

  • Ressources d'ingénierie continues pour les mises à jour

Ayant déjà construit des processus de qualité des données depuis zéro dans ses rôles antérieurs, Gu comprenait le véritable coût du développement personnalisé.

« Au début, nous exécutons manuellement des requêtes quotidiennes. Je pensais : “Eh bien, nous pourrions construire un simple wrapper pour les exécuter automatiquement”, mais pour les opérations à l'échelle de l'entreprise, cela ne suffit pas. Vous avez besoin de vérifications standardisées, de modèles pour l'unicité, la fraîcheur, les vérifications de référence, les validations statistiques, et plus. En plus de cela, vous avez besoin d'une façon de suivre les échecs, d'apprendre d'eux et de répondre de manière appropriée.

Quand j’ai évalué Soda, surtout l'offre cloud, j'ai vu toutes ces capacités déjà intégrées : bibliothèques de vérifications, personnalisation, flexibilité et modèles. Essentiellement, cela signifiait que je n'avais pas à reconstruire ce qui existait déjà - c'était prêt à évoluer pour l'organisation.” — Gu Xie

Après avoir considéré plusieurs outils, Group 1001 a choisi Soda pour sa flexibilité et ses capacités intégrées. Mais ce qui a le plus séduit l'équipe de données, c'est la façon dont Soda s'est intégré sans effort dans leur écosystème de données plus large.

« Trois jours plus tard, nous avons déployé Soda, en utilisant la version open-source, en production. Maintenant, il exécute automatiquement toutes les vérifications que nous effectuions manuellement et même arrête l'actualisation des rapports si quelque chose ne va pas, de sorte que l'activité n'est jamais impactée. Et parce que nous avons cette vérification en place, je peux maintenant dormir et me concentrer sur d'autres tâches. C’est de la valeur ajoutée là - c'est assez clair si vous me demandez. » — Gu Xie

Au début de ce projet, lors de la migration des données de PostgreSQL vers Snowflake, les vérifications Soda ont été utilisées pour vérifier les comptes de lignes et l'alignement des schémas, garantissant une réconciliation précise. Cette capacité a éliminé des heures de comparaison manuelle et a considérablement réduit le risque lors des transitions.

« Nous avons combiné Snowflake avec Airflow à l'époque, et utilisé Soda pour gérer beaucoup de la réconciliation lors de la migration. C'était essentiel pour s'assurer que la qualité des données était maintenue tout en réglant la migration sur quelques semaines avant mise en service. » - Gu Xie

L'équipe a commencé avec le cadre open-source de Soda pour gérer les vérifications répétitives de qualité, surveiller les comptes d'enregistrements, la complétude et les changements de schémas. À mesure que les besoins augmentaient, ils ont adopté Soda Cloud, débloquant plus de fonctionnalités de collaboration, de gouvernance et d'alerte.

Soda se connecte maintenant à chaque couche majeure de la pile de Group 1001 :

  • Dagster déclenche les vérifications Soda pendant les exécutions de pipelines, attrapant les problèmes avant que les données n'atteignent les utilisateurs finaux.

  • Snowflake sert de fondation, Soda vérifiant la cohérence des données à travers les migrations et mises à jour.

  • Coalesce intègre des tests post-transformation, garantissant que les résultats respectent les seuils de qualité définis.

  • Atlan expose les mesures de qualité de Soda dans son catalogue, reliant l'observabilité à la traçabilité des données.

Voir toutes les intégrations Soda

Cette architecture permet une couverture complète de la qualité des données avec un minimum d'effort d'ingénierie.

Image prise de Group 1001 augmente la productivité par 10x par Fivetran

« Le vrai retour sur investissement a toujours été la productivité de nos ingénieurs, la productivité de nos analystes - pour ne pas passer du temps à dépanner et à éteindre des incendies chaque jour, pour passer plus de temps à découvrir de nouvelles informations et à apporter plus de valeur. » — Gu Xie

L'impact : la qualité des données comme un catalyseur

L'introduction de Soda a déplacé l'état d'esprit de l'équipe de données de correctifs réactifs à une surveillance proactive. Ce qui nécessitait autrefois une inspection manuelle se produit maintenant automatiquement sur des centaines de jeux de données.

Chaque vérification de qualité s'exécute dans le cadre de l'exécution du pipeline, créant une boucle continue de validation.

La configuration conviviale en YAML de Soda la rend également accessible aux non-ingénieurs. Les analystes de données pouvaient créer leurs propres tests, examiner les résultats dans Soda Cloud et collaborer avec les ingénieurs pour affiner les seuils, le tout sans beaucoup d'expérience en codage.

La simplicité de la configuration YAML signifie qu'un membre de l'équipe QA, sans expertise approfondie en SQL, peut créer et déployer des vérifications de manière indépendante pour les flux de données de fournisseurs. Cette capacité en libre-service s'est avérée essentielle pour étendre la fiabilité des données. Les analystes, qui s'appuyaient autrefois sur les ingénieurs pour la validation, peuvent maintenant surveiller indépendamment leurs propres ensembles de données, réduisant la dépendance et le temps de réponse.

« Avec SodaCloud, nous n'avons pas besoin d'un utilisateur très technique pour créer des vérifications. Un analyste commercial ou un analyste de données peut écrire et provisionner des vérifications eux-mêmes grâce au libre-service. C'est ce que j'ai vraiment aimé avec SodaCloud - cela a permis une vision plus grande pour l'organisation. » — Gu Xie

Exemple de checks.yaml Soda

dataset: dim_product

owner: zaynabissa@company.com

columns:
- name: id
  data_type: VARCHAR
  checks:
  - type: duplicate_count
- name: size
  data_type: VARCHAR
  checks:
  - type: invalid_count
    valid_values: ['S', 'M', 'L']
    must_be_greater_than_or_equal: 10
- name: distance
  checks:
  - type: invalid_count
    valid_min: 0
    valid_max: 1000
- name: created
  optional: true

checks:
  - type: row_count

Les résultats de la nouvelle architecture de données de Group 1001 ont été immédiats :

Réduction de la charge opérationnelle

Les étapes de validation répétitives antérieures sont maintenant automatisées. Les ingénieurs passent moins de temps à dépanner, et les problèmes sont détectés plus tôt, avant d'atteindre les utilisateurs finaux. Cette approche proactive a considérablement réduit les temps d'arrêt et les révisions.

Couverture de qualité évolutive

Chaque pipeline comprend désormais des vérifications automatisées. Les nouveaux ensembles de données sont intégrés avec des règles standardisées et les problèmes sont détectés avant leur propagation. L'équipe peut facilement étendre la surveillance à mesure que de nouvelles sources ou transformations sont ajoutées.

Amélioration de la collaboration et de la confiance

En intégrant Soda avec Atlan, Group 1001 a amené la visibilité de la qualité dans son catalogue, permettant aux consommateurs de données d'évaluer instantanément les niveaux de confiance. Les parties prenantes commerciales ont maintenant plus de confiance dans les rapports et les informations qu'elles utilisent pour prendre des décisions.

Pour Group 1001, le résultat le plus important de ce processus de modernisation a été que les données sont devenues un actif sur lequel ils peuvent compter, et non une responsabilité à contourner.

Métrique

Avant Soda

Après Soda

Vérifications de la qualité des données

Manuel, 6h du matin quotidien

Automatisé, continu

Détection des problèmes

Après impact commercial

Avant propagation

Livraison analytique

Mois

Quelques jours

Risque de migration

Élevé (validation manuelle)

Faible (réconciliation automatisée)

Capacité de l'équipe

Centré sur les urgences

Centré sur le travail stratégique

Confiance commerciale

Données retardées, peu fiables

Données en quasi temps réel, fiables

Auteurs des vérifications de qualité

Seulement ingénieurs

Analystes + Ingénieurs

Cette transformation a été réalisée par une équipe de 5 personnes en moins de 12 mois, démontrant que les bons choix d'outillage peuvent fournir un impact à l'échelle de l'entreprise sans équipes à grande échelle.

Construire une culture de confiance dans les données

Au-delà de la technologie, l'adoption de Soda a aidé à faire évoluer la culture des données de Group 1001. La qualité des données n'est plus la responsabilité exclusive des ingénieurs, elle fait partie de la façon dont chaque équipe travaille avec les données. Analyses et ingénieurs contribuent à définir les attentes de qualité, écrire des vérifications et examiner les résultats.

La transparence des tableaux de bord Soda Cloud rend les problèmes de qualité visibles pour tout le monde, favorisant la responsabilisation et l'amélioration continue.

« Maintenant, nous sommes proactifs. Nous savons qu'il y a un problème, nous informons les équipes, nous le résolvons, et en le résolvant, nous pouvons également appliquer une autre règle de qualité des données pour s'assurer que cela ne se reproduise plus. C'est comme ça que nous reprenons le contrôle de nos ensembles de données. » — Gu Xie

Cette approche collaborative a également influencé la gouvernance interne. L'équipe codifie maintenant les leçons apprises dans des modèles réutilisables, garantissant que les normes de qualité sont constamment appliquées à de nouveaux projets. Avec le temps, ce cadre est devenu une base pour la confiance dans les données à travers l'organisation.

« La façon dont je vois Soda et la façon dont cela nous aide réellement à transformer et la valeur que nous obtenons est le fait que nous pouvons dormir la nuit en sachant que nos processus fonctionnent, que nous pouvons faire confiance que si tout est terminé et le cycle est complet et que nous pouvons voir les données maintenant dans notre tableau de bord rafraîchi, nous pouvons lui faire confiance. » — Gu Xie

Regard vers l'avenir : observabilité pilotée par les métadonnées

La prochaine phase de Group 1001 se concentre sur le renforcement du lien entre les métadonnées et l'observabilité de la qualité. En reliant les métriques de validation de Soda avec les données de traçabilité d'Atlan, l'entreprise vise à créer une boucle de rétroaction intelligente qui priorise automatiquement les améliorations de qualité en fonction de l'utilisation des données et de l'impact commercial.

Pour Gu Xie, la stratégie reste claire : garder la pile modulaire, interopérable et axée sur permettre aux gens de faire plus avec les données.

« Parce que nous utilisons ce catalogue pour héberger tous les actifs de données, nous pouvons maintenant le partager avec les départements, les équipes et même différentes entreprises. Nous pouvons maintenant véritablement démocratiser les données au sein de l'organisation. » — Gu Xie

Points clés à retenir

Le parcours de Group 1001 offre des enseignements pratiques pour les organisations confrontées à des défis similaires :

  • Si vous vous réveillez pour vérifier les données manuellement : Commencez par l'automatisation. N'attendez pas d'avoir une infrastructure parfaite ; résolvez le point douloureux immédiat.

  • Si vous avez une petite équipe soutenant de grands besoins : Les meilleurs outils sont votre multiplicateur de force. 

  • Si vous planifiez une migration de plateforme : Faites de la qualité des données votre filet de sécurité. La validation automatisée est moins chère que l'échec de la migration.

  • Si votre organisation ne fait pas confiance aux données : Commencez à mesurer ce qui compte. Pas le nombre de vérifications, mais la réduction des problèmes récurrents. 

  • Si vous hésitez entre construire ou acheter : Considérez le coût d'opportunité. Les semaines passées à construire une infrastructure de qualité des données sont des semaines non passées à fournir des informations commerciales. Soda a donné à Group 1001 des capacités de niveau entreprise en quelques jours, pas des mois.

Clause de non-responsabilité : Ce matériel a été créé en 2023. Veuillez noter que les chiffres et les statistiques peuvent avoir changé depuis sa publication.

Regardez l'entretien

Écoutez plus de Gu Xie, responsable de l'ingénierie des données chez Group 1001, dans l'interview podcast Fizz : Construire une architecture de données moderne

Contactez-nous

Planifiez une démonstration avec l'équipe Soda pour découvrir comment vous pourriez optimiser votre stratégie de qualité des données à travers tout votre écosystème de données.

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par