Élaboration de la qualité des données dans une pile de données moderne
Élaboration de la qualité des données dans une pile de données moderne
22 juin 2023

Koen Van Duyse
Koen Van Duyse
Koen Van Duyse
Ancien Responsable des Clients et Partenaires chez Soda
Ancien Responsable des Clients et Partenaires chez Soda
Ancien Responsable des Clients et Partenaires chez Soda
Table des matières






Nous voulions fournir des ensembles de données de haute qualité, livrés en quasi temps réel, afin que les tableaux de bord reflètent les données en direct dès qu'elles arrivent. Et au-delà de la simple résolution des problèmes techniques, nous voulions transformer l'organisation en une véritable entreprise axée sur les données — permettant une prise de décision ancrée dans des données précises et opportunes.
Nous voulions fournir des ensembles de données de haute qualité, livrés en quasi temps réel, afin que les tableaux de bord reflètent les données en direct dès qu'elles arrivent. Et au-delà de la simple résolution des problèmes techniques, nous voulions transformer l'organisation en une véritable entreprise axée sur les données — permettant une prise de décision ancrée dans des données précises et opportunes.
Nous voulions fournir des ensembles de données de haute qualité, livrés en quasi temps réel, afin que les tableaux de bord reflètent les données en direct dès qu'elles arrivent. Et au-delà de la simple résolution des problèmes techniques, nous voulions transformer l'organisation en une véritable entreprise axée sur les données — permettant une prise de décision ancrée dans des données précises et opportunes.



Gu Xie
Gu Xie
Responsable de l'ingénierie des données
Responsable de l'ingénierie des données
Responsable de l'ingénierie des données
à
Group1001
Group1001
Group1001
Group 1001 est une entreprise de services financiers axée sur la technologie qui gère un portefeuille diversifié de produits d'assurance et d'investissement. La vision de l'entreprise pour les données est pragmatique : chaque système doit permettre des décisions plus rapides et plus précises tout en maintenant une confiance totale dans les informations sous-jacentes.
Mais à mesure que les volumes de données augmentaient et que les systèmes se développaient, l'équipe de données faisait face à des difficultés croissantes pour maintenir l'exactitude, la rapidité et la cohérence des sources. Les équipes passaient des heures à vérifier manuellement l'intégrité des données et à réconcilier les incohérences entre les systèmes. Ce processus était chronophage, sujet aux erreurs et offrait une évolutivité limitée.
Pour surmonter ces défis, en 2022, Gu Xie, alors nouveau responsable de l'ingénierie des données chez Group 1001, a entrepris de créer une architecture de données moderne : un écosystème modulaire et interopérable d'outils conçus pour automatiser, intégrer et étendre les opérations de données. Dans cette transformation, Soda est devenue le composant critique qui a rendu la qualité des données visible, automatisée et accessible à tous.
En moins d'un an, une équipe de cinq personnes chez Group 1001 a construit une architecture de données moderne qui a automatisé des centaines de vérifications de qualité et a multiplié par 10 la productivité, prouvant que la fiabilité à l'échelle de l'entreprise ne nécessite pas des équipes à grande échelle.
Le défi : passer des vérifications manuelles à une architecture de données moderne
Avant la modernisation, les efforts de l'équipe de données étaient principalement axés sur la validation manuelle et la réconciliation. Les ingénieurs en données commençaient souvent leurs matins par un examen des pipelines cassés et des tables incohérentes, résolvant les problèmes avant que les utilisateurs commerciaux ne puissent commencer leur journée.
« Je devais me lever à 6 heures du matin chaque matin. Et si quelqu'un me connaît, je ne suis pas une personne du matin. Mais je devais effectuer ces vérifications pour m'assurer que les données étaient réellement présentes. Bien souvent, on ne savait même pas si les données étaient là. Nous vérifiions simplement les bases pour pouvoir exécuter des rapports et informer l'entreprise lorsqu'il y avait un problème. » — Gu Xie
Cette approche réactive a entraîné des goulots d'étranglement qui ralentissaient l'analyse et réduisaient la confiance dans les rapports. En raison du manque de surveillance automatisée, les problèmes étaient souvent découverts après qu'ils avaient atteint les tableaux de bord ou les applications commerciales en aval.
L'infrastructure de l'entreprise évoluait également rapidement. De nouveaux outils d'ingestion, de transformation et d'orchestration ont été introduits, chacun avec leur propre modèle opérationnel. En conséquence, l'intégration et l'assurance de normes cohérentes de qualité des données à travers cette pile diversifiée sont devenues critiques.
À l'époque, leur petite équipe de données, composée de seulement 5 personnes en charge d'un écosystème qui soutenait de multiples fonctions commerciales, comprenait qu'ils avaient besoin d'outils non seulement performants en isolation mais aussi intégrés naturellement dans un écosystème cohérent. Pour évoluer efficacement, ils avaient besoin d'outils qui réduisent la charge opérationnelle, automatisent les tâches répétitives et fournissent de la transparence tout au long du cycle de vie des données.
En résumé, l'équipe avait des priorités claires :
Automatiser la validation de la qualité pour éliminer les vérifications manuelles.
Intégrer l'observation directement dans les pipelines et les flux de travail.
S'intégrer sans heurts avec les technologies existantes, sans ajouter de frictions.
Permettre les tests de qualité en libre-service pour les analystes et les utilisateurs métiers.
La solution : concevoir pour l'intégration et l'efficacité
Le principe directeur de Group 1001 était clair : l'efficacité par l'interopérabilité. Au lieu de construire un système monolithique, l'équipe a adopté une approche modulaire, combinant des outils répondant à leurs besoins et s'ajustant avec un minimum de friction.
L'équipe a commencé par moderniser l'ingestion et le stockage. Fivetran a automatisé le transfert des données depuis les systèmes opérationnels vers Snowflake, garantissant la rapidité et la cohérence. Coalesce a simplifié les pipelines de transformation, tandis que Dagster gérait les flux de travail complexes avec fiabilité et visibilité.
La dernière pièce était la qualité des données. Group 1001 avait besoin d'une solution légère, flexible et facile à intégrer dans les pipelines existants. Lors de l'évaluation des solutions de qualité des données, Group 1001 faisait face à une décision commune : construire ou acheter ?
Construire à partir de zéro nécessiterait :
Développement et maintenance de cadre personnalisé
Création de bibliothèque de modèles de vérification
Système de suivi des échecs et d'alerte
Interface utilisateur pour les non-techniciens
Ressources d'ingénierie continues pour les mises à jour
Ayant déjà construit des processus de qualité des données depuis zéro dans ses rôles antérieurs, Gu comprenait le véritable coût du développement personnalisé.
« Au début, nous exécutons manuellement des requêtes quotidiennes. Je pensais : “Eh bien, nous pourrions construire un simple wrapper pour les exécuter automatiquement”, mais pour les opérations à l'échelle de l'entreprise, cela ne suffit pas. Vous avez besoin de vérifications standardisées, de modèles pour l'unicité, la fraîcheur, les vérifications de référence, les validations statistiques, et plus. En plus de cela, vous avez besoin d'une façon de suivre les échecs, d'apprendre d'eux et de répondre de manière appropriée.
Quand j’ai évalué Soda, surtout l'offre cloud, j'ai vu toutes ces capacités déjà intégrées : bibliothèques de vérifications, personnalisation, flexibilité et modèles. Essentiellement, cela signifiait que je n'avais pas à reconstruire ce qui existait déjà - c'était prêt à évoluer pour l'organisation.” — Gu Xie
Après avoir considéré plusieurs outils, Group 1001 a choisi Soda pour sa flexibilité et ses capacités intégrées. Mais ce qui a le plus séduit l'équipe de données, c'est la façon dont Soda s'est intégré sans effort dans leur écosystème de données plus large.
« Trois jours plus tard, nous avons déployé Soda, en utilisant la version open-source, en production. Maintenant, il exécute automatiquement toutes les vérifications que nous effectuions manuellement et même arrête l'actualisation des rapports si quelque chose ne va pas, de sorte que l'activité n'est jamais impactée. Et parce que nous avons cette vérification en place, je peux maintenant dormir et me concentrer sur d'autres tâches. C’est de la valeur ajoutée là - c'est assez clair si vous me demandez. » — Gu Xie
Au début de ce projet, lors de la migration des données de PostgreSQL vers Snowflake, les vérifications Soda ont été utilisées pour vérifier les comptes de lignes et l'alignement des schémas, garantissant une réconciliation précise. Cette capacité a éliminé des heures de comparaison manuelle et a considérablement réduit le risque lors des transitions.
« Nous avons combiné Snowflake avec Airflow à l'époque, et utilisé Soda pour gérer beaucoup de la réconciliation lors de la migration. C'était essentiel pour s'assurer que la qualité des données était maintenue tout en réglant la migration sur quelques semaines avant mise en service. » - Gu Xie
L'équipe a commencé avec le cadre open-source de Soda pour gérer les vérifications répétitives de qualité, surveiller les comptes d'enregistrements, la complétude et les changements de schémas. À mesure que les besoins augmentaient, ils ont adopté Soda Cloud, débloquant plus de fonctionnalités de collaboration, de gouvernance et d'alerte.
Soda se connecte maintenant à chaque couche majeure de la pile de Group 1001 :
Dagster déclenche les vérifications Soda pendant les exécutions de pipelines, attrapant les problèmes avant que les données n'atteignent les utilisateurs finaux.
Snowflake sert de fondation, Soda vérifiant la cohérence des données à travers les migrations et mises à jour.
Coalesce intègre des tests post-transformation, garantissant que les résultats respectent les seuils de qualité définis.
Atlan expose les mesures de qualité de Soda dans son catalogue, reliant l'observabilité à la traçabilité des données.
Voir toutes les intégrations Soda
Cette architecture permet une couverture complète de la qualité des données avec un minimum d'effort d'ingénierie.

Image prise de Group 1001 augmente la productivité par 10x par Fivetran
« Le vrai retour sur investissement a toujours été la productivité de nos ingénieurs, la productivité de nos analystes - pour ne pas passer du temps à dépanner et à éteindre des incendies chaque jour, pour passer plus de temps à découvrir de nouvelles informations et à apporter plus de valeur. » — Gu Xie
L'impact : la qualité des données comme un catalyseur
L'introduction de Soda a déplacé l'état d'esprit de l'équipe de données de correctifs réactifs à une surveillance proactive. Ce qui nécessitait autrefois une inspection manuelle se produit maintenant automatiquement sur des centaines de jeux de données.
Chaque vérification de qualité s'exécute dans le cadre de l'exécution du pipeline, créant une boucle continue de validation.
La configuration conviviale en YAML de Soda la rend également accessible aux non-ingénieurs. Les analystes de données pouvaient créer leurs propres tests, examiner les résultats dans Soda Cloud et collaborer avec les ingénieurs pour affiner les seuils, le tout sans beaucoup d'expérience en codage.
La simplicité de la configuration YAML signifie qu'un membre de l'équipe QA, sans expertise approfondie en SQL, peut créer et déployer des vérifications de manière indépendante pour les flux de données de fournisseurs. Cette capacité en libre-service s'est avérée essentielle pour étendre la fiabilité des données. Les analystes, qui s'appuyaient autrefois sur les ingénieurs pour la validation, peuvent maintenant surveiller indépendamment leurs propres ensembles de données, réduisant la dépendance et le temps de réponse.
« Avec SodaCloud, nous n'avons pas besoin d'un utilisateur très technique pour créer des vérifications. Un analyste commercial ou un analyste de données peut écrire et provisionner des vérifications eux-mêmes grâce au libre-service. C'est ce que j'ai vraiment aimé avec SodaCloud - cela a permis une vision plus grande pour l'organisation. » — Gu Xie
Exemple de checks.yaml Soda
dataset: dim_product owner: zaynabissa@company.com columns: - name: id data_type: VARCHAR checks: - type: duplicate_count - name: size data_type: VARCHAR checks: - type: invalid_count valid_values: ['S', 'M', 'L'] must_be_greater_than_or_equal: 10 - name: distance checks: - type: invalid_count valid_min: 0 valid_max: 1000 - name: created optional: true checks: - type: row_count
Les résultats de la nouvelle architecture de données de Group 1001 ont été immédiats :
Réduction de la charge opérationnelle
Les étapes de validation répétitives antérieures sont maintenant automatisées. Les ingénieurs passent moins de temps à dépanner, et les problèmes sont détectés plus tôt, avant d'atteindre les utilisateurs finaux. Cette approche proactive a considérablement réduit les temps d'arrêt et les révisions.
Couverture de qualité évolutive
Chaque pipeline comprend désormais des vérifications automatisées. Les nouveaux ensembles de données sont intégrés avec des règles standardisées et les problèmes sont détectés avant leur propagation. L'équipe peut facilement étendre la surveillance à mesure que de nouvelles sources ou transformations sont ajoutées.
Amélioration de la collaboration et de la confiance
En intégrant Soda avec Atlan, Group 1001 a amené la visibilité de la qualité dans son catalogue, permettant aux consommateurs de données d'évaluer instantanément les niveaux de confiance. Les parties prenantes commerciales ont maintenant plus de confiance dans les rapports et les informations qu'elles utilisent pour prendre des décisions.
Pour Group 1001, le résultat le plus important de ce processus de modernisation a été que les données sont devenues un actif sur lequel ils peuvent compter, et non une responsabilité à contourner.
Métrique | Avant Soda | Après Soda |
|---|---|---|
Vérifications de la qualité des données | Manuel, 6h du matin quotidien | Automatisé, continu |
Détection des problèmes | Après impact commercial | Avant propagation |
Livraison analytique | Mois | Quelques jours |
Risque de migration | Élevé (validation manuelle) | Faible (réconciliation automatisée) |
Capacité de l'équipe | Centré sur les urgences | Centré sur le travail stratégique |
Confiance commerciale | Données retardées, peu fiables | Données en quasi temps réel, fiables |
Auteurs des vérifications de qualité | Seulement ingénieurs | Analystes + Ingénieurs |
Cette transformation a été réalisée par une équipe de 5 personnes en moins de 12 mois, démontrant que les bons choix d'outillage peuvent fournir un impact à l'échelle de l'entreprise sans équipes à grande échelle.
Construire une culture de confiance dans les données
Au-delà de la technologie, l'adoption de Soda a aidé à faire évoluer la culture des données de Group 1001. La qualité des données n'est plus la responsabilité exclusive des ingénieurs, elle fait partie de la façon dont chaque équipe travaille avec les données. Analyses et ingénieurs contribuent à définir les attentes de qualité, écrire des vérifications et examiner les résultats.
La transparence des tableaux de bord Soda Cloud rend les problèmes de qualité visibles pour tout le monde, favorisant la responsabilisation et l'amélioration continue.

« Maintenant, nous sommes proactifs. Nous savons qu'il y a un problème, nous informons les équipes, nous le résolvons, et en le résolvant, nous pouvons également appliquer une autre règle de qualité des données pour s'assurer que cela ne se reproduise plus. C'est comme ça que nous reprenons le contrôle de nos ensembles de données. » — Gu Xie
Cette approche collaborative a également influencé la gouvernance interne. L'équipe codifie maintenant les leçons apprises dans des modèles réutilisables, garantissant que les normes de qualité sont constamment appliquées à de nouveaux projets. Avec le temps, ce cadre est devenu une base pour la confiance dans les données à travers l'organisation.
« La façon dont je vois Soda et la façon dont cela nous aide réellement à transformer et la valeur que nous obtenons est le fait que nous pouvons dormir la nuit en sachant que nos processus fonctionnent, que nous pouvons faire confiance que si tout est terminé et le cycle est complet et que nous pouvons voir les données maintenant dans notre tableau de bord rafraîchi, nous pouvons lui faire confiance. » — Gu Xie
Regard vers l'avenir : observabilité pilotée par les métadonnées
La prochaine phase de Group 1001 se concentre sur le renforcement du lien entre les métadonnées et l'observabilité de la qualité. En reliant les métriques de validation de Soda avec les données de traçabilité d'Atlan, l'entreprise vise à créer une boucle de rétroaction intelligente qui priorise automatiquement les améliorations de qualité en fonction de l'utilisation des données et de l'impact commercial.
Pour Gu Xie, la stratégie reste claire : garder la pile modulaire, interopérable et axée sur permettre aux gens de faire plus avec les données.
« Parce que nous utilisons ce catalogue pour héberger tous les actifs de données, nous pouvons maintenant le partager avec les départements, les équipes et même différentes entreprises. Nous pouvons maintenant véritablement démocratiser les données au sein de l'organisation. » — Gu Xie
Points clés à retenir
Le parcours de Group 1001 offre des enseignements pratiques pour les organisations confrontées à des défis similaires :
Si vous vous réveillez pour vérifier les données manuellement : Commencez par l'automatisation. N'attendez pas d'avoir une infrastructure parfaite ; résolvez le point douloureux immédiat.
Si vous avez une petite équipe soutenant de grands besoins : Les meilleurs outils sont votre multiplicateur de force.
Si vous planifiez une migration de plateforme : Faites de la qualité des données votre filet de sécurité. La validation automatisée est moins chère que l'échec de la migration.
Si votre organisation ne fait pas confiance aux données : Commencez à mesurer ce qui compte. Pas le nombre de vérifications, mais la réduction des problèmes récurrents.
Si vous hésitez entre construire ou acheter : Considérez le coût d'opportunité. Les semaines passées à construire une infrastructure de qualité des données sont des semaines non passées à fournir des informations commerciales. Soda a donné à Group 1001 des capacités de niveau entreprise en quelques jours, pas des mois.
Clause de non-responsabilité : Ce matériel a été créé en 2023. Veuillez noter que les chiffres et les statistiques peuvent avoir changé depuis sa publication.
Regardez l'entretien
Écoutez plus de Gu Xie, responsable de l'ingénierie des données chez Group 1001, dans l'interview podcast Fizz : Construire une architecture de données moderne
Contactez-nous
Planifiez une démonstration avec l'équipe Soda pour découvrir comment vous pourriez optimiser votre stratégie de qualité des données à travers tout votre écosystème de données.
Group 1001 est une entreprise de services financiers axée sur la technologie qui gère un portefeuille diversifié de produits d'assurance et d'investissement. La vision de l'entreprise pour les données est pragmatique : chaque système doit permettre des décisions plus rapides et plus précises tout en maintenant une confiance totale dans les informations sous-jacentes.
Mais à mesure que les volumes de données augmentaient et que les systèmes se développaient, l'équipe de données faisait face à des difficultés croissantes pour maintenir l'exactitude, la rapidité et la cohérence des sources. Les équipes passaient des heures à vérifier manuellement l'intégrité des données et à réconcilier les incohérences entre les systèmes. Ce processus était chronophage, sujet aux erreurs et offrait une évolutivité limitée.
Pour surmonter ces défis, en 2022, Gu Xie, alors nouveau responsable de l'ingénierie des données chez Group 1001, a entrepris de créer une architecture de données moderne : un écosystème modulaire et interopérable d'outils conçus pour automatiser, intégrer et étendre les opérations de données. Dans cette transformation, Soda est devenue le composant critique qui a rendu la qualité des données visible, automatisée et accessible à tous.
En moins d'un an, une équipe de cinq personnes chez Group 1001 a construit une architecture de données moderne qui a automatisé des centaines de vérifications de qualité et a multiplié par 10 la productivité, prouvant que la fiabilité à l'échelle de l'entreprise ne nécessite pas des équipes à grande échelle.
Le défi : passer des vérifications manuelles à une architecture de données moderne
Avant la modernisation, les efforts de l'équipe de données étaient principalement axés sur la validation manuelle et la réconciliation. Les ingénieurs en données commençaient souvent leurs matins par un examen des pipelines cassés et des tables incohérentes, résolvant les problèmes avant que les utilisateurs commerciaux ne puissent commencer leur journée.
« Je devais me lever à 6 heures du matin chaque matin. Et si quelqu'un me connaît, je ne suis pas une personne du matin. Mais je devais effectuer ces vérifications pour m'assurer que les données étaient réellement présentes. Bien souvent, on ne savait même pas si les données étaient là. Nous vérifiions simplement les bases pour pouvoir exécuter des rapports et informer l'entreprise lorsqu'il y avait un problème. » — Gu Xie
Cette approche réactive a entraîné des goulots d'étranglement qui ralentissaient l'analyse et réduisaient la confiance dans les rapports. En raison du manque de surveillance automatisée, les problèmes étaient souvent découverts après qu'ils avaient atteint les tableaux de bord ou les applications commerciales en aval.
L'infrastructure de l'entreprise évoluait également rapidement. De nouveaux outils d'ingestion, de transformation et d'orchestration ont été introduits, chacun avec leur propre modèle opérationnel. En conséquence, l'intégration et l'assurance de normes cohérentes de qualité des données à travers cette pile diversifiée sont devenues critiques.
À l'époque, leur petite équipe de données, composée de seulement 5 personnes en charge d'un écosystème qui soutenait de multiples fonctions commerciales, comprenait qu'ils avaient besoin d'outils non seulement performants en isolation mais aussi intégrés naturellement dans un écosystème cohérent. Pour évoluer efficacement, ils avaient besoin d'outils qui réduisent la charge opérationnelle, automatisent les tâches répétitives et fournissent de la transparence tout au long du cycle de vie des données.
En résumé, l'équipe avait des priorités claires :
Automatiser la validation de la qualité pour éliminer les vérifications manuelles.
Intégrer l'observation directement dans les pipelines et les flux de travail.
S'intégrer sans heurts avec les technologies existantes, sans ajouter de frictions.
Permettre les tests de qualité en libre-service pour les analystes et les utilisateurs métiers.
La solution : concevoir pour l'intégration et l'efficacité
Le principe directeur de Group 1001 était clair : l'efficacité par l'interopérabilité. Au lieu de construire un système monolithique, l'équipe a adopté une approche modulaire, combinant des outils répondant à leurs besoins et s'ajustant avec un minimum de friction.
L'équipe a commencé par moderniser l'ingestion et le stockage. Fivetran a automatisé le transfert des données depuis les systèmes opérationnels vers Snowflake, garantissant la rapidité et la cohérence. Coalesce a simplifié les pipelines de transformation, tandis que Dagster gérait les flux de travail complexes avec fiabilité et visibilité.
La dernière pièce était la qualité des données. Group 1001 avait besoin d'une solution légère, flexible et facile à intégrer dans les pipelines existants. Lors de l'évaluation des solutions de qualité des données, Group 1001 faisait face à une décision commune : construire ou acheter ?
Construire à partir de zéro nécessiterait :
Développement et maintenance de cadre personnalisé
Création de bibliothèque de modèles de vérification
Système de suivi des échecs et d'alerte
Interface utilisateur pour les non-techniciens
Ressources d'ingénierie continues pour les mises à jour
Ayant déjà construit des processus de qualité des données depuis zéro dans ses rôles antérieurs, Gu comprenait le véritable coût du développement personnalisé.
« Au début, nous exécutons manuellement des requêtes quotidiennes. Je pensais : “Eh bien, nous pourrions construire un simple wrapper pour les exécuter automatiquement”, mais pour les opérations à l'échelle de l'entreprise, cela ne suffit pas. Vous avez besoin de vérifications standardisées, de modèles pour l'unicité, la fraîcheur, les vérifications de référence, les validations statistiques, et plus. En plus de cela, vous avez besoin d'une façon de suivre les échecs, d'apprendre d'eux et de répondre de manière appropriée.
Quand j’ai évalué Soda, surtout l'offre cloud, j'ai vu toutes ces capacités déjà intégrées : bibliothèques de vérifications, personnalisation, flexibilité et modèles. Essentiellement, cela signifiait que je n'avais pas à reconstruire ce qui existait déjà - c'était prêt à évoluer pour l'organisation.” — Gu Xie
Après avoir considéré plusieurs outils, Group 1001 a choisi Soda pour sa flexibilité et ses capacités intégrées. Mais ce qui a le plus séduit l'équipe de données, c'est la façon dont Soda s'est intégré sans effort dans leur écosystème de données plus large.
« Trois jours plus tard, nous avons déployé Soda, en utilisant la version open-source, en production. Maintenant, il exécute automatiquement toutes les vérifications que nous effectuions manuellement et même arrête l'actualisation des rapports si quelque chose ne va pas, de sorte que l'activité n'est jamais impactée. Et parce que nous avons cette vérification en place, je peux maintenant dormir et me concentrer sur d'autres tâches. C’est de la valeur ajoutée là - c'est assez clair si vous me demandez. » — Gu Xie
Au début de ce projet, lors de la migration des données de PostgreSQL vers Snowflake, les vérifications Soda ont été utilisées pour vérifier les comptes de lignes et l'alignement des schémas, garantissant une réconciliation précise. Cette capacité a éliminé des heures de comparaison manuelle et a considérablement réduit le risque lors des transitions.
« Nous avons combiné Snowflake avec Airflow à l'époque, et utilisé Soda pour gérer beaucoup de la réconciliation lors de la migration. C'était essentiel pour s'assurer que la qualité des données était maintenue tout en réglant la migration sur quelques semaines avant mise en service. » - Gu Xie
L'équipe a commencé avec le cadre open-source de Soda pour gérer les vérifications répétitives de qualité, surveiller les comptes d'enregistrements, la complétude et les changements de schémas. À mesure que les besoins augmentaient, ils ont adopté Soda Cloud, débloquant plus de fonctionnalités de collaboration, de gouvernance et d'alerte.
Soda se connecte maintenant à chaque couche majeure de la pile de Group 1001 :
Dagster déclenche les vérifications Soda pendant les exécutions de pipelines, attrapant les problèmes avant que les données n'atteignent les utilisateurs finaux.
Snowflake sert de fondation, Soda vérifiant la cohérence des données à travers les migrations et mises à jour.
Coalesce intègre des tests post-transformation, garantissant que les résultats respectent les seuils de qualité définis.
Atlan expose les mesures de qualité de Soda dans son catalogue, reliant l'observabilité à la traçabilité des données.
Voir toutes les intégrations Soda
Cette architecture permet une couverture complète de la qualité des données avec un minimum d'effort d'ingénierie.

Image prise de Group 1001 augmente la productivité par 10x par Fivetran
« Le vrai retour sur investissement a toujours été la productivité de nos ingénieurs, la productivité de nos analystes - pour ne pas passer du temps à dépanner et à éteindre des incendies chaque jour, pour passer plus de temps à découvrir de nouvelles informations et à apporter plus de valeur. » — Gu Xie
L'impact : la qualité des données comme un catalyseur
L'introduction de Soda a déplacé l'état d'esprit de l'équipe de données de correctifs réactifs à une surveillance proactive. Ce qui nécessitait autrefois une inspection manuelle se produit maintenant automatiquement sur des centaines de jeux de données.
Chaque vérification de qualité s'exécute dans le cadre de l'exécution du pipeline, créant une boucle continue de validation.
La configuration conviviale en YAML de Soda la rend également accessible aux non-ingénieurs. Les analystes de données pouvaient créer leurs propres tests, examiner les résultats dans Soda Cloud et collaborer avec les ingénieurs pour affiner les seuils, le tout sans beaucoup d'expérience en codage.
La simplicité de la configuration YAML signifie qu'un membre de l'équipe QA, sans expertise approfondie en SQL, peut créer et déployer des vérifications de manière indépendante pour les flux de données de fournisseurs. Cette capacité en libre-service s'est avérée essentielle pour étendre la fiabilité des données. Les analystes, qui s'appuyaient autrefois sur les ingénieurs pour la validation, peuvent maintenant surveiller indépendamment leurs propres ensembles de données, réduisant la dépendance et le temps de réponse.
« Avec SodaCloud, nous n'avons pas besoin d'un utilisateur très technique pour créer des vérifications. Un analyste commercial ou un analyste de données peut écrire et provisionner des vérifications eux-mêmes grâce au libre-service. C'est ce que j'ai vraiment aimé avec SodaCloud - cela a permis une vision plus grande pour l'organisation. » — Gu Xie
Exemple de checks.yaml Soda
dataset: dim_product owner: zaynabissa@company.com columns: - name: id data_type: VARCHAR checks: - type: duplicate_count - name: size data_type: VARCHAR checks: - type: invalid_count valid_values: ['S', 'M', 'L'] must_be_greater_than_or_equal: 10 - name: distance checks: - type: invalid_count valid_min: 0 valid_max: 1000 - name: created optional: true checks: - type: row_count
Les résultats de la nouvelle architecture de données de Group 1001 ont été immédiats :
Réduction de la charge opérationnelle
Les étapes de validation répétitives antérieures sont maintenant automatisées. Les ingénieurs passent moins de temps à dépanner, et les problèmes sont détectés plus tôt, avant d'atteindre les utilisateurs finaux. Cette approche proactive a considérablement réduit les temps d'arrêt et les révisions.
Couverture de qualité évolutive
Chaque pipeline comprend désormais des vérifications automatisées. Les nouveaux ensembles de données sont intégrés avec des règles standardisées et les problèmes sont détectés avant leur propagation. L'équipe peut facilement étendre la surveillance à mesure que de nouvelles sources ou transformations sont ajoutées.
Amélioration de la collaboration et de la confiance
En intégrant Soda avec Atlan, Group 1001 a amené la visibilité de la qualité dans son catalogue, permettant aux consommateurs de données d'évaluer instantanément les niveaux de confiance. Les parties prenantes commerciales ont maintenant plus de confiance dans les rapports et les informations qu'elles utilisent pour prendre des décisions.
Pour Group 1001, le résultat le plus important de ce processus de modernisation a été que les données sont devenues un actif sur lequel ils peuvent compter, et non une responsabilité à contourner.
Métrique | Avant Soda | Après Soda |
|---|---|---|
Vérifications de la qualité des données | Manuel, 6h du matin quotidien | Automatisé, continu |
Détection des problèmes | Après impact commercial | Avant propagation |
Livraison analytique | Mois | Quelques jours |
Risque de migration | Élevé (validation manuelle) | Faible (réconciliation automatisée) |
Capacité de l'équipe | Centré sur les urgences | Centré sur le travail stratégique |
Confiance commerciale | Données retardées, peu fiables | Données en quasi temps réel, fiables |
Auteurs des vérifications de qualité | Seulement ingénieurs | Analystes + Ingénieurs |
Cette transformation a été réalisée par une équipe de 5 personnes en moins de 12 mois, démontrant que les bons choix d'outillage peuvent fournir un impact à l'échelle de l'entreprise sans équipes à grande échelle.
Construire une culture de confiance dans les données
Au-delà de la technologie, l'adoption de Soda a aidé à faire évoluer la culture des données de Group 1001. La qualité des données n'est plus la responsabilité exclusive des ingénieurs, elle fait partie de la façon dont chaque équipe travaille avec les données. Analyses et ingénieurs contribuent à définir les attentes de qualité, écrire des vérifications et examiner les résultats.
La transparence des tableaux de bord Soda Cloud rend les problèmes de qualité visibles pour tout le monde, favorisant la responsabilisation et l'amélioration continue.

« Maintenant, nous sommes proactifs. Nous savons qu'il y a un problème, nous informons les équipes, nous le résolvons, et en le résolvant, nous pouvons également appliquer une autre règle de qualité des données pour s'assurer que cela ne se reproduise plus. C'est comme ça que nous reprenons le contrôle de nos ensembles de données. » — Gu Xie
Cette approche collaborative a également influencé la gouvernance interne. L'équipe codifie maintenant les leçons apprises dans des modèles réutilisables, garantissant que les normes de qualité sont constamment appliquées à de nouveaux projets. Avec le temps, ce cadre est devenu une base pour la confiance dans les données à travers l'organisation.
« La façon dont je vois Soda et la façon dont cela nous aide réellement à transformer et la valeur que nous obtenons est le fait que nous pouvons dormir la nuit en sachant que nos processus fonctionnent, que nous pouvons faire confiance que si tout est terminé et le cycle est complet et que nous pouvons voir les données maintenant dans notre tableau de bord rafraîchi, nous pouvons lui faire confiance. » — Gu Xie
Regard vers l'avenir : observabilité pilotée par les métadonnées
La prochaine phase de Group 1001 se concentre sur le renforcement du lien entre les métadonnées et l'observabilité de la qualité. En reliant les métriques de validation de Soda avec les données de traçabilité d'Atlan, l'entreprise vise à créer une boucle de rétroaction intelligente qui priorise automatiquement les améliorations de qualité en fonction de l'utilisation des données et de l'impact commercial.
Pour Gu Xie, la stratégie reste claire : garder la pile modulaire, interopérable et axée sur permettre aux gens de faire plus avec les données.
« Parce que nous utilisons ce catalogue pour héberger tous les actifs de données, nous pouvons maintenant le partager avec les départements, les équipes et même différentes entreprises. Nous pouvons maintenant véritablement démocratiser les données au sein de l'organisation. » — Gu Xie
Points clés à retenir
Le parcours de Group 1001 offre des enseignements pratiques pour les organisations confrontées à des défis similaires :
Si vous vous réveillez pour vérifier les données manuellement : Commencez par l'automatisation. N'attendez pas d'avoir une infrastructure parfaite ; résolvez le point douloureux immédiat.
Si vous avez une petite équipe soutenant de grands besoins : Les meilleurs outils sont votre multiplicateur de force.
Si vous planifiez une migration de plateforme : Faites de la qualité des données votre filet de sécurité. La validation automatisée est moins chère que l'échec de la migration.
Si votre organisation ne fait pas confiance aux données : Commencez à mesurer ce qui compte. Pas le nombre de vérifications, mais la réduction des problèmes récurrents.
Si vous hésitez entre construire ou acheter : Considérez le coût d'opportunité. Les semaines passées à construire une infrastructure de qualité des données sont des semaines non passées à fournir des informations commerciales. Soda a donné à Group 1001 des capacités de niveau entreprise en quelques jours, pas des mois.
Clause de non-responsabilité : Ce matériel a été créé en 2023. Veuillez noter que les chiffres et les statistiques peuvent avoir changé depuis sa publication.
Regardez l'entretien
Écoutez plus de Gu Xie, responsable de l'ingénierie des données chez Group 1001, dans l'interview podcast Fizz : Construire une architecture de données moderne
Contactez-nous
Planifiez une démonstration avec l'équipe Soda pour découvrir comment vous pourriez optimiser votre stratégie de qualité des données à travers tout votre écosystème de données.
Group 1001 est une entreprise de services financiers axée sur la technologie qui gère un portefeuille diversifié de produits d'assurance et d'investissement. La vision de l'entreprise pour les données est pragmatique : chaque système doit permettre des décisions plus rapides et plus précises tout en maintenant une confiance totale dans les informations sous-jacentes.
Mais à mesure que les volumes de données augmentaient et que les systèmes se développaient, l'équipe de données faisait face à des difficultés croissantes pour maintenir l'exactitude, la rapidité et la cohérence des sources. Les équipes passaient des heures à vérifier manuellement l'intégrité des données et à réconcilier les incohérences entre les systèmes. Ce processus était chronophage, sujet aux erreurs et offrait une évolutivité limitée.
Pour surmonter ces défis, en 2022, Gu Xie, alors nouveau responsable de l'ingénierie des données chez Group 1001, a entrepris de créer une architecture de données moderne : un écosystème modulaire et interopérable d'outils conçus pour automatiser, intégrer et étendre les opérations de données. Dans cette transformation, Soda est devenue le composant critique qui a rendu la qualité des données visible, automatisée et accessible à tous.
En moins d'un an, une équipe de cinq personnes chez Group 1001 a construit une architecture de données moderne qui a automatisé des centaines de vérifications de qualité et a multiplié par 10 la productivité, prouvant que la fiabilité à l'échelle de l'entreprise ne nécessite pas des équipes à grande échelle.
Le défi : passer des vérifications manuelles à une architecture de données moderne
Avant la modernisation, les efforts de l'équipe de données étaient principalement axés sur la validation manuelle et la réconciliation. Les ingénieurs en données commençaient souvent leurs matins par un examen des pipelines cassés et des tables incohérentes, résolvant les problèmes avant que les utilisateurs commerciaux ne puissent commencer leur journée.
« Je devais me lever à 6 heures du matin chaque matin. Et si quelqu'un me connaît, je ne suis pas une personne du matin. Mais je devais effectuer ces vérifications pour m'assurer que les données étaient réellement présentes. Bien souvent, on ne savait même pas si les données étaient là. Nous vérifiions simplement les bases pour pouvoir exécuter des rapports et informer l'entreprise lorsqu'il y avait un problème. » — Gu Xie
Cette approche réactive a entraîné des goulots d'étranglement qui ralentissaient l'analyse et réduisaient la confiance dans les rapports. En raison du manque de surveillance automatisée, les problèmes étaient souvent découverts après qu'ils avaient atteint les tableaux de bord ou les applications commerciales en aval.
L'infrastructure de l'entreprise évoluait également rapidement. De nouveaux outils d'ingestion, de transformation et d'orchestration ont été introduits, chacun avec leur propre modèle opérationnel. En conséquence, l'intégration et l'assurance de normes cohérentes de qualité des données à travers cette pile diversifiée sont devenues critiques.
À l'époque, leur petite équipe de données, composée de seulement 5 personnes en charge d'un écosystème qui soutenait de multiples fonctions commerciales, comprenait qu'ils avaient besoin d'outils non seulement performants en isolation mais aussi intégrés naturellement dans un écosystème cohérent. Pour évoluer efficacement, ils avaient besoin d'outils qui réduisent la charge opérationnelle, automatisent les tâches répétitives et fournissent de la transparence tout au long du cycle de vie des données.
En résumé, l'équipe avait des priorités claires :
Automatiser la validation de la qualité pour éliminer les vérifications manuelles.
Intégrer l'observation directement dans les pipelines et les flux de travail.
S'intégrer sans heurts avec les technologies existantes, sans ajouter de frictions.
Permettre les tests de qualité en libre-service pour les analystes et les utilisateurs métiers.
La solution : concevoir pour l'intégration et l'efficacité
Le principe directeur de Group 1001 était clair : l'efficacité par l'interopérabilité. Au lieu de construire un système monolithique, l'équipe a adopté une approche modulaire, combinant des outils répondant à leurs besoins et s'ajustant avec un minimum de friction.
L'équipe a commencé par moderniser l'ingestion et le stockage. Fivetran a automatisé le transfert des données depuis les systèmes opérationnels vers Snowflake, garantissant la rapidité et la cohérence. Coalesce a simplifié les pipelines de transformation, tandis que Dagster gérait les flux de travail complexes avec fiabilité et visibilité.
La dernière pièce était la qualité des données. Group 1001 avait besoin d'une solution légère, flexible et facile à intégrer dans les pipelines existants. Lors de l'évaluation des solutions de qualité des données, Group 1001 faisait face à une décision commune : construire ou acheter ?
Construire à partir de zéro nécessiterait :
Développement et maintenance de cadre personnalisé
Création de bibliothèque de modèles de vérification
Système de suivi des échecs et d'alerte
Interface utilisateur pour les non-techniciens
Ressources d'ingénierie continues pour les mises à jour
Ayant déjà construit des processus de qualité des données depuis zéro dans ses rôles antérieurs, Gu comprenait le véritable coût du développement personnalisé.
« Au début, nous exécutons manuellement des requêtes quotidiennes. Je pensais : “Eh bien, nous pourrions construire un simple wrapper pour les exécuter automatiquement”, mais pour les opérations à l'échelle de l'entreprise, cela ne suffit pas. Vous avez besoin de vérifications standardisées, de modèles pour l'unicité, la fraîcheur, les vérifications de référence, les validations statistiques, et plus. En plus de cela, vous avez besoin d'une façon de suivre les échecs, d'apprendre d'eux et de répondre de manière appropriée.
Quand j’ai évalué Soda, surtout l'offre cloud, j'ai vu toutes ces capacités déjà intégrées : bibliothèques de vérifications, personnalisation, flexibilité et modèles. Essentiellement, cela signifiait que je n'avais pas à reconstruire ce qui existait déjà - c'était prêt à évoluer pour l'organisation.” — Gu Xie
Après avoir considéré plusieurs outils, Group 1001 a choisi Soda pour sa flexibilité et ses capacités intégrées. Mais ce qui a le plus séduit l'équipe de données, c'est la façon dont Soda s'est intégré sans effort dans leur écosystème de données plus large.
« Trois jours plus tard, nous avons déployé Soda, en utilisant la version open-source, en production. Maintenant, il exécute automatiquement toutes les vérifications que nous effectuions manuellement et même arrête l'actualisation des rapports si quelque chose ne va pas, de sorte que l'activité n'est jamais impactée. Et parce que nous avons cette vérification en place, je peux maintenant dormir et me concentrer sur d'autres tâches. C’est de la valeur ajoutée là - c'est assez clair si vous me demandez. » — Gu Xie
Au début de ce projet, lors de la migration des données de PostgreSQL vers Snowflake, les vérifications Soda ont été utilisées pour vérifier les comptes de lignes et l'alignement des schémas, garantissant une réconciliation précise. Cette capacité a éliminé des heures de comparaison manuelle et a considérablement réduit le risque lors des transitions.
« Nous avons combiné Snowflake avec Airflow à l'époque, et utilisé Soda pour gérer beaucoup de la réconciliation lors de la migration. C'était essentiel pour s'assurer que la qualité des données était maintenue tout en réglant la migration sur quelques semaines avant mise en service. » - Gu Xie
L'équipe a commencé avec le cadre open-source de Soda pour gérer les vérifications répétitives de qualité, surveiller les comptes d'enregistrements, la complétude et les changements de schémas. À mesure que les besoins augmentaient, ils ont adopté Soda Cloud, débloquant plus de fonctionnalités de collaboration, de gouvernance et d'alerte.
Soda se connecte maintenant à chaque couche majeure de la pile de Group 1001 :
Dagster déclenche les vérifications Soda pendant les exécutions de pipelines, attrapant les problèmes avant que les données n'atteignent les utilisateurs finaux.
Snowflake sert de fondation, Soda vérifiant la cohérence des données à travers les migrations et mises à jour.
Coalesce intègre des tests post-transformation, garantissant que les résultats respectent les seuils de qualité définis.
Atlan expose les mesures de qualité de Soda dans son catalogue, reliant l'observabilité à la traçabilité des données.
Voir toutes les intégrations Soda
Cette architecture permet une couverture complète de la qualité des données avec un minimum d'effort d'ingénierie.

Image prise de Group 1001 augmente la productivité par 10x par Fivetran
« Le vrai retour sur investissement a toujours été la productivité de nos ingénieurs, la productivité de nos analystes - pour ne pas passer du temps à dépanner et à éteindre des incendies chaque jour, pour passer plus de temps à découvrir de nouvelles informations et à apporter plus de valeur. » — Gu Xie
L'impact : la qualité des données comme un catalyseur
L'introduction de Soda a déplacé l'état d'esprit de l'équipe de données de correctifs réactifs à une surveillance proactive. Ce qui nécessitait autrefois une inspection manuelle se produit maintenant automatiquement sur des centaines de jeux de données.
Chaque vérification de qualité s'exécute dans le cadre de l'exécution du pipeline, créant une boucle continue de validation.
La configuration conviviale en YAML de Soda la rend également accessible aux non-ingénieurs. Les analystes de données pouvaient créer leurs propres tests, examiner les résultats dans Soda Cloud et collaborer avec les ingénieurs pour affiner les seuils, le tout sans beaucoup d'expérience en codage.
La simplicité de la configuration YAML signifie qu'un membre de l'équipe QA, sans expertise approfondie en SQL, peut créer et déployer des vérifications de manière indépendante pour les flux de données de fournisseurs. Cette capacité en libre-service s'est avérée essentielle pour étendre la fiabilité des données. Les analystes, qui s'appuyaient autrefois sur les ingénieurs pour la validation, peuvent maintenant surveiller indépendamment leurs propres ensembles de données, réduisant la dépendance et le temps de réponse.
« Avec SodaCloud, nous n'avons pas besoin d'un utilisateur très technique pour créer des vérifications. Un analyste commercial ou un analyste de données peut écrire et provisionner des vérifications eux-mêmes grâce au libre-service. C'est ce que j'ai vraiment aimé avec SodaCloud - cela a permis une vision plus grande pour l'organisation. » — Gu Xie
Exemple de checks.yaml Soda
dataset: dim_product owner: zaynabissa@company.com columns: - name: id data_type: VARCHAR checks: - type: duplicate_count - name: size data_type: VARCHAR checks: - type: invalid_count valid_values: ['S', 'M', 'L'] must_be_greater_than_or_equal: 10 - name: distance checks: - type: invalid_count valid_min: 0 valid_max: 1000 - name: created optional: true checks: - type: row_count
Les résultats de la nouvelle architecture de données de Group 1001 ont été immédiats :
Réduction de la charge opérationnelle
Les étapes de validation répétitives antérieures sont maintenant automatisées. Les ingénieurs passent moins de temps à dépanner, et les problèmes sont détectés plus tôt, avant d'atteindre les utilisateurs finaux. Cette approche proactive a considérablement réduit les temps d'arrêt et les révisions.
Couverture de qualité évolutive
Chaque pipeline comprend désormais des vérifications automatisées. Les nouveaux ensembles de données sont intégrés avec des règles standardisées et les problèmes sont détectés avant leur propagation. L'équipe peut facilement étendre la surveillance à mesure que de nouvelles sources ou transformations sont ajoutées.
Amélioration de la collaboration et de la confiance
En intégrant Soda avec Atlan, Group 1001 a amené la visibilité de la qualité dans son catalogue, permettant aux consommateurs de données d'évaluer instantanément les niveaux de confiance. Les parties prenantes commerciales ont maintenant plus de confiance dans les rapports et les informations qu'elles utilisent pour prendre des décisions.
Pour Group 1001, le résultat le plus important de ce processus de modernisation a été que les données sont devenues un actif sur lequel ils peuvent compter, et non une responsabilité à contourner.
Métrique | Avant Soda | Après Soda |
|---|---|---|
Vérifications de la qualité des données | Manuel, 6h du matin quotidien | Automatisé, continu |
Détection des problèmes | Après impact commercial | Avant propagation |
Livraison analytique | Mois | Quelques jours |
Risque de migration | Élevé (validation manuelle) | Faible (réconciliation automatisée) |
Capacité de l'équipe | Centré sur les urgences | Centré sur le travail stratégique |
Confiance commerciale | Données retardées, peu fiables | Données en quasi temps réel, fiables |
Auteurs des vérifications de qualité | Seulement ingénieurs | Analystes + Ingénieurs |
Cette transformation a été réalisée par une équipe de 5 personnes en moins de 12 mois, démontrant que les bons choix d'outillage peuvent fournir un impact à l'échelle de l'entreprise sans équipes à grande échelle.
Construire une culture de confiance dans les données
Au-delà de la technologie, l'adoption de Soda a aidé à faire évoluer la culture des données de Group 1001. La qualité des données n'est plus la responsabilité exclusive des ingénieurs, elle fait partie de la façon dont chaque équipe travaille avec les données. Analyses et ingénieurs contribuent à définir les attentes de qualité, écrire des vérifications et examiner les résultats.
La transparence des tableaux de bord Soda Cloud rend les problèmes de qualité visibles pour tout le monde, favorisant la responsabilisation et l'amélioration continue.

« Maintenant, nous sommes proactifs. Nous savons qu'il y a un problème, nous informons les équipes, nous le résolvons, et en le résolvant, nous pouvons également appliquer une autre règle de qualité des données pour s'assurer que cela ne se reproduise plus. C'est comme ça que nous reprenons le contrôle de nos ensembles de données. » — Gu Xie
Cette approche collaborative a également influencé la gouvernance interne. L'équipe codifie maintenant les leçons apprises dans des modèles réutilisables, garantissant que les normes de qualité sont constamment appliquées à de nouveaux projets. Avec le temps, ce cadre est devenu une base pour la confiance dans les données à travers l'organisation.
« La façon dont je vois Soda et la façon dont cela nous aide réellement à transformer et la valeur que nous obtenons est le fait que nous pouvons dormir la nuit en sachant que nos processus fonctionnent, que nous pouvons faire confiance que si tout est terminé et le cycle est complet et que nous pouvons voir les données maintenant dans notre tableau de bord rafraîchi, nous pouvons lui faire confiance. » — Gu Xie
Regard vers l'avenir : observabilité pilotée par les métadonnées
La prochaine phase de Group 1001 se concentre sur le renforcement du lien entre les métadonnées et l'observabilité de la qualité. En reliant les métriques de validation de Soda avec les données de traçabilité d'Atlan, l'entreprise vise à créer une boucle de rétroaction intelligente qui priorise automatiquement les améliorations de qualité en fonction de l'utilisation des données et de l'impact commercial.
Pour Gu Xie, la stratégie reste claire : garder la pile modulaire, interopérable et axée sur permettre aux gens de faire plus avec les données.
« Parce que nous utilisons ce catalogue pour héberger tous les actifs de données, nous pouvons maintenant le partager avec les départements, les équipes et même différentes entreprises. Nous pouvons maintenant véritablement démocratiser les données au sein de l'organisation. » — Gu Xie
Points clés à retenir
Le parcours de Group 1001 offre des enseignements pratiques pour les organisations confrontées à des défis similaires :
Si vous vous réveillez pour vérifier les données manuellement : Commencez par l'automatisation. N'attendez pas d'avoir une infrastructure parfaite ; résolvez le point douloureux immédiat.
Si vous avez une petite équipe soutenant de grands besoins : Les meilleurs outils sont votre multiplicateur de force.
Si vous planifiez une migration de plateforme : Faites de la qualité des données votre filet de sécurité. La validation automatisée est moins chère que l'échec de la migration.
Si votre organisation ne fait pas confiance aux données : Commencez à mesurer ce qui compte. Pas le nombre de vérifications, mais la réduction des problèmes récurrents.
Si vous hésitez entre construire ou acheter : Considérez le coût d'opportunité. Les semaines passées à construire une infrastructure de qualité des données sont des semaines non passées à fournir des informations commerciales. Soda a donné à Group 1001 des capacités de niveau entreprise en quelques jours, pas des mois.
Clause de non-responsabilité : Ce matériel a été créé en 2023. Veuillez noter que les chiffres et les statistiques peuvent avoir changé depuis sa publication.
Regardez l'entretien
Écoutez plus de Gu Xie, responsable de l'ingénierie des données chez Group 1001, dans l'interview podcast Fizz : Construire une architecture de données moderne
Contactez-nous
Planifiez une démonstration avec l'équipe Soda pour découvrir comment vous pourriez optimiser votre stratégie de qualité des données à travers tout votre écosystème de données.
Trusted by the world’s leading enterprises
Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.
At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava
Director of Data Governance, Quality and MLOps
Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake
Director of Product-Data Platform
Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta
Data Engineering Manager
Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie
Head of Data Engineering
4,4 sur 5
Commencez à faire confiance à vos données. Aujourd'hui.
Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.
Adopté par




Trusted by the world’s leading enterprises
Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.
At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava
Director of Data Governance, Quality and MLOps
Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake
Director of Product-Data Platform
Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta
Data Engineering Manager
Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie
Head of Data Engineering
4,4 sur 5
Commencez à faire confiance à vos données. Aujourd'hui.
Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.
Adopté par
Solutions




Trusted by the world’s leading enterprises
Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.
At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava
Director of Data Governance, Quality and MLOps
Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake
Director of Product-Data Platform
Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta
Data Engineering Manager
Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie
Head of Data Engineering
4,4 sur 5
Commencez à faire confiance à vos données. Aujourd'hui.
Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.
Adopté par
Solutions



