Atteindre zéro défaut grâce à l'automatisation des tests de données
Atteindre zéro défaut grâce à l'automatisation des tests de données
12 déc. 2023

Koen Van Duyse
Koen Van Duyse
Koen Van Duyse
Ancien Responsable des Clients et Partenaires chez Soda
Ancien Responsable des Clients et Partenaires chez Soda
Ancien Responsable des Clients et Partenaires chez Soda
Table des matières






La mise en œuvre de Soda a été une véritable révolution pour nous. Ce n'est pas seulement une question de technologie ; c'est ainsi que cela a transformé notre approche de la qualité des données et notre état d'esprit envers les produits.
La mise en œuvre de Soda a été une véritable révolution pour nous. Ce n'est pas seulement une question de technologie ; c'est ainsi que cela a transformé notre approche de la qualité des données et notre état d'esprit envers les produits.
La mise en œuvre de Soda a été une véritable révolution pour nous. Ce n'est pas seulement une question de technologie ; c'est ainsi que cela a transformé notre approche de la qualité des données et notre état d'esprit envers les produits.



Tommy Dodge
Tommy Dodge
Directeur des Analyses
Directeur des Analyses
Directeur des Analyses
à
Première Partie
Première Partie
Première Partie
FirstParty, un leader dans les services de données, fournit des solutions complètes pour permettre aux organisations de gérer et d'exploiter efficacement leurs actifs de données. Fondée avec la mission de responsabiliser les organisations de toutes tailles et industries, FirstParty offre une expertise dans l'évaluation, l'organisation et le déploiement des données pour maximiser leur valeur. Son équipe de professionnels expérimentés en données apporte une richesse de connaissances et d'outils pour débloquer la valeur commerciale des données.
En 2022, FirstParty a entrepris d'améliorer la qualité de ses produits de données pour dépasser les normes de l'industrie et les attentes des clients. Cela a conduit à un partenariat avec Soda, marquant une étape significative dans l'évolution de leurs pratiques de gestion des données et établissant de nouveaux standards dans l'industrie.
Le défi : atteindre zéro défauts à travers des produits de données complexes
FirstParty a été confrontée à un défi important pour garantir la qualité des données à travers ses divers produits de données en raison de la complexité des types de données et des sources qu'ils traitent. Gérer la qualité des données dans un environnement aussi diversifié a nécessité des techniques et des outils avancés pour identifier et corriger les incohérences et les erreurs. La nature évolutive des données, avec des mises à jour et des changements constants, ajoutait à la complexité. Tout cela a rendu la tâche considérable pour FirstParty de maintenir son engagement à fournir des données de la plus haute qualité.
« Trouver un problème de données par soi-même, c'est comme chercher une aiguille dans une botte de foin. Auparavant, nous vérifiions manuellement les données au moment de la livraison, comme à la toute fin de notre pipeline de données. »— Jolie McDonnell, Data Scientist chez FirstParty
Avant de mettre en œuvre Soda, le processus d'assurance qualité de FirstParty, bien que rigoureux, était fondamentalement réactif. L'équipe utilisait une approche en trois volets : un code révisé par les pairs, une surveillance Airflow pour les échecs de tâches, et une révision manuelle des fichiers de sortie à l'aide d'Excel ou de notebooks Python. Mais cela les laissait exposés à une vulnérabilité critique.
Le problème n'était pas seulement l'effort manuel, c'était le timing. Avec des pipelines contenant 20 à 30 étapes de transformation, trouver les problèmes seulement à la fin rendait le dépannage presque impossible. Trouver la source d'un problème signifiait retracer des dizaines de transformations et même la logique des modèles pour localiser l'erreur. Pire encore, l'équipe ne savait souvent pas si les requêtes étaient exécutées comme prévu. Pire encore, l'équipe ne savait souvent pas si les requêtes étaient exécutées comme prévu.
En 2022, l'entreprise a entrepris de mettre en place une « politique de zéro défaut » pour son offre de données. Cette initiative ne visait pas seulement à maintenir l'exactitude des données mais aussi à instaurer une culture d'excellence et de fiabilité. Opérant dans le secteur des services financiers et des fonds spéculatifs, où les clients prennent des décisions d'investissement à enjeux élevés basées sur les produits de données de FirstParty, même une seule erreur pourrait être catastrophique.
Le défi allait au-delà des solutions techniques : il nécessitait un changement de mentalité organisationnelle, où chaque membre de l'équipe devenait un gardien de l'intégrité des données. Cette approche holistique de la qualité des données était essentielle pour répondre aux normes élevées que FirstParty s'était fixées pour elle-même et ses clients.
La solution : une gestion proactive de la qualité
Plusieurs facteurs ont fait de Soda le bon choix pour l'environnement diversifié et rapide de FirstParty.
La capacité de se connecter à de multiples sources de données était cruciale – les clients utilisent diverses plateformes comme Redshift, et FirstParty avait besoin de flexibilité pour travailler avec des fichiers JSON, des fichiers Parquet et différents schémas de partitionnement à travers les projets.
Les vérifications basées sur YAML ont également permis une itération rapide. Une fois que FirstParty a créé des vérifications pour les premiers pipelines, elles ont pu être réutilisées et adaptées pour de nouveaux projets. La lisibilité signifiait que les parties prenantes non techniques pouvaient comprendre ce qui était validé, créant ainsi une transparence dans toute l'organisation.
« Le format YAML était un énorme avantage pour nous. Nous sommes une équipe très diversifiée, nous venons de domaines de compétences variés, et parfois, avoir des vérifications YAML faciles à lire pour comprendre ce qui ne va pas dans les données à travers l'entreprise et les affaires est vraiment impératif. »— Jolie McDonnell, Data Scientist chez FirstParty
Les intégrations de notifications en temps réel complétaient le tableau, garantissant que l'équipe savait immédiatement quand quelque chose n'allait pas, plutôt que de découvrir les problèmes des heures ou des jours plus tard.
En intégrant Soda dans ses processus de données, FirstParty n'a pas seulement rationalisé ses opérations mais a également apporté un nouveau niveau de précision et d'efficacité à sa gestion des données. La clé de leur approche était d'adopter une philosophie de « shift left »—implémenter des contrôles de qualité aussi tôt et aussi souvent que possible tout au long du pipeline de données, plutôt que d'attendre la fin.
Les solutions avancées de Soda ont permis à FirstParty d'identifier et de résoudre de manière proactive les problèmes de données tôt dans le pipeline, réduisant considérablement le temps et les ressources consacrés au dépannage. Cette intégration a dépassé les simples améliorations techniques ; elle a favorisé une culture de gestion proactive de la qualité, où la qualité des données est devenue une responsabilité partagée entre les équipes.
Les outils de Soda ont permis à l'équipe de FirstParty de ne pas simplement réagir aux problèmes de données, mais de les anticiper et de les prévenir, garantissant que leur « politique de zéro défaut » n'était pas juste une aspiration mais un objectif pratique et réalisable.
Attraper des problèmes en amont
La stratégie d'intégration de FirstParty se concentre sur la validation des données à chaque étape de transformation, dès le moment où les données arrivent des clients. Cette validation en amont s'est avérée immédiatement précieuse. Lorsqu'un client a récemment commencé à laisser tomber des enregistrements dupliqués, FirstParty l'a découvert le jour même où les données sont arrivées, avant d'exécuter des transformations en aval.
« Si vous attrapez des choses à la fin, vous ne pouvez même pas utiliser les données, et vous ne savez même pas où les réparer. C'est ce qui nous permet d'être super précis, n'est-ce pas ? Nous savons exactement où cela a échoué. »— Ben Sgro, VP Engineering chez FirstParty
Sans contrôles en place, ils n'auraient pas découvert le problème avant bien plus tard dans le pipeline, rendant le diagnostic et la communication au client beaucoup plus difficiles.

L'impact : transformation culturelle et confiance des clients
La collaboration avec Soda a été le catalyseur d'un changement significatif dans l'approche de FirstParty concernant la qualité des données. La réduction du nombre d'erreurs de données et la création d'un hub organisé pour l'assurance qualité n'étaient que les premiers avantages obtenus.
Peut-être que l'impact le plus tangible a été sur la qualité de vie de l'équipe et la tranquillité d'esprit opérationnelle. L'équipe peut désormais faire confiance à ses pipelines qui sont continuellement validés, avec les problèmes détectés et résolus pendant les heures de travail normales plutôt que découverts en mode crise.
Avec une petite équipe soutenant un portefeuille croissant de produits de données pour des clients financiers exigeants, FirstParty avait besoin d'outils qui multipliaient leur efficacité. L'automatisation de Soda a libéré l'équipe du travail de validation manuelle, leur permettant de se concentrer sur la construction plutôt que de réaliser des vérifications de qualité répétitives.
Le changement de paradigme dans la gestion des données a également amélioré la collaboration et la communication dans toute l'entreprise, favorisant une culture organisationnelle qui privilégie la qualité des données. L'impact de ce changement est de grande portée, entraînant la livraison de produits de données plus fiables et de meilleure qualité.
Ces améliorations ont déjà résonné auprès des clients, augmentant leur confiance et leur satisfaction avec les services de FirstParty, et renforçant finalement la réputation de FirstParty en tant que fournisseur de services de données de classe mondiale. Leur avantage concurrentiel n'est pas seulement la capacité technique, c'est la confiance qu'ils ont construite grâce à une gestion de la qualité des données proactive et transparente.
Regarder vers l'avenir : du traitement après coup à un processus central
Au fur et à mesure que l'équipe s'est perfectionnée dans l'utilisation de Soda, elle est passée du traitement des vérifications de qualité des données comme une réflexion après coup à les rendre centrales au processus de développement des pipelines dès le premier jour.
« Alors que nous avançons avec de nouvelles constructions de pipelines et de nouveaux clients, Soda va être central – sans jeu de mots – à notre processus de construction de pipelines, car il est vraiment important d'avoir ces vérifications chaque fois qu'une table de niveau de production est créée. »— Jolie McDonnell, Data Scientist chez FirstParty
Cet échange représente un changement fondamental de méthodologie—passer d'adaptations rétrospectives aux vérifications de qualité à leur conception en parallèle avec les transformations de données. Les attentes en matière de qualité sont désormais capturées sous forme de spécifications exécutables lors de la phase de conception, créant une documentation vivante qui valide les données et sert de contrat technique avec les clients.
L'approche de FirstParty en matière de qualité des données est délibérément itérative, commençant par des contrôles fondamentaux, puis élargissant la couverture sur la base d'incidents réels. Chaque problème qui survient entraîne de nouveaux contrôles préventifs, créant des pipelines de plus en plus résilients au fil du temps.
Soda joue un rôle central dans cette stratégie d'automatisation, éliminant les processus de QA manuels qui consommaient autrefois un temps d'ingénierie significatif. Alors que l'équipe continue de croître, cette focalisation sur l'automatisation leur permet de se développer efficacement tout en maintenant leur standard de zéro défaut.
Clause de non-responsabilité : Ce matériel a été créé en 2023. Veuillez noter que les chiffres et les statistiques peuvent avoir changé depuis sa publication.
Écouter le Podcast
Conversation avec FirstParty au Club Soda New York
Le PDG de Soda, Maarten Masschelein, rejoint le personnel de FirstParty avec Jolie McDonnell (Data Scientist), Ben Sgro (VP Engineering) et Tommy Dodge (Directeur de l'Analyse).
Le sujet porte sur les produits de données et la conversation se concentre sur la mission de FirstParty de fournir aux entreprises les capacités de maximiser la valeur de leurs actifs de données.

Prenez contact
Pour les entreprises de services de données, les cabinets de conseil ou toute organisation où les produits de données sont le produit principal, le parcours de FirstParty offre une leçon claire : la qualité ne peut pas être une réflexion après coup ou une étape de post-traitement. Elle doit être intégrée dès le début, automatisée à grande échelle, et rendue transparente pour les parties prenantes.
Planifiez une démonstration avec l'équipe de Soda pour découvrir comment vous pourriez optimiser votre stratégie de qualité des données dans l'ensemble de votre écosystème de données.
FirstParty, un leader dans les services de données, fournit des solutions complètes pour permettre aux organisations de gérer et d'exploiter efficacement leurs actifs de données. Fondée avec la mission de responsabiliser les organisations de toutes tailles et industries, FirstParty offre une expertise dans l'évaluation, l'organisation et le déploiement des données pour maximiser leur valeur. Son équipe de professionnels expérimentés en données apporte une richesse de connaissances et d'outils pour débloquer la valeur commerciale des données.
En 2022, FirstParty a entrepris d'améliorer la qualité de ses produits de données pour dépasser les normes de l'industrie et les attentes des clients. Cela a conduit à un partenariat avec Soda, marquant une étape significative dans l'évolution de leurs pratiques de gestion des données et établissant de nouveaux standards dans l'industrie.
Le défi : atteindre zéro défauts à travers des produits de données complexes
FirstParty a été confrontée à un défi important pour garantir la qualité des données à travers ses divers produits de données en raison de la complexité des types de données et des sources qu'ils traitent. Gérer la qualité des données dans un environnement aussi diversifié a nécessité des techniques et des outils avancés pour identifier et corriger les incohérences et les erreurs. La nature évolutive des données, avec des mises à jour et des changements constants, ajoutait à la complexité. Tout cela a rendu la tâche considérable pour FirstParty de maintenir son engagement à fournir des données de la plus haute qualité.
« Trouver un problème de données par soi-même, c'est comme chercher une aiguille dans une botte de foin. Auparavant, nous vérifiions manuellement les données au moment de la livraison, comme à la toute fin de notre pipeline de données. »— Jolie McDonnell, Data Scientist chez FirstParty
Avant de mettre en œuvre Soda, le processus d'assurance qualité de FirstParty, bien que rigoureux, était fondamentalement réactif. L'équipe utilisait une approche en trois volets : un code révisé par les pairs, une surveillance Airflow pour les échecs de tâches, et une révision manuelle des fichiers de sortie à l'aide d'Excel ou de notebooks Python. Mais cela les laissait exposés à une vulnérabilité critique.
Le problème n'était pas seulement l'effort manuel, c'était le timing. Avec des pipelines contenant 20 à 30 étapes de transformation, trouver les problèmes seulement à la fin rendait le dépannage presque impossible. Trouver la source d'un problème signifiait retracer des dizaines de transformations et même la logique des modèles pour localiser l'erreur. Pire encore, l'équipe ne savait souvent pas si les requêtes étaient exécutées comme prévu. Pire encore, l'équipe ne savait souvent pas si les requêtes étaient exécutées comme prévu.
En 2022, l'entreprise a entrepris de mettre en place une « politique de zéro défaut » pour son offre de données. Cette initiative ne visait pas seulement à maintenir l'exactitude des données mais aussi à instaurer une culture d'excellence et de fiabilité. Opérant dans le secteur des services financiers et des fonds spéculatifs, où les clients prennent des décisions d'investissement à enjeux élevés basées sur les produits de données de FirstParty, même une seule erreur pourrait être catastrophique.
Le défi allait au-delà des solutions techniques : il nécessitait un changement de mentalité organisationnelle, où chaque membre de l'équipe devenait un gardien de l'intégrité des données. Cette approche holistique de la qualité des données était essentielle pour répondre aux normes élevées que FirstParty s'était fixées pour elle-même et ses clients.
La solution : une gestion proactive de la qualité
Plusieurs facteurs ont fait de Soda le bon choix pour l'environnement diversifié et rapide de FirstParty.
La capacité de se connecter à de multiples sources de données était cruciale – les clients utilisent diverses plateformes comme Redshift, et FirstParty avait besoin de flexibilité pour travailler avec des fichiers JSON, des fichiers Parquet et différents schémas de partitionnement à travers les projets.
Les vérifications basées sur YAML ont également permis une itération rapide. Une fois que FirstParty a créé des vérifications pour les premiers pipelines, elles ont pu être réutilisées et adaptées pour de nouveaux projets. La lisibilité signifiait que les parties prenantes non techniques pouvaient comprendre ce qui était validé, créant ainsi une transparence dans toute l'organisation.
« Le format YAML était un énorme avantage pour nous. Nous sommes une équipe très diversifiée, nous venons de domaines de compétences variés, et parfois, avoir des vérifications YAML faciles à lire pour comprendre ce qui ne va pas dans les données à travers l'entreprise et les affaires est vraiment impératif. »— Jolie McDonnell, Data Scientist chez FirstParty
Les intégrations de notifications en temps réel complétaient le tableau, garantissant que l'équipe savait immédiatement quand quelque chose n'allait pas, plutôt que de découvrir les problèmes des heures ou des jours plus tard.
En intégrant Soda dans ses processus de données, FirstParty n'a pas seulement rationalisé ses opérations mais a également apporté un nouveau niveau de précision et d'efficacité à sa gestion des données. La clé de leur approche était d'adopter une philosophie de « shift left »—implémenter des contrôles de qualité aussi tôt et aussi souvent que possible tout au long du pipeline de données, plutôt que d'attendre la fin.
Les solutions avancées de Soda ont permis à FirstParty d'identifier et de résoudre de manière proactive les problèmes de données tôt dans le pipeline, réduisant considérablement le temps et les ressources consacrés au dépannage. Cette intégration a dépassé les simples améliorations techniques ; elle a favorisé une culture de gestion proactive de la qualité, où la qualité des données est devenue une responsabilité partagée entre les équipes.
Les outils de Soda ont permis à l'équipe de FirstParty de ne pas simplement réagir aux problèmes de données, mais de les anticiper et de les prévenir, garantissant que leur « politique de zéro défaut » n'était pas juste une aspiration mais un objectif pratique et réalisable.
Attraper des problèmes en amont
La stratégie d'intégration de FirstParty se concentre sur la validation des données à chaque étape de transformation, dès le moment où les données arrivent des clients. Cette validation en amont s'est avérée immédiatement précieuse. Lorsqu'un client a récemment commencé à laisser tomber des enregistrements dupliqués, FirstParty l'a découvert le jour même où les données sont arrivées, avant d'exécuter des transformations en aval.
« Si vous attrapez des choses à la fin, vous ne pouvez même pas utiliser les données, et vous ne savez même pas où les réparer. C'est ce qui nous permet d'être super précis, n'est-ce pas ? Nous savons exactement où cela a échoué. »— Ben Sgro, VP Engineering chez FirstParty
Sans contrôles en place, ils n'auraient pas découvert le problème avant bien plus tard dans le pipeline, rendant le diagnostic et la communication au client beaucoup plus difficiles.

L'impact : transformation culturelle et confiance des clients
La collaboration avec Soda a été le catalyseur d'un changement significatif dans l'approche de FirstParty concernant la qualité des données. La réduction du nombre d'erreurs de données et la création d'un hub organisé pour l'assurance qualité n'étaient que les premiers avantages obtenus.
Peut-être que l'impact le plus tangible a été sur la qualité de vie de l'équipe et la tranquillité d'esprit opérationnelle. L'équipe peut désormais faire confiance à ses pipelines qui sont continuellement validés, avec les problèmes détectés et résolus pendant les heures de travail normales plutôt que découverts en mode crise.
Avec une petite équipe soutenant un portefeuille croissant de produits de données pour des clients financiers exigeants, FirstParty avait besoin d'outils qui multipliaient leur efficacité. L'automatisation de Soda a libéré l'équipe du travail de validation manuelle, leur permettant de se concentrer sur la construction plutôt que de réaliser des vérifications de qualité répétitives.
Le changement de paradigme dans la gestion des données a également amélioré la collaboration et la communication dans toute l'entreprise, favorisant une culture organisationnelle qui privilégie la qualité des données. L'impact de ce changement est de grande portée, entraînant la livraison de produits de données plus fiables et de meilleure qualité.
Ces améliorations ont déjà résonné auprès des clients, augmentant leur confiance et leur satisfaction avec les services de FirstParty, et renforçant finalement la réputation de FirstParty en tant que fournisseur de services de données de classe mondiale. Leur avantage concurrentiel n'est pas seulement la capacité technique, c'est la confiance qu'ils ont construite grâce à une gestion de la qualité des données proactive et transparente.
Regarder vers l'avenir : du traitement après coup à un processus central
Au fur et à mesure que l'équipe s'est perfectionnée dans l'utilisation de Soda, elle est passée du traitement des vérifications de qualité des données comme une réflexion après coup à les rendre centrales au processus de développement des pipelines dès le premier jour.
« Alors que nous avançons avec de nouvelles constructions de pipelines et de nouveaux clients, Soda va être central – sans jeu de mots – à notre processus de construction de pipelines, car il est vraiment important d'avoir ces vérifications chaque fois qu'une table de niveau de production est créée. »— Jolie McDonnell, Data Scientist chez FirstParty
Cet échange représente un changement fondamental de méthodologie—passer d'adaptations rétrospectives aux vérifications de qualité à leur conception en parallèle avec les transformations de données. Les attentes en matière de qualité sont désormais capturées sous forme de spécifications exécutables lors de la phase de conception, créant une documentation vivante qui valide les données et sert de contrat technique avec les clients.
L'approche de FirstParty en matière de qualité des données est délibérément itérative, commençant par des contrôles fondamentaux, puis élargissant la couverture sur la base d'incidents réels. Chaque problème qui survient entraîne de nouveaux contrôles préventifs, créant des pipelines de plus en plus résilients au fil du temps.
Soda joue un rôle central dans cette stratégie d'automatisation, éliminant les processus de QA manuels qui consommaient autrefois un temps d'ingénierie significatif. Alors que l'équipe continue de croître, cette focalisation sur l'automatisation leur permet de se développer efficacement tout en maintenant leur standard de zéro défaut.
Clause de non-responsabilité : Ce matériel a été créé en 2023. Veuillez noter que les chiffres et les statistiques peuvent avoir changé depuis sa publication.
Écouter le Podcast
Conversation avec FirstParty au Club Soda New York
Le PDG de Soda, Maarten Masschelein, rejoint le personnel de FirstParty avec Jolie McDonnell (Data Scientist), Ben Sgro (VP Engineering) et Tommy Dodge (Directeur de l'Analyse).
Le sujet porte sur les produits de données et la conversation se concentre sur la mission de FirstParty de fournir aux entreprises les capacités de maximiser la valeur de leurs actifs de données.

Prenez contact
Pour les entreprises de services de données, les cabinets de conseil ou toute organisation où les produits de données sont le produit principal, le parcours de FirstParty offre une leçon claire : la qualité ne peut pas être une réflexion après coup ou une étape de post-traitement. Elle doit être intégrée dès le début, automatisée à grande échelle, et rendue transparente pour les parties prenantes.
Planifiez une démonstration avec l'équipe de Soda pour découvrir comment vous pourriez optimiser votre stratégie de qualité des données dans l'ensemble de votre écosystème de données.
FirstParty, un leader dans les services de données, fournit des solutions complètes pour permettre aux organisations de gérer et d'exploiter efficacement leurs actifs de données. Fondée avec la mission de responsabiliser les organisations de toutes tailles et industries, FirstParty offre une expertise dans l'évaluation, l'organisation et le déploiement des données pour maximiser leur valeur. Son équipe de professionnels expérimentés en données apporte une richesse de connaissances et d'outils pour débloquer la valeur commerciale des données.
En 2022, FirstParty a entrepris d'améliorer la qualité de ses produits de données pour dépasser les normes de l'industrie et les attentes des clients. Cela a conduit à un partenariat avec Soda, marquant une étape significative dans l'évolution de leurs pratiques de gestion des données et établissant de nouveaux standards dans l'industrie.
Le défi : atteindre zéro défauts à travers des produits de données complexes
FirstParty a été confrontée à un défi important pour garantir la qualité des données à travers ses divers produits de données en raison de la complexité des types de données et des sources qu'ils traitent. Gérer la qualité des données dans un environnement aussi diversifié a nécessité des techniques et des outils avancés pour identifier et corriger les incohérences et les erreurs. La nature évolutive des données, avec des mises à jour et des changements constants, ajoutait à la complexité. Tout cela a rendu la tâche considérable pour FirstParty de maintenir son engagement à fournir des données de la plus haute qualité.
« Trouver un problème de données par soi-même, c'est comme chercher une aiguille dans une botte de foin. Auparavant, nous vérifiions manuellement les données au moment de la livraison, comme à la toute fin de notre pipeline de données. »— Jolie McDonnell, Data Scientist chez FirstParty
Avant de mettre en œuvre Soda, le processus d'assurance qualité de FirstParty, bien que rigoureux, était fondamentalement réactif. L'équipe utilisait une approche en trois volets : un code révisé par les pairs, une surveillance Airflow pour les échecs de tâches, et une révision manuelle des fichiers de sortie à l'aide d'Excel ou de notebooks Python. Mais cela les laissait exposés à une vulnérabilité critique.
Le problème n'était pas seulement l'effort manuel, c'était le timing. Avec des pipelines contenant 20 à 30 étapes de transformation, trouver les problèmes seulement à la fin rendait le dépannage presque impossible. Trouver la source d'un problème signifiait retracer des dizaines de transformations et même la logique des modèles pour localiser l'erreur. Pire encore, l'équipe ne savait souvent pas si les requêtes étaient exécutées comme prévu. Pire encore, l'équipe ne savait souvent pas si les requêtes étaient exécutées comme prévu.
En 2022, l'entreprise a entrepris de mettre en place une « politique de zéro défaut » pour son offre de données. Cette initiative ne visait pas seulement à maintenir l'exactitude des données mais aussi à instaurer une culture d'excellence et de fiabilité. Opérant dans le secteur des services financiers et des fonds spéculatifs, où les clients prennent des décisions d'investissement à enjeux élevés basées sur les produits de données de FirstParty, même une seule erreur pourrait être catastrophique.
Le défi allait au-delà des solutions techniques : il nécessitait un changement de mentalité organisationnelle, où chaque membre de l'équipe devenait un gardien de l'intégrité des données. Cette approche holistique de la qualité des données était essentielle pour répondre aux normes élevées que FirstParty s'était fixées pour elle-même et ses clients.
La solution : une gestion proactive de la qualité
Plusieurs facteurs ont fait de Soda le bon choix pour l'environnement diversifié et rapide de FirstParty.
La capacité de se connecter à de multiples sources de données était cruciale – les clients utilisent diverses plateformes comme Redshift, et FirstParty avait besoin de flexibilité pour travailler avec des fichiers JSON, des fichiers Parquet et différents schémas de partitionnement à travers les projets.
Les vérifications basées sur YAML ont également permis une itération rapide. Une fois que FirstParty a créé des vérifications pour les premiers pipelines, elles ont pu être réutilisées et adaptées pour de nouveaux projets. La lisibilité signifiait que les parties prenantes non techniques pouvaient comprendre ce qui était validé, créant ainsi une transparence dans toute l'organisation.
« Le format YAML était un énorme avantage pour nous. Nous sommes une équipe très diversifiée, nous venons de domaines de compétences variés, et parfois, avoir des vérifications YAML faciles à lire pour comprendre ce qui ne va pas dans les données à travers l'entreprise et les affaires est vraiment impératif. »— Jolie McDonnell, Data Scientist chez FirstParty
Les intégrations de notifications en temps réel complétaient le tableau, garantissant que l'équipe savait immédiatement quand quelque chose n'allait pas, plutôt que de découvrir les problèmes des heures ou des jours plus tard.
En intégrant Soda dans ses processus de données, FirstParty n'a pas seulement rationalisé ses opérations mais a également apporté un nouveau niveau de précision et d'efficacité à sa gestion des données. La clé de leur approche était d'adopter une philosophie de « shift left »—implémenter des contrôles de qualité aussi tôt et aussi souvent que possible tout au long du pipeline de données, plutôt que d'attendre la fin.
Les solutions avancées de Soda ont permis à FirstParty d'identifier et de résoudre de manière proactive les problèmes de données tôt dans le pipeline, réduisant considérablement le temps et les ressources consacrés au dépannage. Cette intégration a dépassé les simples améliorations techniques ; elle a favorisé une culture de gestion proactive de la qualité, où la qualité des données est devenue une responsabilité partagée entre les équipes.
Les outils de Soda ont permis à l'équipe de FirstParty de ne pas simplement réagir aux problèmes de données, mais de les anticiper et de les prévenir, garantissant que leur « politique de zéro défaut » n'était pas juste une aspiration mais un objectif pratique et réalisable.
Attraper des problèmes en amont
La stratégie d'intégration de FirstParty se concentre sur la validation des données à chaque étape de transformation, dès le moment où les données arrivent des clients. Cette validation en amont s'est avérée immédiatement précieuse. Lorsqu'un client a récemment commencé à laisser tomber des enregistrements dupliqués, FirstParty l'a découvert le jour même où les données sont arrivées, avant d'exécuter des transformations en aval.
« Si vous attrapez des choses à la fin, vous ne pouvez même pas utiliser les données, et vous ne savez même pas où les réparer. C'est ce qui nous permet d'être super précis, n'est-ce pas ? Nous savons exactement où cela a échoué. »— Ben Sgro, VP Engineering chez FirstParty
Sans contrôles en place, ils n'auraient pas découvert le problème avant bien plus tard dans le pipeline, rendant le diagnostic et la communication au client beaucoup plus difficiles.

L'impact : transformation culturelle et confiance des clients
La collaboration avec Soda a été le catalyseur d'un changement significatif dans l'approche de FirstParty concernant la qualité des données. La réduction du nombre d'erreurs de données et la création d'un hub organisé pour l'assurance qualité n'étaient que les premiers avantages obtenus.
Peut-être que l'impact le plus tangible a été sur la qualité de vie de l'équipe et la tranquillité d'esprit opérationnelle. L'équipe peut désormais faire confiance à ses pipelines qui sont continuellement validés, avec les problèmes détectés et résolus pendant les heures de travail normales plutôt que découverts en mode crise.
Avec une petite équipe soutenant un portefeuille croissant de produits de données pour des clients financiers exigeants, FirstParty avait besoin d'outils qui multipliaient leur efficacité. L'automatisation de Soda a libéré l'équipe du travail de validation manuelle, leur permettant de se concentrer sur la construction plutôt que de réaliser des vérifications de qualité répétitives.
Le changement de paradigme dans la gestion des données a également amélioré la collaboration et la communication dans toute l'entreprise, favorisant une culture organisationnelle qui privilégie la qualité des données. L'impact de ce changement est de grande portée, entraînant la livraison de produits de données plus fiables et de meilleure qualité.
Ces améliorations ont déjà résonné auprès des clients, augmentant leur confiance et leur satisfaction avec les services de FirstParty, et renforçant finalement la réputation de FirstParty en tant que fournisseur de services de données de classe mondiale. Leur avantage concurrentiel n'est pas seulement la capacité technique, c'est la confiance qu'ils ont construite grâce à une gestion de la qualité des données proactive et transparente.
Regarder vers l'avenir : du traitement après coup à un processus central
Au fur et à mesure que l'équipe s'est perfectionnée dans l'utilisation de Soda, elle est passée du traitement des vérifications de qualité des données comme une réflexion après coup à les rendre centrales au processus de développement des pipelines dès le premier jour.
« Alors que nous avançons avec de nouvelles constructions de pipelines et de nouveaux clients, Soda va être central – sans jeu de mots – à notre processus de construction de pipelines, car il est vraiment important d'avoir ces vérifications chaque fois qu'une table de niveau de production est créée. »— Jolie McDonnell, Data Scientist chez FirstParty
Cet échange représente un changement fondamental de méthodologie—passer d'adaptations rétrospectives aux vérifications de qualité à leur conception en parallèle avec les transformations de données. Les attentes en matière de qualité sont désormais capturées sous forme de spécifications exécutables lors de la phase de conception, créant une documentation vivante qui valide les données et sert de contrat technique avec les clients.
L'approche de FirstParty en matière de qualité des données est délibérément itérative, commençant par des contrôles fondamentaux, puis élargissant la couverture sur la base d'incidents réels. Chaque problème qui survient entraîne de nouveaux contrôles préventifs, créant des pipelines de plus en plus résilients au fil du temps.
Soda joue un rôle central dans cette stratégie d'automatisation, éliminant les processus de QA manuels qui consommaient autrefois un temps d'ingénierie significatif. Alors que l'équipe continue de croître, cette focalisation sur l'automatisation leur permet de se développer efficacement tout en maintenant leur standard de zéro défaut.
Clause de non-responsabilité : Ce matériel a été créé en 2023. Veuillez noter que les chiffres et les statistiques peuvent avoir changé depuis sa publication.
Écouter le Podcast
Conversation avec FirstParty au Club Soda New York
Le PDG de Soda, Maarten Masschelein, rejoint le personnel de FirstParty avec Jolie McDonnell (Data Scientist), Ben Sgro (VP Engineering) et Tommy Dodge (Directeur de l'Analyse).
Le sujet porte sur les produits de données et la conversation se concentre sur la mission de FirstParty de fournir aux entreprises les capacités de maximiser la valeur de leurs actifs de données.

Prenez contact
Pour les entreprises de services de données, les cabinets de conseil ou toute organisation où les produits de données sont le produit principal, le parcours de FirstParty offre une leçon claire : la qualité ne peut pas être une réflexion après coup ou une étape de post-traitement. Elle doit être intégrée dès le début, automatisée à grande échelle, et rendue transparente pour les parties prenantes.
Planifiez une démonstration avec l'équipe de Soda pour découvrir comment vous pourriez optimiser votre stratégie de qualité des données dans l'ensemble de votre écosystème de données.
Trusted by the world’s leading enterprises
Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.
At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava
Director of Data Governance, Quality and MLOps
Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake
Director of Product-Data Platform
Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta
Data Engineering Manager
Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie
Head of Data Engineering
4,4 sur 5
Commencez à faire confiance à vos données. Aujourd'hui.
Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.
Adopté par




Trusted by the world’s leading enterprises
Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.
At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava
Director of Data Governance, Quality and MLOps
Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake
Director of Product-Data Platform
Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta
Data Engineering Manager
Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie
Head of Data Engineering
4,4 sur 5
Commencez à faire confiance à vos données. Aujourd'hui.
Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.
Adopté par
Solutions




Trusted by the world’s leading enterprises
Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.
At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava
Director of Data Governance, Quality and MLOps
Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake
Director of Product-Data Platform
Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta
Data Engineering Manager
Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie
Head of Data Engineering
4,4 sur 5
Commencez à faire confiance à vos données. Aujourd'hui.
Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.
Adopté par
Solutions



