Comment commencer à gérer la qualité des données avec SQL et évoluer
Comment commencer à gérer la qualité des données avec SQL et évoluer
3 juin 2021

Tom Baeyens
Tom Baeyens
Tom Baeyens
CTO et co-fondateur chez Soda
CTO et co-fondateur chez Soda
CTO et co-fondateur chez Soda
Table des matières



Les problèmes de qualité des données silencieux sont le plus grand problème auquel font face les équipes de données aujourd'hui, qui travaillent à l'aveugle sans systèmes ni processus en place pour surveiller et détecter les mauvaises données avant qu'elles n'aient un impact en aval.
Pourquoi la gestion des données ?
Au cours des trois dernières années, je suis passé d'ingénieur logiciel à ingénieur de données. Je me suis dirigé vers la gestion des données lorsque Maarten Masschelein, mon collègue co-fondateur chez Soda, et moi avons commencé à travailler ensemble pour résoudre le problème des problèmes de données silencieux et non détectés. Venant d'un background en ingénierie logicielle, écrire des tests unitaires et surveiller des applications en production est une évidence, mais en matière de données, c'est assez différent. Bien que la plupart des organisations soient conscientes qu'elles devraient tester, il n'y a pas de stratégie en place et elles ne savent tout simplement pas par où commencer pour résoudre le problème, ce qui laisse leurs systèmes exposés et peut entraîner de graves problèmes en aval pour les produits de données qu'elles développent.
Avec de plus en plus de produits étant construits en utilisant les données comme entrée principale, il n'a jamais été aussi important de tester et de surveiller la qualité des données utilisées. C'est pourquoi nous avons entrepris de créer une plateforme d'observabilité des données qui permet aux organisations de découvrir, prioriser et résoudre les problèmes de données.
Définir une bonne qualité des données
Nous avons commencé avec Soda SQL, disponible depuis février 2021. C'est notre premier outil open source de test, de surveillance et de profilage de données pour les environnements intensifs en données. Il fonctionne avec vos flux de travail d'ingénierie de données existants pour créer une méthode rapide et facile de définir ce que la bonne qualité des données signifie pour votre entreprise. Cela permet aux ingénieurs de données de définir des tests et de se protéger contre les problèmes de données silencieux non détectés dans les ensembles de données, les data lakes et les entrepôts de données.
‼️ SodaSQL est devenu Soda Library.
Pour plus d'informations, rendez-vous ici : Introducing Soda Library
Open source à la rescousse
Soda SQL est un outil open source avec une interface en ligne de commande simple et une bibliothèque Python pour tester vos données via la collecte de métriques. Il utilise des fichiers de configuration YAML comme entrée pour préparer des requêtes SQL qui exécutent des tests sur des tables dans une base de données pour calculer une large gamme de métriques et de tests. Il est super facile de trouver des données invalides, manquantes ou inattendues. Parce que Soda SQL tire parti de SQL, les données peuvent rester là où elles sont et les moteurs de calcul existants peuvent être utilisés.
Si les tests échouent, Soda SQL vous permet d'arrêter le pipeline et de prévenir les mauvaises données de causer des dommages. À mesure que les métriques sont calculées, des informations de diagnostic sont également capturées pour aider à l'analyse si un problème de données est détecté. Des étapes peuvent ensuite être prises pour prioriser et résoudre les problèmes en collaboration, en tant qu'une seule équipe de données. Soda SQL peut être utilisé manuellement seul ou intégré à un outil d'orchestration de données pour planifier des analyses et automatiser des actions basées sur les résultats des analyses.
Voici un exemple rapide :
Des métriques simples et des tests peuvent être configurés dans des fichiers de configuration YAML d'analyse. Un exemple du contenu d'un tel fichier est le suivant :

2. Sur la base de ces fichiers de configuration, Soda SQL analysera vos données à chaque fois que de nouvelles données arrivent, comme ceci :

Rapprocher tout le monde des données
Nous venons de lancer Soda Cloud, une application web où les métriques et les résultats des tests de Soda SQL peuvent être surveillés au fil du temps. Soda Cloud crée de la transparence des ingénieurs aux autres membres de l'équipe de données. Avec cette collaboration, les équipes de données prennent de l'avance sur les problèmes de données silencieux. Soda Cloud étend Soda SQL et les deux fonctionnent ensemble de manière transparente.
Tout d'abord, Soda Cloud étend Soda SQL avec une base de données de métriques afin que les mesures et les résultats des tests puissent être visualisés au fil du temps. Cela permet de surveiller les changements dans le temps et de détecter les anomalies sur l'ensemble des métriques.
Ces visualisations et profils de données créent déjà une transparence entre les différentes personnes de la grande équipe de données. Tous les membres de l'équipe de données peuvent voir quelles données sont réellement présentes, quels tests sont effectués.
Mais Soda Cloud va encore plus loin. Cela permet aux personnes non techniques de construire et de maintenir leurs propres moniteurs dans une interface utilisateur simple avec un assistant en 3 étapes. C'est important car cela supprime le goulot d'étranglement pour surveiller la connaissance du domaine que possèdent les experts en la matière. S'ils n'ont pas besoin de faire appel aux ingénieurs de données pour faire tester leur logique de domaine, cela signifie qu'une plus grande partie de cette connaissance sera utilisée pour définir à quoi ressemble un bon jeu de données. Et par conséquent, beaucoup plus de mauvaises données seront capturées, prévenant divers types de dommages.
Soda Cloud résout de manière prescriptive le problème de la découverte des problèmes de données silencieux, en fournissant aux équipes de données une plateforme centrale pour suivre et évaluer la santé des données à travers les dimensions de qualité essentielles.
Les ingénieurs de données et d'analytique disposent d'un moyen de tester les données à chaque fois qu'elles se transforment pour garantir que les pipelines de données sont fiables. Via Soda SQL, la production de données peut être arrêtée et mise en quarantaine. Soda Cloud visualise la santé des ensembles de données et agit comme un centre de communication pour les problèmes de données.
Les consommateurs et les producteurs de données peuvent maintenant facilement s'aligner sur ce qui est important, ce qui est attendu et ce qui doit être mesuré pour que les données restent adaptées à l'usage prévu. Nous avons également intégré des alertes par email et Slack pour s'assurer que les bonnes personnes sont alertées, au bon moment pour diagnostiquer, prioriser et résoudre les problèmes de données.
Nous avons pour mission de rapprocher tout le monde des données, car nous croyons que la qualité des données est un sport d'équipe. Tout ceux qui ont un intérêt dans les données (et nous pensons que cela concerne tout le monde dans l'entreprise de nos jours) doivent les comprendre, leur faire confiance, et rester au courant.
Ma principale responsabilité chez Soda est de m'assurer que les ingénieurs de données aiment utiliser nos produits et les aident à résoudre rapidement de vrais problèmes. Nous aidons à résoudre le problème avec une combinaison de plateforme cloud et une série d'outils pour développeurs open source, qui donnent aux équipes de données la configurabilité dont elles ont besoin pour créer une observabilité de bout en bout.
La bonne qualité des données est pour tout le monde. Accédez à Soda SQL sur GitHub et Soda Starter, notre essai gratuit, sur Soda.io (prolongé jusqu'au 30 juin 2021).
Notre Communauté Slack et nos Docs contiennent des meilleures pratiques et des ressources utiles.
Anticipez les problèmes de données silencieux. Bonne chance !

Les problèmes de qualité des données silencieux sont le plus grand problème auquel font face les équipes de données aujourd'hui, qui travaillent à l'aveugle sans systèmes ni processus en place pour surveiller et détecter les mauvaises données avant qu'elles n'aient un impact en aval.
Pourquoi la gestion des données ?
Au cours des trois dernières années, je suis passé d'ingénieur logiciel à ingénieur de données. Je me suis dirigé vers la gestion des données lorsque Maarten Masschelein, mon collègue co-fondateur chez Soda, et moi avons commencé à travailler ensemble pour résoudre le problème des problèmes de données silencieux et non détectés. Venant d'un background en ingénierie logicielle, écrire des tests unitaires et surveiller des applications en production est une évidence, mais en matière de données, c'est assez différent. Bien que la plupart des organisations soient conscientes qu'elles devraient tester, il n'y a pas de stratégie en place et elles ne savent tout simplement pas par où commencer pour résoudre le problème, ce qui laisse leurs systèmes exposés et peut entraîner de graves problèmes en aval pour les produits de données qu'elles développent.
Avec de plus en plus de produits étant construits en utilisant les données comme entrée principale, il n'a jamais été aussi important de tester et de surveiller la qualité des données utilisées. C'est pourquoi nous avons entrepris de créer une plateforme d'observabilité des données qui permet aux organisations de découvrir, prioriser et résoudre les problèmes de données.
Définir une bonne qualité des données
Nous avons commencé avec Soda SQL, disponible depuis février 2021. C'est notre premier outil open source de test, de surveillance et de profilage de données pour les environnements intensifs en données. Il fonctionne avec vos flux de travail d'ingénierie de données existants pour créer une méthode rapide et facile de définir ce que la bonne qualité des données signifie pour votre entreprise. Cela permet aux ingénieurs de données de définir des tests et de se protéger contre les problèmes de données silencieux non détectés dans les ensembles de données, les data lakes et les entrepôts de données.
‼️ SodaSQL est devenu Soda Library.
Pour plus d'informations, rendez-vous ici : Introducing Soda Library
Open source à la rescousse
Soda SQL est un outil open source avec une interface en ligne de commande simple et une bibliothèque Python pour tester vos données via la collecte de métriques. Il utilise des fichiers de configuration YAML comme entrée pour préparer des requêtes SQL qui exécutent des tests sur des tables dans une base de données pour calculer une large gamme de métriques et de tests. Il est super facile de trouver des données invalides, manquantes ou inattendues. Parce que Soda SQL tire parti de SQL, les données peuvent rester là où elles sont et les moteurs de calcul existants peuvent être utilisés.
Si les tests échouent, Soda SQL vous permet d'arrêter le pipeline et de prévenir les mauvaises données de causer des dommages. À mesure que les métriques sont calculées, des informations de diagnostic sont également capturées pour aider à l'analyse si un problème de données est détecté. Des étapes peuvent ensuite être prises pour prioriser et résoudre les problèmes en collaboration, en tant qu'une seule équipe de données. Soda SQL peut être utilisé manuellement seul ou intégré à un outil d'orchestration de données pour planifier des analyses et automatiser des actions basées sur les résultats des analyses.
Voici un exemple rapide :
Des métriques simples et des tests peuvent être configurés dans des fichiers de configuration YAML d'analyse. Un exemple du contenu d'un tel fichier est le suivant :

2. Sur la base de ces fichiers de configuration, Soda SQL analysera vos données à chaque fois que de nouvelles données arrivent, comme ceci :

Rapprocher tout le monde des données
Nous venons de lancer Soda Cloud, une application web où les métriques et les résultats des tests de Soda SQL peuvent être surveillés au fil du temps. Soda Cloud crée de la transparence des ingénieurs aux autres membres de l'équipe de données. Avec cette collaboration, les équipes de données prennent de l'avance sur les problèmes de données silencieux. Soda Cloud étend Soda SQL et les deux fonctionnent ensemble de manière transparente.
Tout d'abord, Soda Cloud étend Soda SQL avec une base de données de métriques afin que les mesures et les résultats des tests puissent être visualisés au fil du temps. Cela permet de surveiller les changements dans le temps et de détecter les anomalies sur l'ensemble des métriques.
Ces visualisations et profils de données créent déjà une transparence entre les différentes personnes de la grande équipe de données. Tous les membres de l'équipe de données peuvent voir quelles données sont réellement présentes, quels tests sont effectués.
Mais Soda Cloud va encore plus loin. Cela permet aux personnes non techniques de construire et de maintenir leurs propres moniteurs dans une interface utilisateur simple avec un assistant en 3 étapes. C'est important car cela supprime le goulot d'étranglement pour surveiller la connaissance du domaine que possèdent les experts en la matière. S'ils n'ont pas besoin de faire appel aux ingénieurs de données pour faire tester leur logique de domaine, cela signifie qu'une plus grande partie de cette connaissance sera utilisée pour définir à quoi ressemble un bon jeu de données. Et par conséquent, beaucoup plus de mauvaises données seront capturées, prévenant divers types de dommages.
Soda Cloud résout de manière prescriptive le problème de la découverte des problèmes de données silencieux, en fournissant aux équipes de données une plateforme centrale pour suivre et évaluer la santé des données à travers les dimensions de qualité essentielles.
Les ingénieurs de données et d'analytique disposent d'un moyen de tester les données à chaque fois qu'elles se transforment pour garantir que les pipelines de données sont fiables. Via Soda SQL, la production de données peut être arrêtée et mise en quarantaine. Soda Cloud visualise la santé des ensembles de données et agit comme un centre de communication pour les problèmes de données.
Les consommateurs et les producteurs de données peuvent maintenant facilement s'aligner sur ce qui est important, ce qui est attendu et ce qui doit être mesuré pour que les données restent adaptées à l'usage prévu. Nous avons également intégré des alertes par email et Slack pour s'assurer que les bonnes personnes sont alertées, au bon moment pour diagnostiquer, prioriser et résoudre les problèmes de données.
Nous avons pour mission de rapprocher tout le monde des données, car nous croyons que la qualité des données est un sport d'équipe. Tout ceux qui ont un intérêt dans les données (et nous pensons que cela concerne tout le monde dans l'entreprise de nos jours) doivent les comprendre, leur faire confiance, et rester au courant.
Ma principale responsabilité chez Soda est de m'assurer que les ingénieurs de données aiment utiliser nos produits et les aident à résoudre rapidement de vrais problèmes. Nous aidons à résoudre le problème avec une combinaison de plateforme cloud et une série d'outils pour développeurs open source, qui donnent aux équipes de données la configurabilité dont elles ont besoin pour créer une observabilité de bout en bout.
La bonne qualité des données est pour tout le monde. Accédez à Soda SQL sur GitHub et Soda Starter, notre essai gratuit, sur Soda.io (prolongé jusqu'au 30 juin 2021).
Notre Communauté Slack et nos Docs contiennent des meilleures pratiques et des ressources utiles.
Anticipez les problèmes de données silencieux. Bonne chance !

Les problèmes de qualité des données silencieux sont le plus grand problème auquel font face les équipes de données aujourd'hui, qui travaillent à l'aveugle sans systèmes ni processus en place pour surveiller et détecter les mauvaises données avant qu'elles n'aient un impact en aval.
Pourquoi la gestion des données ?
Au cours des trois dernières années, je suis passé d'ingénieur logiciel à ingénieur de données. Je me suis dirigé vers la gestion des données lorsque Maarten Masschelein, mon collègue co-fondateur chez Soda, et moi avons commencé à travailler ensemble pour résoudre le problème des problèmes de données silencieux et non détectés. Venant d'un background en ingénierie logicielle, écrire des tests unitaires et surveiller des applications en production est une évidence, mais en matière de données, c'est assez différent. Bien que la plupart des organisations soient conscientes qu'elles devraient tester, il n'y a pas de stratégie en place et elles ne savent tout simplement pas par où commencer pour résoudre le problème, ce qui laisse leurs systèmes exposés et peut entraîner de graves problèmes en aval pour les produits de données qu'elles développent.
Avec de plus en plus de produits étant construits en utilisant les données comme entrée principale, il n'a jamais été aussi important de tester et de surveiller la qualité des données utilisées. C'est pourquoi nous avons entrepris de créer une plateforme d'observabilité des données qui permet aux organisations de découvrir, prioriser et résoudre les problèmes de données.
Définir une bonne qualité des données
Nous avons commencé avec Soda SQL, disponible depuis février 2021. C'est notre premier outil open source de test, de surveillance et de profilage de données pour les environnements intensifs en données. Il fonctionne avec vos flux de travail d'ingénierie de données existants pour créer une méthode rapide et facile de définir ce que la bonne qualité des données signifie pour votre entreprise. Cela permet aux ingénieurs de données de définir des tests et de se protéger contre les problèmes de données silencieux non détectés dans les ensembles de données, les data lakes et les entrepôts de données.
‼️ SodaSQL est devenu Soda Library.
Pour plus d'informations, rendez-vous ici : Introducing Soda Library
Open source à la rescousse
Soda SQL est un outil open source avec une interface en ligne de commande simple et une bibliothèque Python pour tester vos données via la collecte de métriques. Il utilise des fichiers de configuration YAML comme entrée pour préparer des requêtes SQL qui exécutent des tests sur des tables dans une base de données pour calculer une large gamme de métriques et de tests. Il est super facile de trouver des données invalides, manquantes ou inattendues. Parce que Soda SQL tire parti de SQL, les données peuvent rester là où elles sont et les moteurs de calcul existants peuvent être utilisés.
Si les tests échouent, Soda SQL vous permet d'arrêter le pipeline et de prévenir les mauvaises données de causer des dommages. À mesure que les métriques sont calculées, des informations de diagnostic sont également capturées pour aider à l'analyse si un problème de données est détecté. Des étapes peuvent ensuite être prises pour prioriser et résoudre les problèmes en collaboration, en tant qu'une seule équipe de données. Soda SQL peut être utilisé manuellement seul ou intégré à un outil d'orchestration de données pour planifier des analyses et automatiser des actions basées sur les résultats des analyses.
Voici un exemple rapide :
Des métriques simples et des tests peuvent être configurés dans des fichiers de configuration YAML d'analyse. Un exemple du contenu d'un tel fichier est le suivant :

2. Sur la base de ces fichiers de configuration, Soda SQL analysera vos données à chaque fois que de nouvelles données arrivent, comme ceci :

Rapprocher tout le monde des données
Nous venons de lancer Soda Cloud, une application web où les métriques et les résultats des tests de Soda SQL peuvent être surveillés au fil du temps. Soda Cloud crée de la transparence des ingénieurs aux autres membres de l'équipe de données. Avec cette collaboration, les équipes de données prennent de l'avance sur les problèmes de données silencieux. Soda Cloud étend Soda SQL et les deux fonctionnent ensemble de manière transparente.
Tout d'abord, Soda Cloud étend Soda SQL avec une base de données de métriques afin que les mesures et les résultats des tests puissent être visualisés au fil du temps. Cela permet de surveiller les changements dans le temps et de détecter les anomalies sur l'ensemble des métriques.
Ces visualisations et profils de données créent déjà une transparence entre les différentes personnes de la grande équipe de données. Tous les membres de l'équipe de données peuvent voir quelles données sont réellement présentes, quels tests sont effectués.
Mais Soda Cloud va encore plus loin. Cela permet aux personnes non techniques de construire et de maintenir leurs propres moniteurs dans une interface utilisateur simple avec un assistant en 3 étapes. C'est important car cela supprime le goulot d'étranglement pour surveiller la connaissance du domaine que possèdent les experts en la matière. S'ils n'ont pas besoin de faire appel aux ingénieurs de données pour faire tester leur logique de domaine, cela signifie qu'une plus grande partie de cette connaissance sera utilisée pour définir à quoi ressemble un bon jeu de données. Et par conséquent, beaucoup plus de mauvaises données seront capturées, prévenant divers types de dommages.
Soda Cloud résout de manière prescriptive le problème de la découverte des problèmes de données silencieux, en fournissant aux équipes de données une plateforme centrale pour suivre et évaluer la santé des données à travers les dimensions de qualité essentielles.
Les ingénieurs de données et d'analytique disposent d'un moyen de tester les données à chaque fois qu'elles se transforment pour garantir que les pipelines de données sont fiables. Via Soda SQL, la production de données peut être arrêtée et mise en quarantaine. Soda Cloud visualise la santé des ensembles de données et agit comme un centre de communication pour les problèmes de données.
Les consommateurs et les producteurs de données peuvent maintenant facilement s'aligner sur ce qui est important, ce qui est attendu et ce qui doit être mesuré pour que les données restent adaptées à l'usage prévu. Nous avons également intégré des alertes par email et Slack pour s'assurer que les bonnes personnes sont alertées, au bon moment pour diagnostiquer, prioriser et résoudre les problèmes de données.
Nous avons pour mission de rapprocher tout le monde des données, car nous croyons que la qualité des données est un sport d'équipe. Tout ceux qui ont un intérêt dans les données (et nous pensons que cela concerne tout le monde dans l'entreprise de nos jours) doivent les comprendre, leur faire confiance, et rester au courant.
Ma principale responsabilité chez Soda est de m'assurer que les ingénieurs de données aiment utiliser nos produits et les aident à résoudre rapidement de vrais problèmes. Nous aidons à résoudre le problème avec une combinaison de plateforme cloud et une série d'outils pour développeurs open source, qui donnent aux équipes de données la configurabilité dont elles ont besoin pour créer une observabilité de bout en bout.
La bonne qualité des données est pour tout le monde. Accédez à Soda SQL sur GitHub et Soda Starter, notre essai gratuit, sur Soda.io (prolongé jusqu'au 30 juin 2021).
Notre Communauté Slack et nos Docs contiennent des meilleures pratiques et des ressources utiles.
Anticipez les problèmes de données silencieux. Bonne chance !

Trusted by the world’s leading enterprises
Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.
At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava
Director of Data Governance, Quality and MLOps
Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake
Director of Product-Data Platform
Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta
Data Engineering Manager
Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie
Head of Data Engineering
4,4 sur 5
Commencez à faire confiance à vos données. Aujourd'hui.
Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.
Adopté par




Trusted by the world’s leading enterprises
Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.
At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava
Director of Data Governance, Quality and MLOps
Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake
Director of Product-Data Platform
Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta
Data Engineering Manager
Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie
Head of Data Engineering
4,4 sur 5
Commencez à faire confiance à vos données. Aujourd'hui.
Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.
Adopté par
Solutions




Trusted by the world’s leading enterprises
Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.
At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava
Director of Data Governance, Quality and MLOps
Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake
Director of Product-Data Platform
Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta
Data Engineering Manager
Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie
Head of Data Engineering
4,4 sur 5
Commencez à faire confiance à vos données. Aujourd'hui.
Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.
Adopté par
Solutions



