Optimisez la couverture de la qualité des données avec les suggestions de vérification innovantes de Soda

Optimisez la couverture de la qualité des données avec les suggestions de vérification innovantes de Soda

4 août 2023

Bastien Boutonnet

Bastien Boutonnet

Bastien Boutonnet

Responsable d'équipe IA & Gestion de Produit chez Soda

Responsable d'équipe IA & Gestion de Produit chez Soda

Responsable d'équipe IA & Gestion de Produit chez Soda

Baturay Ofluoglu

Baturay Ofluoglu

Baturay Ofluoglu

Ingénieur en apprentissage automatique chez Dataroots

Ingénieur en apprentissage automatique chez Dataroots

Ingénieur en apprentissage automatique chez Dataroots

Table des matières

Dans le monde en constante évolution de la gestion des données, la qualité est la clé de voûte qui maintient tout en ordre. Maintenir des données de haute qualité est impératif, que vous développiez des modèles d'apprentissage automatique complexes ou que vous créiez des tableaux de bord perspicaces pour une prise de décision cruciale.

Mais le chemin pour atteindre cet objectif peut sembler être un labyrinthe complexe, rempli de myriades de métriques et d'éléments à suivre et à valider. Comment identifier ce qui doit être testé ? Comment pouvez-vous faire en sorte que vos efforts produisent le résultat escompté ? Par où devriez-vous même commencer ?

Automatisez les Bases

En ce qui concerne la couverture de la qualité des données, quelques vérifications simples peuvent faire une énorme différence. Des mises à jour régulières de vos données sont cruciales, et vous voudrez peut-être envisager de respecter des accords de niveau de service (SLA) établis pour des mises à jour cohérentes, en portant une attention particulière aux colonnes avec des saisies humaines pour vérifier qu'elles correspondent à un format prédéterminé.

Les procédures de routine, comme la vérification des entrées en double ou des valeurs nulles dans vos colonnes importantes, peuvent protéger l'intégrité de vos données. Aussi évident que cela puisse paraître, il n'est pas rare que même ces vérifications de base de la qualité manquent dans les actifs de données clés. La raison ? Lorsque les équipes n'ont pas de processus stricts de saisie ou de qualité des données, les gens oublient simplement de vérifier et espèrent optimistement que tout ira bien. Attention, cela n'ira pas.

Établir une couverture de la qualité des données de base ne devrait pas être laissé au hasard, ni à la maturité de votre équipe ; cela devrait être systématique et automatique. À cette fin, et en nous inspirant de nos expériences au sein des équipes de données, nous avons conçu la nouvelle fonctionnalité de suggestions de vérification basée sur ce qu'une équipe de données mature construirait en interne.

Laissez l'Automatisation Vous Guider, Pas Vous Aveugler

Chez Soda, nous croyons au pouvoir des tests de qualité des données déclaratifs. C'est pourquoi nous avons développé Soda Checks Language (SodaCL) et pourquoi nous nous sommes concentrés fortement sur les tests de données via des règles explicites, déclarées par l'utilisateur.

Mais même avec ce langage puissant et intuitif, nous ne nous attendons pas à ce que vous affrontiez seul le monde de la couverture de qualité des données. Non, nous croyons que le bon degré d'automatisation - appelons cela une automatisation conversationnelle - peut vous aider, vous et votre équipe, à suivre les meilleures pratiques pour passer de zéro à « ouf » en quelques minutes seulement. Quelle est la seule commande de la bibliothèque Soda qui fait cela pour vous ? soda suggest

Cette fonctionnalité puissante élimine l'incertitude de l'établissement des vérifications de qualité de données de base. Elle prépare le terrain pour que vous puissiez facilement lancer le processus de qualité des données en profilant vos données, puis en recommandant des vérifications pertinentes. Plutôt que de partir de zéro en vous demandant, « Quelles vérifications suis-je censé effectuer ici ? » vous pouvez exécuter soda suggest et répondre aux questions simples, à choix multiples de Soda dans la ligne de commande pour produire un fichier prêt pour la production, rempli de vérifications, prêt à lancer une analyse.

Sans exagérer, cinq minutes suffisent. Assurément, cela vaut la peine de valider que votre ensemble de données contient des données complètes, valides, récentes et exemptes d'anomalies !

Sélectionnez Vos Suggestions

Nous savons que vous ne voudrez peut-être pas toujours des suggestions pour tous les types de vérifications, donc nous avons prévu le coup. Une des premières questions du flux de suggestion de vérifications vous demande de sélectionner les vérifications pour lesquelles vous souhaitez des suggestions. Vous pouvez en sélectionner une ou deux si c'est tout ce dont vous avez besoin. Dans la capture d'écran ci-dessous, nous sélectionnons tout car, honnêtement, l'ensemble du processus est assez rapide. Et pourquoi ne voudriez-vous pas plus de couverture ?

Lire la suite

Select types of check suggestions 

Suggestions Intelligentes pour la Fraîcheur

Pour préparer une vérification de la fraîcheur qui valide que vos données sont actuelles et non obsolètes, les suggestions de vérifications Soda identifient d'abord les colonnes de date/heure qu'il peut utiliser pour évaluer la fraîcheur, puis les classe selon celles qui sont les plus appropriées à utiliser. Par exemple, dans la table dim_customer, Soda détecte correctement que date_first_purchase est une colonne plus appropriée pour tester la fraîcheur des données que date_of_birth. Si cette table avait une colonne created_at ou updated_at, par exemple, l'algorithme aurait sélectionné celles-ci comme les colonnes les plus appropriées pour évaluer la fraîcheur.

Smart suggestions for freshness

De plus, comme vous pouvez le voir sur la capture d'écran ci-dessus, la suggestion de fraîcheur détermine un seuil pertinent basé sur les motifs qu'elle observe dans votre ensemble de données. Dans ce cas, elle a déterminé que les dates dans date_first_purchase ne devraient pas être supérieures à 19 heures.

Lire la suite

Suggestion de Vérification de Validité Utile

Une autre suggestion de vérification très utile est pour la validité du format. Nous savons tous que les colonnes de chaîne peuvent finir par être un véritable fourre-tout ; les gens stockent toutes sortes de données dans les colonnes varchar. Une vérification de la validité du format vous permet de confirmer que les colonnes, en particulier celles remplies par l'utilisateur, suivent un format attendu et valide, tel qu'une date ou une monnaie.

Toutefois, comme SodaCL prend en charge plus de 40 formats de validité, passer en revue toutes les colonnes de chaînes de votre ensemble de données pour déterminer quel motif ou format chaque colonne doit correspondre peut prendre beaucoup de temps.

Les suggestions de vérification éliminent les incertitudes en dressant le profil des colonnes contenant des chaînes et en suggérant le format valide le plus adapté. Dans l'exemple ci-dessous, l'algorithme de suggestion de vérification détecte correctement que la colonne « email_address » doit être formatée comme un type sémantique email. Bravo !

Les suggestions de vérification éliminent les incertitudes en dressant le profil des colonnes contenant des chaînes et en suggérant le format valide le plus adapté. Dans l'exemple ci-dessous, l'algorithme de suggestion de vérification détecte correctement que la colonne « email_address » doit être formatée comme un type sémantique email. Bravo !

Lire la suite

Helpful validity check suggestion

Fichier de vérifications prêt pour la production

Une fois que vous avez terminé le flux de suggestion de vérifications, Soda prépare un fichier YAML de vérifications prêt pour la production, accompagné d'une invite vous demandant si vous voulez l'utiliser pour lancer une analyse immédiatement. (Oui, vous le voulez !)

En plus de vous montrer un joli résumé des vérifications qu'elle suggère, et de stocker le fichier localement sur votre système, vous pouvez prendre ce fichier et le mettre n'importe où vous en avez besoin. Ajoutez ces vérifications à votre pipeline de données en production pour détecter les problèmes de données avant qu'elles n'aient un impact en aval. Ou, ajoutez-les à votre pipeline CICD pour trouver des problèmes de qualité des données après transformation avant de les fusionner en production.

La beauté de cette fonctionnalité réside dans sa flexibilité ; vous pouvez intégrer les vérifications telles quelles dans votre DAG Airflow, ou les modifier ou les étendre facilement selon vos besoins. Vous pouvez personnaliser vos vérifications, ajuster les seuils, incorporer des filtres, etc.

Lire la suite

Checks YAML file produced by Soda check suggestions

Attendez, Il y a Plus !

Vous avez vu certains de nos faits saillants préférés, mais les suggestions de vérification font bien plus. Elles vous guident à travers les étapes pour préparer des vérifications pour :

  • les changements de schéma

  • les comptages de lignes et la détection d'anomalies sur les comptages de lignes

  • les valeurs manquantes, qui recherchent automatiquement les valeurs nulles

  • les valeurs dupliquées

Consultez la liste exhaustive de tout ce que les suggestions de vérification font dans la documentation Soda.

La Magie. Regardez-la Se Produire.

Jetez un coup d'œil aux Suggestions de Vérifications de la Bibliothèque Soda pour observer certains des éléments clés du flux de suggestion de vérifications de bout en bout.

Et Maintenant ?

Assurer une qualité de données robuste ne devrait pas être une tâche ardue. En lançant les suggestions de vérifications, Soda a transformé cette tâche épuisante en une expérience simple et guidée. Cette fonctionnalité puissante, associée à notre bibliothèque Soda enrichie, offre un nouveau niveau d'automatisation qui aide votre équipe à établir systématiquement et intuitivement une couverture de qualité des données de base.

Notre voyage ne s'arrête pas là. Nous avons des plans ambitieux pour étendre les capacités des suggestions de vérifications afin d'inclure un plus grand nombre de vérifications, et des vérifications plus intelligentes, basées sur des seuils pour les rendre plus précises et adaptables.

De plus, notre vision comprend un plan visant à inclure des utilisateurs orientés business qui n'utilisent généralement pas régulièrement les outils en ligne de commande. Nous sommes en train de concevoir une manière de présenter les suggestions de vérifications dans Soda Cloud d'une manière encore plus conviviale.

Nous vous encourageons avec enthousiasme à essayer les suggestions de vérifications la prochaine fois que vous avez besoin d'ajouter une couverture de qualité des données à un ensemble de données. Si vous êtes nouveau sur Soda, profitez de l'essai gratuit de 45 jours pour découvrir les avantages des vérifications de qualité des données automatisées et intelligentes. Faites-vous plaisir et prenez quelques minutes de votre journée pour éliminer les maux de tête les plus basiques liés à la qualité des données en mettant en œuvre les vérifications de qualité des données les plus élémentaires.

Comme toujours, nous attendons vos commentaires et suggestions avec impatience ; rejoignez-nous dans la Communauté Soda sur Slack et dites-nous ce que vous en pensez ! Nous sommes impatients de faire évoluer nos produits, même si notre objectif de simplifier et de systématiser les vérifications de qualité des données reste inchangé.

Plongez dans le monde des vérifications de qualité des données automatisées avec Soda pour empêcher les mauvaises données de perturber les bonnes affaires.

Dans le monde en constante évolution de la gestion des données, la qualité est la clé de voûte qui maintient tout en ordre. Maintenir des données de haute qualité est impératif, que vous développiez des modèles d'apprentissage automatique complexes ou que vous créiez des tableaux de bord perspicaces pour une prise de décision cruciale.

Mais le chemin pour atteindre cet objectif peut sembler être un labyrinthe complexe, rempli de myriades de métriques et d'éléments à suivre et à valider. Comment identifier ce qui doit être testé ? Comment pouvez-vous faire en sorte que vos efforts produisent le résultat escompté ? Par où devriez-vous même commencer ?

Automatisez les Bases

En ce qui concerne la couverture de la qualité des données, quelques vérifications simples peuvent faire une énorme différence. Des mises à jour régulières de vos données sont cruciales, et vous voudrez peut-être envisager de respecter des accords de niveau de service (SLA) établis pour des mises à jour cohérentes, en portant une attention particulière aux colonnes avec des saisies humaines pour vérifier qu'elles correspondent à un format prédéterminé.

Les procédures de routine, comme la vérification des entrées en double ou des valeurs nulles dans vos colonnes importantes, peuvent protéger l'intégrité de vos données. Aussi évident que cela puisse paraître, il n'est pas rare que même ces vérifications de base de la qualité manquent dans les actifs de données clés. La raison ? Lorsque les équipes n'ont pas de processus stricts de saisie ou de qualité des données, les gens oublient simplement de vérifier et espèrent optimistement que tout ira bien. Attention, cela n'ira pas.

Établir une couverture de la qualité des données de base ne devrait pas être laissé au hasard, ni à la maturité de votre équipe ; cela devrait être systématique et automatique. À cette fin, et en nous inspirant de nos expériences au sein des équipes de données, nous avons conçu la nouvelle fonctionnalité de suggestions de vérification basée sur ce qu'une équipe de données mature construirait en interne.

Laissez l'Automatisation Vous Guider, Pas Vous Aveugler

Chez Soda, nous croyons au pouvoir des tests de qualité des données déclaratifs. C'est pourquoi nous avons développé Soda Checks Language (SodaCL) et pourquoi nous nous sommes concentrés fortement sur les tests de données via des règles explicites, déclarées par l'utilisateur.

Mais même avec ce langage puissant et intuitif, nous ne nous attendons pas à ce que vous affrontiez seul le monde de la couverture de qualité des données. Non, nous croyons que le bon degré d'automatisation - appelons cela une automatisation conversationnelle - peut vous aider, vous et votre équipe, à suivre les meilleures pratiques pour passer de zéro à « ouf » en quelques minutes seulement. Quelle est la seule commande de la bibliothèque Soda qui fait cela pour vous ? soda suggest

Cette fonctionnalité puissante élimine l'incertitude de l'établissement des vérifications de qualité de données de base. Elle prépare le terrain pour que vous puissiez facilement lancer le processus de qualité des données en profilant vos données, puis en recommandant des vérifications pertinentes. Plutôt que de partir de zéro en vous demandant, « Quelles vérifications suis-je censé effectuer ici ? » vous pouvez exécuter soda suggest et répondre aux questions simples, à choix multiples de Soda dans la ligne de commande pour produire un fichier prêt pour la production, rempli de vérifications, prêt à lancer une analyse.

Sans exagérer, cinq minutes suffisent. Assurément, cela vaut la peine de valider que votre ensemble de données contient des données complètes, valides, récentes et exemptes d'anomalies !

Sélectionnez Vos Suggestions

Nous savons que vous ne voudrez peut-être pas toujours des suggestions pour tous les types de vérifications, donc nous avons prévu le coup. Une des premières questions du flux de suggestion de vérifications vous demande de sélectionner les vérifications pour lesquelles vous souhaitez des suggestions. Vous pouvez en sélectionner une ou deux si c'est tout ce dont vous avez besoin. Dans la capture d'écran ci-dessous, nous sélectionnons tout car, honnêtement, l'ensemble du processus est assez rapide. Et pourquoi ne voudriez-vous pas plus de couverture ?

Lire la suite

Select types of check suggestions 

Suggestions Intelligentes pour la Fraîcheur

Pour préparer une vérification de la fraîcheur qui valide que vos données sont actuelles et non obsolètes, les suggestions de vérifications Soda identifient d'abord les colonnes de date/heure qu'il peut utiliser pour évaluer la fraîcheur, puis les classe selon celles qui sont les plus appropriées à utiliser. Par exemple, dans la table dim_customer, Soda détecte correctement que date_first_purchase est une colonne plus appropriée pour tester la fraîcheur des données que date_of_birth. Si cette table avait une colonne created_at ou updated_at, par exemple, l'algorithme aurait sélectionné celles-ci comme les colonnes les plus appropriées pour évaluer la fraîcheur.

Smart suggestions for freshness

De plus, comme vous pouvez le voir sur la capture d'écran ci-dessus, la suggestion de fraîcheur détermine un seuil pertinent basé sur les motifs qu'elle observe dans votre ensemble de données. Dans ce cas, elle a déterminé que les dates dans date_first_purchase ne devraient pas être supérieures à 19 heures.

Lire la suite

Suggestion de Vérification de Validité Utile

Une autre suggestion de vérification très utile est pour la validité du format. Nous savons tous que les colonnes de chaîne peuvent finir par être un véritable fourre-tout ; les gens stockent toutes sortes de données dans les colonnes varchar. Une vérification de la validité du format vous permet de confirmer que les colonnes, en particulier celles remplies par l'utilisateur, suivent un format attendu et valide, tel qu'une date ou une monnaie.

Toutefois, comme SodaCL prend en charge plus de 40 formats de validité, passer en revue toutes les colonnes de chaînes de votre ensemble de données pour déterminer quel motif ou format chaque colonne doit correspondre peut prendre beaucoup de temps.

Les suggestions de vérification éliminent les incertitudes en dressant le profil des colonnes contenant des chaînes et en suggérant le format valide le plus adapté. Dans l'exemple ci-dessous, l'algorithme de suggestion de vérification détecte correctement que la colonne « email_address » doit être formatée comme un type sémantique email. Bravo !

Les suggestions de vérification éliminent les incertitudes en dressant le profil des colonnes contenant des chaînes et en suggérant le format valide le plus adapté. Dans l'exemple ci-dessous, l'algorithme de suggestion de vérification détecte correctement que la colonne « email_address » doit être formatée comme un type sémantique email. Bravo !

Lire la suite

Helpful validity check suggestion

Fichier de vérifications prêt pour la production

Une fois que vous avez terminé le flux de suggestion de vérifications, Soda prépare un fichier YAML de vérifications prêt pour la production, accompagné d'une invite vous demandant si vous voulez l'utiliser pour lancer une analyse immédiatement. (Oui, vous le voulez !)

En plus de vous montrer un joli résumé des vérifications qu'elle suggère, et de stocker le fichier localement sur votre système, vous pouvez prendre ce fichier et le mettre n'importe où vous en avez besoin. Ajoutez ces vérifications à votre pipeline de données en production pour détecter les problèmes de données avant qu'elles n'aient un impact en aval. Ou, ajoutez-les à votre pipeline CICD pour trouver des problèmes de qualité des données après transformation avant de les fusionner en production.

La beauté de cette fonctionnalité réside dans sa flexibilité ; vous pouvez intégrer les vérifications telles quelles dans votre DAG Airflow, ou les modifier ou les étendre facilement selon vos besoins. Vous pouvez personnaliser vos vérifications, ajuster les seuils, incorporer des filtres, etc.

Lire la suite

Checks YAML file produced by Soda check suggestions

Attendez, Il y a Plus !

Vous avez vu certains de nos faits saillants préférés, mais les suggestions de vérification font bien plus. Elles vous guident à travers les étapes pour préparer des vérifications pour :

  • les changements de schéma

  • les comptages de lignes et la détection d'anomalies sur les comptages de lignes

  • les valeurs manquantes, qui recherchent automatiquement les valeurs nulles

  • les valeurs dupliquées

Consultez la liste exhaustive de tout ce que les suggestions de vérification font dans la documentation Soda.

La Magie. Regardez-la Se Produire.

Jetez un coup d'œil aux Suggestions de Vérifications de la Bibliothèque Soda pour observer certains des éléments clés du flux de suggestion de vérifications de bout en bout.

Et Maintenant ?

Assurer une qualité de données robuste ne devrait pas être une tâche ardue. En lançant les suggestions de vérifications, Soda a transformé cette tâche épuisante en une expérience simple et guidée. Cette fonctionnalité puissante, associée à notre bibliothèque Soda enrichie, offre un nouveau niveau d'automatisation qui aide votre équipe à établir systématiquement et intuitivement une couverture de qualité des données de base.

Notre voyage ne s'arrête pas là. Nous avons des plans ambitieux pour étendre les capacités des suggestions de vérifications afin d'inclure un plus grand nombre de vérifications, et des vérifications plus intelligentes, basées sur des seuils pour les rendre plus précises et adaptables.

De plus, notre vision comprend un plan visant à inclure des utilisateurs orientés business qui n'utilisent généralement pas régulièrement les outils en ligne de commande. Nous sommes en train de concevoir une manière de présenter les suggestions de vérifications dans Soda Cloud d'une manière encore plus conviviale.

Nous vous encourageons avec enthousiasme à essayer les suggestions de vérifications la prochaine fois que vous avez besoin d'ajouter une couverture de qualité des données à un ensemble de données. Si vous êtes nouveau sur Soda, profitez de l'essai gratuit de 45 jours pour découvrir les avantages des vérifications de qualité des données automatisées et intelligentes. Faites-vous plaisir et prenez quelques minutes de votre journée pour éliminer les maux de tête les plus basiques liés à la qualité des données en mettant en œuvre les vérifications de qualité des données les plus élémentaires.

Comme toujours, nous attendons vos commentaires et suggestions avec impatience ; rejoignez-nous dans la Communauté Soda sur Slack et dites-nous ce que vous en pensez ! Nous sommes impatients de faire évoluer nos produits, même si notre objectif de simplifier et de systématiser les vérifications de qualité des données reste inchangé.

Plongez dans le monde des vérifications de qualité des données automatisées avec Soda pour empêcher les mauvaises données de perturber les bonnes affaires.

Dans le monde en constante évolution de la gestion des données, la qualité est la clé de voûte qui maintient tout en ordre. Maintenir des données de haute qualité est impératif, que vous développiez des modèles d'apprentissage automatique complexes ou que vous créiez des tableaux de bord perspicaces pour une prise de décision cruciale.

Mais le chemin pour atteindre cet objectif peut sembler être un labyrinthe complexe, rempli de myriades de métriques et d'éléments à suivre et à valider. Comment identifier ce qui doit être testé ? Comment pouvez-vous faire en sorte que vos efforts produisent le résultat escompté ? Par où devriez-vous même commencer ?

Automatisez les Bases

En ce qui concerne la couverture de la qualité des données, quelques vérifications simples peuvent faire une énorme différence. Des mises à jour régulières de vos données sont cruciales, et vous voudrez peut-être envisager de respecter des accords de niveau de service (SLA) établis pour des mises à jour cohérentes, en portant une attention particulière aux colonnes avec des saisies humaines pour vérifier qu'elles correspondent à un format prédéterminé.

Les procédures de routine, comme la vérification des entrées en double ou des valeurs nulles dans vos colonnes importantes, peuvent protéger l'intégrité de vos données. Aussi évident que cela puisse paraître, il n'est pas rare que même ces vérifications de base de la qualité manquent dans les actifs de données clés. La raison ? Lorsque les équipes n'ont pas de processus stricts de saisie ou de qualité des données, les gens oublient simplement de vérifier et espèrent optimistement que tout ira bien. Attention, cela n'ira pas.

Établir une couverture de la qualité des données de base ne devrait pas être laissé au hasard, ni à la maturité de votre équipe ; cela devrait être systématique et automatique. À cette fin, et en nous inspirant de nos expériences au sein des équipes de données, nous avons conçu la nouvelle fonctionnalité de suggestions de vérification basée sur ce qu'une équipe de données mature construirait en interne.

Laissez l'Automatisation Vous Guider, Pas Vous Aveugler

Chez Soda, nous croyons au pouvoir des tests de qualité des données déclaratifs. C'est pourquoi nous avons développé Soda Checks Language (SodaCL) et pourquoi nous nous sommes concentrés fortement sur les tests de données via des règles explicites, déclarées par l'utilisateur.

Mais même avec ce langage puissant et intuitif, nous ne nous attendons pas à ce que vous affrontiez seul le monde de la couverture de qualité des données. Non, nous croyons que le bon degré d'automatisation - appelons cela une automatisation conversationnelle - peut vous aider, vous et votre équipe, à suivre les meilleures pratiques pour passer de zéro à « ouf » en quelques minutes seulement. Quelle est la seule commande de la bibliothèque Soda qui fait cela pour vous ? soda suggest

Cette fonctionnalité puissante élimine l'incertitude de l'établissement des vérifications de qualité de données de base. Elle prépare le terrain pour que vous puissiez facilement lancer le processus de qualité des données en profilant vos données, puis en recommandant des vérifications pertinentes. Plutôt que de partir de zéro en vous demandant, « Quelles vérifications suis-je censé effectuer ici ? » vous pouvez exécuter soda suggest et répondre aux questions simples, à choix multiples de Soda dans la ligne de commande pour produire un fichier prêt pour la production, rempli de vérifications, prêt à lancer une analyse.

Sans exagérer, cinq minutes suffisent. Assurément, cela vaut la peine de valider que votre ensemble de données contient des données complètes, valides, récentes et exemptes d'anomalies !

Sélectionnez Vos Suggestions

Nous savons que vous ne voudrez peut-être pas toujours des suggestions pour tous les types de vérifications, donc nous avons prévu le coup. Une des premières questions du flux de suggestion de vérifications vous demande de sélectionner les vérifications pour lesquelles vous souhaitez des suggestions. Vous pouvez en sélectionner une ou deux si c'est tout ce dont vous avez besoin. Dans la capture d'écran ci-dessous, nous sélectionnons tout car, honnêtement, l'ensemble du processus est assez rapide. Et pourquoi ne voudriez-vous pas plus de couverture ?

Lire la suite

Select types of check suggestions 

Suggestions Intelligentes pour la Fraîcheur

Pour préparer une vérification de la fraîcheur qui valide que vos données sont actuelles et non obsolètes, les suggestions de vérifications Soda identifient d'abord les colonnes de date/heure qu'il peut utiliser pour évaluer la fraîcheur, puis les classe selon celles qui sont les plus appropriées à utiliser. Par exemple, dans la table dim_customer, Soda détecte correctement que date_first_purchase est une colonne plus appropriée pour tester la fraîcheur des données que date_of_birth. Si cette table avait une colonne created_at ou updated_at, par exemple, l'algorithme aurait sélectionné celles-ci comme les colonnes les plus appropriées pour évaluer la fraîcheur.

Smart suggestions for freshness

De plus, comme vous pouvez le voir sur la capture d'écran ci-dessus, la suggestion de fraîcheur détermine un seuil pertinent basé sur les motifs qu'elle observe dans votre ensemble de données. Dans ce cas, elle a déterminé que les dates dans date_first_purchase ne devraient pas être supérieures à 19 heures.

Lire la suite

Suggestion de Vérification de Validité Utile

Une autre suggestion de vérification très utile est pour la validité du format. Nous savons tous que les colonnes de chaîne peuvent finir par être un véritable fourre-tout ; les gens stockent toutes sortes de données dans les colonnes varchar. Une vérification de la validité du format vous permet de confirmer que les colonnes, en particulier celles remplies par l'utilisateur, suivent un format attendu et valide, tel qu'une date ou une monnaie.

Toutefois, comme SodaCL prend en charge plus de 40 formats de validité, passer en revue toutes les colonnes de chaînes de votre ensemble de données pour déterminer quel motif ou format chaque colonne doit correspondre peut prendre beaucoup de temps.

Les suggestions de vérification éliminent les incertitudes en dressant le profil des colonnes contenant des chaînes et en suggérant le format valide le plus adapté. Dans l'exemple ci-dessous, l'algorithme de suggestion de vérification détecte correctement que la colonne « email_address » doit être formatée comme un type sémantique email. Bravo !

Les suggestions de vérification éliminent les incertitudes en dressant le profil des colonnes contenant des chaînes et en suggérant le format valide le plus adapté. Dans l'exemple ci-dessous, l'algorithme de suggestion de vérification détecte correctement que la colonne « email_address » doit être formatée comme un type sémantique email. Bravo !

Lire la suite

Helpful validity check suggestion

Fichier de vérifications prêt pour la production

Une fois que vous avez terminé le flux de suggestion de vérifications, Soda prépare un fichier YAML de vérifications prêt pour la production, accompagné d'une invite vous demandant si vous voulez l'utiliser pour lancer une analyse immédiatement. (Oui, vous le voulez !)

En plus de vous montrer un joli résumé des vérifications qu'elle suggère, et de stocker le fichier localement sur votre système, vous pouvez prendre ce fichier et le mettre n'importe où vous en avez besoin. Ajoutez ces vérifications à votre pipeline de données en production pour détecter les problèmes de données avant qu'elles n'aient un impact en aval. Ou, ajoutez-les à votre pipeline CICD pour trouver des problèmes de qualité des données après transformation avant de les fusionner en production.

La beauté de cette fonctionnalité réside dans sa flexibilité ; vous pouvez intégrer les vérifications telles quelles dans votre DAG Airflow, ou les modifier ou les étendre facilement selon vos besoins. Vous pouvez personnaliser vos vérifications, ajuster les seuils, incorporer des filtres, etc.

Lire la suite

Checks YAML file produced by Soda check suggestions

Attendez, Il y a Plus !

Vous avez vu certains de nos faits saillants préférés, mais les suggestions de vérification font bien plus. Elles vous guident à travers les étapes pour préparer des vérifications pour :

  • les changements de schéma

  • les comptages de lignes et la détection d'anomalies sur les comptages de lignes

  • les valeurs manquantes, qui recherchent automatiquement les valeurs nulles

  • les valeurs dupliquées

Consultez la liste exhaustive de tout ce que les suggestions de vérification font dans la documentation Soda.

La Magie. Regardez-la Se Produire.

Jetez un coup d'œil aux Suggestions de Vérifications de la Bibliothèque Soda pour observer certains des éléments clés du flux de suggestion de vérifications de bout en bout.

Et Maintenant ?

Assurer une qualité de données robuste ne devrait pas être une tâche ardue. En lançant les suggestions de vérifications, Soda a transformé cette tâche épuisante en une expérience simple et guidée. Cette fonctionnalité puissante, associée à notre bibliothèque Soda enrichie, offre un nouveau niveau d'automatisation qui aide votre équipe à établir systématiquement et intuitivement une couverture de qualité des données de base.

Notre voyage ne s'arrête pas là. Nous avons des plans ambitieux pour étendre les capacités des suggestions de vérifications afin d'inclure un plus grand nombre de vérifications, et des vérifications plus intelligentes, basées sur des seuils pour les rendre plus précises et adaptables.

De plus, notre vision comprend un plan visant à inclure des utilisateurs orientés business qui n'utilisent généralement pas régulièrement les outils en ligne de commande. Nous sommes en train de concevoir une manière de présenter les suggestions de vérifications dans Soda Cloud d'une manière encore plus conviviale.

Nous vous encourageons avec enthousiasme à essayer les suggestions de vérifications la prochaine fois que vous avez besoin d'ajouter une couverture de qualité des données à un ensemble de données. Si vous êtes nouveau sur Soda, profitez de l'essai gratuit de 45 jours pour découvrir les avantages des vérifications de qualité des données automatisées et intelligentes. Faites-vous plaisir et prenez quelques minutes de votre journée pour éliminer les maux de tête les plus basiques liés à la qualité des données en mettant en œuvre les vérifications de qualité des données les plus élémentaires.

Comme toujours, nous attendons vos commentaires et suggestions avec impatience ; rejoignez-nous dans la Communauté Soda sur Slack et dites-nous ce que vous en pensez ! Nous sommes impatients de faire évoluer nos produits, même si notre objectif de simplifier et de systématiser les vérifications de qualité des données reste inchangé.

Plongez dans le monde des vérifications de qualité des données automatisées avec Soda pour empêcher les mauvaises données de perturber les bonnes affaires.

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par