Erreur : Colonne manquante

Erreur : Colonne manquante

29 oct. 2021

Mathisse De Strooper

Mathisse De Strooper

Directeur de l'Ingénierie Client chez Soda

Directeur de l'Ingénierie Client chez Soda

Table des matières

Les organisations construisent et opérationnalisent de plus en plus de produits de données pour stimuler les résultats commerciaux. Lorsque les ingénieurs en données et en analyses préparent ces produits de données, ils ont deux exigences critiques :

  1. surveiller la qualité des données introduites dans les produits de données

  2. livrer des transformations et des résultats fiables

Arrêtez de Lutter Contre les Problèmes de Qualité des Données

Le schéma d'un ensemble de données peut évoluer au fil du temps et ces changements peuvent créer des problèmes de données silencieux. Ces problèmes sont silencieux car, au mieux, ils entraînent des transformations de données échouées; au pire, les produits de données continuent de fonctionner, mais sur de mauvaises données.

Donc le cas d'utilisation est simple : alertez-moi lorsqu'il y a un changement de colonne dans mon ensemble de données.

De nombreuses équipes de données manquent de systèmes ou de processus pour détecter automatiquement les changements, anomalies ou problèmes au sein des données, et par conséquent, les problèmes de données silencieux peuvent avoir un impact sérieux en aval. En tant qu'ingénieur, il est peu probable que vous soyez informé qu'une colonne a été supprimée jusqu'à ce que le consommateur de données se rende compte que les données sont manquantes ou erronées, et l'impact en aval se traduit par des opportunités de revenus manquées, par exemple. La conséquence est une perte de temps et d'argent à lutter contre et à nettoyer les problèmes de données.

Surveillance Automatisée : Moniteur d'Évolution du Schéma

Dans le cadre des fonctionnalités de surveillance automatisée de Soda, le Moniteur d'Évolution du Schéma sert aux ingénieurs en données et en analyses dont le rôle est de tester les données pour garantir leur qualité.

Le Moniteur d'Évolution du Schéma est une fonctionnalité automatique qui ne nécessite aucune configuration. Lorsqu'un nouvel ensemble de données est intégré, Soda Cloud ajoute automatiquement un moniteur de schéma avec une configuration par défaut pour les niveaux d'alerte suivants :

  • Colonne ajoutée : Avertissement

  • Changement de type de colonne : Critique

  • Colonne supprimée : Critique

...et notifications :

  • Destinataire : Propriétaire de l'Ensemble de Données

  • Méthode : e-mail et canal Slack par défaut, si défini au niveau de l'organisation

Le moniteur commence immédiatement à détecter les changements de schéma et à envoyer des notifications lorsque des changements surviennent.

Lorsque des colonnes dans un ensemble de données ont été ajoutées, supprimées ou modifiées, Soda Cloud envoie des notifications qui vous permettent de tirer parti de ces problèmes silencieux avant qu'ils n'aient un impact en aval sur la qualité des données.

Voyons un exemple.

Un ensemble de données, 'CLIENTS', contient des données client qui sont contrôlées pour leur cohérence dans Soda.

⚠️ Dans le GIF ci-dessous, pour démontrer le moniteur en action, nous montrons la création manuelle d'un moniteur d'évolution de schéma où l'utilisateur définit les niveaux de seuil pour les alertes et identifie qui doit être notifié et comment. Rappelez-vous que Soda Cloud ajoute automatiquement le moniteur d'évolution du schéma à tous vos ensembles de données lorsque vous les intégrez.

Suivez le GIF et vous verrez que les changements de schéma ont été détectés par le moniteur lorsque deux colonnes - 'FULLNAME' et 'REGION' - ont été ajoutées, et à nouveau, quelques jours plus tard, lorsque deux colonnes - 'COUNTRY' et 'COUNTRY_CODE' - ont été supprimées.

Soda Cloud envoie automatiquement une alerte par e-mail aux personnes concernées pour les informer qu'un problème critique a été détecté. Cela garantit que toute personne se basant sur cet ensemble de données est alertée au bon moment et peut prendre des mesures pour analyser et résoudre le problème avant qu'il n'y ait un impact en aval, tel qu'un impact sur les rapports ou les modèles d'apprentissage automatisé.

Le graphique en barres stocke les avertissements et alertes critiques historiques détectés par le Moniteur d'Évolution du Schéma. Par défaut, Soda Cloud émet des avertissements lorsque des colonnes sont ajoutées ou modifiées, et des alertes critiques lorsque des colonnes sont supprimées.

L'historique des changements de schéma fournit un aperçu de tous les types de changements qui se sont produits au fil du temps, vous permettant de mieux comprendre les données et les exigences des consommateurs de données. Ce moniteur de schéma contribue à obtenir une couverture adéquate pour vérifier la cohérence de l'ensemble de données, ce qui, en fin de compte, augmente la confiance dans les produits de données.

Que Suivront-ils?

La limitation de la surveillance (ou ce que nous appelons souvent l'observabilité des données) est que vous ne pouvez pas mettre en quarantaine les mauvaises données. Dans le cadre de la prochaine version des outils de fiabilité des données de Soda, nous lançons notre propre langage (*vraiment cool nom à être annoncé), qui fournira aux ingénieurs en données et en analyses la capacité de tester facilement les schémas.

🚀 Oui, vous l'avez entendu ici en premier. Le langage "vraiment cool à nommer" de Soda donnera aux utilisateurs de nos outils open source la possibilité de tester les schémas à l'ingestion, ou avant et après les transformations. Le langage est conçu pour être inclus dans un pipeline de données, vous permettant d'arrêter les pipelines et de mettre en quarantaine les mauvaises données lorsque c'est nécessaire. Voici venir la fiabilité des données.

Un Nouveau Langage Innovant Arrive à la Qualité des Données

Voici un avant-goût, car nous sommes tout aussi enthousiastes ! L'exemple ci-dessous montre le langage "vraiment cool à nommer" appliqué directement sur un dataframe utilisant Soda Spark, ou sur des tables utilisant Soda SQL. À côté des colonnes requises, vous pouvez spécifier l'ordre, la sensibilité à la casse et le type de données requis pour chaque colonne.

Intrigué? Nous avons hâte de livrer cette capacité révolutionnaire !

Nous aimerions savoir comment le Moniteur d'Évolution du Schéma fonctionne pour vous et nous sommes disponibles pour toutes questions ou retours.

Rejoignez notre Communauté Soda sur Slack pour rester à jour avec les dernières versions de Soda et nous faire part de vos impressions !

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par