
Les organisations construisent et opérationnalisent de plus en plus de produits de données pour stimuler les résultats commerciaux. Lorsque les ingénieurs en données et en analyses préparent ces produits de données, ils ont deux exigences critiques :
surveiller la qualité des données introduites dans les produits de données
livrer des transformations et des résultats fiables
Arrêtez de Lutter Contre les Problèmes de Qualité des Données
Le schéma d'un ensemble de données peut évoluer au fil du temps et ces changements peuvent créer des problèmes de données silencieux. Ces problèmes sont silencieux car, au mieux, ils entraînent des transformations de données échouées; au pire, les produits de données continuent de fonctionner, mais sur de mauvaises données.
Donc le cas d'utilisation est simple : alertez-moi lorsqu'il y a un changement de colonne dans mon ensemble de données.
De nombreuses équipes de données manquent de systèmes ou de processus pour détecter automatiquement les changements, anomalies ou problèmes au sein des données, et par conséquent, les problèmes de données silencieux peuvent avoir un impact sérieux en aval. En tant qu'ingénieur, il est peu probable que vous soyez informé qu'une colonne a été supprimée jusqu'à ce que le consommateur de données se rende compte que les données sont manquantes ou erronées, et l'impact en aval se traduit par des opportunités de revenus manquées, par exemple. La conséquence est une perte de temps et d'argent à lutter contre et à nettoyer les problèmes de données.
Surveillance Automatisée : Moniteur d'Évolution du Schéma
Dans le cadre des fonctionnalités de surveillance automatisée de Soda, le Moniteur d'Évolution du Schéma sert aux ingénieurs en données et en analyses dont le rôle est de tester les données pour garantir leur qualité.
Le Moniteur d'Évolution du Schéma est une fonctionnalité automatique qui ne nécessite aucune configuration. Lorsqu'un nouvel ensemble de données est intégré, Soda Cloud ajoute automatiquement un moniteur de schéma avec une configuration par défaut pour les niveaux d'alerte suivants :
Colonne ajoutée : Avertissement
Changement de type de colonne : Critique
Colonne supprimée : Critique
...et notifications :
Destinataire : Propriétaire de l'Ensemble de Données
Méthode : e-mail et canal Slack par défaut, si défini au niveau de l'organisation
Le moniteur commence immédiatement à détecter les changements de schéma et à envoyer des notifications lorsque des changements surviennent.
Lorsque des colonnes dans un ensemble de données ont été ajoutées, supprimées ou modifiées, Soda Cloud envoie des notifications qui vous permettent de tirer parti de ces problèmes silencieux avant qu'ils n'aient un impact en aval sur la qualité des données.
Voyons un exemple.
Un ensemble de données, 'CLIENTS', contient des données client qui sont contrôlées pour leur cohérence dans Soda.
⚠️ Dans le GIF ci-dessous, pour démontrer le moniteur en action, nous montrons la création manuelle d'un moniteur d'évolution de schéma où l'utilisateur définit les niveaux de seuil pour les alertes et identifie qui doit être notifié et comment. Rappelez-vous que Soda Cloud ajoute automatiquement le moniteur d'évolution du schéma à tous vos ensembles de données lorsque vous les intégrez.

Suivez le GIF et vous verrez que les changements de schéma ont été détectés par le moniteur lorsque deux colonnes - 'FULLNAME' et 'REGION' - ont été ajoutées, et à nouveau, quelques jours plus tard, lorsque deux colonnes - 'COUNTRY' et 'COUNTRY_CODE' - ont été supprimées.
Soda Cloud envoie automatiquement une alerte par e-mail aux personnes concernées pour les informer qu'un problème critique a été détecté. Cela garantit que toute personne se basant sur cet ensemble de données est alertée au bon moment et peut prendre des mesures pour analyser et résoudre le problème avant qu'il n'y ait un impact en aval, tel qu'un impact sur les rapports ou les modèles d'apprentissage automatisé.

Le graphique en barres stocke les avertissements et alertes critiques historiques détectés par le Moniteur d'Évolution du Schéma. Par défaut, Soda Cloud émet des avertissements lorsque des colonnes sont ajoutées ou modifiées, et des alertes critiques lorsque des colonnes sont supprimées.
L'historique des changements de schéma fournit un aperçu de tous les types de changements qui se sont produits au fil du temps, vous permettant de mieux comprendre les données et les exigences des consommateurs de données. Ce moniteur de schéma contribue à obtenir une couverture adéquate pour vérifier la cohérence de l'ensemble de données, ce qui, en fin de compte, augmente la confiance dans les produits de données.
Que Suivront-ils?
La limitation de la surveillance (ou ce que nous appelons souvent l'observabilité des données) est que vous ne pouvez pas mettre en quarantaine les mauvaises données. Dans le cadre de la prochaine version des outils de fiabilité des données de Soda, nous lançons notre propre langage (*vraiment cool nom à être annoncé), qui fournira aux ingénieurs en données et en analyses la capacité de tester facilement les schémas.
🚀 Oui, vous l'avez entendu ici en premier. Le langage "vraiment cool à nommer" de Soda donnera aux utilisateurs de nos outils open source la possibilité de tester les schémas à l'ingestion, ou avant et après les transformations. Le langage est conçu pour être inclus dans un pipeline de données, vous permettant d'arrêter les pipelines et de mettre en quarantaine les mauvaises données lorsque c'est nécessaire. Voici venir la fiabilité des données.
Un Nouveau Langage Innovant Arrive à la Qualité des Données
Voici un avant-goût, car nous sommes tout aussi enthousiastes ! L'exemple ci-dessous montre le langage "vraiment cool à nommer" appliqué directement sur un dataframe utilisant Soda Spark, ou sur des tables utilisant Soda SQL. À côté des colonnes requises, vous pouvez spécifier l'ordre, la sensibilité à la casse et le type de données requis pour chaque colonne.

Intrigué? Nous avons hâte de livrer cette capacité révolutionnaire !
Nous aimerions savoir comment le Moniteur d'Évolution du Schéma fonctionne pour vous et nous sommes disponibles pour toutes questions ou retours.
Rejoignez notre Communauté Soda sur Slack pour rester à jour avec les dernières versions de Soda et nous faire part de vos impressions !








