Qualité de données en libre-service et accords de qualité de données

Qualité de données en libre-service et accords de qualité de données

26 oct. 2022

Mathisse De Strooper

Mathisse De Strooper

Directeur de l'Ingénierie Client chez Soda

Directeur de l'Ingénierie Client chez Soda

Table des matières

Juste avant les vacances d'été en Europe, nous avons introduit la prochaine étape pour Soda en mode aperçu. Nous avons dévoilé un nouvel ensemble de fonctionnalités et de capacités que nous pensons amener Soda Cloud - et la gestion de la qualité des données - au niveau supérieur. Et aujourd'hui, ces fonctionnalités et capacités sont généralement disponibles.

La Qualité des Données N'est Pas Facile

Chez Soda, nous reconnaissons qu'il est essentiel pour les entreprises d'unir les producteurs de données et les consommateurs de données dans la quête de données de haute qualité et fiables. Nous avons toujours affirmé que « la qualité des données est un sport d'équipe », et nous avons travaillé pour nous assurer que Soda Cloud puisse permettre aux équipes de domaines de données de collaborer, avec la responsabilité adéquate, pour produire, partager et utiliser les données.

Cependant, les défis communs auxquels les consommateurs de données font face aujourd'hui, comme le note l'enquête BARC « L'avenir de l'architecture de données », sont que les outils sont trop techniques, les utilisateurs métiers ne peuvent pas mettre en œuvre de nouvelles exigences eux-mêmes, et l'IT (ou l'ingénierie) ne peut pas réagir assez rapidement aux nouvelles exigences.

Vous Pouvez Coder Avec Nous

Pendant longtemps, la qualité des données a été un mandat abordé par un groupe de personnes ayant un ensemble de compétences de niche; ainsi, de nombreux outils existants ont été construits pour un public technique de niche. Rédiger des requêtes SQL et les intégrer dans des pipelines de données ou d'autres outils ou systèmes ETL a signifié qu'il était impossible d'étendre la qualité des données à travers l'organisation avec seulement quelques équipes portant le fardeau du maintien de la qualité des données, souvent en luttant sans le temps, les connaissances ou la compréhension des données, ou les outils appropriés dont elles ont besoin.

Ces barrières à l'accès - ne pas connaître le SQL, ne pas savoir coder, ne pas avoir accès aux sources de données ou aux pipelines de données, ne pas avoir les bons outils - ont simplement stagné tout effort ou motivation à établir et à maintenir la confiance dans les données sur lesquelles les équipes travaillaient. Les barrières ont également créé des goulots d'étranglement qui sont paralysants pour une entreprise et c'est pourquoi nous savions qu'il était logique de construire pour les producteurs et consommateurs de données, et de changer la façon dont ils accèdent aux données.

Nous avons été très réfléchis sur la façon de procéder et avons complètement rompu avec les anciennes méthodes. En juin de cette année, nous avons lancé Soda Core, notre outil open-source pour les ingénieurs de données, avec SodaCL (Soda Checks Language), un nouveau langage spécifique au domaine pour écrire des vérifications de qualité des données.

Checks for accounts

SodaCL est un langage spécifique au domaine lisible par l'homme, basé sur le code bas et sur YAML pour écrire des vérifications de qualité des données. C'était un grand - et important - pas en avant vers la démocratisation de la gestion de la qualité des données pour les bonnes personnes : en le rendant accessible, facile à utiliser, quel que soit le savoir-faire technique, et confiant pour utiliser les données pour prendre des décisions commerciales.

Et ce saut nous amène à aujourd'hui, avec notre prochaine étape alors que nous rendons le dernier ensemble de fonctionnalités généralement disponible. C'est la Sortie en Libre-Service.

This is a data consumer in Soda Cloud creating an agreement, leveraging suggested code snippets.

Avec ces accords de qualité des données, les consommateurs de données deviennent des citoyens de première classe dans la tâche nécessairement décentralisée de gestion de la qualité des données.

Ces utilisateurs sont finalement habilités à se connecter aux sources de données, à découvrir leurs données et à réfléchir à ce qui constitue une « bonne qualité ». Ils sont habilités à prendre des mesures eux-mêmes, à prendre l'initiative de s'assurer que les données qui leur tiennent le plus à cœur, les données qu'ils utilisent pour prendre des décisions, alimenter des rapports et remplir des tableaux de bord, répondent à leurs propres normes de fiabilité, et intègrent leur confiance dans les données.

Soda Agreements en tant qu'outil, cependant, est loin d'être une fonctionnalité autonome. Pour autonomiser les gens à participer à la gestion de la qualité des données, nous devons également leur donner accès aux données. Cette exigence a ouvert la porte à toute une série de fonctionnalités de support, sans lesquelles il ne serait pas possible d'écrire des accords.

  • Les utilisateurs de Soda Cloud avaient besoin d'un moyen de se connecter à de nouvelles sources de données, telles que Snowflake ou MS SQL Server, depuis l'interface utilisateur, nous avons donc construit un flux de travail guidé étape par étape pour établir ces connexions. C'est l'accessibilité de base.

  • Pour accéder en toute sécurité à ces nouvelles sources de données depuis l'interface utilisateur de Soda Cloud, nous devions permettre aux utilisateurs de déployer un Soda Agent dans leur propre fournisseur de services cloud, tel qu'AWS. C'est via l'agent que tout utilisateur de Soda Cloud (avec permission) peut accéder aux données qu'il souhaite vérifier.

  • Établir des connexions pour accéder aux données est, bien sûr, essentiel, mais tout aussi crucial est la capacité à voir ce qui s'y trouve. Avec quels ensembles de données travaillons-nous ? Quelles données contiennent-ils, quels sont les noms des colonnes ? Comment savoir quoi vérifier si les données sont dans une boîte noire ?

  • La découverte automatisée d'ensembles de données, le profilage de colonnes, et l'échantillonnage de données donnent à tous les utilisateurs la possibilité de se rapprocher suffisamment de leurs données pour commencer à écrire des règles sur leur qualité. (Pour se conformer à toute règle de sécurité interne, vous pouvez organiser pour stocker les échantillons de lignes échouées dans votre propre environnement.)

  • Une fois proposé et approuvé par les parties prenantes, Soda Cloud doit réellement exécuter des scans sur les sources de données pour effectuer les vérifications de qualité des données qui forment des accords. Ainsi, nous avons introduit des définitions de scan, une manière de définir quand et où Soda Cloud exécute ses scans.

  • Enfin, comme premier pas utile vers l'établissement d'une bonne qualité des données, les utilisateurs peuvent choisir de configurer et de commencer automatiquement à exécuter des contrôles de surveillance automatisés pour les anomalies des données et les changements de schéma. Avant même d'écrire un accord, avant même de savoir quel type de données s'agite à l'intérieur d'une source de données, un utilisateur peut commencer à capturer des métadonnées de qualité des données dès la sortie de l'emballage, sans connaissance interne requise.

Ça ne Peut Que S'Améliorer

Faites-moi confiance lorsque je dis que ces nouvelles fonctionnalités changent la donne - et nous l'entendons de notre communauté. Notre cohorte enthousiaste de premiers adoptants avec un accès en aperçu à Soda Agreements et tout ce qui l'accompagne, a validé de manière retentissante tout ce que nous étions certains serait vrai à propos de la démocratisation et de la décentralisation en libre-service de la qualité des données.

« ...nous pensons que cela nous aidera à démocratiser la solution à d'autres équipes intéressées par la mise en œuvre de vérifications de qualité des données mais qui n'ont pas les connaissances pour utiliser les solutions de planification de tâches, de flux de travail d'orchestration, etc.

…cette fonctionnalité [...] semble assez accessible pour nos utilisateurs analystes commerciaux…

Très enthousiastes à propos de la fonctionnalité Agreements – nous souhaitons voir une collaboration plus étroite entre ingénieurs et analystes grâce à cette capacité…”

Il Est Temps de S'Unir !

Nos clients, partenaires et membres de la communauté enregistrés avec un compte Soda Cloud ont maintenant accès à la version en libre-service et aux nouvelles fonctionnalités et capacités.

Cette vidéo offre une excellente introduction et vue d'ensemble des nouvelles fonctionnalités, comment y accéder, comment embarquer vos collègues et les convaincre de devenir des parties prenantes dans les accords de qualité des données.

Vous pouvez consulter le guide de démarrage rapide pour Soda Cloud, qui inclut des conseils sur la façon de configurer et de commencer à travailler avec les nouvelles fonctionnalités en libre-service.

Nos documents contiennent des instructions détaillées et des tutoriels pour configurer et utiliser le Soda Agent, ajouter de nouvelles sources de données, créer des accords, et bien entendu, conseils et meilleures pratiques pour écrire des vérifications de qualité des données avec SodaCL.

Je vais animer un webinaire le mardi 8 novembre à 11h00 et à 17h00 heure d'Europe centrale, en parcourant la nouvelle version en libre-service. Vous pouvez le regarder ici.

Bientôt, nous allons étendre Soda Core, notre outil open-source, pour prendre en charge le streaming Kafka et nous allons également élargir les fichiers YAML de Soda Core pour devenir des contrats de données. Deux capacités qui aideront de nombreuses organisations à progresser sur leur parcours vers une bonne qualité des données.

L'équipe entière et moi-même sommes enthousiasmés par les possibilités qu'offre le libre-service, et par les développements à venir. Restez connectés et suivez ce sur quoi nous travaillons. Rejoignez notre Communauté Soda sur Slack.

⛔️ Les Soda Agreements sont en train d'être abandonnés.

En fait, ils ont évolué et nous avons toute une nouvelle fonctionnalité.

Pour en savoir plus à ce sujet : Soda publie Engine de contrats de données OSS

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par