Présentation de Soda SQL

Présentation de Soda SQL

12 févr. 2021

Tom Baeyens

Tom Baeyens

CTO et co-fondateur chez Soda

CTO et co-fondateur chez Soda

Table des matières

Le Nouveau Logiciel Open Source (OSS) pour la Collecte de Métriques, le Test et la Surveillance des Données avec Données Accessibles par SQL

Nous avons construit Soda SQL depuis le début pour faire trois choses bien, sur des données accessibles par SQL :

  • Collecte de métriques

  • Test de données

  • Surveillance des données

Soda SQL aide les ingénieurs de données à maintenir des pipelines de données de haute qualité et de confiance en production.

Liens rapides :

‼️ SodaSQL est devenu Soda Library.

Allez ici pour plus d'informations : Présentation de Soda Library

Alors que les équipes de données rendent opérationnels les produits et fonctionnalités de données, elles prennent conscience de manière critique de la nécessité de tester les données car des données incorrectes entraînent des décisions erronées. En conséquence, de nombreuses équipes de données ont mis en place leurs propres frameworks de test de données. Cependant, ces solutions internes deviennent rapidement ingérables à mesure que les ensembles de données et les équipes de données grandissent. C'est pourquoi, fin 2018, nous avons commencé à créer une solution qui permettrait aux équipes de données de surveiller leurs flux de décisions critiques : la Plateforme de Surveillance des Données Soda.

Pour les deux années suivantes, nous avons été extrêmement occupés à travailler avec les clients : concevoir la plateforme et la tester avec les utilisateurs. En 2019, nous avons formé un Comité Consultatif Client, composé d'ingénieurs en données et en analytique, de responsables de produits de données, d'équipes de business intelligence, d'équipes de gouvernance des données, de data scientists, ainsi que de directeurs des données (et de l'analytique) de certaines des entreprises les plus intensives en données.

Nous avons eu la chance de bénéficier de leur partenariat et des conseils de nos investisseurs. Tous deux nous ont apporté des informations et des retours inestimables alors que nous testions notre produit sur le terrain. Avançons jusqu'à février 2021, et nous nous sommes finalement sentis prêts à rendre public un composant important. Soda SQL confirme notre engagement à équiper les ingénieurs de données avec des outils pour tester, surveiller et profiler les données.

Soda SQL est la première partie de la stratégie de Soda pour fournir des outils de gestion des données open source, disponibles gratuitement pour les ingénieurs travaillant dans des environnements riches en données, où la qualité des données est primordiale.

Laissez Soda SQL Faire Vos Tests de Données

Le but est que les outils de développement de Soda répondent à un besoin que des dizaines de milliers d'ingénieurs de données ont à travers le monde : surveiller la qualité des données. Nous voyons que les ingénieurs de données sont constamment à la recherche d'intégrer des principes de l'ingénierie logicielle dans le workflow de l'ingénierie des données. L'un de ces principes étant le Développement Piloté par des Tests (TDD). C'est ce que Soda défend dans le monde de l'ingénierie des données.

Dans le logiciel, comme dans tant d'autres domaines, ce que vous ne savez pas peut vous nuire. Chez Soda, nous appelons ces choses inconnues problèmes de données silencieux. Même avec des ingénieurs de données en première ligne pour les protéger, les problèmes de données silencieux peuvent causer des ravages sur les données qui sont transmises à vos utilisateurs en aval.

La première ligne de défense est de vérifier les données lorsqu'elles arrivent sur votre plateforme de données, ainsi que sur chaque table de données en aval qui est créée. Nous appelons cela le test de données. Soda SQL crée des tests de données pour vous, et vous permet d'en ajouter facilement d'autres en utilisant des expressions Python et SQL. Une fois ces tests définis, Soda commence immédiatement à vous protéger contre les problèmes de données silencieux.

Soda SQL Défend Contre les Problèmes de Données Silencieux

Soda SQL fonctionne en étroite collaboration avec les workflows d'ingénierie des données. En tant qu'ingénieur, vous obtenez un contrôle total et une visibilité complète. Vous définissez comment Soda SQL fonctionne en utilisant des fichiers de configuration YAML standard de l'industrie. Ces fichiers peuvent être vérifiés dans un contrôle de version et vous permettent de contrôler et d'auditer les tests qui sont exécutés et les métriques qui sont utilisées pour évaluer les résultats.

Lorsque de nouvelles données sont traitées, Soda SQL les analysera par le biais d'un ensemble de requêtes efficaces. Soda repose sur la conviction que la qualité des données commence par la collecte de métriques, le test de données et la surveillance des données. Nous pensons que Soda SQL peut être un excellent point de départ pour créer une observabilité des données à grande échelle dans votre organisation !

Comment Ça Fonctionne

Soda SQL est un outil en ligne de commande simple qui vous permet de tester et de surveiller des données grâce à la collecte de métriques. L'outil génère une structure de dossier avec des fichiers pour chacun de vos ensembles de données. Chaque fichier contient une ou plusieurs configurations Soda Scan. La configuration par défaut est basée sur le scan initial des données et contient des suggestions intelligentes. Lorsqu'une donnée unique est trouvée, par exemple, nous suggérons automatiquement d'inclure une métrique de doublon et de tester cette colonne.

Une fois que vous êtes satisfait des ensembles de données et des tests, vous pouvez les ajouter à tout outil moderne d'orchestration de données.

Alors Pourquoi l'Appeler Soda SQL ?

Comme notre nom le suggère, nous avons misé à fond sur SQL. Sans honte. Sans aucune réserve. Après le battage médiatique de NoSQL (qui aurait dû être appelé NoTransaction BTW), il y a une tendance claire de retour vers SQL à travers les stacks de données, le paysage des données et les plateformes de données.

Un autre avantage d'une approche SQL est qu'elle vous permet de laisser vos données en place. Vous n'avez pas besoin de charger ou de déplacer vos données pour les tester et les surveiller. Soda SQL peut simplement être utilisé où vivent vos données.

Enfin, SQL apporte beaucoup de flexibilité. Cela nous permet, par exemple, de séparer les tests de données de la collecte de métriques à grande échelle. Lorsque les équipes de données traitent les données, chaque seconde compte, par conséquent, les flux moins critiques pour la surveillance peuvent facilement être exécutés en parallèle, sans bloquer le chemin critique.

Soda SQL et la Plateforme de Surveillance des Données Soda

Parlons maintenant de la Plateforme de Surveillance des Données Soda. Nous croyons qu'il y a beaucoup de services précieux que nous pouvons fournir en plus de Soda SQL pour aider les équipes de données, en s'intégrant parfaitement avec leurs outils de choix pour la découverte et la gestion des incidents de données.

La Plateforme de Surveillance des Données Soda offre des insights en temps réel sur vos métriques, résultats de tests, et ensembles de données. Pensez à Soda SQL comme le moteur, et à la plateforme comme une interface utilisateur élégante où vous pouvez voir et collaborer sur ce qui se passe, ainsi que créer des moniteurs dans un environnement sans code.

Nous construisons actuellement un service cloud d'essai gratuit qui stockera les métriques dans le temps, et activera Soda Insights. Insights est un service de détection proactive qui vous indique quelles données méritent d'être corrigées.

Abonnez-vous à notre newsletter pour rester informé de ces développements passionnants !

Notre premier objectif dans notre stratégie open source est d'aider les organisations à atteindre l'observabilité à travers la collecte de métriques sur toute la stack de données. Prochainement, il y aura le support pour le streaming et les dataframes. Chaque projet open source sera construit pour supporter nativement ces technologies afin qu'ils soient faciles à configurer, et fournir un contrôle total sur l'impact des performances.

Mon expérience en open source m'a appris la valeur de la communauté, et combien il est amusant de construire quelque chose ensemble. Je vous invite à nous rejoindre.

Rendez-vous sur notre projet Soda SQL sur GitHub et essayez-le par vous-même. (Et donnez-nous une étoile, s'il vous plaît !).

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par