Points Clés de Subsurface LIVE

Points Clés de Subsurface LIVE

5 févr. 2021

Domien Declercq

Domien Declercq

Ancien responsable du développement commercial chez Soda

Ancien responsable du développement commercial chez Soda

Table des matières

L'équipe de Soda a récemment participé à Subsurface LIVE Winter Edition, la conférence de Dremio sur le cloud data lake, qui s'est déroulée en ligne.

Liens rapides :

Il était fascinant de voir à quel point les choses ont évolué rapidement dans la gestion des données au cours des dernières années. Notamment, l'importance croissante de la surveillance des données et le rôle de l'ingénieur de données, que nous chez Soda mettons en avant avec notre nouveau projet open source, Soda SQL. Coïncidence ou timing parfait ? Continuez à lire.

Dans le discours d'ouverture, Tomer Shiran, directeur produit chez Dremio, a abordé certains des changements survenus dans le domaine de la gestion des données. Tomer a évoqué le passage d'une architecture monolithique, client-serveur utilisant souvent des logiciels propriétaires, à une approche cloud plus déconnectée qui repose sur des logiciels open-source.

Le principal moteur de ce changement est la nécessité de gérer des ensembles de données beaucoup plus grands. La pile de données moderne est de plus en plus massive et complexe. Les organisations sont parfaitement conscientes de la nécessité de délivrer les bonnes données aux bonnes personnes, au moment opportun. Et, comme l'a souligné Tomer, la nécessité de rendre les données disponibles 24/7 pour différents utilisateurs à travers toute l'organisation. Bien que cela soit ainsi, nous devons reconnaître que de nombreuses entreprises ont du mal à suivre tous les problèmes de qualité des données connus (et inconnus).

Grâce à mes interactions et conversations virtuelles à notre stand Soda, je peux confirmer que la demande est bien réelle !

Les équipes d'ingénierie et d'infrastructure de données sont sous une pression immense pour gérer la demande incessante de données prêtes pour l'analyse de qualité suprême, provenant d'un nombre de sources de données toujours croissant.

Ces défis - et les solutions possibles - sont ce dont tant de participants ont discuté tout au long de la conférence. En fait, la « disponibilité des données à la demande » pourrait être la nouvelle grande tendance dont les analystes commerciaux et l'industrie parleront en 2021 et au-delà.

Un autre point clé de la conférence était la nécessité de compatibilité et de cohérence des données sur l'ensemble du pipeline, de la source à l'utilisateur. Par exemple, un changement dans le type de données d'une colonne dans une base de données source doit être reflété dans le schéma d'un lac de données que l'utilisateur consulte. Eh bien, la validation de la cohérence de la qualité des données sur le pipeline est l'une des raisons de la construction de la plateforme de surveillance de données Soda. Ce fut amusant de présenter la plateforme aux participants pendant l'événement.

Image of the Soda data monitoring platform in action

Indéniablement, nous assistons à la montée des ingénieurs de données, des propriétaires de produits de données et des data scientists. Hourra ! Mais avec cela vient la prise de conscience de la lutte pour garder une maîtrise sur tous les problèmes de qualité des données connus (et inconnus). Nous devons intégrer des principes supplémentaires de l'ingénierie logicielle dans le flux de travail de l'ingénierie de données et nous avons commencé avec cela chez Soda. Les équipes d'ingénierie de données et d'infrastructure toujours en quête de ressources, luttent pour gérer la demande croissante de données prêtes pour l'analyse provenant d'un nombre de sources de données toujours croissant, sont omniprésentes.

La situation est-elle désespérée ? Absolument pas ! Cette communauté en pleine croissance utilise déjà une multitude d'outils de développeur open-source pour faciliter la gestion des produits de données modernes tels que Spark ou DBT. Maintenant, nous devons intégrer des principes supplémentaires de l'ingénierie logicielle dans le flux de travail de l'ingénierie de données. Continuons à explorer cela ensemble.

Et vraiment, le meilleur message à retenir était l'unité dans la compréhension que les données doivent être surveillées, testées et validées dès que possible et finalement avant qu'elles n'atteignent l'utilisateur.

Si vous n'avez pas pu assister à la conférence, vous pouvez accéder aux sessions à la demande, ici.

TL;DL : Parmi toutes les présentations informatives et provocantes à Subsurface, écoutez le discours d'ouverture de Tomer Shiran et la présentation AWS de Roy Hasson sur les lacs de données. Mais, selon où vous vous trouvez dans le pipeline de données, toutes valent la peine d'être écoutées.

J'ai commencé à parler de changement, et je terminerai par cela. Comme beaucoup, j'ai manqué l'interaction en personne que cette communauté réussit bien, et sur laquelle elle prospère, cependant, cela restait génial, et la session DJ fut de manière inattendue très amusante ! Soda a été fier de sponsoriser, et personnellement j'ai beaucoup appris lors de la conférence.

Bien sûr, je serais ravi que vous alliez maintenant explorer Soda SQL, qui semble être si bien planifié.

Soda SQL est notre projet open source récemment sorti. Soda défend les principes d'ingénierie de Développement Dirigé par les Tests (TDD) dans sa plateforme de surveillance de données et nous aimerions que vous lui donniez une chance.

Allez-y, allez tester vous-même de bonnes données de qualité.

Profitez-en !

‼️ SodaSQL est devenu Soda Library.

Rendez-vous ici pour plus d'informations : Présentation de Soda Library

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par