
L'équipe de Soda a récemment participé à Subsurface LIVE Winter Edition, la conférence de Dremio sur le cloud data lake, qui s'est déroulée en ligne.
Liens rapides :
Il était fascinant de voir à quel point les choses ont évolué rapidement dans la gestion des données au cours des dernières années. Notamment, l'importance croissante de la surveillance des données et le rôle de l'ingénieur de données, que nous chez Soda mettons en avant avec notre nouveau projet open source, Soda SQL. Coïncidence ou timing parfait ? Continuez à lire.
Dans le discours d'ouverture, Tomer Shiran, directeur produit chez Dremio, a abordé certains des changements survenus dans le domaine de la gestion des données. Tomer a évoqué le passage d'une architecture monolithique, client-serveur utilisant souvent des logiciels propriétaires, à une approche cloud plus déconnectée qui repose sur des logiciels open-source.
Le principal moteur de ce changement est la nécessité de gérer des ensembles de données beaucoup plus grands. La pile de données moderne est de plus en plus massive et complexe. Les organisations sont parfaitement conscientes de la nécessité de délivrer les bonnes données aux bonnes personnes, au moment opportun. Et, comme l'a souligné Tomer, la nécessité de rendre les données disponibles 24/7 pour différents utilisateurs à travers toute l'organisation. Bien que cela soit ainsi, nous devons reconnaître que de nombreuses entreprises ont du mal à suivre tous les problèmes de qualité des données connus (et inconnus).
Grâce à mes interactions et conversations virtuelles à notre stand Soda, je peux confirmer que la demande est bien réelle !
Les équipes d'ingénierie et d'infrastructure de données sont sous une pression immense pour gérer la demande incessante de données prêtes pour l'analyse de qualité suprême, provenant d'un nombre de sources de données toujours croissant.
Ces défis - et les solutions possibles - sont ce dont tant de participants ont discuté tout au long de la conférence. En fait, la « disponibilité des données à la demande » pourrait être la nouvelle grande tendance dont les analystes commerciaux et l'industrie parleront en 2021 et au-delà.
Un autre point clé de la conférence était la nécessité de compatibilité et de cohérence des données sur l'ensemble du pipeline, de la source à l'utilisateur. Par exemple, un changement dans le type de données d'une colonne dans une base de données source doit être reflété dans le schéma d'un lac de données que l'utilisateur consulte. Eh bien, la validation de la cohérence de la qualité des données sur le pipeline est l'une des raisons de la construction de la plateforme de surveillance de données Soda. Ce fut amusant de présenter la plateforme aux participants pendant l'événement.

Indéniablement, nous assistons à la montée des ingénieurs de données, des propriétaires de produits de données et des data scientists. Hourra ! Mais avec cela vient la prise de conscience de la lutte pour garder une maîtrise sur tous les problèmes de qualité des données connus (et inconnus). Nous devons intégrer des principes supplémentaires de l'ingénierie logicielle dans le flux de travail de l'ingénierie de données et nous avons commencé avec cela chez Soda. Les équipes d'ingénierie de données et d'infrastructure toujours en quête de ressources, luttent pour gérer la demande croissante de données prêtes pour l'analyse provenant d'un nombre de sources de données toujours croissant, sont omniprésentes.
La situation est-elle désespérée ? Absolument pas ! Cette communauté en pleine croissance utilise déjà une multitude d'outils de développeur open-source pour faciliter la gestion des produits de données modernes tels que Spark ou DBT. Maintenant, nous devons intégrer des principes supplémentaires de l'ingénierie logicielle dans le flux de travail de l'ingénierie de données. Continuons à explorer cela ensemble.
Et vraiment, le meilleur message à retenir était l'unité dans la compréhension que les données doivent être surveillées, testées et validées dès que possible et finalement avant qu'elles n'atteignent l'utilisateur.
Si vous n'avez pas pu assister à la conférence, vous pouvez accéder aux sessions à la demande, ici.
TL;DL : Parmi toutes les présentations informatives et provocantes à Subsurface, écoutez le discours d'ouverture de Tomer Shiran et la présentation AWS de Roy Hasson sur les lacs de données. Mais, selon où vous vous trouvez dans le pipeline de données, toutes valent la peine d'être écoutées.
J'ai commencé à parler de changement, et je terminerai par cela. Comme beaucoup, j'ai manqué l'interaction en personne que cette communauté réussit bien, et sur laquelle elle prospère, cependant, cela restait génial, et la session DJ fut de manière inattendue très amusante ! Soda a été fier de sponsoriser, et personnellement j'ai beaucoup appris lors de la conférence.
Bien sûr, je serais ravi que vous alliez maintenant explorer Soda SQL, qui semble être si bien planifié.
Soda SQL est notre projet open source récemment sorti. Soda défend les principes d'ingénierie de Développement Dirigé par les Tests (TDD) dans sa plateforme de surveillance de données et nous aimerions que vous lui donniez une chance.
Allez-y, allez tester vous-même de bonnes données de qualité.
Profitez-en !
‼️ SodaSQL est devenu Soda Library.
Rendez-vous ici pour plus d'informations : Présentation de Soda Library








