Présentation de la Gestion des Incidents pour dbt, propulsée par Soda

Présentation de la Gestion des Incidents pour dbt, propulsée par Soda

18 janv. 2022

Bastien Boutonnet

Bastien Boutonnet

Bastien Boutonnet

Responsable d'équipe IA & Gestion de Produit chez Soda

Responsable d'équipe IA & Gestion de Produit chez Soda

Responsable d'équipe IA & Gestion de Produit chez Soda

Table des matières

Longue vie à dbt !

Commençons sur une note audacieuse : dbt est l'outil de facto pour les transformations de données analytiques et nous – comme des centaines de milliers d'autres – l'adorons.

En tant que data scientist, utilisateur passionné, fan et contributeur (à la fois dbt-core mais aussi dbt-sugar), je peux témoigner en toute confiance de notre déclaration audacieuse. J'ai utilisé dbt dans tous mes précédents rôles en data science, et dans mon dernier poste chez TripActions, j'ai participé à rendre les analystes de données et les data scientists super efficaces avec dbt, en boostant l'équipe de données et en amenant tout le monde à travailler comme un ingénieur des données (sans qu'ils s'en rendent compte, bien sûr !). J'ai également reçu deux badges de conférencier Coalesce, un porte-clés, un chapeau et un pull super doux.

Alimenter la pile de données moderne

Lorsque nous avons parlé à la communauté Soda des outils qu'ils utilisent le plus pour obtenir des insights à partir de données brutes, dbt était certainement en tête de liste. Son workflow de transformation aide à construire des pipelines de données robustes et impose l'exécution de tests de validation de données au moment où les transformations sont codées. dbt fait circuler les données.

Construire ou Acheter

Je l'ai dit deux fois, et je le dirai encore, dbt est le meilleur outil pour écrire des transformations. Parce que les données ne cessent de circuler et que les organisations ont besoin d'une observabilité des données de bout en bout, il y a une demande pour des outils supplémentaires qui fonctionnent tout au long du cycle de vie des produits de données, pour aider les équipes à mieux gérer leurs produits de données.

Il est courant pour les organisations de construire une solution qui analyse les échecs à la fin d'un test et crée une alerte dans Slack pour déclencher la résolution d'incidents. Je le sais, car c'est exactement ce que mon équipe et moi avons fait chez TripActions - nous avons construit un workflow en libre-service et low-code pour que toute personne dans l'organisation puisse accéder à toutes les informations dont elle a besoin pour prendre une décision. Notre objectif était de permettre à tout membre de l'équipe de faire plus avec les données.

J'ai appris cependant, que si une solution existante peut libérer votre temps et vous permettre de vous concentrer sur ce que vous aimez faire, alors vous devriez acheter l'outil qui fait la plupart du travail.

C'est pourquoi, chez Soda, nous intégrons la puissance transformationnelle de dbt avec l'observabilité et la gestion des incidents de Soda.

Libérer l'Ingénieur Analytics

Chez Soda, nous construisons des outils de fiabilité des données et une plateforme d'observabilité pour aider les équipes de données à découvrir, prioriser et résoudre les problèmes de qualité des données. Nous avons simplifié un processus fastidieux avec un workflow complet, de bout en bout, pour détecter et résoudre les problèmes, et alerter automatiquement les bonnes personnes au bon moment.

Nous voulons libérer les Ingénieurs Analytics ! Dans ce but, je suis ravi d'annoncer notre intégration avec dbt.

Commençons par le commencement

Oui, Soda dispose de tests de boîte, de détection d'anomalies et de contrôles de distribution. Notre éthique en matière de tests est la même que celle de dbt – nos outils sont Open Source et utilisent également YAML – mais nous serions fous de vous encourager à abandonner les centaines de tests qui fonctionnent dans dbt et espérer que vous les réécriviez dans Soda. Nous croyons fermement que vous devriez tirer parti des outils que vous connaissez et aimez, c'est pourquoi nous avons priorisé cette intégration.

Nous savons qu'il y a un avantage énorme à ingérer vos résultats de tests dbt dans Soda Cloud. C'est la beauté de la pile de données moderne : elle est extensible et flexible au point que vous pouvez utiliser les outils qui conviennent le mieux au travail à accomplir. L'observabilité des données est une partie clé de la pile de données moderne et, chez Soda, nous croyons que nous construisons la plateforme la plus robuste pour les équipes de données.

dbt + Soda

Avec dbt + Soda Cloud, les équipes de données peuvent compléter les tests qu'elles exécutent dans dbt. Regardez la vidéo pour voir dbt + Soda en action, en ingérant les résultats des tests dbt dans Soda et en utilisant les Incidents Soda.

Nous l'aimons tellement, nous avons fait deux vidéos ! Choisissez votre saveur en fonction de ce que vous utilisez : dbt core, ou dbt Cloud.

dbt-core + Soda en action

dbt Cloud + Soda en action

Voici les points forts de chaque vidéo

  • Ajoutez plus de capacités de test à vos résultats de test dbt, y compris la détection automatique d'anomalies et le suivi de l'évolution des schémas.

This image shows a dbt test result ingested into Soda Cloud, showing it’s status-over-time.

Cette image montre un résultat de test dbt ingéré dans Soda Cloud, montrant son statut au fil du temps. Les alertes et la gestion des incidents peuvent désormais être appliquées au résultat du test dbt.

  • Stockez les résultats des tests dbt au fil du temps dans le Metrics Store de Soda Cloud pour tester et valider les données dans un fichier YAML basé sur les valeurs précédemment observées stockées dans le cloud. Ce test-en-tant-que-code vous permet de tirer parti d'une base de référence de ce à quoi ressemblent de bonnes données lorsque vous écrivez de nouveaux tests.

  • Alertez les parties prenantes nécessaires des échecs des tests. Configurez une intégration entre Soda Cloud et Slack afin que vos équipes de données soient les premières à savoir quand des problèmes de qualité des données surgissent, et puissent régler le problème avant qu'il n'y ait des dommages en aval.

  • Gérez les incidents de fiabilité et de qualité des données, que ce soit au niveau de l'ensemble de données ou de l'enregistrement. Les Incidents Soda simplifient le processus permettant de détecter, trier, diagnostiquer et résoudre les problèmes de données tout au long du cycle de vie du produit de données.

Ce gif montre comment vous pouvez créer un incident sur un échec de test dbt ingéré.

Assembler toutes les pièces

La gestion des données dans une architecture de données moderne est computationnellement liée à chaque étape du flux de données et du cycle de vie du produit. La plupart des équipes de données aujourd'hui sont organisées par domaine et sont composées de personnes aux rôles différents tels qu'un ingénieur en analytique, un analyste et un gestionnaire de produit de données. Compte tenu de la nature interfonctionnelle des données, les équipes dépendent les unes des autres pour fournir des données fiables de haute qualité, chaque jour.

Nous sommes tellement fiers de pouvoir apporter toute la bonté de dbt à Soda Cloud, rendant possible le support de l'ensemble du workflow, de bout en bout, pour la gestion des données, la fiabilité des données et la qualité des données. Notre intégration aide les utilisateurs de dbt à se connecter à leurs sources de données, à réaliser des analyses de la cause racine, et à gérer les mauvaises données rapidement avant qu'elles n'aient un impact en aval.

Commencez avec une Disponibilité des Données 24/7

Nous avons la chance de compter parmi nous Disney, HelloFresh, Servier, et Udemy comme ceux qui ont déployé les outils de fiabilité des données de Soda en production. Et nous adorons leurs contributions ! Maintenant, il est temps pour vous de mettre Soda à l'épreuve du (dbt).

Vous pouvez lire notre documentation complète sur l'intégration de dbt avec Soda, ou commencer rapidement avec les trois étapes suivantes.

  1. Exécutez quelques tests à l'aide des [test](<https://docs.getdbt.com/docs/building-a-dbt-project/tests>) ou [build](<https://docs.getdbt.com/reference/commands/build>) de dbt, pour capturer les résultats de tests. Si vous utilisez dbt Cloud pour planifier vos travaux, assurez-vous d'exécuter la commande soda ingest quelque part près de la fin de ce travail. (Actuellement, dbt Cloud ne peut pas déclencher d'actions dans d'autres outils, mais dès qu'une option plus intégrée apparaîtra, nous serons sur le coup !)

  2. Appelez soda ingest. D'abord, assurez-vous d'avoir configuré Soda SQL pour se connecter à Soda Cloud. Ensuite, pip install soda-sql-dbt et ingérez les résultats de tests dbt en utilisant la commande suivante :

soda ingest dbt --warehouse-yml-file <path to warehouse.yml> --dbt-artifacts <path to dbt artifact jsons>

Si vous utilisez dbt Cloud, nous avons tout ce qu'il vous faut ! Consultez nos documents sur la façon de le configurer.

  1. Visualisez, collaborez et gérez les incidents de qualité des données dans Soda Cloud. Une fois ingérés, Soda Cloud affiche vos résultats de tests dbt. Vous pouvez immédiatement commencer à configurer des alertes ou à créer des incidents.

Si vous êtes nouveau chez Soda, vous pouvez commencer rapidement (et facilement !) gratuitement. Vous devez installer Soda Tools, disponible en Open Source, et le connecter à Soda Cloud, un compte gratuit disponible en version d'essai. Si vous avez besoin d'aide, contactez l'équipe Soda dans notre Communauté Soda sur Slack.

Et ensuite ?

Toute l'équipe et moi sommes ravis des possibilités que dbt + Soda offre aux utilisateurs dbt, établissant un véritable workflow de qualité des données de bout en bout, de la détection jusqu'à la résolution.

Essayez-le et faites-nous savoir ce que vous aimeriez voir comme une intégration plus approfondie avec dbt. Voici sur quoi nous travaillons :

  • Une intégration plus étroite, où une exécution de test dbt pourrait être capable de déclencher une exécution de soda ingest.

  • dbt permet aux utilisateurs de [store failures](<https://docs.getdbt.com/reference/resource-configs/store_failures>). Très bientôt, soda ingest pourra également obtenir cette information de dbt et vous la montrer. Si vous n'utilisez pas store_failures, alors nous vous montrerons le SQL compilé afin que vous puissiez accéder aux enregistrements en échec en un rien de temps !

  • Ingérer la traçabilité des tables pour vous aider à voir comment les ensembles de données modélisés à l'aide de dbt se connectent pour vous aider dans l'analyse des causes profondes.

  • Et au cas où vous utilisez Great Expectations pour les tests, nous envisageons de fournir une approche d'ingestion similaire.

Nous travaillons également sur un langage de fiabilité des données vraiment-cool-nom-à-annoncer, conçu pour être inclus dans un pipeline de données. Il sera librement disponible en Open Source et promet de changer la façon dont nous testons et validons les données, en tant que code… mais nous en parlerons plus prochainement !

Longue vie à dbt !

Commençons sur une note audacieuse : dbt est l'outil de facto pour les transformations de données analytiques et nous – comme des centaines de milliers d'autres – l'adorons.

En tant que data scientist, utilisateur passionné, fan et contributeur (à la fois dbt-core mais aussi dbt-sugar), je peux témoigner en toute confiance de notre déclaration audacieuse. J'ai utilisé dbt dans tous mes précédents rôles en data science, et dans mon dernier poste chez TripActions, j'ai participé à rendre les analystes de données et les data scientists super efficaces avec dbt, en boostant l'équipe de données et en amenant tout le monde à travailler comme un ingénieur des données (sans qu'ils s'en rendent compte, bien sûr !). J'ai également reçu deux badges de conférencier Coalesce, un porte-clés, un chapeau et un pull super doux.

Alimenter la pile de données moderne

Lorsque nous avons parlé à la communauté Soda des outils qu'ils utilisent le plus pour obtenir des insights à partir de données brutes, dbt était certainement en tête de liste. Son workflow de transformation aide à construire des pipelines de données robustes et impose l'exécution de tests de validation de données au moment où les transformations sont codées. dbt fait circuler les données.

Construire ou Acheter

Je l'ai dit deux fois, et je le dirai encore, dbt est le meilleur outil pour écrire des transformations. Parce que les données ne cessent de circuler et que les organisations ont besoin d'une observabilité des données de bout en bout, il y a une demande pour des outils supplémentaires qui fonctionnent tout au long du cycle de vie des produits de données, pour aider les équipes à mieux gérer leurs produits de données.

Il est courant pour les organisations de construire une solution qui analyse les échecs à la fin d'un test et crée une alerte dans Slack pour déclencher la résolution d'incidents. Je le sais, car c'est exactement ce que mon équipe et moi avons fait chez TripActions - nous avons construit un workflow en libre-service et low-code pour que toute personne dans l'organisation puisse accéder à toutes les informations dont elle a besoin pour prendre une décision. Notre objectif était de permettre à tout membre de l'équipe de faire plus avec les données.

J'ai appris cependant, que si une solution existante peut libérer votre temps et vous permettre de vous concentrer sur ce que vous aimez faire, alors vous devriez acheter l'outil qui fait la plupart du travail.

C'est pourquoi, chez Soda, nous intégrons la puissance transformationnelle de dbt avec l'observabilité et la gestion des incidents de Soda.

Libérer l'Ingénieur Analytics

Chez Soda, nous construisons des outils de fiabilité des données et une plateforme d'observabilité pour aider les équipes de données à découvrir, prioriser et résoudre les problèmes de qualité des données. Nous avons simplifié un processus fastidieux avec un workflow complet, de bout en bout, pour détecter et résoudre les problèmes, et alerter automatiquement les bonnes personnes au bon moment.

Nous voulons libérer les Ingénieurs Analytics ! Dans ce but, je suis ravi d'annoncer notre intégration avec dbt.

Commençons par le commencement

Oui, Soda dispose de tests de boîte, de détection d'anomalies et de contrôles de distribution. Notre éthique en matière de tests est la même que celle de dbt – nos outils sont Open Source et utilisent également YAML – mais nous serions fous de vous encourager à abandonner les centaines de tests qui fonctionnent dans dbt et espérer que vous les réécriviez dans Soda. Nous croyons fermement que vous devriez tirer parti des outils que vous connaissez et aimez, c'est pourquoi nous avons priorisé cette intégration.

Nous savons qu'il y a un avantage énorme à ingérer vos résultats de tests dbt dans Soda Cloud. C'est la beauté de la pile de données moderne : elle est extensible et flexible au point que vous pouvez utiliser les outils qui conviennent le mieux au travail à accomplir. L'observabilité des données est une partie clé de la pile de données moderne et, chez Soda, nous croyons que nous construisons la plateforme la plus robuste pour les équipes de données.

dbt + Soda

Avec dbt + Soda Cloud, les équipes de données peuvent compléter les tests qu'elles exécutent dans dbt. Regardez la vidéo pour voir dbt + Soda en action, en ingérant les résultats des tests dbt dans Soda et en utilisant les Incidents Soda.

Nous l'aimons tellement, nous avons fait deux vidéos ! Choisissez votre saveur en fonction de ce que vous utilisez : dbt core, ou dbt Cloud.

dbt-core + Soda en action

dbt Cloud + Soda en action

Voici les points forts de chaque vidéo

  • Ajoutez plus de capacités de test à vos résultats de test dbt, y compris la détection automatique d'anomalies et le suivi de l'évolution des schémas.

This image shows a dbt test result ingested into Soda Cloud, showing it’s status-over-time.

Cette image montre un résultat de test dbt ingéré dans Soda Cloud, montrant son statut au fil du temps. Les alertes et la gestion des incidents peuvent désormais être appliquées au résultat du test dbt.

  • Stockez les résultats des tests dbt au fil du temps dans le Metrics Store de Soda Cloud pour tester et valider les données dans un fichier YAML basé sur les valeurs précédemment observées stockées dans le cloud. Ce test-en-tant-que-code vous permet de tirer parti d'une base de référence de ce à quoi ressemblent de bonnes données lorsque vous écrivez de nouveaux tests.

  • Alertez les parties prenantes nécessaires des échecs des tests. Configurez une intégration entre Soda Cloud et Slack afin que vos équipes de données soient les premières à savoir quand des problèmes de qualité des données surgissent, et puissent régler le problème avant qu'il n'y ait des dommages en aval.

  • Gérez les incidents de fiabilité et de qualité des données, que ce soit au niveau de l'ensemble de données ou de l'enregistrement. Les Incidents Soda simplifient le processus permettant de détecter, trier, diagnostiquer et résoudre les problèmes de données tout au long du cycle de vie du produit de données.

Ce gif montre comment vous pouvez créer un incident sur un échec de test dbt ingéré.

Assembler toutes les pièces

La gestion des données dans une architecture de données moderne est computationnellement liée à chaque étape du flux de données et du cycle de vie du produit. La plupart des équipes de données aujourd'hui sont organisées par domaine et sont composées de personnes aux rôles différents tels qu'un ingénieur en analytique, un analyste et un gestionnaire de produit de données. Compte tenu de la nature interfonctionnelle des données, les équipes dépendent les unes des autres pour fournir des données fiables de haute qualité, chaque jour.

Nous sommes tellement fiers de pouvoir apporter toute la bonté de dbt à Soda Cloud, rendant possible le support de l'ensemble du workflow, de bout en bout, pour la gestion des données, la fiabilité des données et la qualité des données. Notre intégration aide les utilisateurs de dbt à se connecter à leurs sources de données, à réaliser des analyses de la cause racine, et à gérer les mauvaises données rapidement avant qu'elles n'aient un impact en aval.

Commencez avec une Disponibilité des Données 24/7

Nous avons la chance de compter parmi nous Disney, HelloFresh, Servier, et Udemy comme ceux qui ont déployé les outils de fiabilité des données de Soda en production. Et nous adorons leurs contributions ! Maintenant, il est temps pour vous de mettre Soda à l'épreuve du (dbt).

Vous pouvez lire notre documentation complète sur l'intégration de dbt avec Soda, ou commencer rapidement avec les trois étapes suivantes.

  1. Exécutez quelques tests à l'aide des [test](<https://docs.getdbt.com/docs/building-a-dbt-project/tests>) ou [build](<https://docs.getdbt.com/reference/commands/build>) de dbt, pour capturer les résultats de tests. Si vous utilisez dbt Cloud pour planifier vos travaux, assurez-vous d'exécuter la commande soda ingest quelque part près de la fin de ce travail. (Actuellement, dbt Cloud ne peut pas déclencher d'actions dans d'autres outils, mais dès qu'une option plus intégrée apparaîtra, nous serons sur le coup !)

  2. Appelez soda ingest. D'abord, assurez-vous d'avoir configuré Soda SQL pour se connecter à Soda Cloud. Ensuite, pip install soda-sql-dbt et ingérez les résultats de tests dbt en utilisant la commande suivante :

soda ingest dbt --warehouse-yml-file <path to warehouse.yml> --dbt-artifacts <path to dbt artifact jsons>

Si vous utilisez dbt Cloud, nous avons tout ce qu'il vous faut ! Consultez nos documents sur la façon de le configurer.

  1. Visualisez, collaborez et gérez les incidents de qualité des données dans Soda Cloud. Une fois ingérés, Soda Cloud affiche vos résultats de tests dbt. Vous pouvez immédiatement commencer à configurer des alertes ou à créer des incidents.

Si vous êtes nouveau chez Soda, vous pouvez commencer rapidement (et facilement !) gratuitement. Vous devez installer Soda Tools, disponible en Open Source, et le connecter à Soda Cloud, un compte gratuit disponible en version d'essai. Si vous avez besoin d'aide, contactez l'équipe Soda dans notre Communauté Soda sur Slack.

Et ensuite ?

Toute l'équipe et moi sommes ravis des possibilités que dbt + Soda offre aux utilisateurs dbt, établissant un véritable workflow de qualité des données de bout en bout, de la détection jusqu'à la résolution.

Essayez-le et faites-nous savoir ce que vous aimeriez voir comme une intégration plus approfondie avec dbt. Voici sur quoi nous travaillons :

  • Une intégration plus étroite, où une exécution de test dbt pourrait être capable de déclencher une exécution de soda ingest.

  • dbt permet aux utilisateurs de [store failures](<https://docs.getdbt.com/reference/resource-configs/store_failures>). Très bientôt, soda ingest pourra également obtenir cette information de dbt et vous la montrer. Si vous n'utilisez pas store_failures, alors nous vous montrerons le SQL compilé afin que vous puissiez accéder aux enregistrements en échec en un rien de temps !

  • Ingérer la traçabilité des tables pour vous aider à voir comment les ensembles de données modélisés à l'aide de dbt se connectent pour vous aider dans l'analyse des causes profondes.

  • Et au cas où vous utilisez Great Expectations pour les tests, nous envisageons de fournir une approche d'ingestion similaire.

Nous travaillons également sur un langage de fiabilité des données vraiment-cool-nom-à-annoncer, conçu pour être inclus dans un pipeline de données. Il sera librement disponible en Open Source et promet de changer la façon dont nous testons et validons les données, en tant que code… mais nous en parlerons plus prochainement !

Longue vie à dbt !

Commençons sur une note audacieuse : dbt est l'outil de facto pour les transformations de données analytiques et nous – comme des centaines de milliers d'autres – l'adorons.

En tant que data scientist, utilisateur passionné, fan et contributeur (à la fois dbt-core mais aussi dbt-sugar), je peux témoigner en toute confiance de notre déclaration audacieuse. J'ai utilisé dbt dans tous mes précédents rôles en data science, et dans mon dernier poste chez TripActions, j'ai participé à rendre les analystes de données et les data scientists super efficaces avec dbt, en boostant l'équipe de données et en amenant tout le monde à travailler comme un ingénieur des données (sans qu'ils s'en rendent compte, bien sûr !). J'ai également reçu deux badges de conférencier Coalesce, un porte-clés, un chapeau et un pull super doux.

Alimenter la pile de données moderne

Lorsque nous avons parlé à la communauté Soda des outils qu'ils utilisent le plus pour obtenir des insights à partir de données brutes, dbt était certainement en tête de liste. Son workflow de transformation aide à construire des pipelines de données robustes et impose l'exécution de tests de validation de données au moment où les transformations sont codées. dbt fait circuler les données.

Construire ou Acheter

Je l'ai dit deux fois, et je le dirai encore, dbt est le meilleur outil pour écrire des transformations. Parce que les données ne cessent de circuler et que les organisations ont besoin d'une observabilité des données de bout en bout, il y a une demande pour des outils supplémentaires qui fonctionnent tout au long du cycle de vie des produits de données, pour aider les équipes à mieux gérer leurs produits de données.

Il est courant pour les organisations de construire une solution qui analyse les échecs à la fin d'un test et crée une alerte dans Slack pour déclencher la résolution d'incidents. Je le sais, car c'est exactement ce que mon équipe et moi avons fait chez TripActions - nous avons construit un workflow en libre-service et low-code pour que toute personne dans l'organisation puisse accéder à toutes les informations dont elle a besoin pour prendre une décision. Notre objectif était de permettre à tout membre de l'équipe de faire plus avec les données.

J'ai appris cependant, que si une solution existante peut libérer votre temps et vous permettre de vous concentrer sur ce que vous aimez faire, alors vous devriez acheter l'outil qui fait la plupart du travail.

C'est pourquoi, chez Soda, nous intégrons la puissance transformationnelle de dbt avec l'observabilité et la gestion des incidents de Soda.

Libérer l'Ingénieur Analytics

Chez Soda, nous construisons des outils de fiabilité des données et une plateforme d'observabilité pour aider les équipes de données à découvrir, prioriser et résoudre les problèmes de qualité des données. Nous avons simplifié un processus fastidieux avec un workflow complet, de bout en bout, pour détecter et résoudre les problèmes, et alerter automatiquement les bonnes personnes au bon moment.

Nous voulons libérer les Ingénieurs Analytics ! Dans ce but, je suis ravi d'annoncer notre intégration avec dbt.

Commençons par le commencement

Oui, Soda dispose de tests de boîte, de détection d'anomalies et de contrôles de distribution. Notre éthique en matière de tests est la même que celle de dbt – nos outils sont Open Source et utilisent également YAML – mais nous serions fous de vous encourager à abandonner les centaines de tests qui fonctionnent dans dbt et espérer que vous les réécriviez dans Soda. Nous croyons fermement que vous devriez tirer parti des outils que vous connaissez et aimez, c'est pourquoi nous avons priorisé cette intégration.

Nous savons qu'il y a un avantage énorme à ingérer vos résultats de tests dbt dans Soda Cloud. C'est la beauté de la pile de données moderne : elle est extensible et flexible au point que vous pouvez utiliser les outils qui conviennent le mieux au travail à accomplir. L'observabilité des données est une partie clé de la pile de données moderne et, chez Soda, nous croyons que nous construisons la plateforme la plus robuste pour les équipes de données.

dbt + Soda

Avec dbt + Soda Cloud, les équipes de données peuvent compléter les tests qu'elles exécutent dans dbt. Regardez la vidéo pour voir dbt + Soda en action, en ingérant les résultats des tests dbt dans Soda et en utilisant les Incidents Soda.

Nous l'aimons tellement, nous avons fait deux vidéos ! Choisissez votre saveur en fonction de ce que vous utilisez : dbt core, ou dbt Cloud.

dbt-core + Soda en action

dbt Cloud + Soda en action

Voici les points forts de chaque vidéo

  • Ajoutez plus de capacités de test à vos résultats de test dbt, y compris la détection automatique d'anomalies et le suivi de l'évolution des schémas.

This image shows a dbt test result ingested into Soda Cloud, showing it’s status-over-time.

Cette image montre un résultat de test dbt ingéré dans Soda Cloud, montrant son statut au fil du temps. Les alertes et la gestion des incidents peuvent désormais être appliquées au résultat du test dbt.

  • Stockez les résultats des tests dbt au fil du temps dans le Metrics Store de Soda Cloud pour tester et valider les données dans un fichier YAML basé sur les valeurs précédemment observées stockées dans le cloud. Ce test-en-tant-que-code vous permet de tirer parti d'une base de référence de ce à quoi ressemblent de bonnes données lorsque vous écrivez de nouveaux tests.

  • Alertez les parties prenantes nécessaires des échecs des tests. Configurez une intégration entre Soda Cloud et Slack afin que vos équipes de données soient les premières à savoir quand des problèmes de qualité des données surgissent, et puissent régler le problème avant qu'il n'y ait des dommages en aval.

  • Gérez les incidents de fiabilité et de qualité des données, que ce soit au niveau de l'ensemble de données ou de l'enregistrement. Les Incidents Soda simplifient le processus permettant de détecter, trier, diagnostiquer et résoudre les problèmes de données tout au long du cycle de vie du produit de données.

Ce gif montre comment vous pouvez créer un incident sur un échec de test dbt ingéré.

Assembler toutes les pièces

La gestion des données dans une architecture de données moderne est computationnellement liée à chaque étape du flux de données et du cycle de vie du produit. La plupart des équipes de données aujourd'hui sont organisées par domaine et sont composées de personnes aux rôles différents tels qu'un ingénieur en analytique, un analyste et un gestionnaire de produit de données. Compte tenu de la nature interfonctionnelle des données, les équipes dépendent les unes des autres pour fournir des données fiables de haute qualité, chaque jour.

Nous sommes tellement fiers de pouvoir apporter toute la bonté de dbt à Soda Cloud, rendant possible le support de l'ensemble du workflow, de bout en bout, pour la gestion des données, la fiabilité des données et la qualité des données. Notre intégration aide les utilisateurs de dbt à se connecter à leurs sources de données, à réaliser des analyses de la cause racine, et à gérer les mauvaises données rapidement avant qu'elles n'aient un impact en aval.

Commencez avec une Disponibilité des Données 24/7

Nous avons la chance de compter parmi nous Disney, HelloFresh, Servier, et Udemy comme ceux qui ont déployé les outils de fiabilité des données de Soda en production. Et nous adorons leurs contributions ! Maintenant, il est temps pour vous de mettre Soda à l'épreuve du (dbt).

Vous pouvez lire notre documentation complète sur l'intégration de dbt avec Soda, ou commencer rapidement avec les trois étapes suivantes.

  1. Exécutez quelques tests à l'aide des [test](<https://docs.getdbt.com/docs/building-a-dbt-project/tests>) ou [build](<https://docs.getdbt.com/reference/commands/build>) de dbt, pour capturer les résultats de tests. Si vous utilisez dbt Cloud pour planifier vos travaux, assurez-vous d'exécuter la commande soda ingest quelque part près de la fin de ce travail. (Actuellement, dbt Cloud ne peut pas déclencher d'actions dans d'autres outils, mais dès qu'une option plus intégrée apparaîtra, nous serons sur le coup !)

  2. Appelez soda ingest. D'abord, assurez-vous d'avoir configuré Soda SQL pour se connecter à Soda Cloud. Ensuite, pip install soda-sql-dbt et ingérez les résultats de tests dbt en utilisant la commande suivante :

soda ingest dbt --warehouse-yml-file <path to warehouse.yml> --dbt-artifacts <path to dbt artifact jsons>

Si vous utilisez dbt Cloud, nous avons tout ce qu'il vous faut ! Consultez nos documents sur la façon de le configurer.

  1. Visualisez, collaborez et gérez les incidents de qualité des données dans Soda Cloud. Une fois ingérés, Soda Cloud affiche vos résultats de tests dbt. Vous pouvez immédiatement commencer à configurer des alertes ou à créer des incidents.

Si vous êtes nouveau chez Soda, vous pouvez commencer rapidement (et facilement !) gratuitement. Vous devez installer Soda Tools, disponible en Open Source, et le connecter à Soda Cloud, un compte gratuit disponible en version d'essai. Si vous avez besoin d'aide, contactez l'équipe Soda dans notre Communauté Soda sur Slack.

Et ensuite ?

Toute l'équipe et moi sommes ravis des possibilités que dbt + Soda offre aux utilisateurs dbt, établissant un véritable workflow de qualité des données de bout en bout, de la détection jusqu'à la résolution.

Essayez-le et faites-nous savoir ce que vous aimeriez voir comme une intégration plus approfondie avec dbt. Voici sur quoi nous travaillons :

  • Une intégration plus étroite, où une exécution de test dbt pourrait être capable de déclencher une exécution de soda ingest.

  • dbt permet aux utilisateurs de [store failures](<https://docs.getdbt.com/reference/resource-configs/store_failures>). Très bientôt, soda ingest pourra également obtenir cette information de dbt et vous la montrer. Si vous n'utilisez pas store_failures, alors nous vous montrerons le SQL compilé afin que vous puissiez accéder aux enregistrements en échec en un rien de temps !

  • Ingérer la traçabilité des tables pour vous aider à voir comment les ensembles de données modélisés à l'aide de dbt se connectent pour vous aider dans l'analyse des causes profondes.

  • Et au cas où vous utilisez Great Expectations pour les tests, nous envisageons de fournir une approche d'ingestion similaire.

Nous travaillons également sur un langage de fiabilité des données vraiment-cool-nom-à-annoncer, conçu pour être inclus dans un pipeline de données. Il sera librement disponible en Open Source et promet de changer la façon dont nous testons et validons les données, en tant que code… mais nous en parlerons plus prochainement !

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par