Présentation de SodaGPT

Présentation de SodaGPT

26 juin 2023

Maarten Masschelein

Maarten Masschelein

Maarten Masschelein

PDG et Fondateur chez Soda

PDG et Fondateur chez Soda

PDG et Fondateur chez Soda

Table des matières

SodaGPT est devenu SodaAI.

Rendez-vous ici pour plus d'informations : Annonce Soda AI : Un bond vers une plateforme de qualité des données GenAI-first

Le premier AI génératif pour la qualité des données

Aujourd'hui marque le lancement de SodaGPT, le premier AI génératif pour la qualité des données qui permet une approche sans code pour exprimer les contrôles de qualité des données.

Ce nouvel outil marque le début d'une véritable gestion autonome de la qualité des données pour tous les acteurs du domaine. SodaGPT combine l'expressivité du langage de contrôles Soda (SodaCL) avec la puissance de traitement du langage naturel de l'AI génératif, pour offrir un temps d'implémentation accéléré pour les contrôles de qualité des données. Disponible en prévisualisation, connectez-vous à, ou inscrivez-vous pour, un compte Soda Cloud et cliquez sur « Demander à SodaGPT » pour l'essayer !

Soda s'est toujours engagé à faciliter la participation des développeurs et analystes à l'amélioration de la qualité des données dans une organisation. Il est souvent le cas que parmi nous, ceux qui ne codent pas sont les mieux à même de décider ce qui doit être testé pour que les données soient dignes de confiance et adaptées à leur objectif – après tout, ce sont eux qui prennent les décisions sur les données et ont acquis l'expertise de domaine appropriée pour formuler ces exigences. Pourtant, dans la plupart des solutions, ces utilisateurs sont souvent empêchés de le faire en raison des obstacles à l'apprentissage d'un nouvel outil et langage.

SodaGPT s'attaque directement à ces obstacles. Utilisant notre propre technologie propriétaire de transformateur pré-entraîné génératif basée sur le modèle open source Falcon-7b, SodaGPT traduit l'entrée en langue anglaise naturelle en contrôles de qualité des données prêts pour la production écrits en SodaCL. Cette nouvelle fonctionnalité offre une manière simple pour les consommateurs de données de s'impliquer réellement dans la gestion de la qualité des données. Cela diminue la charge sur les ingénieurs en données qui n'ont pas à traduire manuellement les exigences ou attentes pour implémenter des contrôles de qualité des données dans les pipelines de données.

SodaGPT, le MVP dans votre Data Mesh

Le data mesh consiste à appliquer les principes de l'ingénierie produit et logiciel aux données. Dans le contexte de la réflexion sur les produits de données, nous mesurons la qualité par la satisfaction client. Plus un produit a d'utilisateurs réguliers, mieux c'est. Plus le client est satisfait, moins il est probable qu'il décide d'utiliser un produit alternatif.

SodaGPT révolutionne l'implémentation des contrôles de qualité des données en permettant aux utilisateurs de partir sur de bonnes bases, sans expertise en codage requise. Il élève l'essence low-code de SodaCL vers une expérience entièrement sans code, tout en exploitant tous les avantages de SodaCL, un langage spécifique au domaine pour les tests de qualité des données qui est là pour rester.

Lors de la conception de SodaCL, nous avions une vision claire : les organisations qui aspirent à un mesh de données efficace, ou un proche dérivé, doivent considérer les données comme un produit et donc comprendre les exigences des utilisateurs finaux/consommateurs de données. Ils doivent être capables de gérer ces exigences en code intégrant d'autres codes de produits de données tels que la transformation, la rétention et l'accès, et ils doivent soutenir les concepts de gouvernance de manière computationnelle. Pour rendre un mesh de données accessible, Soda vise à mettre à disposition des outils en libre-service dans la couche de la plateforme de données.

Avec SodaGPT, nous avons propulsé ce concept à de nouveaux sommets, rendant le libre-service au sein du data mesh non seulement possible, mais une réalité.

Une note sur la confidentialité et la sécurité

Nous comprenons que l'expression des exigences de qualité des données expose potentiellement un certain niveau d'informations sensibles. Imaginez une entreprise nommée EcoWings, qui développe en secret un drone en forme de colibri qui aide à la pollinisation. Ce drone est équipé d'une technologie AI qui détecte les plantes en fleurs et leur livre du pollen, imitant le processus de pollinisation naturelle. Un utilisateur formulant l'entrée suivante en langage naturel exposerait une quantité significative de propriété intellectuelle :

« Pouvez-vous m'aider à m'assurer que la colonne drone_sensor_2 ne dépasse jamais 2 lorsque le nectar_level est inférieur à 2 et lorsque flower_diameter est < 1cm. Cela s'applique à la table pollination_drones_measurements »

Pour protéger vos données, nous avons développé SodaGPT comme une solution entièrement maison. Soda utilise notre propre technologie propriétaire de transformateur pré-entraîné génératif basée sur le modèle Falcon-7b, un modèle de langage large open-source (LLM); il ne repose pas sur le LLM appartenant à OpenAI (la société qui a construit ChatGPT). Cela signifie que vos données, qu'elles soient incluses dans l'entrée ou la sortie, ne quittent jamais la plateforme Soda et sont entièrement couvertes par notre certification SOC2 Type 2, ainsi que nos réglages pour la localisation de vos données.

Et ensuite ?

La version préliminaire d'aujourd'hui de SodaGPT n'est que le premier pas pour aider les utilisateurs à écrire SodaCL ; elle est loin d'avoir atteint son plein potentiel en termes de précision. L'équipe Soda s'affaire à affiner et entraîner le modèle, en le poussant à soutenir plus de contrôles intégrés de SodaCL, en augmentant sa capacité de sortie de contrôle, et en étendant sa capacité à gérer des contrôles définis par l'utilisateur qui impliquent des requêtes SQL hautement spécifiques.

Attendez-vous à ce que SodaGPT s'améliore chaque semaine, et à le voir apparaître dans d'autres parties du produit Soda – et même dans votre catalogue de données ! – bientôt. Restez à l'écoute !


SodaGPT est devenu SodaAI.

Rendez-vous ici pour plus d'informations : Annonce Soda AI : Un bond vers une plateforme de qualité des données GenAI-first

Le premier AI génératif pour la qualité des données

Aujourd'hui marque le lancement de SodaGPT, le premier AI génératif pour la qualité des données qui permet une approche sans code pour exprimer les contrôles de qualité des données.

Ce nouvel outil marque le début d'une véritable gestion autonome de la qualité des données pour tous les acteurs du domaine. SodaGPT combine l'expressivité du langage de contrôles Soda (SodaCL) avec la puissance de traitement du langage naturel de l'AI génératif, pour offrir un temps d'implémentation accéléré pour les contrôles de qualité des données. Disponible en prévisualisation, connectez-vous à, ou inscrivez-vous pour, un compte Soda Cloud et cliquez sur « Demander à SodaGPT » pour l'essayer !

Soda s'est toujours engagé à faciliter la participation des développeurs et analystes à l'amélioration de la qualité des données dans une organisation. Il est souvent le cas que parmi nous, ceux qui ne codent pas sont les mieux à même de décider ce qui doit être testé pour que les données soient dignes de confiance et adaptées à leur objectif – après tout, ce sont eux qui prennent les décisions sur les données et ont acquis l'expertise de domaine appropriée pour formuler ces exigences. Pourtant, dans la plupart des solutions, ces utilisateurs sont souvent empêchés de le faire en raison des obstacles à l'apprentissage d'un nouvel outil et langage.

SodaGPT s'attaque directement à ces obstacles. Utilisant notre propre technologie propriétaire de transformateur pré-entraîné génératif basée sur le modèle open source Falcon-7b, SodaGPT traduit l'entrée en langue anglaise naturelle en contrôles de qualité des données prêts pour la production écrits en SodaCL. Cette nouvelle fonctionnalité offre une manière simple pour les consommateurs de données de s'impliquer réellement dans la gestion de la qualité des données. Cela diminue la charge sur les ingénieurs en données qui n'ont pas à traduire manuellement les exigences ou attentes pour implémenter des contrôles de qualité des données dans les pipelines de données.

SodaGPT, le MVP dans votre Data Mesh

Le data mesh consiste à appliquer les principes de l'ingénierie produit et logiciel aux données. Dans le contexte de la réflexion sur les produits de données, nous mesurons la qualité par la satisfaction client. Plus un produit a d'utilisateurs réguliers, mieux c'est. Plus le client est satisfait, moins il est probable qu'il décide d'utiliser un produit alternatif.

SodaGPT révolutionne l'implémentation des contrôles de qualité des données en permettant aux utilisateurs de partir sur de bonnes bases, sans expertise en codage requise. Il élève l'essence low-code de SodaCL vers une expérience entièrement sans code, tout en exploitant tous les avantages de SodaCL, un langage spécifique au domaine pour les tests de qualité des données qui est là pour rester.

Lors de la conception de SodaCL, nous avions une vision claire : les organisations qui aspirent à un mesh de données efficace, ou un proche dérivé, doivent considérer les données comme un produit et donc comprendre les exigences des utilisateurs finaux/consommateurs de données. Ils doivent être capables de gérer ces exigences en code intégrant d'autres codes de produits de données tels que la transformation, la rétention et l'accès, et ils doivent soutenir les concepts de gouvernance de manière computationnelle. Pour rendre un mesh de données accessible, Soda vise à mettre à disposition des outils en libre-service dans la couche de la plateforme de données.

Avec SodaGPT, nous avons propulsé ce concept à de nouveaux sommets, rendant le libre-service au sein du data mesh non seulement possible, mais une réalité.

Une note sur la confidentialité et la sécurité

Nous comprenons que l'expression des exigences de qualité des données expose potentiellement un certain niveau d'informations sensibles. Imaginez une entreprise nommée EcoWings, qui développe en secret un drone en forme de colibri qui aide à la pollinisation. Ce drone est équipé d'une technologie AI qui détecte les plantes en fleurs et leur livre du pollen, imitant le processus de pollinisation naturelle. Un utilisateur formulant l'entrée suivante en langage naturel exposerait une quantité significative de propriété intellectuelle :

« Pouvez-vous m'aider à m'assurer que la colonne drone_sensor_2 ne dépasse jamais 2 lorsque le nectar_level est inférieur à 2 et lorsque flower_diameter est < 1cm. Cela s'applique à la table pollination_drones_measurements »

Pour protéger vos données, nous avons développé SodaGPT comme une solution entièrement maison. Soda utilise notre propre technologie propriétaire de transformateur pré-entraîné génératif basée sur le modèle Falcon-7b, un modèle de langage large open-source (LLM); il ne repose pas sur le LLM appartenant à OpenAI (la société qui a construit ChatGPT). Cela signifie que vos données, qu'elles soient incluses dans l'entrée ou la sortie, ne quittent jamais la plateforme Soda et sont entièrement couvertes par notre certification SOC2 Type 2, ainsi que nos réglages pour la localisation de vos données.

Et ensuite ?

La version préliminaire d'aujourd'hui de SodaGPT n'est que le premier pas pour aider les utilisateurs à écrire SodaCL ; elle est loin d'avoir atteint son plein potentiel en termes de précision. L'équipe Soda s'affaire à affiner et entraîner le modèle, en le poussant à soutenir plus de contrôles intégrés de SodaCL, en augmentant sa capacité de sortie de contrôle, et en étendant sa capacité à gérer des contrôles définis par l'utilisateur qui impliquent des requêtes SQL hautement spécifiques.

Attendez-vous à ce que SodaGPT s'améliore chaque semaine, et à le voir apparaître dans d'autres parties du produit Soda – et même dans votre catalogue de données ! – bientôt. Restez à l'écoute !


SodaGPT est devenu SodaAI.

Rendez-vous ici pour plus d'informations : Annonce Soda AI : Un bond vers une plateforme de qualité des données GenAI-first

Le premier AI génératif pour la qualité des données

Aujourd'hui marque le lancement de SodaGPT, le premier AI génératif pour la qualité des données qui permet une approche sans code pour exprimer les contrôles de qualité des données.

Ce nouvel outil marque le début d'une véritable gestion autonome de la qualité des données pour tous les acteurs du domaine. SodaGPT combine l'expressivité du langage de contrôles Soda (SodaCL) avec la puissance de traitement du langage naturel de l'AI génératif, pour offrir un temps d'implémentation accéléré pour les contrôles de qualité des données. Disponible en prévisualisation, connectez-vous à, ou inscrivez-vous pour, un compte Soda Cloud et cliquez sur « Demander à SodaGPT » pour l'essayer !

Soda s'est toujours engagé à faciliter la participation des développeurs et analystes à l'amélioration de la qualité des données dans une organisation. Il est souvent le cas que parmi nous, ceux qui ne codent pas sont les mieux à même de décider ce qui doit être testé pour que les données soient dignes de confiance et adaptées à leur objectif – après tout, ce sont eux qui prennent les décisions sur les données et ont acquis l'expertise de domaine appropriée pour formuler ces exigences. Pourtant, dans la plupart des solutions, ces utilisateurs sont souvent empêchés de le faire en raison des obstacles à l'apprentissage d'un nouvel outil et langage.

SodaGPT s'attaque directement à ces obstacles. Utilisant notre propre technologie propriétaire de transformateur pré-entraîné génératif basée sur le modèle open source Falcon-7b, SodaGPT traduit l'entrée en langue anglaise naturelle en contrôles de qualité des données prêts pour la production écrits en SodaCL. Cette nouvelle fonctionnalité offre une manière simple pour les consommateurs de données de s'impliquer réellement dans la gestion de la qualité des données. Cela diminue la charge sur les ingénieurs en données qui n'ont pas à traduire manuellement les exigences ou attentes pour implémenter des contrôles de qualité des données dans les pipelines de données.

SodaGPT, le MVP dans votre Data Mesh

Le data mesh consiste à appliquer les principes de l'ingénierie produit et logiciel aux données. Dans le contexte de la réflexion sur les produits de données, nous mesurons la qualité par la satisfaction client. Plus un produit a d'utilisateurs réguliers, mieux c'est. Plus le client est satisfait, moins il est probable qu'il décide d'utiliser un produit alternatif.

SodaGPT révolutionne l'implémentation des contrôles de qualité des données en permettant aux utilisateurs de partir sur de bonnes bases, sans expertise en codage requise. Il élève l'essence low-code de SodaCL vers une expérience entièrement sans code, tout en exploitant tous les avantages de SodaCL, un langage spécifique au domaine pour les tests de qualité des données qui est là pour rester.

Lors de la conception de SodaCL, nous avions une vision claire : les organisations qui aspirent à un mesh de données efficace, ou un proche dérivé, doivent considérer les données comme un produit et donc comprendre les exigences des utilisateurs finaux/consommateurs de données. Ils doivent être capables de gérer ces exigences en code intégrant d'autres codes de produits de données tels que la transformation, la rétention et l'accès, et ils doivent soutenir les concepts de gouvernance de manière computationnelle. Pour rendre un mesh de données accessible, Soda vise à mettre à disposition des outils en libre-service dans la couche de la plateforme de données.

Avec SodaGPT, nous avons propulsé ce concept à de nouveaux sommets, rendant le libre-service au sein du data mesh non seulement possible, mais une réalité.

Une note sur la confidentialité et la sécurité

Nous comprenons que l'expression des exigences de qualité des données expose potentiellement un certain niveau d'informations sensibles. Imaginez une entreprise nommée EcoWings, qui développe en secret un drone en forme de colibri qui aide à la pollinisation. Ce drone est équipé d'une technologie AI qui détecte les plantes en fleurs et leur livre du pollen, imitant le processus de pollinisation naturelle. Un utilisateur formulant l'entrée suivante en langage naturel exposerait une quantité significative de propriété intellectuelle :

« Pouvez-vous m'aider à m'assurer que la colonne drone_sensor_2 ne dépasse jamais 2 lorsque le nectar_level est inférieur à 2 et lorsque flower_diameter est < 1cm. Cela s'applique à la table pollination_drones_measurements »

Pour protéger vos données, nous avons développé SodaGPT comme une solution entièrement maison. Soda utilise notre propre technologie propriétaire de transformateur pré-entraîné génératif basée sur le modèle Falcon-7b, un modèle de langage large open-source (LLM); il ne repose pas sur le LLM appartenant à OpenAI (la société qui a construit ChatGPT). Cela signifie que vos données, qu'elles soient incluses dans l'entrée ou la sortie, ne quittent jamais la plateforme Soda et sont entièrement couvertes par notre certification SOC2 Type 2, ainsi que nos réglages pour la localisation de vos données.

Et ensuite ?

La version préliminaire d'aujourd'hui de SodaGPT n'est que le premier pas pour aider les utilisateurs à écrire SodaCL ; elle est loin d'avoir atteint son plein potentiel en termes de précision. L'équipe Soda s'affaire à affiner et entraîner le modèle, en le poussant à soutenir plus de contrôles intégrés de SodaCL, en augmentant sa capacité de sortie de contrôle, et en étendant sa capacité à gérer des contrôles définis par l'utilisateur qui impliquent des requêtes SQL hautement spécifiques.

Attendez-vous à ce que SodaGPT s'améliore chaque semaine, et à le voir apparaître dans d'autres parties du produit Soda – et même dans votre catalogue de données ! – bientôt. Restez à l'écoute !


Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par

Trusted by the world’s leading enterprises

Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.

At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava

Director of Data Governance, Quality and MLOps

Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake

Director of Product-Data Platform

Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta

Data Engineering Manager

Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie

Head of Data Engineering

4,4 sur 5

Commencez à faire confiance à vos données. Aujourd'hui.

Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.

Adopté par