Publié
26 juin 2023
Présentation de SodaGPT

SodaGPT est devenu SodaAI.
Rendez-vous ici pour plus d'informations : Annonce Soda AI : Un bond vers une plateforme de qualité des données GenAI-first
Le premier AI génératif pour la qualité des données
Aujourd'hui marque le lancement de SodaGPT, le premier AI génératif pour la qualité des données qui permet une approche sans code pour exprimer les contrôles de qualité des données.
Ce nouvel outil marque le début d'une véritable gestion autonome de la qualité des données pour tous les acteurs du domaine. SodaGPT combine l'expressivité du langage de contrôles Soda (SodaCL) avec la puissance de traitement du langage naturel de l'AI génératif, pour offrir un temps d'implémentation accéléré pour les contrôles de qualité des données. Disponible en prévisualisation, connectez-vous à, ou inscrivez-vous pour, un compte Soda Cloud et cliquez sur « Demander à SodaGPT » pour l'essayer !

Soda s'est toujours engagé à faciliter la participation des développeurs et analystes à l'amélioration de la qualité des données dans une organisation. Il est souvent le cas que parmi nous, ceux qui ne codent pas sont les mieux à même de décider ce qui doit être testé pour que les données soient dignes de confiance et adaptées à leur objectif – après tout, ce sont eux qui prennent les décisions sur les données et ont acquis l'expertise de domaine appropriée pour formuler ces exigences. Pourtant, dans la plupart des solutions, ces utilisateurs sont souvent empêchés de le faire en raison des obstacles à l'apprentissage d'un nouvel outil et langage.
SodaGPT s'attaque directement à ces obstacles. Utilisant notre propre technologie propriétaire de transformateur pré-entraîné génératif basée sur le modèle open source Falcon-7b, SodaGPT traduit l'entrée en langue anglaise naturelle en contrôles de qualité des données prêts pour la production écrits en SodaCL. Cette nouvelle fonctionnalité offre une manière simple pour les consommateurs de données de s'impliquer réellement dans la gestion de la qualité des données. Cela diminue la charge sur les ingénieurs en données qui n'ont pas à traduire manuellement les exigences ou attentes pour implémenter des contrôles de qualité des données dans les pipelines de données.
SodaGPT, le MVP dans votre Data Mesh
Le data mesh consiste à appliquer les principes de l'ingénierie produit et logiciel aux données. Dans le contexte de la réflexion sur les produits de données, nous mesurons la qualité par la satisfaction client. Plus un produit a d'utilisateurs réguliers, mieux c'est. Plus le client est satisfait, moins il est probable qu'il décide d'utiliser un produit alternatif.
SodaGPT révolutionne l'implémentation des contrôles de qualité des données en permettant aux utilisateurs de partir sur de bonnes bases, sans expertise en codage requise. Il élève l'essence low-code de SodaCL vers une expérience entièrement sans code, tout en exploitant tous les avantages de SodaCL, un langage spécifique au domaine pour les tests de qualité des données qui est là pour rester.
Lors de la conception de SodaCL, nous avions une vision claire : les organisations qui aspirent à un mesh de données efficace, ou un proche dérivé, doivent considérer les données comme un produit et donc comprendre les exigences des utilisateurs finaux/consommateurs de données. Ils doivent être capables de gérer ces exigences en code intégrant d'autres codes de produits de données tels que la transformation, la rétention et l'accès, et ils doivent soutenir les concepts de gouvernance de manière computationnelle. Pour rendre un mesh de données accessible, Soda vise à mettre à disposition des outils en libre-service dans la couche de la plateforme de données.
Avec SodaGPT, nous avons propulsé ce concept à de nouveaux sommets, rendant le libre-service au sein du data mesh non seulement possible, mais une réalité.
Une note sur la confidentialité et la sécurité
Nous comprenons que l'expression des exigences de qualité des données expose potentiellement un certain niveau d'informations sensibles. Imaginez une entreprise nommée EcoWings, qui développe en secret un drone en forme de colibri qui aide à la pollinisation. Ce drone est équipé d'une technologie AI qui détecte les plantes en fleurs et leur livre du pollen, imitant le processus de pollinisation naturelle. Un utilisateur formulant l'entrée suivante en langage naturel exposerait une quantité significative de propriété intellectuelle :
« Pouvez-vous m'aider à m'assurer que la colonne drone_sensor_2 ne dépasse jamais 2 lorsque le nectar_level est inférieur à 2 et lorsque flower_diameter est < 1cm. Cela s'applique à la table pollination_drones_measurements »
Pour protéger vos données, nous avons développé SodaGPT comme une solution entièrement maison. Soda utilise notre propre technologie propriétaire de transformateur pré-entraîné génératif basée sur le modèle Falcon-7b, un modèle de langage large open-source (LLM); il ne repose pas sur le LLM appartenant à OpenAI (la société qui a construit ChatGPT). Cela signifie que vos données, qu'elles soient incluses dans l'entrée ou la sortie, ne quittent jamais la plateforme Soda et sont entièrement couvertes par notre certification SOC2 Type 2, ainsi que nos réglages pour la localisation de vos données.
Et ensuite ?
La version préliminaire d'aujourd'hui de SodaGPT n'est que le premier pas pour aider les utilisateurs à écrire SodaCL ; elle est loin d'avoir atteint son plein potentiel en termes de précision. L'équipe Soda s'affaire à affiner et entraîner le modèle, en le poussant à soutenir plus de contrôles intégrés de SodaCL, en augmentant sa capacité de sortie de contrôle, et en étendant sa capacité à gérer des contrôles définis par l'utilisateur qui impliquent des requêtes SQL hautement spécifiques.
Attendez-vous à ce que SodaGPT s'améliore chaque semaine, et à le voir apparaître dans d'autres parties du produit Soda – et même dans votre catalogue de données ! – bientôt. Restez à l'écoute !








