Observabilité des Données pour la Télémétrie de Jeux à l'Échelle Pétaoctet
Observabilité des Données pour la Télémétrie de Jeux à l'Échelle Pétaoctet
7 nov. 2025

Fabiana Ferraz
Fabiana Ferraz
Fabiana Ferraz
Rédacteur technique chez Soda
Rédacteur technique chez Soda
Rédacteur technique chez Soda

Santiago Viquez
Santiago Viquez
Santiago Viquez
DevRel chez Soda
DevRel chez Soda
DevRel chez Soda
Table des matières






En fin de compte, nous ne voulons pas être là à gérer, mettre à jour ou ajouter des vérifications. Nous voulons simplement observer ce qui se passe, et c'est précisément ce que Soda permet actuellement.
En fin de compte, nous ne voulons pas être là à gérer, mettre à jour ou ajouter des vérifications. Nous voulons simplement observer ce qui se passe, et c'est précisément ce que Soda permet actuellement.
En fin de compte, nous ne voulons pas être là à gérer, mettre à jour ou ajouter des vérifications. Nous voulons simplement observer ce qui se passe, et c'est précisément ce que Soda permet actuellement.



Sid Srivastava
Sid Srivastava
Directeur de la Gouvernance des Données, de la Qualité et des Opérations MLOps
Directeur de la Gouvernance des Données, de la Qualité et des Opérations MLOps
Directeur de la Gouvernance des Données, de la Qualité et des Opérations MLOps
à
2K Games
2K Games
2K Games
2K Games est un éditeur de jeux vidéo américain et l'un des principaux éditeurs mondiaux de divertissement interactif. La société possède un portefeuille diversifié de jeux créés pour PC, consoles et plateformes mobiles, incluant des franchises à succès comme NBA 2K, Borderlands, et bien d'autres encore.
Lorsque ces jeux sont lancés, ils génèrent d’énormes volumes de données de télémétrie — des informations à distance collectées sur les mouvements des joueurs, les actions en jeu, les comportements d'achat et les interactions avec les éléments du jeu ou d'autres joueurs. Chaque clic, mouvement et achat dans un titre génère des données qui alimentent les décisions en matière de marketing, LiveOps et développement de jeux. Ces données aident à identifier et résoudre des problèmes, optimiser les mécaniques de jeu, et améliorer l'expérience du joueur.
Avec des téraoctets à pétaoctets de nouvelles données qui affluent toutes les quelques minutes, la visibilité et la précision deviennent cruciales. L'équipe d'ingénierie des données de 2K s'est alors tournée vers Soda Cloud pour obtenir une observabilité continue dans ces pipelines à haut volume. Sid Srivastava, Directeur de la Gouvernance des Données, de la Qualité des Données et du MLOps chez 2K, était le leader stratégique à la tête de cette transformation.
Actuellement, avec la surveillance des métriques et la détection des anomalies de Soda, 2K dispose d'un tableau de bord unique qui suit automatiquement la qualité des données pour chaque titre. Les ingénieurs peuvent comparer les tendances de qualité entre les versions de jeu, reporter des seuils des précédentes sorties et s'assurer que chaque nouveau jeu de données respecte les standards de performance attendus.
Le défi : volume, vitesse et le fossé de visibilité
La télémétrie des jeux est essentielle pour le développement de jeux dans le paysage actuel des jeux vidéo. Elle fournit aux parties prenantes des informations sur l'interaction des joueurs, la performance du jeu et l'engagement des utilisateurs :
Les données d'engagement suivent la durée des sessions, les taux de complétion des niveaux et la progression des joueurs dans le jeu.
Les analyses en jeu fournissent des cartes thermiques montrant où les joueurs meurent le plus fréquemment, indiquant des zones qui pourraient nécessiter des correctifs ou des ajustements de difficulté.
Les studios reçoivent des cartes détaillées montrant les schémas d'activité des joueurs, leur permettant de répondre rapidement aux problèmes.
Les données de pipeline marketing ajoutent une autre couche, en suivant la performance des campagnes, l'efficacité des offres et les coûts d'acquisition des joueurs.
Pour les cas d'utilisation marketing, 2K traite des téraoctets de données chaque jour. Pour les scénarios LiveOps, où les jeux sont en ligne et surveillés et corrigés en continu, les volumes de données atteignent l'échelle pétaoctet lors des périodes de pointe. Les taux de rafraîchissement sont également exigeants, avec des données quasi temps-réel arrivant à des intervalles de cinq à quinze minutes. Cette collecte de données à haute vitesse est particulièrement intense pendant les soixante premiers jours suivant le lancement d'un jeu, lorsque l'engagement des joueurs est le plus élevé et que les décisions marketing sont les plus critiques.
Ajouter à la complexité, les différents jeux de 2K fonctionnent sur différentes plateformes et ont leur propre pile technologique. Certains fonctionnent sur Databricks, tandis que d'autres utilisent Snowflake. Le streaming en temps réel est réalisé via Kafka et Confluent, avec des transformations à la volée utilisant Spark. De nombreux consommateurs en aval dépendent de ces données, allant des tableaux de bord Tableau aux systèmes marketing en passant par les outils d'analyse des studios, chacun ayant ses propres exigences et attentes en matière de qualité et de rapidité des données.
Par conséquent, le défi de 2K était de développer l'observabilité sur ces énormes quantités de données de télémétrie afin qu'elles puissent être utilisées en toute sécurité pour alimenter des fonctions commerciales critiques.
Avant la mise en place de Soda, l'équipe de données de 2K s'appuyait sur un outil de détection d'anomalies conçu en interne. Cependant, cet outil générait un grand nombre de faux positifs, créant une fatigue des alertes sévère et érodant la confiance dans la surveillance. De plus, les échecs en cascade et les incohérences pouvaient impacter les décisions marketing et opérationnelles en aval.
Il n'y avait pas non plus de cadre unifié de qualité des données, et les tests étaient incohérents dans toute l'organisation. Les ingénieurs individuels créaient des tests ad hoc basés sur leur propre jugement, voire dans certains cas, sautaient les tests entièrement. Il n'y avait pas de visibilité sur les contrôles existants à travers les projets. Et, peut-être plus critique, les équipes marketing découvraient souvent les problèmes de données en premier.
Pour combler ce fossé de visibilité et détecter les problèmes avant que les données n'atteignent leurs consommateurs, 2K avait besoin d'une solution capable de :
Surveiller de façon continue des pipelines à haut volume sur Databricks et Snowflake.
Détecter et révéler les anomalies avant qu'elles n'atteignent les équipes en aval.
Uniformiser les contrôles de qualité des données à travers des centaines d'ensembles de données et de titres de jeu.
Évoluer pour traiter les nouvelles sorties de jeux sans ajouter de surcharge manuelle.
La solution : observabilité à la vitesse du jeu
Plutôt que de construire des frameworks de test complexes nécessitant un entretien constant, 2K voulait une couche d'observabilité qui :
détecte automatiquement les anomalies avec une reconnaissance de motifs alimentée par l'IA,
fournisse une source de vérité unique pour l'état de qualité des données,
alerte de manière proactive les ingénieurs avant l'impact commercial, et
s'étende sans effort à mesure que de nouveaux jeux et ensembles de données sont ajoutés.
Cette approche représentait un changement fondamental du modèle manuel, réactif qu'ils utilisaient, vers un modèle automatisé, proactif pouvant suivre le rythme de la vélocité et du volume de leurs données de jeu.
Pour résoudre ces défis, 2K Games a mis en place Soda Cloud à la mi-2025. Soda s'est avéré à la fois puissant et simple à implémenter. L'outil de surveillance des métriques pouvait gérer les volumes massifs de données de 2K avec un minimum de surcharge, les traiter efficacement, gérer les cycles de rafraîchissement, apprendre des schémas historiques pour réduire les faux positifs, et fournir une détection d'anomalies alimentée par l'IA qui s'adapte aux modèles de données uniques de chaque jeu.
2K utilisait précédemment Soda Core. La migration vers Soda Cloud a pris environ 60 jours (de la preuve de concept au déploiement complet). La transition a été fluide car les équipes connaissaient déjà la syntaxe open-source de Soda. L'amélioration était motivée par le besoin de fonctionnalités avancées comme la détection d'anomalies, la surveillance des métriques et la visibilité exécutive via tableaux de bord et alertes.
En surveillant les données en quasi temps-réel, Soda aide désormais l'équipe de données à détecter et corriger les anomalies bien avant qu'elles n'affectent les équipes en aval. La surveillance actuelle comprend : des contrôles de présence pour confirmer que les données arrivent comme prévu, des contrôles de nullité pour s'assurer que les champs critiques sont remplis, des contrôles de fraîcheur pour confirmer les rafraîchissements de 5-15 minutes, et la détection des anomalies de volume pour signaler des changements inattendus dans le nombre de lignes.
Détection d'anomalies au niveau des enregistrements
La détection d'anomalies au niveau des enregistrements de Soda AI (RAD) propriétaire fournit une couverture instantanée et large de chaque colonne, ligne et segment — sans avoir besoin de créer un seul contrôle. Après l'intégration des ensembles de données, le remplissage et les tests rétroactifs intégrés analysent les données historiques en temps réel pour révéler des motifs et tendances.
La détection d'anomalies au niveau des enregistrements de Soda analyse 1 milliard de lignes en 64 secondes, apprenant des retours pour améliorer la précision et réduire les faux positifs au fil du temps.
L'algorithme développe ensuite une compréhension approfondie de ce à quoi ressemble la « normale », étant capable de signaler des enregistrements inhabituels avec une grande précision, et d'alerter automatiquement la bonne personne. De plus, lorsque les utilisateurs marquent les résultats comme attendus ou inattendus, chaque retour contribue à affiner ses prédictions et à s'adapter au fil du temps.

Chez 2K, lorsque Soda détecte un problème, des alertes sont générées et classées P0 ou P1 selon leur impact. Les problèmes sont consignés dans le backlog d'ingénierie avec des SLA définis. L'ingénierie traite les causes racines et ajoute de nouveaux contrôles si nécessaire pour éviter leur récurrence.
Les contrôles automatisés entraînent de grandes économies de temps, en détectant des problèmes tels que des données ne se chargeant pas correctement ou présentant une redondance, ce qui aide à prévenir beaucoup de remplissage supplémentaire.
L'impact : de la gestion de la qualité des données à l'observabilité complète des données
La transformation chez 2K était à la fois opérationnelle et culturelle. Avant Soda, les équipes marketing découvraient les problèmes en premier, l'ingénierie réagissait de façon réactive, de nombreux points de défaillance s'accumulaient, et la fatigue des alertes signifiait que de vrais problèmes pouvaient être écartés. Après Soda, l'ingénierie a une observabilité complète, le marketing ne reçoit que des données vérifiées, les problèmes sont détectés avant leur propagation, et la surveillance intelligente réduit les faux positifs.
2K Games a trouvé l'équilibre : une livraison de données quasiment en temps réel avec une haute confiance en leur précision. Le tableau de bord de Soda Cloud est devenu une source de vérité, offrant un statut de qualité en temps réel pour tous les jeux, un routage des alertes intégré aux workflows d'ingénierie, et une visibilité au niveau exécutif sur les tendances de qualité.
« Je pense que beaucoup des points positifs que nous avons vus se sont principalement traduits par l'absence d'impacts en aval, essentiellement. Et cela a été une grande victoire pour nous, en termes de prévention de multiples couches de défaillances et de tentative de capturer ces problèmes en amont. » – Sid Srivastava, Directeur de la Gouvernance des Données, Qualité et MLOps chez 2K
À l'horizon : maturité de la gouvernance et MLOps
L'équipe de gouvernance de 2K était en cours de formalisation pendant la mise en œuvre de Soda, et l'outil est devenu un catalyseur pour structurer leur approche. Fort de ce succès, 2K étend désormais les capacités d'observabilité de Soda aux pipelines ML et aux rapports automatisés.
À l'avenir, les plans de 2K incluent :
Observabilité du ML : La société construit une équipe MLOps et voit un alignement avec la feuille de route de Soda. Avec l'acquisition de NannyML, Soda s'étend à l'observabilité ML.
Automatisation des Rapports : L'équipe construit des tableaux de bord personnalisés basés sur Databricks en utilisant l'API de Soda pour fournir des vues spécifiques aux jeux, des rapports exécutifs, et des vues segmentées où chaque équipe voit seulement ses contrôles pertinents.
Contrats de Données : Les contrats de données sont un objectif clé. Ils prévoient de tirer parti de ce concept plus en profondeur à mesure que leur cadre de gouvernance mûrit.
Contactez-nous
Planifiez une démo avec l'équipe de Soda pour découvrir à quel point vous pourriez optimiser votre stratégie de qualité des données dans l'ensemble de votre écosystème de données.
2K Games est un éditeur de jeux vidéo américain et l'un des principaux éditeurs mondiaux de divertissement interactif. La société possède un portefeuille diversifié de jeux créés pour PC, consoles et plateformes mobiles, incluant des franchises à succès comme NBA 2K, Borderlands, et bien d'autres encore.
Lorsque ces jeux sont lancés, ils génèrent d’énormes volumes de données de télémétrie — des informations à distance collectées sur les mouvements des joueurs, les actions en jeu, les comportements d'achat et les interactions avec les éléments du jeu ou d'autres joueurs. Chaque clic, mouvement et achat dans un titre génère des données qui alimentent les décisions en matière de marketing, LiveOps et développement de jeux. Ces données aident à identifier et résoudre des problèmes, optimiser les mécaniques de jeu, et améliorer l'expérience du joueur.
Avec des téraoctets à pétaoctets de nouvelles données qui affluent toutes les quelques minutes, la visibilité et la précision deviennent cruciales. L'équipe d'ingénierie des données de 2K s'est alors tournée vers Soda Cloud pour obtenir une observabilité continue dans ces pipelines à haut volume. Sid Srivastava, Directeur de la Gouvernance des Données, de la Qualité des Données et du MLOps chez 2K, était le leader stratégique à la tête de cette transformation.
Actuellement, avec la surveillance des métriques et la détection des anomalies de Soda, 2K dispose d'un tableau de bord unique qui suit automatiquement la qualité des données pour chaque titre. Les ingénieurs peuvent comparer les tendances de qualité entre les versions de jeu, reporter des seuils des précédentes sorties et s'assurer que chaque nouveau jeu de données respecte les standards de performance attendus.
Le défi : volume, vitesse et le fossé de visibilité
La télémétrie des jeux est essentielle pour le développement de jeux dans le paysage actuel des jeux vidéo. Elle fournit aux parties prenantes des informations sur l'interaction des joueurs, la performance du jeu et l'engagement des utilisateurs :
Les données d'engagement suivent la durée des sessions, les taux de complétion des niveaux et la progression des joueurs dans le jeu.
Les analyses en jeu fournissent des cartes thermiques montrant où les joueurs meurent le plus fréquemment, indiquant des zones qui pourraient nécessiter des correctifs ou des ajustements de difficulté.
Les studios reçoivent des cartes détaillées montrant les schémas d'activité des joueurs, leur permettant de répondre rapidement aux problèmes.
Les données de pipeline marketing ajoutent une autre couche, en suivant la performance des campagnes, l'efficacité des offres et les coûts d'acquisition des joueurs.
Pour les cas d'utilisation marketing, 2K traite des téraoctets de données chaque jour. Pour les scénarios LiveOps, où les jeux sont en ligne et surveillés et corrigés en continu, les volumes de données atteignent l'échelle pétaoctet lors des périodes de pointe. Les taux de rafraîchissement sont également exigeants, avec des données quasi temps-réel arrivant à des intervalles de cinq à quinze minutes. Cette collecte de données à haute vitesse est particulièrement intense pendant les soixante premiers jours suivant le lancement d'un jeu, lorsque l'engagement des joueurs est le plus élevé et que les décisions marketing sont les plus critiques.
Ajouter à la complexité, les différents jeux de 2K fonctionnent sur différentes plateformes et ont leur propre pile technologique. Certains fonctionnent sur Databricks, tandis que d'autres utilisent Snowflake. Le streaming en temps réel est réalisé via Kafka et Confluent, avec des transformations à la volée utilisant Spark. De nombreux consommateurs en aval dépendent de ces données, allant des tableaux de bord Tableau aux systèmes marketing en passant par les outils d'analyse des studios, chacun ayant ses propres exigences et attentes en matière de qualité et de rapidité des données.
Par conséquent, le défi de 2K était de développer l'observabilité sur ces énormes quantités de données de télémétrie afin qu'elles puissent être utilisées en toute sécurité pour alimenter des fonctions commerciales critiques.
Avant la mise en place de Soda, l'équipe de données de 2K s'appuyait sur un outil de détection d'anomalies conçu en interne. Cependant, cet outil générait un grand nombre de faux positifs, créant une fatigue des alertes sévère et érodant la confiance dans la surveillance. De plus, les échecs en cascade et les incohérences pouvaient impacter les décisions marketing et opérationnelles en aval.
Il n'y avait pas non plus de cadre unifié de qualité des données, et les tests étaient incohérents dans toute l'organisation. Les ingénieurs individuels créaient des tests ad hoc basés sur leur propre jugement, voire dans certains cas, sautaient les tests entièrement. Il n'y avait pas de visibilité sur les contrôles existants à travers les projets. Et, peut-être plus critique, les équipes marketing découvraient souvent les problèmes de données en premier.
Pour combler ce fossé de visibilité et détecter les problèmes avant que les données n'atteignent leurs consommateurs, 2K avait besoin d'une solution capable de :
Surveiller de façon continue des pipelines à haut volume sur Databricks et Snowflake.
Détecter et révéler les anomalies avant qu'elles n'atteignent les équipes en aval.
Uniformiser les contrôles de qualité des données à travers des centaines d'ensembles de données et de titres de jeu.
Évoluer pour traiter les nouvelles sorties de jeux sans ajouter de surcharge manuelle.
La solution : observabilité à la vitesse du jeu
Plutôt que de construire des frameworks de test complexes nécessitant un entretien constant, 2K voulait une couche d'observabilité qui :
détecte automatiquement les anomalies avec une reconnaissance de motifs alimentée par l'IA,
fournisse une source de vérité unique pour l'état de qualité des données,
alerte de manière proactive les ingénieurs avant l'impact commercial, et
s'étende sans effort à mesure que de nouveaux jeux et ensembles de données sont ajoutés.
Cette approche représentait un changement fondamental du modèle manuel, réactif qu'ils utilisaient, vers un modèle automatisé, proactif pouvant suivre le rythme de la vélocité et du volume de leurs données de jeu.
Pour résoudre ces défis, 2K Games a mis en place Soda Cloud à la mi-2025. Soda s'est avéré à la fois puissant et simple à implémenter. L'outil de surveillance des métriques pouvait gérer les volumes massifs de données de 2K avec un minimum de surcharge, les traiter efficacement, gérer les cycles de rafraîchissement, apprendre des schémas historiques pour réduire les faux positifs, et fournir une détection d'anomalies alimentée par l'IA qui s'adapte aux modèles de données uniques de chaque jeu.
2K utilisait précédemment Soda Core. La migration vers Soda Cloud a pris environ 60 jours (de la preuve de concept au déploiement complet). La transition a été fluide car les équipes connaissaient déjà la syntaxe open-source de Soda. L'amélioration était motivée par le besoin de fonctionnalités avancées comme la détection d'anomalies, la surveillance des métriques et la visibilité exécutive via tableaux de bord et alertes.
En surveillant les données en quasi temps-réel, Soda aide désormais l'équipe de données à détecter et corriger les anomalies bien avant qu'elles n'affectent les équipes en aval. La surveillance actuelle comprend : des contrôles de présence pour confirmer que les données arrivent comme prévu, des contrôles de nullité pour s'assurer que les champs critiques sont remplis, des contrôles de fraîcheur pour confirmer les rafraîchissements de 5-15 minutes, et la détection des anomalies de volume pour signaler des changements inattendus dans le nombre de lignes.
Détection d'anomalies au niveau des enregistrements
La détection d'anomalies au niveau des enregistrements de Soda AI (RAD) propriétaire fournit une couverture instantanée et large de chaque colonne, ligne et segment — sans avoir besoin de créer un seul contrôle. Après l'intégration des ensembles de données, le remplissage et les tests rétroactifs intégrés analysent les données historiques en temps réel pour révéler des motifs et tendances.
La détection d'anomalies au niveau des enregistrements de Soda analyse 1 milliard de lignes en 64 secondes, apprenant des retours pour améliorer la précision et réduire les faux positifs au fil du temps.
L'algorithme développe ensuite une compréhension approfondie de ce à quoi ressemble la « normale », étant capable de signaler des enregistrements inhabituels avec une grande précision, et d'alerter automatiquement la bonne personne. De plus, lorsque les utilisateurs marquent les résultats comme attendus ou inattendus, chaque retour contribue à affiner ses prédictions et à s'adapter au fil du temps.

Chez 2K, lorsque Soda détecte un problème, des alertes sont générées et classées P0 ou P1 selon leur impact. Les problèmes sont consignés dans le backlog d'ingénierie avec des SLA définis. L'ingénierie traite les causes racines et ajoute de nouveaux contrôles si nécessaire pour éviter leur récurrence.
Les contrôles automatisés entraînent de grandes économies de temps, en détectant des problèmes tels que des données ne se chargeant pas correctement ou présentant une redondance, ce qui aide à prévenir beaucoup de remplissage supplémentaire.
L'impact : de la gestion de la qualité des données à l'observabilité complète des données
La transformation chez 2K était à la fois opérationnelle et culturelle. Avant Soda, les équipes marketing découvraient les problèmes en premier, l'ingénierie réagissait de façon réactive, de nombreux points de défaillance s'accumulaient, et la fatigue des alertes signifiait que de vrais problèmes pouvaient être écartés. Après Soda, l'ingénierie a une observabilité complète, le marketing ne reçoit que des données vérifiées, les problèmes sont détectés avant leur propagation, et la surveillance intelligente réduit les faux positifs.
2K Games a trouvé l'équilibre : une livraison de données quasiment en temps réel avec une haute confiance en leur précision. Le tableau de bord de Soda Cloud est devenu une source de vérité, offrant un statut de qualité en temps réel pour tous les jeux, un routage des alertes intégré aux workflows d'ingénierie, et une visibilité au niveau exécutif sur les tendances de qualité.
« Je pense que beaucoup des points positifs que nous avons vus se sont principalement traduits par l'absence d'impacts en aval, essentiellement. Et cela a été une grande victoire pour nous, en termes de prévention de multiples couches de défaillances et de tentative de capturer ces problèmes en amont. » – Sid Srivastava, Directeur de la Gouvernance des Données, Qualité et MLOps chez 2K
À l'horizon : maturité de la gouvernance et MLOps
L'équipe de gouvernance de 2K était en cours de formalisation pendant la mise en œuvre de Soda, et l'outil est devenu un catalyseur pour structurer leur approche. Fort de ce succès, 2K étend désormais les capacités d'observabilité de Soda aux pipelines ML et aux rapports automatisés.
À l'avenir, les plans de 2K incluent :
Observabilité du ML : La société construit une équipe MLOps et voit un alignement avec la feuille de route de Soda. Avec l'acquisition de NannyML, Soda s'étend à l'observabilité ML.
Automatisation des Rapports : L'équipe construit des tableaux de bord personnalisés basés sur Databricks en utilisant l'API de Soda pour fournir des vues spécifiques aux jeux, des rapports exécutifs, et des vues segmentées où chaque équipe voit seulement ses contrôles pertinents.
Contrats de Données : Les contrats de données sont un objectif clé. Ils prévoient de tirer parti de ce concept plus en profondeur à mesure que leur cadre de gouvernance mûrit.
Contactez-nous
Planifiez une démo avec l'équipe de Soda pour découvrir à quel point vous pourriez optimiser votre stratégie de qualité des données dans l'ensemble de votre écosystème de données.
2K Games est un éditeur de jeux vidéo américain et l'un des principaux éditeurs mondiaux de divertissement interactif. La société possède un portefeuille diversifié de jeux créés pour PC, consoles et plateformes mobiles, incluant des franchises à succès comme NBA 2K, Borderlands, et bien d'autres encore.
Lorsque ces jeux sont lancés, ils génèrent d’énormes volumes de données de télémétrie — des informations à distance collectées sur les mouvements des joueurs, les actions en jeu, les comportements d'achat et les interactions avec les éléments du jeu ou d'autres joueurs. Chaque clic, mouvement et achat dans un titre génère des données qui alimentent les décisions en matière de marketing, LiveOps et développement de jeux. Ces données aident à identifier et résoudre des problèmes, optimiser les mécaniques de jeu, et améliorer l'expérience du joueur.
Avec des téraoctets à pétaoctets de nouvelles données qui affluent toutes les quelques minutes, la visibilité et la précision deviennent cruciales. L'équipe d'ingénierie des données de 2K s'est alors tournée vers Soda Cloud pour obtenir une observabilité continue dans ces pipelines à haut volume. Sid Srivastava, Directeur de la Gouvernance des Données, de la Qualité des Données et du MLOps chez 2K, était le leader stratégique à la tête de cette transformation.
Actuellement, avec la surveillance des métriques et la détection des anomalies de Soda, 2K dispose d'un tableau de bord unique qui suit automatiquement la qualité des données pour chaque titre. Les ingénieurs peuvent comparer les tendances de qualité entre les versions de jeu, reporter des seuils des précédentes sorties et s'assurer que chaque nouveau jeu de données respecte les standards de performance attendus.
Le défi : volume, vitesse et le fossé de visibilité
La télémétrie des jeux est essentielle pour le développement de jeux dans le paysage actuel des jeux vidéo. Elle fournit aux parties prenantes des informations sur l'interaction des joueurs, la performance du jeu et l'engagement des utilisateurs :
Les données d'engagement suivent la durée des sessions, les taux de complétion des niveaux et la progression des joueurs dans le jeu.
Les analyses en jeu fournissent des cartes thermiques montrant où les joueurs meurent le plus fréquemment, indiquant des zones qui pourraient nécessiter des correctifs ou des ajustements de difficulté.
Les studios reçoivent des cartes détaillées montrant les schémas d'activité des joueurs, leur permettant de répondre rapidement aux problèmes.
Les données de pipeline marketing ajoutent une autre couche, en suivant la performance des campagnes, l'efficacité des offres et les coûts d'acquisition des joueurs.
Pour les cas d'utilisation marketing, 2K traite des téraoctets de données chaque jour. Pour les scénarios LiveOps, où les jeux sont en ligne et surveillés et corrigés en continu, les volumes de données atteignent l'échelle pétaoctet lors des périodes de pointe. Les taux de rafraîchissement sont également exigeants, avec des données quasi temps-réel arrivant à des intervalles de cinq à quinze minutes. Cette collecte de données à haute vitesse est particulièrement intense pendant les soixante premiers jours suivant le lancement d'un jeu, lorsque l'engagement des joueurs est le plus élevé et que les décisions marketing sont les plus critiques.
Ajouter à la complexité, les différents jeux de 2K fonctionnent sur différentes plateformes et ont leur propre pile technologique. Certains fonctionnent sur Databricks, tandis que d'autres utilisent Snowflake. Le streaming en temps réel est réalisé via Kafka et Confluent, avec des transformations à la volée utilisant Spark. De nombreux consommateurs en aval dépendent de ces données, allant des tableaux de bord Tableau aux systèmes marketing en passant par les outils d'analyse des studios, chacun ayant ses propres exigences et attentes en matière de qualité et de rapidité des données.
Par conséquent, le défi de 2K était de développer l'observabilité sur ces énormes quantités de données de télémétrie afin qu'elles puissent être utilisées en toute sécurité pour alimenter des fonctions commerciales critiques.
Avant la mise en place de Soda, l'équipe de données de 2K s'appuyait sur un outil de détection d'anomalies conçu en interne. Cependant, cet outil générait un grand nombre de faux positifs, créant une fatigue des alertes sévère et érodant la confiance dans la surveillance. De plus, les échecs en cascade et les incohérences pouvaient impacter les décisions marketing et opérationnelles en aval.
Il n'y avait pas non plus de cadre unifié de qualité des données, et les tests étaient incohérents dans toute l'organisation. Les ingénieurs individuels créaient des tests ad hoc basés sur leur propre jugement, voire dans certains cas, sautaient les tests entièrement. Il n'y avait pas de visibilité sur les contrôles existants à travers les projets. Et, peut-être plus critique, les équipes marketing découvraient souvent les problèmes de données en premier.
Pour combler ce fossé de visibilité et détecter les problèmes avant que les données n'atteignent leurs consommateurs, 2K avait besoin d'une solution capable de :
Surveiller de façon continue des pipelines à haut volume sur Databricks et Snowflake.
Détecter et révéler les anomalies avant qu'elles n'atteignent les équipes en aval.
Uniformiser les contrôles de qualité des données à travers des centaines d'ensembles de données et de titres de jeu.
Évoluer pour traiter les nouvelles sorties de jeux sans ajouter de surcharge manuelle.
La solution : observabilité à la vitesse du jeu
Plutôt que de construire des frameworks de test complexes nécessitant un entretien constant, 2K voulait une couche d'observabilité qui :
détecte automatiquement les anomalies avec une reconnaissance de motifs alimentée par l'IA,
fournisse une source de vérité unique pour l'état de qualité des données,
alerte de manière proactive les ingénieurs avant l'impact commercial, et
s'étende sans effort à mesure que de nouveaux jeux et ensembles de données sont ajoutés.
Cette approche représentait un changement fondamental du modèle manuel, réactif qu'ils utilisaient, vers un modèle automatisé, proactif pouvant suivre le rythme de la vélocité et du volume de leurs données de jeu.
Pour résoudre ces défis, 2K Games a mis en place Soda Cloud à la mi-2025. Soda s'est avéré à la fois puissant et simple à implémenter. L'outil de surveillance des métriques pouvait gérer les volumes massifs de données de 2K avec un minimum de surcharge, les traiter efficacement, gérer les cycles de rafraîchissement, apprendre des schémas historiques pour réduire les faux positifs, et fournir une détection d'anomalies alimentée par l'IA qui s'adapte aux modèles de données uniques de chaque jeu.
2K utilisait précédemment Soda Core. La migration vers Soda Cloud a pris environ 60 jours (de la preuve de concept au déploiement complet). La transition a été fluide car les équipes connaissaient déjà la syntaxe open-source de Soda. L'amélioration était motivée par le besoin de fonctionnalités avancées comme la détection d'anomalies, la surveillance des métriques et la visibilité exécutive via tableaux de bord et alertes.
En surveillant les données en quasi temps-réel, Soda aide désormais l'équipe de données à détecter et corriger les anomalies bien avant qu'elles n'affectent les équipes en aval. La surveillance actuelle comprend : des contrôles de présence pour confirmer que les données arrivent comme prévu, des contrôles de nullité pour s'assurer que les champs critiques sont remplis, des contrôles de fraîcheur pour confirmer les rafraîchissements de 5-15 minutes, et la détection des anomalies de volume pour signaler des changements inattendus dans le nombre de lignes.
Détection d'anomalies au niveau des enregistrements
La détection d'anomalies au niveau des enregistrements de Soda AI (RAD) propriétaire fournit une couverture instantanée et large de chaque colonne, ligne et segment — sans avoir besoin de créer un seul contrôle. Après l'intégration des ensembles de données, le remplissage et les tests rétroactifs intégrés analysent les données historiques en temps réel pour révéler des motifs et tendances.
La détection d'anomalies au niveau des enregistrements de Soda analyse 1 milliard de lignes en 64 secondes, apprenant des retours pour améliorer la précision et réduire les faux positifs au fil du temps.
L'algorithme développe ensuite une compréhension approfondie de ce à quoi ressemble la « normale », étant capable de signaler des enregistrements inhabituels avec une grande précision, et d'alerter automatiquement la bonne personne. De plus, lorsque les utilisateurs marquent les résultats comme attendus ou inattendus, chaque retour contribue à affiner ses prédictions et à s'adapter au fil du temps.

Chez 2K, lorsque Soda détecte un problème, des alertes sont générées et classées P0 ou P1 selon leur impact. Les problèmes sont consignés dans le backlog d'ingénierie avec des SLA définis. L'ingénierie traite les causes racines et ajoute de nouveaux contrôles si nécessaire pour éviter leur récurrence.
Les contrôles automatisés entraînent de grandes économies de temps, en détectant des problèmes tels que des données ne se chargeant pas correctement ou présentant une redondance, ce qui aide à prévenir beaucoup de remplissage supplémentaire.
L'impact : de la gestion de la qualité des données à l'observabilité complète des données
La transformation chez 2K était à la fois opérationnelle et culturelle. Avant Soda, les équipes marketing découvraient les problèmes en premier, l'ingénierie réagissait de façon réactive, de nombreux points de défaillance s'accumulaient, et la fatigue des alertes signifiait que de vrais problèmes pouvaient être écartés. Après Soda, l'ingénierie a une observabilité complète, le marketing ne reçoit que des données vérifiées, les problèmes sont détectés avant leur propagation, et la surveillance intelligente réduit les faux positifs.
2K Games a trouvé l'équilibre : une livraison de données quasiment en temps réel avec une haute confiance en leur précision. Le tableau de bord de Soda Cloud est devenu une source de vérité, offrant un statut de qualité en temps réel pour tous les jeux, un routage des alertes intégré aux workflows d'ingénierie, et une visibilité au niveau exécutif sur les tendances de qualité.
« Je pense que beaucoup des points positifs que nous avons vus se sont principalement traduits par l'absence d'impacts en aval, essentiellement. Et cela a été une grande victoire pour nous, en termes de prévention de multiples couches de défaillances et de tentative de capturer ces problèmes en amont. » – Sid Srivastava, Directeur de la Gouvernance des Données, Qualité et MLOps chez 2K
À l'horizon : maturité de la gouvernance et MLOps
L'équipe de gouvernance de 2K était en cours de formalisation pendant la mise en œuvre de Soda, et l'outil est devenu un catalyseur pour structurer leur approche. Fort de ce succès, 2K étend désormais les capacités d'observabilité de Soda aux pipelines ML et aux rapports automatisés.
À l'avenir, les plans de 2K incluent :
Observabilité du ML : La société construit une équipe MLOps et voit un alignement avec la feuille de route de Soda. Avec l'acquisition de NannyML, Soda s'étend à l'observabilité ML.
Automatisation des Rapports : L'équipe construit des tableaux de bord personnalisés basés sur Databricks en utilisant l'API de Soda pour fournir des vues spécifiques aux jeux, des rapports exécutifs, et des vues segmentées où chaque équipe voit seulement ses contrôles pertinents.
Contrats de Données : Les contrats de données sont un objectif clé. Ils prévoient de tirer parti de ce concept plus en profondeur à mesure que leur cadre de gouvernance mûrit.
Contactez-nous
Planifiez une démo avec l'équipe de Soda pour découvrir à quel point vous pourriez optimiser votre stratégie de qualité des données dans l'ensemble de votre écosystème de données.
Trusted by the world’s leading enterprises
Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.
At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava
Director of Data Governance, Quality and MLOps
Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake
Director of Product-Data Platform
Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta
Data Engineering Manager
Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie
Head of Data Engineering
4,4 sur 5
Commencez à faire confiance à vos données. Aujourd'hui.
Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.
Adopté par




Trusted by the world’s leading enterprises
Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.
At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava
Director of Data Governance, Quality and MLOps
Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake
Director of Product-Data Platform
Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta
Data Engineering Manager
Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie
Head of Data Engineering
4,4 sur 5
Commencez à faire confiance à vos données. Aujourd'hui.
Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.
Adopté par
Solutions




Trusted by the world’s leading enterprises
Real stories from companies using Soda to keep their data reliable, accurate, and ready for action.
At the end of the day, we don’t want to be in there managing the checks, updating the checks, adding the checks. We just want to go and observe what’s happening, and that’s what Soda is enabling right now.

Sid Srivastava
Director of Data Governance, Quality and MLOps
Investing in data quality is key for cross-functional teams to make accurate, complete decisions with fewer risks and greater returns, using initiatives such as product thinking, data governance, and self-service platforms.

Mario Konschake
Director of Product-Data Platform
Soda has integrated seamlessly into our technology stack and given us the confidence to find, analyze, implement, and resolve data issues through a simple self-serve capability.

Sutaraj Dutta
Data Engineering Manager
Our goal was to deliver high-quality datasets in near real-time, ensuring dashboards reflect live data as it flows in. But beyond solving technical challenges, we wanted to spark a cultural shift - empowering the entire organization to make decisions grounded in accurate, timely data.

Gu Xie
Head of Data Engineering
4,4 sur 5
Commencez à faire confiance à vos données. Aujourd'hui.
Trouvez, comprenez et corrigez tout problème de qualité des données en quelques secondes.
Du niveau de la table au niveau des enregistrements.
Adopté par
Solutions



