Deux entreprises de la Silicon Valley américaine illustrent comment repenser les fondations mêmes des systèmes de données.
Non, pour une fois, il ne s’agit pas d’un article sur la façon dont la ‘Bay Area’, de San Francisco au nord à San Jose au sud, s’est engouffrée dans l’IA. Non pas que les entreprises de la Silicon Valley ne le fassent pas, mais il existe des start-ups tout aussi disruptives qui innovent bien plus en aval de la chaîne. Le genre de start-ups deep tech qui innovent en supprimant les goulets d’étranglement. Ou en éliminant les inefficacités. Il y a quelques semaines, nous nous sommes rendus avec l’IT Press Tour dans les quartiers technologiques américains de Californie où nous nous sommes entretenus avec deux de ces ‘disruptors’ dans la salle des machines de l’univers des données
: Tabsdata et PuppyGraph.
‘Éliminer l’ETL inefficace’
Si Tabsdata et PuppyGraph poursuivent des objectifs complètement différents, elles ont un point commun : oser remettre en question le statu quo de l’architecture des données. Et cela mérite l’admiration : il s’agit de remettre en doute l’efficacité de la machinerie derrière nos solutions de données. Tabsdata et PuppyGraph ont un ennemi commun : l’inefficacité du pipeline ETL (Extract, Transform, Load, NDLR) traditionnel.
Dans la course aux données, les entreprises ont investi pendant des années dans des architectures complexes pour déplacer et transformer les données. Une nécessité, bien sûr, pour qui souhaite mettre efficacement en œuvre une approche axée sur les données dans son entreprise ou organisation. Mais le résultat est souvent un enchevêtrement de processus ETL qui affichent des frais de maintenance coûteux, créent des silos de données et pèsent sur l’agilité de l’entreprise. Plutôt que d’ajouter une nouvelle couche d’applications, Tabsdata et PuppyGraph réinventent la ‘plomberie’ sous-jacente.
En route vers un avenir où les ensembles de données fiables, accessibles instantanément dans toute l’entreprise, auront remplacé l’intégration des données
Tabsdata : Rendre la propriété à la source
Et c’est là que ça devient technique. Nous n’entrerons pas dans les détails mais la première entreprise, Tabsdata, se concentre sur le processus d’intégration des données lui-même. Selon le cofondateur et CEO Arvind Prabhakar, un vétéran de StreamSets et Cloudera, l’approche actuelle conduit à une situation absurde. Les données sont copiées à partir des systèmes sources, puis décortiquées par une équipe centrale, souvent dépourvue de contexte commercial, pour tenter de reconstituer la réalité d’origine.

Tabsdata propose un modèle ‘Pub/Sub for Tables’. Plutôt que d’extraire des données brutes, les responsables des départements des ventes ou des finances (ou autres) peuvent publier eux-mêmes des tableaux clairs et pertinents, comme une forme de contrat de données. Les consommateurs de données s’abonnent ensuite à ces ‘points de données’. ‘Notre mission est de faire de ce nouveau concept d’ensembles de données, Pub/Sub for Tables comme nous l’appelons, la norme pour la circulation de données au sein de l’entreprise’, a déclaré Prabhakar. Leur vision semble on ne peut plus claire : ‘Un avenir où les ensembles de données fiables, accessibles instantanément dans toute l’entreprise, auront remplacé l’intégration des données.’
PuppyGraph: Analyse graphique sans migration de données
PuppyGraph émet une critique similaire sur la migration inutile des données, mais appliquée au monde de l’analyse graphe. Les bases de données graphes traditionnelles comme Neo4j exigent que les données soient d’abord transférées via des processus ETL vers une pile de données séparée et spécialisée. Cela se traduit par des coûts élevés, des temps de latence et une architecture pléthorique.
PuppyGraph se positionne comme un moteur d’analyse graphe ‘Zero ETL’. La technologie superpose une couche graphe virtuelle aux data warehouses et data lakes existants, comme Snowflake, BigQuery, Databricks ou même des bases de données PostgreSQL. Les utilisateurs peuvent interroger leurs données, qui restent à leur emplacement d’origine, directement avec des langages graphes tels qu’openCypher et Gremlin. ‘Il y a certainement des utilisateurs qui comprennent la valeur de l’analyse des données graphes, mais qui ne veulent pas d’une nouvelle pile de données’, déclare Weimo Liu, CEO et cofondateur de PuppyGraph. Les exemples existent, et pas des moindres. La plateforme d’échange de cryptomonnaies Coinbase, par exemple. ‘PuppyGraph est un moteur de requêtes graphes très intéressant. Il ne nécessite pas de charger les données ni de les transférer via un processus ETL vers une couche de stockage spécialisée ou propriétaire. Nous pouvons tout simplement interroger directement notre data lake’, explique Eric Sun, senior manager de la plateforme de données chez Coinbase.

‘Faire venir l’analyse aux données, et non l’inverse’
Bien qu’elles résolvent des problèmes complètement différents, ces deux entreprises partagent une même philosophie : éradiquer le déplacement inutile des données et amener l’analyse aux données plutôt que l’inverse. Cela permet non seulement de simplifier l’architecture et de réduire le coût total de possession, mais aussi d’améliorer les performances. Du moins à en croire PuppyGraph. L’entreprise affirme être 20 à 70 fois plus rapide que Neo4j sur des requêtes complexes ‘3-hop’ selon ses benchmarks, et indique que Neo4j plante sur des requêtes encore plus exigeantes, contrairement à son propre moteur.
Tabsdata et PuppyGraph, basées respectivement à Sunnyvale et à Santa Clara, montrent que l’innovation dans le secteur des données va au-delà de la couche application, ce qui est souvent oublié ou sous-estimé. Mais dans la Silicon Valley, on y consacre aussi du temps et de l’espace. Et l’argent. L’année dernière, PuppyGraph a levé un total de 5 millions de dollars pour sa deuxième année d’existence. Tasbdata, quant à elle, bénéficie du soutien financier de Laude Ventures, mieux connu en tant qu’investisseur de Perplexity AI et Foundry.