Tobiko Data lève quasiment 22 millions de dollars

Kristof Van der Stadt
Kristof Van der Stadt Rédacteur en chef chez Data News

Que se passe-t-il lorsque trois… jeunes vétérans de Netflix, Airbnb, Google et Apple découvrent un problème dans la transformation des données? Ils créent alors une start-up qui résout ledit problème. Tobiko Data peut en tout cas compter directement sur un investissement de quasiment 22 millions de dollars.

Un starter portant un sweat à capuche de l’entreprise? C’est assez commun dans la Silicon Valley. Mais des pantalons de marque, cela nous ne l’avions pas encore vu. Toby Mao se sent apparemment à l’aise, lorsqu’il entre dans la salle de réunion avec un quart d’heure de retard. Son t-shirt porte une autre marque encore: celle d’un célèbre speed cube. Ce n’est pas un hasard: Toby – ou Tobias si vous voulez – a détenu le record du monde du Rubik’s Cube pendant un certain temps. Tout comme son frère Tyson, qui a fondé la World Cube Association. Mais les frères, conjointement avec Iaroslav Zeitgerman, ont également fondé la start-up Tobiko – et c’est de cela que nous avons parlé avec Toby Mao lors d’une visite de l’IT Press Tour dans la région de la baie de San Francisco en Californie, plus connue sous le nom de Silicon Valley.

Plus d’efficacité et moins de coûts

À peine cinq jours avant notre rendez-vous, Tobiko avait annoncé une phase d’investissement de près de 22 millions de dollars. Pas mal pour une entreprise qui existe depuis moins de deux ans et qui compte entre-temps 20 employés. Mais Toby Mao s’est déjà fait un nom chez Airbnb et Netflix, où il a dirigé respectivement les plates-formes metrics et XP. C’est d’ailleurs chez Netflix qu’il a rencontré Iaroslav qui a, lui aussi, dirigé l’équipe d’ingénierie des données IA/ML chez Apple. De jeunes vétérans donc. Le genre qui, lorsqu’ils découvrent un problème ou une lacune sur le marché, sont prêts et capables de développer eux-mêmes une solution.

‘Tobiko Data est une plate-forme open source de transformation des données, dont le produit principal est SQLMesh. Et ce produit est une structure qui permet aux data scientists de construire des pipelines valables et efficaces’, explique Toby Mao avec cet accent qui trahit le fait que c’est là directement la solution au problème rencontré.

‘Les données sont devenues extrêmement importantes, surtout si elles doivent supporter les applications d’IA et de ML de votre entreprise. Mais le gros problème, c’est que le paysage actuel des données est incroyablement désordonné. Il y a beaucoup d’analystes qui écrivent du code spaghetti impossible à maintenir. Personne ne sait vraiment quel code et quelles données traînent en interne, alors que le contrôle des données est également loin d’être mature, ce qui signifie que beaucoup de données ne sont pas fiables ou sont tout simplement fausses. Rien de tout cela n’est efficace, et le secteur IT ne réfléchit pas non plus à bien faire les choses du premier coup’, déclare Mao.

Complément de Snowflake et Databricks

Et juste au moment où on veut lui lancer qu’il existe des solutions à la Snowflake et Databricks, Toby Mao a cette réponse toute faite: ‘Snowflake et Databricks sont très faciles à faire évoluer. Mais si vous ne travaillez pas efficacement du premier coup, les coûts deviennent rapidement très élevés. C’est pourquoi des entreprises comme Netflix et Apple réfléchissent constamment à leur efficience: pour éviter ce genre d’énormes coûts d’actualisation’, affirme Toby Mao qui sait manifestement de quoi il parle.

C’est précisément pourquoi il a créé SQLGlot chez Netflix: une structure d’analyse SQL open source qui est maintenant utilisée par de nombreuses entreprises dans leur environnement de développement. ‘Considérez cela comme l’une des pièces technologiques sous-jacentes au puzzle qui sous-tend notre solution SQLMesh’, explique Mao. Et cette solution doit donc garantir l’efficacité dans l’environnement de développement. ‘Ce qu’on voit, c’est que pas mal de travail est réitéré dans des environnements très développés. A la moindre modification de SQL, c’est tout le bazar qui est recréé. Cela se traduit par beaucoup de temps perdu et donc par des coûts supplémentaires’, explique encore Mao.

Pas avec SQLMesh donc, car ‘ce dernier comprend exactement ce qui doit être calculé. Et c’est ce qui rend notre outil unique. SQLMesh ne recalculera jamais rien de ce qui a déjà été calculé. Adaptez-vous vos requêtes? SQLMesh sait ce que vous voulez réaliser et ce qui doit être recalculé. Cela permet d’économiser beaucoup de temps et d’argent. Oui, il existe d’autres structures disponibles, mais qui ne comprennent pas SQL. Elles traitent tout comme du texte brut ou comme des chaînes de caractères et supposent que la gestion finale de tous ces recalculs inutiles n’est pas leur problème.’

Modèle économique?

Selon ses propres mots, Mao a fondé l’entreprise non pas en premier lieu pour le profit, mais simplement parce que lui et ses compagnons avaient une idée pour résoudre un problème. Comment comptent-ils rentabiliser cette idée, développée en open source? ‘Nous sommes une entreprise open source, ce qui signifie que tout le monde est libre de télécharger et d’utiliser notre technologie. Mais ce que nous avons décidé la semaine dernière, c’est qu’en plus de la version open source, nous proposerons également une version professionnelle payante de SQLMesh qui offrira des fonctionnalités supplémentaires telles que le module Observer. Ce dernier pourra alors non seulement vous dire qu’il y a eu un problème quelque part au niveau de votre code, mais aussi et surtout quoi exactement et pourquoi. Je me répète, mais cela n’est possible que parce que SQLMesh comprend votre SQL et peut donc corréler les données entre elles’, ajoute encore Mao.

Mao considère Snowflake et DataBricks comme des ‘partenaires’ plutôt que des concurrents. N’y a-t-il donc vraiment aucun concurrent, voulons-nous encore savoir avant de le laisser repartir vers le siège de son entreprise à San Mateo. ‘Si, dbt Labs, qui est active depuis 2016 et offre également une importante structure pour la transformation des données. Lorsque je travaillais chez Airbnb, j’ai également appris à connaître cette plate-forme, mais j’ai aussi réalisé que cela ne fonctionnerait jamais assez bien pour Airbnb, car dbt ne s’adapte pas bien. Et grâce à SQLGlot, notre solution comprend également beaucoup mieux le SQL qui est écrit’, conclut Mao.

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici

Contenu partenaire