L'open source a actuellement le vent en poupe dans les entreprises spécialisées en apprentissage machine et AI, mais elles n'en envisagent pas suffisamment les effets à long terme. R et Python sont toujours plus souvent utilisés, parce que ces langages de programmation se retrouvent le plus souvent dans l'enseignement. Ce n'est à coup sûr pas un problème dans un cadre théorique, mais l'apprentissage machine et les modèles AI doivent également être traduits dans la pratique en vue de créer de la valeur. Et c'est souvent là que le bât blesse.

Les entreprises n'ont pas assez conscience que l'open source exige énormément d'efforts

Le fait que les langages open source R et Python trouvent leur voie au sein des organisations, est en grande partie dû à la formation d'une nouvelle main d'oeuvre. La plupart des professeurs optent en effet pour des progiciels avec R et Python, vu leur seuil d'accès très bas. Le software peut être aussi aisément installé: les étudiants téléchargent simplement les progiciels sur internet, et il ne leur faut guère de temps ensuite pour s'en servir.

L'étudiant n'est pas un expert

Du point de vue académique, il est certainement intéressant d'apprendre en open source, mais au niveau professionnel, le changement apparaît par trop facile. C'est une erreur de la part de beaucoup de managers de croire qu'ils doivent migrer vers R et Python, parce qu'ils constatent que de la main d'oeuvre à peine sortie des études y est rompue. Quelqu'un qui termine ses études, ne peut se prévaloir d'être un expert.

La main d'oeuvre jeune regarde rarement plus loin que le modèle qu'elle a développé.

Cette expertise ne se manifeste que quand on commence à appliquer dans la pratique la connaissance acquise. Avec le background théorique que l'enseignement supérieur offre aux étudiants, il ne leur devrait en outre pas être difficile d'utiliser un autre langage. Les bons chercheurs en données sont mêmes capables de faire abstraction du langage.

Nombre d'entreprises ne font pas le tour de tout, lorsqu'elles migrent vers R et Python. Avec l'open source, les jeunes employés peuvent créer des modèles exotiques, mais en fin de compte, l'organisation doit pouvoir aussi en faire quelque chose. Et ce genre de modèle n'a d'utilité pour une entreprise que s'il peut fournir de la valeur.

Cycle de vie analytique

Supposons qu'une banque veuille prévoir quels clients envisageront dans un futur porche de passer à la concurrence. Avec R et Python, il est possible de créer un modèle ou algorithme qui, sur base de données historiques, va trouver quels facteurs détermineront si quelqu'un va changer de banque. Ce modèle ou algorithme va examiner la base de données de clients existante, mais aussi les personnes qui ont déjà changé, et quel comportement elles ont eu. Avaient-elles par exemple des amis qui ont changé de banque? Leur prêt était-il arrivé à échéance? Avaient-elles fermé des comptes à vue durant les derniers mois?

Ce qui est toutefois plus important encore pour la banque, c'est que ce genre de modèle puisse s'appliquer également aux nouveaux clients. Quel est le risque qu'un client s'en aille à la concurrence le mois prochain? Dès que la banque le sait, elle peut recourir à des incitants. Comme par exemple offrir à la personne une carte de crédit gratuite une année durant, afin d'anticiper son départ en lui donnant subitement une raison de rester.

Ce deuxième volet génère donc une plus-value pour la banque. Un modèle qui fonctionne dans un cadre théorique, c'est bien beau, mais une organisation ne puise une valeur de la connaissance acquise que si le modèle peut s'appliquer aussi dans un environnement pratique. Il s'agit là d'un cycle de vie analytique, constitué du développement et du déploiement, et qui est d'application tant sur des projets analytiques que sur des projets axés sur l'apprentissage machine et sur l'intelligence artificielle.

Nombre d'entreprises ne font pas le tour de tout, lorsqu'elles migrent vers R et Python.

La main d'oeuvre jeune regarde cependant rarement plus loin que le modèle qu'elle a développé. Pour elle, le travail se termine après le premier volet: le développement. La partie la plus importante du cycle de vie doit pourtant encore arriver: mettre le modèle en production.

Aucun suivi

Chez SAS, on observe que cette expérience motive aujourd'hui un nombre croissant d'entreprises à décélérer. Il faut non seulement beaucoup de main d'oeuvre IT pour mettre ces modèles en production, mais le fait est que souvent, ils ne fonctionnent plus après quelques années. Ce qui passait un jour pour être le meilleur modèle, ne l'est plus à présent. Les progiciels ou codes utilisés à l'époque ont entre-temps été actualisés. Il s'agit en effet d'une communauté open source, ce qui signifie que tout un chacun contribue en permanence au développement des progiciels.

Une entreprise n'est donc rien avec un modèle dépassé. Dans de nombreux cas, l'employé concerné a aussi quitté son premier job depuis longtemps, de sorte qu'il ne peut plus assurer la maintenance et le suivi. Les programmeurs open source ne s'arrêtent généralement pas non plus au niveau de la documentation des codes, ce qui fait que personne n'est à même de reprendre leur travail.

Les entreprises doivent par conséquent prendre conscience que l'open source exige davantage d'efforts qu'imaginé à première vue. Il convient de réfléchir à une approche ou à une structure permettant d'éviter que tout un chacun encode à sa façon. SAS souhaite accueillir à bras ouverts l'open source et industrialiser le code, mais pour y arriver, l'approche des entreprises doit changer. L'open source permet d'acquérir pas mal de connaissance, mais cela ne signifie pas que ce soit de facto le meilleur choix dans l'organisation de l'entreprise.