L'identification des images vidéo à l'aide de l'intelligence artificielle (AI) peut entre autres être utilisée pour reconnaître rapidement des images indésirables sur YouTube ou Facebook, pour analyser des images de surveillance ou pour mieux explorer une vidéothèque. Mais cette reconnaissance automatique des vidéos nécessite pas mal de formation de la part des systèmes utilisés, ce qui fait que la taille de ce genre de modèle informatique est souvent importante.

Le MIT-IBM Watson Lab, une collaboration entre l'université américaine éponyme et IBM, évoque à présent une possible percée permettant d'accélérer cette formation et de la rendre mieux adaptée à des ordinateurs moins lourds. Provisoirement, ce type de reconnaissance s'effectue généralement dans le nuage (dans un centre de données), mais selon Engadget, cela pourrait bientôt se faire aussi sur des smartphones ou des appareils 'edge', à savoir des ordinateurs locaux qui traitent les données, avant de les transférer dans le nuage.

Ce qui est essentiel, c'est la manière dont les modèles AI tiennent compte du temps qui passe. Aujourd'hui, les vidéos sont traitées comme une suite d'images à laquelle le modèle informatique combine un délai. Les chercheurs ont par conséquent mis au point ce qu'on appelle un 'temporal shift module', par lequel le modèle informatique peut évaluer le temps, sans ce que cela doive être explicitement montré. Cela pourrait accélérer d'un facteur trois la reconnaissance vidéo.

On n'en est provisoirement qu'au stade des premiers résultats, et il faudra donc encore quelque temps, avant d'en arriver à des applications commerciales. Plus tard ce mois-ci, la méthode sera formellement présentée lors de l'International Conference on Computer Vision à Seoul.