MLCommons recherche des benchmarks en apprentissage machine

© Getty Images
Dries Van Damme

Mesurer, c’est savoir, dit-on, et cela s’applique aussi à l’évaluation et à la comparaison des solutions technologiques. MLCommons entend donc chez les utilisateurs de technologies créer une plus grande prise de conscience au niveau de l’importance des benchmarks (tests de performances).

MLCommons est une organisation sans but lucratif qui, à l’entendre, ‘veut améliorer l’IA pour tout un chacun’. Le consortium existe depuis sept ans et compte 125 membres du monde académique et de l’industrie. En tant que directeur exécutif, David Kanter est chez MLCommons responsable des benchmarks MLPerf destinés à élever le niveau de l’IA, et plus spécifiquement de l’apprentissage machine. Data News a rencontré Kanter dans le cadre de l’IT Press Tour dans la Silicon Valley. ‘Nous nous sommes lancés, parce qu’il n’existait aucun benchmark correct en apprentissage machine.’

MLPerf se positionne elle-même en tant que norme industrielle collaborative ouverte pour mesurer les performances et l’efficience énergétique de l’IA. Le travail de benchmarking de MLCommons ne découle en l’occurrence pas seulement de MLPerf, mais il y capitalise sciemment aussi. Avec plus de 50.000 résultats de benchmarking MLPerf à son palmarès, David Kanter qualifie la création, l’exécution et la gestion de ces benchmarks d’une des principales activités de son organisation.

Ouvert et équitable

L’utilisation de MLPerf en tant que base pour les benchmarks, MLCommons doit l’autoriser pour fournir à terme une suite de benchmarking représentative pour l’IA. Elle devrait permettre d’évaluer équitablement les performances systèmes. A cette fin, la suite doit répondre à divers objectifs. C’est ainsi que les benchmarks doivent être réplicables pour garantir des résultats fiables. Les charges de travail utilisées doivent être représentatives et refléter des scénarios d’utilisation réels. Les benchmarks doivent stimuler l’innovation, afin d’améliorer la situation dans le domaine de l’apprentissage machine et d’accélérer les progrès en la matière en préconisant des mesurages utiles ou judicieux.

‘Le point essentiel, c’est que les benchmarks reposent sur un mode ouvert, équitable et transparent’

‘Le point essentiel, c’est que les benchmarks reposent sur un mode ouvert, équitable et transparent’, insiste David Kanter. ‘Afin que tout le monde puisse se fier à leurs résultats: les acheteurs de la technologie évidemment, mais aussi les firmes technologiques concurrentes par exemple. En tant qu’organisation à but non lucratif, ce sont les membres de notre communauté qui nous guident et nous financent. En même temps, c’est à nous qu’il appartient de traiter ces membres de manière équitable. C’est précisément là la raison d’être d’une organisation neutre et fiable.’

Mieux, c’est plus rapide

Dans ce sens, les benchmarks visent aussi, selon Kanter, à souder une communauté autour d’un objectif commun unique. Dans ce cas, il s’agit de l’amélioration de la technologie d’apprentissage machine. ‘Le but des benchmarks est dans un premier temps d’aligner tout le monde sur une seule et même ligne à propos de ce que signifie précisément cette amélioration’, explique-t-il. ‘Puis de nous orienter correctement en tant qu’industrie. Car c’est ainsi que nous progresserons collectivement le plus vite, de la même façon qu’une barque avancera plus rapidement, si tous les rameurs opèrent en harmonie et rament de manière parfaitement synchrone.’

Dans le cas de l’apprentissage machine, ‘mieux’ signifie ‘plus précis’, ‘plus sûr’, ‘plus efficient’, mais surtout ‘plus rapide’. ‘Au niveau du benchmarking, la vitesse représente pour nous le principal critère’, ajoute Kanter. ‘S’il est question de la formation de modèles ML, par exemple, nous mesurons d’abord le ‘time to train’(durée de la formation).’

Data + model + compute = innovation

Alors que l’introduction de données massives a d’une part amélioré les résultats de l’apprentissage machine, elle a d’autre part accru le besoin de modèles plus grands pour apprendre à partir de ces données. Le hic, c’est que si le volume des modèles d’apprentissage machine augmente tous les deux ans d’un facteur 240, voire plus, la puissance de calcul devra suivre. Sans puissance de calcul et vitesse supplémentaires, c’en sera fini de l’innovation. Or davantage de puissance de calcul nécessite évidemment aussi plus de consommation d’énergie. Ici encore, le benchmarking peut intervenir pour avoir une meilleure vision de la façon d’équilibrer la demande de calcul et l’énergie requise.

‘Pour évaluer correctement nos performances, nous devons par conséquent nous demander comment agir en tant qu’industrie vis-à-vis de la Loi de Moore’, conclut David Kanter. ‘Et la réponse est: beaucoup, beaucoup mieux. Nous sommes parvenus à plusieurs reprises déjà à dépasser la loi d’un facteur dix sur une assez longue période. Selon la perspective envisagée, nous avons gagné jusqu’à cinquante fois en vitesse en quelque cinq ans. J’en suis particulièrement fier, même si nous devons rester modestes: en fin de compte, nous ne mesurons que la vitesse. C’est notre communauté au sens large qui fabrique des systèmes plus rapides.’

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici

Contenu partenaire