Groq : faire de l’IA une réalité grâce à une puce sur mesure
Pour que l’intelligence artificielle devienne réalité en 2024, il faut accélérer le traitement des données : d’où l’idée de Groq de mettre au point une puce spécifiquement conçue pour utiliser l’inférence et non plus la formation pour les applications d’IA en large language models (LLM).
« 2024 doit être l’année où l’IA devient réalité », lance d’emblée Jonathan Ross, CEO et cofondateur de Groq, que nous avons rencontré à l’occasion du récent IT Press Tour en Californie. Avant d’ajouter : « Or une puce GPU n’offre pas la puissance suffisante pour traiter une application d’IA. »
Inférence
L’idée de base de Groq consiste à ne plus recourir à la formation (training), mais à l’inférence dans l’IA. En effet, la formation est lente et gourmande en puissance de traitement. En revanche, l’inférence consiste à déduire comment nous faisons la plupart des choses que nous avons apprises. À titre d’exemple, l’humain n’a pas besoin d’apprendre à lire chaque fois qu’il veut lire quelque chose. Or il en va de même pour l’IA : elle n’a pas besoin d’apprendre à identifier un visage, un animal ou une voiture chaque fois qu’un visage, un animal ou une voiture ou tout autre objet pour lequel l’IA est entraînée passe devant une caméra ou un capteur de traitement. C’est également le cas dans les ‘large language models’ (les grands modèles linguistiques, ces modèles d’apprentissage machine extrêmement efficaces dans l’exécution de tâches liées au langage, comme traduire, répondre à une question, discuter, résumer ou générer du contenu par exemple), l’une des applications d’inférence les plus prometteuses de l’IA. Plus besoin en effet d’entraîner d’abord un modèle, ce qui nécessite un investissement coûteux.
Ainsi, l’inférence accélère sensiblement le déploiement d’un modèle LLM et offre aux développeurs la flexibilité nécessaire pour adapter leur architecture. Par ailleurs, l’inférence permet une meilleure prédictibilité et des performances garanties en termes de débit, de latence, de précision et de consommation énergétique. La performance est également à prendre en compte, en s’intéressant au débit de sortie des tokens par seconde (un token équivalent à environ 1 mot décidé par le système). Enfin, l’inférence doit permettre d’atteindre la précision la meilleure possible du résultat dans le traitement d’une tâche LLM.
Record
Pour mettre en œuvre l’inférence, Groq a mis au point une puce spécifique de nouvelle génération (basée sur les travaux menés par Google voici une dizaine d’années qui avait développé une puce de type TPU ou tensor processing unit) pour le traitement de l’IA, baptisée LPU (language processing unit).
Par rapport à une puce GPU de type Nvidia, la LPU serait 10 fois plus rapide et 10 fois plus économe en énergie, tout en offrant une latence inférieure. « Notre puce est meilleure, plus rapide et d’un coût plus abordable qu’une puce GPU pour l’inférence en langage d’IA générative », se plait encore à souligner Jonathan Ross.
Outre la puce LPU, Groq a mis au point un cluster de traitement GroqRack qui combine la puissance de 8 serveurs GroqNode intégrant 64 cartes interconnectées, plus un nœud redondant, outre 14 Go de SRAM partagée et jusqu’à 3,2 Tbit/s de bande passante bidirectionnelle, ce qui permet d’obtenir un réseau déterministique avec une très faible latence et des performances supérieures. D’ailleurs, la configuration Llama-270B a atteint récemment un record de plus de 300 tokens par seconde et par utilisateur sur le LLM d’IA de Meta.
Pour l’instant, Groq a déployé la puce LPU dans ses propres centres de données, mais entend commercialiser son offre sous deux modes : d’une part, sous forme de baie à intégrer dans un cluster d’ordinateurs et, d’autre part, dans un modèle de ‘Tokens-as-a-Service’ pour des applications en open source. « Après l’ère de l’information, nous entrons maintenant dans l’ère génératif grâce aux tokens », conclut le patron de Groq.
Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici