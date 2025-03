À travers quelques vidéos, Google DeepMind montre les progrès réalisés pour rendre les robots plus intelligents et plus agiles en les reliant aux modèles d’IA Gemini.

Qu’obtient-on si on associe des large language models’ (LLM) d’IA typiques à des robots? Des robots plus intelligents, pardi, qui peuvent être commandés par une invite ou la voix. Voilà pour la simple théorie: dans la pratique, cela s’avère quelque peu plus complexe. Avec DeepMind, Google travaille depuis quelque temps déjà sur cette technologie. L’objectif est d’intégrer complètement dans le monde physique, via la robotique, la puissance de Gemini – le chatbot et l’outil Gen AI de Google – en matière de raisonnement, de compréhension et de traitement.

Dans une mise à jour de blog, Google montre à quel stade elle se trouve. Reposant sur Gemini 2.0, Gemini Robotics et Gemini Robotics-ER constituent à présent la base d’une nouvelle génération de robots utiles. En raison de l’intégration avec Gemini, ces derniers peuvent s’avérer davantage multi-tâches et gagner en interactivité. Dans la démo ci-dessous par exemple, un collaborateur de Deepmind montre comment un bras robotisé est commandé par la voix, afin d’effectuer un travail spécifique de manière autonome. Dans cet exemple, on voit dans une grande corbeille à fruits comment il identifie une banane, puis la saisit et la déplace vers une autre corbeille ad hoc plus petite. Dans la même démo, le collaborateur va jusqu’à déplacer les corbeilles par exemple pour amplifier le défi. Ce n’est là qu’une des démos que Google partage dans sa mise à jour de blog.



Gemini Robotics et Robotics-ER sont les modèles ‘vision-language(-action)’ les plus sophistiqués de Google. Ils capitalisent sur le concept multimodal du monde de Gemini et y ajoutent des actions physiques sous la forme d’une nouvelle modalité d’exit. Le modèle offre une vision spatiale avancée. Les experts en robotique pourront y capitaliser et faire tourner leurs propres programmes via la capacité de raisonnement de Gemini. Google collabore du reste à cette fin avec Apptronik, un spécialiste en robots humanoïdes.