
Avec l'aide de l'homme, les robots apprennent plus vite

Dans le monde réel, les robots doivent réagir à des événements imprévisibles. Une équipe de chercheurs a mis au point une méthode d'entraînement qui permet aux robots d'y parvenir mieux et plus rapidement.
"Mais les robots savent assembler des voitures depuis des décennies", pensez-vous peut-être. Oui, parce qu'ils sont programmés pour les différentes étapes et suivent toujours les mêmes séquences de programme. Mais ils ne peuvent pas réagir à des circonstances changeantes ou effectuer de nouvelles tâches sans instructions détaillées.
La nouvelle méthode s'appelle "Human-in-the-Loop Sample-Efficient Robotic Reinforcement Learning" (en abrégé HIL-SERL). Elle combine l'apprentissage par renforcement, c'est-à-dire l'apprentissage par essais et erreurs basé sur des algorithmes, avec le feedback humain et l'imitation d'étapes de travail humaines. L'homme participe donc à l'entraînement. C'est pourquoi on parle de "Human in the Loop".
L'apprentissage dans le monde réel est plus laborieux
La difficulté de l'apprentissage dans le monde réel réside dans la variabilité des paramètres. Dans la réalité, la physique est un facteur important. L'IA doit prendre en compte les forces et les masses, par exemple pour retourner un œuf au plat. La position de l'œuf au plat dans la poêle est tout aussi importante que sa taille et sa forme. Les robots utilisés par les chercheurs sont donc équipés d'une caméra.
Un autre exemple est le Jenga-Whipping. Il s'agit d'une tendance dans laquelle des personnes habiles utilisent un fouet pour faire sortir des blocs de bois individuels de la pile du jeu. Pour que le robot puisse faire de même, il doit viser avec précision le bon endroit, évaluer le mouvement du fouet et frapper avec la bonne force. Les chercheurs utilisent le Jenga-Whipping comme un simple jeu d'adresse pour le robot.
Un autre problème est que les scénarios d'entraînement dans le monde réel ne peuvent pas être répétés aussi rapidement qu'une partie d'échecs virtuelle. Si l'œuf au plat tombe sur le sol, le robot a besoin d'un nouvel œuf. Si la tour de Jenga se renverse, quelqu'un doit la reconstruire. Cela rend l'entraînement complexe et coûteux.
Les humains aident le robot à apprendre
Des tâches pratiques font également partie des activités que le robot apprend à réaliser en peu de temps : il peut notamment monter une étagère Ikea, assembler une courroie crantée sur des rouleaux et fixer des composants sur une carte mère d'ordinateur. Le robot effectue ensuite un test de fonctionnement de la carte mère.
Les chercheurs introduisent délibérément des perturbations dans le processus d'apprentissage, par exemple en déplaçant des objets ou en faisant en sorte que le robot les laisse tomber. Le robot apprend à réagir à ces situations inattendues et à effectuer sa tâche malgré tout.
L'étude constitue une recherche fondamentale. Elle vise à démontrer que le système HIL-SERL peut être appliqué à de nombreuses tâches. Les résultats devraient faciliter le développement de robots robustes et polyvalents.


Aussi à l'aise devant un PC gaming que dans un hamac au fond du jardin. Aime l'Empire romain, les porte-conteneurs et les livres de science-fiction. Traque surtout les news dans le domaine de l'informatique et des objets connectés.
Du nouvel iPhone à la résurrection de la mode des années 80. La rédaction fait le tri.
Tout afficher