03 - SigLoMa : un robot quadrupede qui apprend la manipulation dans le monde reel grace a sa seule vision

LLM & Modèles 🟢 Débutant ⏱️ 14 min de lecture 📅 2026-05-06

SigLoMa : un robot quadrupède qui apprend la manipulation dans le monde réel grâce à sa seule vision

🔎 La robotique quitte enfin le laboratoire

Depuis des années, la recherche en robotique mobile bute sur le même mur : tout fonctionne en simulation, tout plante dans le monde réel. Le fameux sim-to-real gap — cet écart entre les lois de physique parfaites d'un simulateur et le chaos d'un vrai environnement — a freiné le déploiement de robots utilitaires.

SigLoMa casse ce cycle. Ce système, détaillé dans le papier SigLoMa: Learning Open-World Quadrupedal Loco-Manipulation from Ego-Centric Vision (mai 2025), apprend à un quadrupède à se déplacer et manipuler des objets dans des espaces réels, sans jamais passer par une simulation.

L'approche repose entièrement sur la vision égocentrique : une seule caméra embarquée sur le robot. Pas de motion capture, pas de calibration d'environnement, pas de modèles 3D pré-existants. Le robot observe, agit, et apprend de ses propres interactions.

Ce résultat tombe à point nommé. Dans la foulée de la course aux robots humanoïdes qui gagne, l'industrie réalise que la locomotion seule ne suffit plus. Un robot qui sait marcher mais ne sait pas ouvrir une porte ou saisir un colis reste un gadget de labo. SigLoMa s'attaque exactement à cette lacune : fusionner déplacement et manipulation sur une plateforme quadrupède.

L'essentiel

SigLoMa apprend la loco-manipulation (marche + saisie) dans le monde réel, sans simulation préalable.
Le système utilise uniquement la vision égocentrique d'une caméra embarquée, sans capteurs externes ni motion capture.
La méthode résout le problème de la sample efficiency — le robot apprend en quelques dizaines de minutes, pas en des milliers d'heures.
Les résultats sont validés sur le robot quadrupède Go1 de Unitree dans des environnements domestiques non préparés.
C'est un cas rare de réussite en open-world : le robot généralise à des objets et des lieux jamais vus pendant l'entraînement.

Outils recommandés

Pourquoi la loco-manipulation est le Graal de la robotique mobile

Un robot doit faire deux choses : aller quelque part et y faire quelque chose d'utile. La communauté a traité ces problèmes séparément depuis des décennies.

La locomotion quadrupède a explosé en 2020-2022 avec des travaux comme those de ETH Zurich et MIT. Les robots marchent, courent, se relèvent après une chute. Impressionnant sur vidéo, mais limité en pratique : un chien robot qui traverse une pièce sans interagir avec rien n'a aucune utilité industrielle.

La manipulation, de son côté, a progressé via les bras robotiques montés sur bases fixes. Un bras fixe saisit, trie, assemble. Mais il est prisonnier de son socle. Il ne va pas chercher l'objet : il attend qu'on le lui apporte.

La loco-manipulation fusionne les deux. Le robot se déplace vers un objet, l'attrape, le transporte. C'est ce qui transforme un robot de démonstration en machine utilitaire. C'est aussi ce que vise Boston Dynamics avec Atlas : un humanoïde qui marche dans un atelier et manipule des pièces.

Mais sur quadrupède, le défi est supplémentaire. Le corps entier vibre pendant la marche. La tête (et donc la caméra) oscille constamment. Saisir un objet avec une pince montée sur un dos qui bouge, c'est essayer d'enfiler un fil dans une aiguille en courant sur un tapis roulant.

SigLoMa montre que c'est possible, et avec une élégance déconcertante : une seule caméra, aucun autre capteur, aucun filet de sécurité logiciel.

Le sim-to-real gap : pourquoi tout le monde en souffre

L'approche dominante en robotique d'apprentissage s'appelle sim-to-real. On entraîne la politique de contrôle dans un simulateur physique (MuJoCo, Isaac Sim, PyBullet), puis on transfère sur le robot réel.

Le problème ? Le monde réel est ingrât.

Un simulateur modélise la gravité, le frottement, la masse des objets avec des paramètres fixes. Dans la réalité, le frottement d'une table varie selon l'humidité, la température, l'usure de la surface. Un objet glisse différemment d'un jour à l'autre. Les moteurs du robot ont des jeux mécaniques, des dérives de calibration, des élasticités non modélisées.

Pour combler ce gap, les chercheurs utilisent des techniques de domain randomization : ils varient aléatoirement les paramètres physiques en simulation (masse, friction, latence) pour forcer la politique à être robuste. Ça marche partiellement pour la locomotion pure. Pour la manipulation fine, c'est catastrophique.

La manipulation exige une précision millimétrique que la randomisation détruit. Trop robuste, la politique devient fruste et rate les saisies. Pas assez robuste, elle échoue au premier changement de condition réelle.

SigLoMa contourne entièrement le problème. Pas de simulateur, pas de gap à combler. Le robot apprend directement dans le monde réel, avec toute sa complexité et ses imperfections. Le coût est ailleurs : l'efficacité d'échantillonnage (sample efficiency).

La vision égocentrique comme seul senseur

La plupart des approches de loco-manipulation utilisent un arsenal de capteurs : LiDAR pour la cartographie 3D, caméras de profondeur (RGB-D) pour la perception des objets, IMU pour l'orientation, encodeurs articulaires pour la proprioception.

SigLoMa utilise une caméra RGB standard. Uniquement.

La vision égocentrique — ce que le robot voit depuis son propre point de vue — est traitée par un réseau de vision qui extrait directement les informations nécessaires à l'action. Pas d'étape intermédiaire de reconstruction 3D, pas de SLAM, pas de détection d'objets classique type YOLO.

Cette approche rappelle les avancées récentes en vision IA pour analyser des images avec les LLM : au lieu de décomposer l'image en sous-tâches (détection, segmentation, estimation de profondeur), on laisse un réseau end-to-end apprendre la correspondance directe entre pixels et commandes motrices.

L'avantage est considérable. En supprimant le pipeline de perception classique, SigLoMa élimine les erreurs de calibration entre capteurs. La caméra est fixée sur le robot, elle bouge avec lui — les artefacts de mouvement deviennent des informations, pas du bruit.

Le réseau apprend implicitement à compenser les oscillations de la marche. Il comprend que l'objet qui bouge dans le champ de vision le fait en partie parce que le robot marche, et il ajuste ses commandes en conséquence. C'est de l'apprentissage incarné dans sa forme la plus pure.

L'architecture SigLoMa : comment ça marche concrètement

SigLoMa repose sur deux modules principaux : un encodeur de vision et une politique de contrôle actionnable.

L'encodeur de vision

Les images de la caméra égocentrique passent dans un réseau convolutif pré-entraîné (type ResNet). Cet encodeur extrait des features visuelles compactes qui capturent à la fois la scène environnante et l'état du robot (ses pattes visibles dans le champ de vision, par exemple).

L'astuce clé : l'encodeur intègre aussi l'historique récent des images, pas seulement l'image courante. Cette mémoire temporelle courte permet au système d'inférer la dynamique — comment la scène évolue, à quelle vitesse le robot avance, dans quelle direction.

La politique de contrôle

Les features visuelles sont concaténées avec les commandes de tâche (l'objectif : "avance vers la chaise et saisis le carton") et passées dans un réseau MLP (Multi-Layer Perceptron) qui output directement les couples moteurs pour les 12 articulations du quadrupède plus la commande de la pince.

Pas de planificateur de trajectoire. Pas de séparateur locomotion/manipulation. Un seul réseau, une seule décision à chaque timestep : quel couple appliquer à chaque moteur. La fusion loco-manipulation émerge naturellement de l'entraînement.

Le défi de la sample efficiency en monde réel

Entraîner dans le monde réel pose un problème brutal : le robot s'use. Chaque chute, chaque collision, chaque heure d'exploration consomme du matériel. Un robot qui nécessite 100 000 épisodes d'entraînement pour apprendre une tâche est inutilisable en pratique — il sera en pièces avant d'avoir appris quoi que ce soit.

C'est le problème de la sample efficiency : combien d'expériences réelles faut-il pour atteindre un comportement compétent ?

SigLoMa résout ce problème par une combinaison de trois techniques.

L'apprentissage par imitation d'un expert téléopéré

Plutôt que de partir de zéro (apprentissage par renforcement pur), les chercheurs fournissent d'abord des démonstrations. Un humain téléopère le robot pour réaliser la tâche cible quelques dizaines de fois. La politique apprend d'abord à imiter, puis se perfectionne.

Le filtrage des données de mauvaise qualité

Toutes les démonstrations ne se valent pas. Certaines sont hésitantes, d'autres ratent la cible. SigLoMa intègre un mécanisme de scoring qui filtre les trajectoires de faible qualité avant l'entraînement. On ne garde que le meilleur du meilleur.

L'adaptation en ligne

Une fois déployé, le robot continue d'apprendre de ses propres expériences. Les épisodes réussis reforcent la politique, les échecs sont mis à jour comme contre-exemples. Ce processus d'adaptation en ligne permet une généralisation progressive à de nouveaux environnements sans retour au labo.

Le résultat : le robot atteint un comportement compétent après environ 40 à 60 épisodes de démonstration, soit quelques heures de collecte de données. C'est un ordre de grandeur inférieur aux approches RL-from-scratch en monde réel.

Résultats : ce que le robot fait concrètement

Les expériences sont menées sur le Unitree Go1, un quadrupède grand public équipé d'une pince 2 doigts montée sur le torse. L'environnement est un bureau universitaire — pas un labo préparé, pas une surface plane parfaite.

Tâches validées

Le robot accomplit quatre tâches de loco-manipulation :

Saisie d'objet au sol : le robot marche jusqu'à un objet posé au sol (carton, bouteille, boîte), s'arrête, ajuste sa posture et saisit l'objet avec sa pince.
Saisie d'objet sur table : le robot s'approche d'une table, se lève sur ses pattes arrière pour atteindre la hauteur, et saisit l'objet.
Transport d'objet : après saisie, le robot marche vers un point cible en maintenant l'objet dans sa pince, en s'adaptant aux irrégularités du sol.
Ouverture de porte : le robot s'approche d'une porte, insère sa pince dans la poignée, et pousse en se déplaçant latéralement.

Performance quantitative

Le taux de succès varie de 60% à 85% selon la tâche et l'environnement. Ces chiffres peuvent paraître modestes comparés à un bras robotique fixe (qui atteint 95%+). Mais en loco-manipulation sur quadrupède en monde ouvert, c'est un résultat inédit.

Les échecs proviennent principalement de situations extrêmes : objet trop lourd pour la pince du Go1, surface trop glissante pour la locomotion, ou occlusion totale de l'objet pendant l'approche.

Généralisation open-world

Le point le plus impressionnant est la généralisation. Le robot est entraîné dans un bureau spécifique avec un ensemble d'objets. Testé dans un couloir différent avec des objets jamais vus (une chaussure, un verre en plastique), il réussit sans ré-entraînement.

La politique a appris des primitives de manipulation suffisamment génériques pour transférer à de nouveaux contextes. C'est précisément ce qui manquait aux approches spécialisées.

Comparaison avec l'état de l'art

Approche	Simulation requise ?	Capteurs	Loco-manipulation fusionnée ?	Généralisation open-world ?	Taux de succès typique
Sim-to-real classique (ETH, 2023)	Oui	IMU + LiDAR + RGB-D	Partielle	Non	40-55%
RL from scratch réel (UC Berkeley, 2024)	Non	IMU + encodeurs	Non (locomotion seule)	Non	70-80% (loco)
Approche modulaire (loco + bras séparés, 2024)	Oui	Multi-capteurs	Non (séquentielle)	Limitée	50-65%
SigLoMa (2025)	Non	1 caméra RGB	Oui	Oui	60-85%

Le tableau parle de lui-même. SigLoMa est la seule approche qui coche toutes les cases : pas de simulation, capteur minimal, fusion réelle de locomotion et manipulation, et généralisation à l'open-world.

Les limites honnêtes du système

Malgré son avance, SigLoMa a des faiblesses que le papier ne cache pas.

La pince du Go1 est rudimentaire. Deux doigts parallèles, pas de préhension fine. Le robot ne peut saisir que des objets de forme et taille compatibles — un stylo ou une cuillère sont hors de portée. Le passage à une main anthropomorphique à 5 doigts n'est pas trivial et nécessiterait un redesign complet de la politique.

La manipulation reste préhensile simple. Pas d'assemblage, pas d'utilisation d'outils, pas d'interaction avec des mécanismes complexes. Ouvrir une porte en poussant une poignée est une chose ; tourner une clé dans une serrure en est une autre.

La robustesse aux perturbations extérieures reste à tester. Que se passe-t-il si quelqu'un pousse le robot pendant qu'il transporte un objet ? Le papier ne documente pas ce scénario.

Enfin, la sample efficiency, bien qu'améliorée, reste un facteur limitant pour le déploiement commercial. Quarante épisodes de démonstration par tâche, c'est raisonnable pour la recherche. C'est encore trop pour un utilisateur final qui veut un robot fonctionnel hors de la boîte.

Ce que ça implique pour le système de Skills en IA

SigLoMa n'est pas qu'un résultat en robotique. C'est une illustration physique d'un concept qui traverse toute l'IA : l'apprentissage de compétences composables.

En IA logicielle, le système de Skills permet à un agent d'acquérir des capacités spécifiques (résumer un document, chercher sur le web, générer du code) et de les combiner pour résoudre des tâches complexes. L'agent apprend un skill, le stocke, le réutilise dans un nouveau contexte.

SigLoMa fait la même chose dans le monde physique. La politique apprend des primitives — "avancer vers un objet", "saisir", "transporter" — qui se composent pour réaliser des tâches variées. La généralisation open-world est exactement l'équivalent robotique du transfert de skills entre contextes.

La convergence est frappante. Les agents logiciels deviennent incarnés (ils agissent dans des interfaces, des API, des environnements réels). Les robots deviennent des agents (ils planifient, composent des compétences, s'adaptent). La frontière entre IA software et IA hardware s'efface.

❌ Erreurs courantes

Erreur 1 : Confondre locomotion et loco-manipulation

Ce que les gens font : ils regardent une vidéo de SigLoMa et disent "mais ça existe déjà, les quadrupèdes savent marcher depuis 2020".

Ce qui ne va pas : la locomotion est le déplacement pur. La loco-manipulation est la capacité à interagir physiquement avec des objets pendant ou à la fin du déplacement. La différence est aussi grande qu'entre savoir conduire et savoir livrer un colis en conduisant.

La solution : évaluer les systèmes robotiques sur ce qu'ils font dans l'environnement, pas seulement sur leur capacité à le traverser.

Erreur 2 : Sous-estimer le coût du sim-to-real

Ce que les gens font : ils assument que parce qu'un simulateur est "réaliste", le transfert sur robot réel est trivial.

Ce qui ne va pas : même les simulateurs les plus avancés (Isaac Sim de NVIDIA) introduisent des biais systématiques en manipulation fine. Le frottement statique vs dynamique, les déformations élastiques des objets, les latences de communication réelles — aucun simulateur ne capture tout ça fidèlement.

La solution : prendre les résultats sim-to-real avec un grain de sel. Un taux de succès de 90% en simulation se traduit souvent par 50% sur robot. SigLoMa évite ce problème entièrement.

Erreur 3 : Juger la manipulation robotique avec les standards industriels

Ce que les gens font : ils comparent le taux de succès de SigLoMa (60-85%) à celui d'un bras KUKA en usine (99%+).

Ce qui ne va pas : le bras KUKA est dans un environnement contrôlé, fixé au sol, avec des objets calibrés et un programme déterministe. SigLoMa opère en monde ouvert, sur une plateforme mobile instable, avec une seule caméra.

La solution : comparer ce qui est comparable. Les métriques de SigLoMa doivent être jugées contre d'autres approches de loco-manipulation en monde ouvert, pas contre des bras industriels en cellule automatisée.

❓ Questions fréquentes

SigLoMa fonctionne-t-il avec n'importe quel quadrupède ?

Pas exactement. La politique est entraînée pour la morphologie spécifique du Unitree Go1. L'adapter à un autre robot nécessite au minimum un ré-entraînement partiel ou un transfert par morphologie similaire. Le principe général reste valide, mais il n'y a pas de plug-and-play.

Pourquoi ne pas utiliser de caméra de profondeur RGB-D ?

Une caméra RGB-D apporterait des informations géométriques utiles, mais elle alourdit le système, consomme plus d'énergie, et fonctionne mal en extérieur (la lumière du soleil perturbe les capteurs infrarouges). La force de SigLoMa est de montrer que la profondeur n'est pas nécessaire — le réseau l'infère implicitement à partir du mouvement et de la parallaxe.

Quel est le rapport avec les robots humanoïdes comme Figure ou Atlas ?

SigLoMa démontre les principes fondamentaux de la loco-manipulation sur une plateforme quadrupède, plus simple et moins coûteuse. Ces principes (vision égocentrique, fusion loco-manipulation, apprentissage en monde réel) sont directement transposables aux humanoïdes, qui sont la cible industrielle finale.

Combien de temps faut-il pour déployer SigLoMa sur une nouvelle tâche ?

Avec un opérateur expérimenté, la collecte de démonstrations prend 1 à 2 heures. L'entraînement de la politique prend quelques heures supplémentaires sur GPU. On peut donc passer d'une tâche nouvelle à un robot fonctionnel en une demi-journée, ce qui est exceptionnel pour l'apprentissage en monde réel.

✅ Conclusion

SigLoMa démontre qu'un robot quadrupède peut apprendre à se déplacer et manipuler des objets dans le monde réel avec seulement une caméra, sans jamais passer par la simulation. C'est la preuve que le sim-to-real gap n'est pas une fatalité — c'est un problème que l'on peut simplement contourner.

Le message est clair pour l'industrie : arrêtez de construire des simulateurs de plus en plus complexes, investissez dans des méthodes d'apprentissage directement incarnées. Les robots utilitaires qui sortiront des labo ne seront pas ceux qui simulent le mieux le monde — ils seront ceux qui n'en ont pas besoin.

#intelligence-artificielle #sigloma #robot-quadrupede #robotique #sim-to-real

📚 Articles liés

LLM & Modèles 🟢 Débutant 12 min

Claude Sonnet 5 : le modèle le plus agentique d'Anthropic, performances Opus au prix Sonnet

2026-07-01 15:02