Unlocking Working Memory : cette recherche montre comment les LLM peuvent raisonner sans générer de tokens
🔎 Le raisonnement des LLM est en train de se découpler de la génération de texte
Depuis l'arrivée du chain-of-thought (CoT) avec GPT-4, tout le raisonnement des grands modèles de langage passe par la même voie : la génération autoregressive de tokens. Le modèle « pense à voix haute », et chaque étape de raisonnement coûte exactement autant qu'un token de sortie. C'est un gouffre financier et une contrainte architecturale que la communauté prenait pour acquise.
Un papier publié le 28 mai 2026 sur arXiv vient de démontrer que ce couplage n'est pas nécessaire. L'approche RiM (Reasoning in Memory) propose un « working memory latent » qui permet à un LLM de raffiner itérativement sa représentation interne sans émettre un seul token intermédiaire. Les résultats surpassent les méthodes de latent reasoning existantes sur les benchmarks de raisonnement.
Ce n'est pas un papier margina. La page Hugging Face Papers montre une discussion communautaire active, et le résumé sur AI Models FYI confirme que RiM fonctionne sur différentes familles et tailles de modèles. Le raisonnement latent passe du concept expérimental à une méthode généralisable.
L'essentiel
- Le raisonnement actuel des LLM (CoT, ToT) est lié à la génération de tokens intermédiaires, ce qui augmente linéairement les coûts et les latences avec la complexité du problème.
- RiM (Reasoning in Memory) introduit un working memory latent : le modèle itère sur une représentation interne sans produire de tokens, éliminant la supervision step-level.
- Les résultats surpassent les approches de latent reasoning précédentes sur les benchmarks de raisonnement, et ce sur plusieurs familles de modèles.
- Pour les développeurs d'agents IA, cela signifie un raisonnement en arrière-plan qui ne consomme pas le contexte visible et coûte une fraction du prix du CoT classique.
Outils recommandés
| Outil | Usage principal | Prix (juin 2025, vérifiez sur site) | Idéal pour |
|---|---|---|---|
| Claude Opus 4.7 (Adaptive) | Raisonnement complexe, agents | Payant (abonnement Pro/Team) | Raisonnement adaptatif avec CoT |
| GPT-5.5 | Raisonnement général et agentic | Payant (abonnement ChatGPT Plus) | Tasks nécessitant du test-time compute élevé |
| Gemini 3 Pro Deep Think | Raisonnement profond | Payant (abonnement Gemini Advanced) | Problèmes multi-étapes |
| Ollama | Exécuter des modèles en local | Gratuit | Tester le latent reasoning localement |
| DeepSeek V4 Pro (Max) | Raisonnement coût-efficace | Payant (API) | Développeurs sensibles aux coûts d'inférence |
Le problème : pourquoi le chain-of-thought est une impasse architecturale
Le chain-of-thought a été une révolution. Mais il porte en lui une limitation fondamentale : chaque étape de réflexion est un token, et chaque token coûte de l'argent, du temps et de la bande passante mémoire.
Concrètement, quand vous demandez à GPT-5.5 de résoudre un problème de logique complexe, le modèle génère potentiellement des milliers de tokens intermédiaires avant d'arriver à la réponse. Vous payez pour chaque token généré, y compris ceux qui mènent à des impasses ou des raisonnements erronés que le modèle corrige ensuite. C'est l'équivalent de payer quelqu'un pour penser à voix haute, y compris ses hésitations.
La facturation des LLM est directement impactée par ce mécanisme. Les tokens de sortie sont systématiquement plus chers que les tokens d'entrée. Plus un modèle « réfléchit longtemps », plus la facture monte. Cette linéarité entre complexité du problème et coût de résolution est un plafond pour l'adoption massive du raisonnement avancé.
Le tree-of-thought (ToT) aggrave encore le problème en explorant plusieurs branches de raisonnement en parallèle. Chaque branche génère ses propres tokens. Le test-time compute explose, et avec lui les coûts d'infrastructure.
Ce que RiM change fondamentalement
RiM propose de découpler complètement le raisonnement de la génération. L'idée : le modèle dispose d'un espace mémoire latent dans lequel il itère sur sa représentation interne, bloc par bloc, sans jamais produire de token intermédiaire.
Le mécanisme du working memory latent
Le modèle reçoit un prompt, projette son understanding dans un vecteur latent, puis itérativement raffine cette représentation à travers plusieurs passes de « working memory ». Chaque bloc mémoire prend la représentation précédente et l'améliore. Aucun token n'est émis pendant ce processus.
C'est conceptuellement proche de la façon dont un humain réfléchit : vous ne verbalisez pas chaque étape de votre raisonnement. Vous tournez et retournez un problème mentalement, puis vous produisez une réponse. RiM reproduit ce schéma dans l'espace latent du modèle.
L'élimination de la supervision step-level
Les approches précédentes de latent reasoning nécessitaient souvent une supervision à chaque étape : il fallait annoter les étapes intermédiaires du raisonnement pour entraîner le modèle. RiM élimine cette contrainte. Le modèle apprend à raffiner sa représentation de manière auto-supervisée, en se basant uniquement sur la réponse finale correcte.
Cette différence est majeure pour la scalabilité. Vous n'avez plus besoin de datasets massifs avec des raisonnements étape par étape annotés. Vous pouvez entraîner avec des paires (question, réponse) et laisser le modèle découvrir ses propres itérations internes.
Latent reasoning : l'état de l'art avant RiM
Le raisonnement latent n'est pas apparu avec ce papier. Plusieurs travaux ont exploré cette piste, avec des résultats mitigés.
L'approche récurrente de Meta
Meta a publié un papier sur le raisonnement dans un espace latent continu, discuté sur LessWrong. L'approche utilise une architecture récurrente qui itérativement raffine la représentation latente au test-time. Le deep-dive de deep-diver détaille cette architecture récurrente et ses performances.
La différence clé avec RiM : l'approche de Meta reste plus proche d'une boucle récurrente classique, tandis que RiM introduit explicitement la notion de « working memory » avec des blocs de mémoire distincts qui se succèdent. C'est plus structuré, et les résultats le montrent.
Les préoccupations soulevées par la communauté
La discussion sur LessWrong soulève des points intéressants. Quand un modèle raisonne dans un espace latent, ce raisonnement est opaque. Avec le CoT, vous pouvez au moins lire les étapes intermédiaires et identifier où le modèle déraille. Avec le latent reasoning, vous obtenez une réponse sans traçabilité du cheminement mental.
Pour les applications critiques (médical, juridique, financier), cette opacité est un problème réel. Mais pour la majorité des use cases — recherche d'information, génération de code, analyse de données — la traçabilité du raisonnement est un luxe, pas une nécessité.
Ce que ça change concrètement pour les développeurs
Réduction drastique des coûts d'inférence
C'est l'impact le plus immédiat. Si un modèle comme Claude Opus 4.7 ou GPT-5.5 peut résoudre un problème en 5 itérations latentes au lieu de 2000 tokens de CoT, le coût d'inférence chute mécaniquement. Les tokens de sortie sont la ligne de coût la plus lourde dans la facturation des LLM.
Pour un développeur qui fait tourner des agents IA en boucle, cette économie n'est pas marginale. C'est un changement d'ordre de grandeur. Un agent qui raisonne 100 fois par jour sur des tâches complexes pourrait voir sa facture d'API divisée par 5 à 10, selon la complexité des tâches.
Raisonnement en arrière-plan sans consommer le contexte
C'est peut-être l'implication la plus sous-estimée. Avec le CoT, chaque token de raisonnement occupe de la fenêtre de contexte. Si votre agent raisonne longuement, il mange son propre contexte, laissant moins de place pour les informations utiles.
Avec RiM, le raisonnement se fait dans un espace latent séparé. Le contexte visible n'est pas pollué par les étapes intermédiaires. Un agent peut « réfléchir » intensément tout en conservant l'intégralité de son contexte pour les données réellement pertinentes.
Cela ouvre la porte à des architectures d'agents beaucoup plus sophistiquées, capables de maintenir de longues conversations avec des utilisateurs tout en effectuant un raisonnement complexe en arrière-plan. Pour les meilleurs agents IA autonomes, c'est un changement de paradigme.
Impact sur les architectures RAG agentiques
Le papier LatentRAG explore précisément cette intersection : le raisonnement latent dans un contexte RAG agentique. LatentRAG distingue les tâches de génération pure des tâches nécessitant l'émission de tokens de sous-requête (par exemple, formuler une requête de recherche).
La combinaison RiM + LatentRAG suggère une architecture où l'agent raisonne en latent pour planifier ses actions, n'émet des tokens que pour les communications nécessaires (requêtes vers un moteur de recherche, réponses finales), et consomme un minimum de contexte. C'est l'architecture d'agent optimal vers laquelle le domaine converge.
Implications pour les modèles actuels
Quels modèles pourraient en bénéficier ?
D'après les résultats compilés sur AI Models FYI, RiM fonctionne sur différentes familles et tailles de modèles. Cela signifie que l'approche n'est pas limitée à une architecture spécifique.
Les modèles qui bénéficieraient le plus sont ceux déjà orientés vers le raisonnement complexe. GPT-5.5 (score agentic 98.2), Gemini 3 Pro Deep Think (95.4) et Claude Opus 4.7 Adaptive (94.3) sont des candidats naturels. Leurs capacités de raisonnement sont déjà avancées ; RiM pourrait les rendre beaucoup plus efficientes.
Pour les meilleurs LLM pour la recherche comme Perplexity ou NotebookLM, le latent reasoning pourrait transformer l'expérience : des réponses plus rapides, moins coûteuses, avec un raisonnement en arrière-plan qui ne pollue pas l'interface.
Et les modèles locaux ?
C'est là que ça devient vraiment intéressant. L'un des freins majeurs aux LLM locaux est la lenteur du raisonnement. Un modèle de 70B paramètres en CoT sur un MacBook Pro génère des tokens lentement, et le raisonnement en souffre.
Avec RiM, le modèle pourrait itérer dans l'espace latent sans générer de tokens, ce qui est un calcul matriciel pur — nettement plus rapide sur un GPU grand public. Pour les agents IA avec Ollama, cela pourrait signifier des agents locaux capables d'un raisonnement complexe sans les latences insupportables du CoT.
Si vous envisagez d'installer un LLM local, gardez un œil sur les implémentations open source de RiM. C'est potentiellement le killer feature qui rend les agents locaux véritablement utilisables.
Comparaison avec les approches de raisonnement existantes
| Approche | Mécanisme | Coût par token | Consommation contexte | Traçabilité | Vitesse |
|---|---|---|---|---|---|
| Chain-of-Thought | Génération séquentielle de tokens | Plein tarif sortie | Élevée (chaque token occupe le contexte) | Complète | Lente |
| Tree-of-Thought | Exploration de branches en tokens | Très élevé (multiples branches) | Très élevée | Complète (par branche) | Très lente |
| Raisonnement latent (Meta) | Boucle récurrente dans l'espace latent | Faible (pas de tokens sortis) | Nulle | Aucune | Rapide |
| RiM (ce papier) | Working memory latent par blocs | Faible (pas de tokens sortis) | Nulle | Aucune | Rapide |
| LatentRAG | Latent reasoning + tokens de sous-requête uniquement | Modéré | Faible | Partielle (sous-requêtes visibles) | Modérée |
Le tableau est clair : RiM et les approches de latent reasoning dominent sur le coût, la consommation de contexte et la vitesse. Ils perdent sur la traçabilité. Le compromis dépend entièrement de votre use case.
Les limites actuelles de l'approche RiM
L'opacité du raisonnement
C'est le trade-off fondamental. Quand GPT-5.5 produit un CoT de 3000 tokens, vous pouvez lire chaque étape, identifier les erreurs de logique, et éventuellement intervenir. Avec RiM, vous obtenez une réponse sans accès au cheminement interne.
Pour le débogage d'agents, c'est un défi. Quand un agent prend une mauvaise décision, comprendre pourquoi est essentiel. Le latent reasoning rend ce diagnostic beaucoup plus difficile. Les développeurs devront développer de nouveaux outils d'interprétabilité spécifiques à l'espace latent.
La généralisation à toutes les tâches
Le papier montre des résultats solides sur les benchmarks de raisonnement. Mais le raisonnement « pur » (logique formelle, mathématiques, planification) est un sous-ensemble des tâches que les LLM accomplissent. Pour la rédaction de code, par exemple, le CoT a un avantage : le modèle peut expliquer sa logique de structuration, ce qui est utile pour la maintenabilité.
Pour les LLM en français, la question de la qualité du raisonnement latent dans des langues moins représentées dans les données d'entraînement reste ouverte. Le raisonnement dans l'espace latent est-il aussi robuste quand le modèle doit produire une réponse dans une langue secondaire ?
L'infrastructure nécessaire
Paradoxalement, bien que RiM réduise les coûts de tokens, il requiert une infrastructure de calcul différente. Les itérations dans l'espace latent sont des opérations matricielles denses qui sollicitent différemment le GPU. Les providers d'API devront adapter leur infrastructure pour optimiser ce type de calcul, ce qui ne sera pas immédiat.
L'écosystème de recherche autour du latent reasoning
Ce papier n'est pas isolé. Il s'inscrit dans un mouvement clair de la recherche vers le découplage raisonnement/génération.
Le papier LatentRAG montre que la communauté explore activement comment intégrer le raisonnement latent dans des architectures plus larges, notamment les systèmes RAG. La distinction entre tâches nécessitant des tokens de sous-requête et tâches purement internes est un cadre de pensée qui va structurer la prochaine génération d'agents.
L'approche de Meta sur le raisonnement latent continu, avec les préoccupations éthiques qu'elle soulève, montre que le domaine prend maturité. La communauté ne se contente plus de mesurer les performances : elle questionne les implications d'un raisonnement invisible.
Le deep-dive sur l'architecture récurrente de deep-diver offre une perspective technique complémentaire, en se concentrant sur les mécanismes de scaling du test-time compute sans tokens intermédiaires.
RiM se positionne comme la synthèse la plus aboutie de ces différentes pistes : une architecture structurée (working memory par blocs), généralisable (plusieurs familles de modèles), et qui élimine la contrainte de supervision step-level.
Ce que les développeurs doivent faire maintenant
Court terme : optimiser l'utilisation du CoT existant
RiM n'est pas encore déployé dans les API commerciales. En attendant, optimisez votre utilisation du CoT. Utilisez des modèles qui proposent un raisonnement adaptatif comme Claude Opus 4.7 (Adaptive), qui ajuste automatiquement la profondeur du raisonnement selon la complexité. Limitez le CoT aux tâches qui en bénéficient réellement.
Pour les tâches simples, désactivez le raisonnement étendu. Chaque token de CoT inutile est de l'argent gaspillé. Les meilleurs LLM gratuits comme Gemini ou ChatGPT free proposent parfois des modes de raisonnement simplifiés qui suffisent pour les cas triviaux.
Moyen terme : surveiller les implémentations
La page Hugging Face Papers est le meilleur endroit pour suivre les implémentations open source de RiM. Dès qu'une implémentation efficace sera disponible, testez-la sur vos cas d'usage spécifiques avec un LLM local avant de l'intégrer en production.
Pour les hébergements d'agents, des solutions comme Hostinger offrent l'infrastructure GPU nécessaire pour expérimenter avec ces approches à un coût maîtrisé.
Long terme : repenser l'architecture de vos agents
Le latent reasoning change fondamentalement l'architecture des agents IA. Si le raisonnement ne consomme plus de contexte et ne coûte plus de tokens, vous pouvez concevoir des agents qui réfléchissent beaucoup plus, beaucoup plus souvent, et sur des problèmes beaucoup plus complexes.
Imaginez un agent de recherche qui itère 50 fois en latent sur la reformulation d'une requête avant de la soumettre à un moteur de recherche. Le résultat serait une précision nettement supérieure, pour un coût marginal. C'est le type d'architecture que RiM rend possible.
❌ Erreurs courantes
Erreur 1 : Confondre latent reasoning avec un simple résumé interne
Ce n'est pas un résumé du CoT. Le modèle ne « compresse » pas ses pensées. Il itère sur une représentation mathématique dans un espace de haute dimension. Le processus est fondamentalement différent de la génération puis compression de texte. L'erreur conduit à sous-estimer la puissance de l'approche.
Erreur 2 : Penser que RiM remplace entièrement le CoT
RiM est supérieur sur les benchmarks de raisonnement pur. Mais pour les tâches où la traçabilité est requise (audit, débogage, éducation), le CoT reste irremplaçable. L'erreur est de vouloir tout migrer vers le latent reasoning. La bonne approche est hybride : latent pour la performance, CoT pour l'explicabilité.
Erreur 3 : Ignorer les contraintes d'infrastructure
Moins de tokens ne signifie pas « tourne sur n'importe quoi ». Les itérations latentes sont des calculs denses qui nécessitent une VRAM suffisante et une bande passante mémoire GPU adaptée. L'erreur est de déployer RiM sur une infrastructure sous-dimensionnée en supposant que « pas de tokens = pas de ressources ».
❓ Questions fréquentes
RiM fonctionne-t-il sur tous les modèles LLM ?
D'après les résultats sur AI Models FYI, RiM fonctionne sur différentes familles et tailles de modèles. Cependant, il nécessite un fine-tuning spécifique. Vous ne pouvez pas l'activer comme un simple paramètre sur un modèle existant sans préparation.
Le raisonnement latent est-il plus rapide que le CoT ?
Oui, significativement. Les itérations dans l'espace latent sont des opérations matricielles parallélisables, sans la latence séquentielle de la génération autoregressive de tokens. La vitesse dépend du nombre d'itérations, mais reste largement inférieure au CoT équivalent.
Peut-on combiner RiM avec du RAG ?
C'est exactement ce qu'explore le papier LatentRAG. L'agent raisonne en latent pour planifier, émet des tokens uniquement pour les sous-requêtes de recherche, puis raisonne à nouveau en latent sur les résultats. C'est l'architecture la plus prometteuse pour les agents RAG de prochaine génération.
Quels sont les risques d'un raisonnement invisible ?
L'opacité rend le débogage difficile et soulève des questions de sécurité. Sans accès aux étapes intermédiaires, détecter un raisonnement biaisé ou erroné est plus complexe. C'est un compromis accepté pour les use cases non critiques, mais problématique pour les domaines réglementés.
✅ Conclusion
Le papier RiM marque un point de bascule : le raisonnement des LLM n'a plus besoin de passer par la génération de tokens. Le working memory latent ouvre la voie à des agents plus rapides, moins chers, et capables de raisonner en arrière-plan sans polluer leur contexte. Les développeurs qui comprendront cette architecture auront un avantage décisif dans la conception de la prochaine génération d'agents IA.