📑 Table des matières

Unlocking Working Memory : cette recherche montre comment les LLM peuvent raisonner sans générer de tokens

Agents IA 🟢 Débutant ⏱️ 14 min de lecture 📅 2026-05-30

Unlocking Working Memory : cette recherche montre comment les LLM peuvent raisonner sans générer de tokens

🔎 Le raisonnement des LLM est en train de se découpler de la génération de texte

Depuis l'arrivée du chain-of-thought (CoT) avec GPT-4, tout le raisonnement des grands modèles de langage passe par la même voie : la génération autoregressive de tokens. Le modèle « pense à voix haute », et chaque étape de raisonnement coûte exactement autant qu'un token de sortie. C'est un gouffre financier et une contrainte architecturale que la communauté prenait pour acquise.

Un papier publié le 28 mai 2026 sur arXiv vient de démontrer que ce couplage n'est pas nécessaire. L'approche RiM (Reasoning in Memory) propose un « working memory latent » qui permet à un LLM de raffiner itérativement sa représentation interne sans émettre un seul token intermédiaire. Les résultats surpassent les méthodes de latent reasoning existantes sur les benchmarks de raisonnement.

Ce n'est pas un papier margina. La page Hugging Face Papers montre une discussion communautaire active, et le résumé sur AI Models FYI confirme que RiM fonctionne sur différentes familles et tailles de modèles. Le raisonnement latent passe du concept expérimental à une méthode généralisable.


L'essentiel

  • Le raisonnement actuel des LLM (CoT, ToT) est lié à la génération de tokens intermédiaires, ce qui augmente linéairement les coûts et les latences avec la complexité du problème.
  • RiM (Reasoning in Memory) introduit un working memory latent : le modèle itère sur une représentation interne sans produire de tokens, éliminant la supervision step-level.
  • Les résultats surpassent les approches de latent reasoning précédentes sur les benchmarks de raisonnement, et ce sur plusieurs familles de modèles.
  • Pour les développeurs d'agents IA, cela signifie un raisonnement en arrière-plan qui ne consomme pas le contexte visible et coûte une fraction du prix du CoT classique.

Outils recommandés

Outil Usage principal Prix (juin 2025, vérifiez sur site) Idéal pour
Claude Opus 4.7 (Adaptive) Raisonnement complexe, agents Payant (abonnement Pro/Team) Raisonnement adaptatif avec CoT
GPT-5.5 Raisonnement général et agentic Payant (abonnement ChatGPT Plus) Tasks nécessitant du test-time compute élevé
Gemini 3 Pro Deep Think Raisonnement profond Payant (abonnement Gemini Advanced) Problèmes multi-étapes
Ollama Exécuter des modèles en local Gratuit Tester le latent reasoning localement
DeepSeek V4 Pro (Max) Raisonnement coût-efficace Payant (API) Développeurs sensibles aux coûts d'inférence

Le problème : pourquoi le chain-of-thought est une impasse architecturale

Le chain-of-thought a été une révolution. Mais il porte en lui une limitation fondamentale : chaque étape de réflexion est un token, et chaque token coûte de l'argent, du temps et de la bande passante mémoire.

Concrètement, quand vous demandez à GPT-5.5 de résoudre un problème de logique complexe, le modèle génère potentiellement des milliers de tokens intermédiaires avant d'arriver à la réponse. Vous payez pour chaque token généré, y compris ceux qui mènent à des impasses ou des raisonnements erronés que le modèle corrige ensuite. C'est l'équivalent de payer quelqu'un pour penser à voix haute, y compris ses hésitations.

La facturation des LLM est directement impactée par ce mécanisme. Les tokens de sortie sont systématiquement plus chers que les tokens d'entrée. Plus un modèle « réfléchit longtemps », plus la facture monte. Cette linéarité entre complexité du problème et coût de résolution est un plafond pour l'adoption massive du raisonnement avancé.

Le tree-of-thought (ToT) aggrave encore le problème en explorant plusieurs branches de raisonnement en parallèle. Chaque branche génère ses propres tokens. Le test-time compute explose, et avec lui les coûts d'infrastructure.


Ce que RiM change fondamentalement

RiM propose de découpler complètement le raisonnement de la génération. L'idée : le modèle dispose d'un espace mémoire latent dans lequel il itère sur sa représentation interne, bloc par bloc, sans jamais produire de token intermédiaire.

Le mécanisme du working memory latent

Le modèle reçoit un prompt, projette son understanding dans un vecteur latent, puis itérativement raffine cette représentation à travers plusieurs passes de « working memory ». Chaque bloc mémoire prend la représentation précédente et l'améliore. Aucun token n'est émis pendant ce processus.

C'est conceptuellement proche de la façon dont un humain réfléchit : vous ne verbalisez pas chaque étape de votre raisonnement. Vous tournez et retournez un problème mentalement, puis vous produisez une réponse. RiM reproduit ce schéma dans l'espace latent du modèle.

L'élimination de la supervision step-level

Les approches précédentes de latent reasoning nécessitaient souvent une supervision à chaque étape : il fallait annoter les étapes intermédiaires du raisonnement pour entraîner le modèle. RiM élimine cette contrainte. Le modèle apprend à raffiner sa représentation de manière auto-supervisée, en se basant uniquement sur la réponse finale correcte.

Cette différence est majeure pour la scalabilité. Vous n'avez plus besoin de datasets massifs avec des raisonnements étape par étape annotés. Vous pouvez entraîner avec des paires (question, réponse) et laisser le modèle découvrir ses propres itérations internes.


Latent reasoning : l'état de l'art avant RiM

Le raisonnement latent n'est pas apparu avec ce papier. Plusieurs travaux ont exploré cette piste, avec des résultats mitigés.

L'approche récurrente de Meta

Meta a publié un papier sur le raisonnement dans un espace latent continu, discuté sur LessWrong. L'approche utilise une architecture récurrente qui itérativement raffine la représentation latente au test-time. Le deep-dive de deep-diver détaille cette architecture récurrente et ses performances.

La différence clé avec RiM : l'approche de Meta reste plus proche d'une boucle récurrente classique, tandis que RiM introduit explicitement la notion de « working memory » avec des blocs de mémoire distincts qui se succèdent. C'est plus structuré, et les résultats le montrent.

Les préoccupations soulevées par la communauté

La discussion sur LessWrong soulève des points intéressants. Quand un modèle raisonne dans un espace latent, ce raisonnement est opaque. Avec le CoT, vous pouvez au moins lire les étapes intermédiaires et identifier où le modèle déraille. Avec le latent reasoning, vous obtenez une réponse sans traçabilité du cheminement mental.

Pour les applications critiques (médical, juridique, financier), cette opacité est un problème réel. Mais pour la majorité des use cases — recherche d'information, génération de code, analyse de données — la traçabilité du raisonnement est un luxe, pas une nécessité.


Ce que ça change concrètement pour les développeurs

Réduction drastique des coûts d'inférence

C'est l'impact le plus immédiat. Si un modèle comme Claude Opus 4.7 ou GPT-5.5 peut résoudre un problème en 5 itérations latentes au lieu de 2000 tokens de CoT, le coût d'inférence chute mécaniquement. Les tokens de sortie sont la ligne de coût la plus lourde dans la facturation des LLM.

Pour un développeur qui fait tourner des agents IA en boucle, cette économie n'est pas marginale. C'est un changement d'ordre de grandeur. Un agent qui raisonne 100 fois par jour sur des tâches complexes pourrait voir sa facture d'API divisée par 5 à 10, selon la complexité des tâches.

Raisonnement en arrière-plan sans consommer le contexte

C'est peut-être l'implication la plus sous-estimée. Avec le CoT, chaque token de raisonnement occupe de la fenêtre de contexte. Si votre agent raisonne longuement, il mange son propre contexte, laissant moins de place pour les informations utiles.

Avec RiM, le raisonnement se fait dans un espace latent séparé. Le contexte visible n'est pas pollué par les étapes intermédiaires. Un agent peut « réfléchir » intensément tout en conservant l'intégralité de son contexte pour les données réellement pertinentes.

Cela ouvre la porte à des architectures d'agents beaucoup plus sophistiquées, capables de maintenir de longues conversations avec des utilisateurs tout en effectuant un raisonnement complexe en arrière-plan. Pour les meilleurs agents IA autonomes, c'est un changement de paradigme.

Impact sur les architectures RAG agentiques

Le papier LatentRAG explore précisément cette intersection : le raisonnement latent dans un contexte RAG agentique. LatentRAG distingue les tâches de génération pure des tâches nécessitant l'émission de tokens de sous-requête (par exemple, formuler une requête de recherche).

La combinaison RiM + LatentRAG suggère une architecture où l'agent raisonne en latent pour planifier ses actions, n'émet des tokens que pour les communications nécessaires (requêtes vers un moteur de recherche, réponses finales), et consomme un minimum de contexte. C'est l'architecture d'agent optimal vers laquelle le domaine converge.


Implications pour les modèles actuels

Quels modèles pourraient en bénéficier ?

D'après les résultats compilés sur AI Models FYI, RiM fonctionne sur différentes familles et tailles de modèles. Cela signifie que l'approche n'est pas limitée à une architecture spécifique.

Les modèles qui bénéficieraient le plus sont ceux déjà orientés vers le raisonnement complexe. GPT-5.5 (score agentic 98.2), Gemini 3 Pro Deep Think (95.4) et Claude Opus 4.7 Adaptive (94.3) sont des candidats naturels. Leurs capacités de raisonnement sont déjà avancées ; RiM pourrait les rendre beaucoup plus efficientes.

Pour les meilleurs LLM pour la recherche comme Perplexity ou NotebookLM, le latent reasoning pourrait transformer l'expérience : des réponses plus rapides, moins coûteuses, avec un raisonnement en arrière-plan qui ne pollue pas l'interface.

Et les modèles locaux ?

C'est là que ça devient vraiment intéressant. L'un des freins majeurs aux LLM locaux est la lenteur du raisonnement. Un modèle de 70B paramètres en CoT sur un MacBook Pro génère des tokens lentement, et le raisonnement en souffre.

Avec RiM, le modèle pourrait itérer dans l'espace latent sans générer de tokens, ce qui est un calcul matriciel pur — nettement plus rapide sur un GPU grand public. Pour les agents IA avec Ollama, cela pourrait signifier des agents locaux capables d'un raisonnement complexe sans les latences insupportables du CoT.

Si vous envisagez d'installer un LLM local, gardez un œil sur les implémentations open source de RiM. C'est potentiellement le killer feature qui rend les agents locaux véritablement utilisables.


Comparaison avec les approches de raisonnement existantes

Approche Mécanisme Coût par token Consommation contexte Traçabilité Vitesse
Chain-of-Thought Génération séquentielle de tokens Plein tarif sortie Élevée (chaque token occupe le contexte) Complète Lente
Tree-of-Thought Exploration de branches en tokens Très élevé (multiples branches) Très élevée Complète (par branche) Très lente
Raisonnement latent (Meta) Boucle récurrente dans l'espace latent Faible (pas de tokens sortis) Nulle Aucune Rapide
RiM (ce papier) Working memory latent par blocs Faible (pas de tokens sortis) Nulle Aucune Rapide
LatentRAG Latent reasoning + tokens de sous-requête uniquement Modéré Faible Partielle (sous-requêtes visibles) Modérée

Le tableau est clair : RiM et les approches de latent reasoning dominent sur le coût, la consommation de contexte et la vitesse. Ils perdent sur la traçabilité. Le compromis dépend entièrement de votre use case.


Les limites actuelles de l'approche RiM

L'opacité du raisonnement

C'est le trade-off fondamental. Quand GPT-5.5 produit un CoT de 3000 tokens, vous pouvez lire chaque étape, identifier les erreurs de logique, et éventuellement intervenir. Avec RiM, vous obtenez une réponse sans accès au cheminement interne.

Pour le débogage d'agents, c'est un défi. Quand un agent prend une mauvaise décision, comprendre pourquoi est essentiel. Le latent reasoning rend ce diagnostic beaucoup plus difficile. Les développeurs devront développer de nouveaux outils d'interprétabilité spécifiques à l'espace latent.

La généralisation à toutes les tâches

Le papier montre des résultats solides sur les benchmarks de raisonnement. Mais le raisonnement « pur » (logique formelle, mathématiques, planification) est un sous-ensemble des tâches que les LLM accomplissent. Pour la rédaction de code, par exemple, le CoT a un avantage : le modèle peut expliquer sa logique de structuration, ce qui est utile pour la maintenabilité.

Pour les LLM en français, la question de la qualité du raisonnement latent dans des langues moins représentées dans les données d'entraînement reste ouverte. Le raisonnement dans l'espace latent est-il aussi robuste quand le modèle doit produire une réponse dans une langue secondaire ?

L'infrastructure nécessaire

Paradoxalement, bien que RiM réduise les coûts de tokens, il requiert une infrastructure de calcul différente. Les itérations dans l'espace latent sont des opérations matricielles denses qui sollicitent différemment le GPU. Les providers d'API devront adapter leur infrastructure pour optimiser ce type de calcul, ce qui ne sera pas immédiat.


L'écosystème de recherche autour du latent reasoning

Ce papier n'est pas isolé. Il s'inscrit dans un mouvement clair de la recherche vers le découplage raisonnement/génération.

Le papier LatentRAG montre que la communauté explore activement comment intégrer le raisonnement latent dans des architectures plus larges, notamment les systèmes RAG. La distinction entre tâches nécessitant des tokens de sous-requête et tâches purement internes est un cadre de pensée qui va structurer la prochaine génération d'agents.

L'approche de Meta sur le raisonnement latent continu, avec les préoccupations éthiques qu'elle soulève, montre que le domaine prend maturité. La communauté ne se contente plus de mesurer les performances : elle questionne les implications d'un raisonnement invisible.

Le deep-dive sur l'architecture récurrente de deep-diver offre une perspective technique complémentaire, en se concentrant sur les mécanismes de scaling du test-time compute sans tokens intermédiaires.

RiM se positionne comme la synthèse la plus aboutie de ces différentes pistes : une architecture structurée (working memory par blocs), généralisable (plusieurs familles de modèles), et qui élimine la contrainte de supervision step-level.


Ce que les développeurs doivent faire maintenant

Court terme : optimiser l'utilisation du CoT existant

RiM n'est pas encore déployé dans les API commerciales. En attendant, optimisez votre utilisation du CoT. Utilisez des modèles qui proposent un raisonnement adaptatif comme Claude Opus 4.7 (Adaptive), qui ajuste automatiquement la profondeur du raisonnement selon la complexité. Limitez le CoT aux tâches qui en bénéficient réellement.

Pour les tâches simples, désactivez le raisonnement étendu. Chaque token de CoT inutile est de l'argent gaspillé. Les meilleurs LLM gratuits comme Gemini ou ChatGPT free proposent parfois des modes de raisonnement simplifiés qui suffisent pour les cas triviaux.

Moyen terme : surveiller les implémentations

La page Hugging Face Papers est le meilleur endroit pour suivre les implémentations open source de RiM. Dès qu'une implémentation efficace sera disponible, testez-la sur vos cas d'usage spécifiques avec un LLM local avant de l'intégrer en production.

Pour les hébergements d'agents, des solutions comme Hostinger offrent l'infrastructure GPU nécessaire pour expérimenter avec ces approches à un coût maîtrisé.

Long terme : repenser l'architecture de vos agents

Le latent reasoning change fondamentalement l'architecture des agents IA. Si le raisonnement ne consomme plus de contexte et ne coûte plus de tokens, vous pouvez concevoir des agents qui réfléchissent beaucoup plus, beaucoup plus souvent, et sur des problèmes beaucoup plus complexes.

Imaginez un agent de recherche qui itère 50 fois en latent sur la reformulation d'une requête avant de la soumettre à un moteur de recherche. Le résultat serait une précision nettement supérieure, pour un coût marginal. C'est le type d'architecture que RiM rend possible.


❌ Erreurs courantes

Erreur 1 : Confondre latent reasoning avec un simple résumé interne

Ce n'est pas un résumé du CoT. Le modèle ne « compresse » pas ses pensées. Il itère sur une représentation mathématique dans un espace de haute dimension. Le processus est fondamentalement différent de la génération puis compression de texte. L'erreur conduit à sous-estimer la puissance de l'approche.

Erreur 2 : Penser que RiM remplace entièrement le CoT

RiM est supérieur sur les benchmarks de raisonnement pur. Mais pour les tâches où la traçabilité est requise (audit, débogage, éducation), le CoT reste irremplaçable. L'erreur est de vouloir tout migrer vers le latent reasoning. La bonne approche est hybride : latent pour la performance, CoT pour l'explicabilité.

Erreur 3 : Ignorer les contraintes d'infrastructure

Moins de tokens ne signifie pas « tourne sur n'importe quoi ». Les itérations latentes sont des calculs denses qui nécessitent une VRAM suffisante et une bande passante mémoire GPU adaptée. L'erreur est de déployer RiM sur une infrastructure sous-dimensionnée en supposant que « pas de tokens = pas de ressources ».


❓ Questions fréquentes

RiM fonctionne-t-il sur tous les modèles LLM ?

D'après les résultats sur AI Models FYI, RiM fonctionne sur différentes familles et tailles de modèles. Cependant, il nécessite un fine-tuning spécifique. Vous ne pouvez pas l'activer comme un simple paramètre sur un modèle existant sans préparation.

Le raisonnement latent est-il plus rapide que le CoT ?

Oui, significativement. Les itérations dans l'espace latent sont des opérations matricielles parallélisables, sans la latence séquentielle de la génération autoregressive de tokens. La vitesse dépend du nombre d'itérations, mais reste largement inférieure au CoT équivalent.

Peut-on combiner RiM avec du RAG ?

C'est exactement ce qu'explore le papier LatentRAG. L'agent raisonne en latent pour planifier, émet des tokens uniquement pour les sous-requêtes de recherche, puis raisonne à nouveau en latent sur les résultats. C'est l'architecture la plus prometteuse pour les agents RAG de prochaine génération.

Quels sont les risques d'un raisonnement invisible ?

L'opacité rend le débogage difficile et soulève des questions de sécurité. Sans accès aux étapes intermédiaires, détecter un raisonnement biaisé ou erroné est plus complexe. C'est un compromis accepté pour les use cases non critiques, mais problématique pour les domaines réglementés.


✅ Conclusion

Le papier RiM marque un point de bascule : le raisonnement des LLM n'a plus besoin de passer par la génération de tokens. Le working memory latent ouvre la voie à des agents plus rapides, moins chers, et capables de raisonner en arrière-plan sans polluer leur contexte. Les développeurs qui comprendront cette architecture auront un avantage décisif dans la conception de la prochaine génération d'agents IA.