Is Grep All You Need? : pourquoi les agents IA préfèrent grep à la recherche vectorielle
🔎 Le RAG vient de perdre son statut de default
Pendant trois ans, la communauté IA a construit un dogme : pour qu'un agent accède à une base de connaissances, il faut une base vectorielle, des embeddings, et un pipeline RAG. Ce dogme vient de prendre un coup de vieux.
Un papier publié sur arXiv en mai 2026 (2605.15184) montre qu'un agent CLI atteint 93% de précision avec un simple grep inline sur des questions complexes, mais chute à 55% quand le même grep est appelé en mode programmatique. Même algorithme, mêmes données, résultats radicalement différents. La variable qui change ? L'architecture du harness agent.
Anthropic a d'ailleurs remplacé son propre pipeline RAG par de l'agentic search, selon le témoignage de Robert Heubanks. Un papier d'Amazon Science (AAAI 2026) mesure la recherche par mots-clés agentic à 94,5% de la fidélité du RAG, sans vector store. Le message est clair : le retrieval n'est plus un problème d'algorithme, c'est un problème d'architecture agent.
Doug Turnbull, ingénieur de recherche et commentateur du papier, résume la situation : l'agent qui construit ses propres commandes grep dynamiquement dans un shell bash outperforme tout pipeline RAG prédéfini. Le grep devient un outil natif de l'agent, pas un service externe.
L'essentiel
- Un agent CLI avec grep inline atteint 93% de précision sur LongMemEval (116 questions), mais chute à 55% en mode programmatique — même algorithme, architecture différente.
- Anthropic a remplacé son pipeline RAG interne par de l'agentic search piloté par un modèle frontier.
- Un papier d'Amazon Science (AAAI 2026) montre que Search-R1, entraîné par RL, bat le RAG classique de 24% en relatif, sans vector store.
- La base vectorielle passe du statut de default à celui de fallback dans les stacks modernes.
- L'architecture du harness agent (comment l'agent invoque l'outil) prime sur le choix de l'algorithme de retrieval.
Outils recommandés
| Outil | Usage principal | Prix (juin 2025, vérifiez sur site officiel) | Idéal pour |
|---|---|---|---|
| Claude Code | Agent CLI avec accès shell natif | Abonnement Pro/Team | Développement avec grep inline |
| Codex CLI | Agent CLI OpenAI | Abonnement ChatGPT Plus | Agents autonomes en ligne de commande |
| Gemini CLI | Agent CLI Google | Abonnement Google AI | Recherche agentic multi-sources |
| Hostinger | Hébergement pour déployer des agents | À partir de 2,99 €/mois | Infrastructure d'agents IA |
Ce que le papier prouve réellement
Le papier "Is Grep All You Need? How Agent Harnesses Reshape Agentic Search" ne dit pas que grep est magique. Il dit quelque chose de plus profond : la frontière entre "stratégie de retrieval" et "capacité de l'agent" s'est effondrée.
L'expérience est rigoureuse. 116 questions de LongMemEval, un harness custom appelé Chronos, et trois CLI natifs testés : Claude Code, Codex et Gemini CLI. Le protocole compare deux modes d'invocation du même outil grep : inline (l'agent tape la commande directement dans le shell) et programmatique (l'agent appelle grep via une API ou un wrapper structuré).
Les résultats sont sans appel. 93% en inline, 55% en programmatique. Ce n'est pas une différence marginale, c'est un gouffre de 38 points. Et pourtant, la commande grep exécutée est identique.
Ce que le papier isole, c'est l'effet harness. Quand l'agent a un accès shell natif, il peut itérer sur sa commande grep, affiner les patterns, combiner avec d'autres outils Unix, et construire une chaîne de retrieval dynamique. En mode programmatique, il est contraint par le schéma de l'API, les paramètres prédéfinis, et la perte de contexte entre les appels.
Comme le note Doug Turnbull dans son analyse, le grep comme outil natif dans bash permet à l'agent de construire ses propres commandes dynamiquement, plutôt que d'être limité par une API de recherche prédéfinie. L'architecture du harness agent prime sur l'algorithme de retrieval.
Pourquoi le RAG classique est devenu un goulot d'étranglement
Le RAG a été la réponse par défaut à un problème réel : comment donner accès à un corpus de documents à un LLM sans le mettre dans le prompt. L'approche était logique : embedder les documents, stocker dans une base vectorielle, faire une recherche sémantique, injecter les top-k résultats dans le contexte.
Le problème ? Cette approche fige la stratégie de retrieval au moment de la conception du pipeline. L'ingénieur choisit le modèle d'embedding, le seuil de similarité, le nombre de chunks à récupérer. L'agent, lui, n'a aucun contrôle sur cette stratégie. Il reçoit les résultats et doit faire avec.
C'est exactement ce que le papier d'Amazon Science (AAAI 2026) démontre. Buzz Grewal rapporte que Search-R1, un modèle entraîné par reinforcement learning pour la recherche agentic, bat le RAG de 24% en relatif. La recherche par mots-clés agentic atteint 94,5% de la fidélité du RAG, sans aucune base vectorielle.
La raison est structurelle. Dans l'agentic search, l'agent décide de la stratégie de retrieval au moment de la requête. Il peut choisir grep pour une recherche exacte, un grep récursif pour un pattern de code, ou basculer vers une recherche vectorielle pour une requête sémantique floue. C'est ce que Pasquale Pillitteri décrit comme des "pipelines hybrides où l'agent décide de l'outil selon le type de requête."
Anthropic a fait ce constat en interne. Robert Heubanks rapporte qu'Anthropic a remplacé son pipeline RAG par de l'agentic search. Quand un modèle frontier pilote la recherche, même en mode hybride, l'agentic search surpasse nettement le RAG traditionnel. Le signal est fort venant d'un des laboratoires qui a le plus popularisé le RAG.
Pour comprendre comment les agents construisent ces chaînes de retrieval dynamiques, voir Les 5 patterns d'agents IA qui marchent, qui détaille les architectures d'agents qui fonctionnent en production.
Inline grep vs programmatique : comprendre le gouffre de 38 points
Le chiffre clé du papier est celui-ci : 93% vs 55%. Même outil, même corpus, même modèle. La seule différence est comment l'agent invoque grep.
En mode inline, l'agent a un accès shell direct. Il tape grep -rn "pattern" --include="*.md" et voit les résultats en temps réel. S'il y a trop de résultats, il affine le pattern. S'il n'y en a pas assez, il élargit. Il peut chaîner avec head, awk, sed, find. Le shell devient un environnement de retrieval interactif.
En mode programmatique, l'agent appelle une fonction search(query="pattern", top_k=10). Il reçoit un JSON structuré en retour. Il ne peut pas itérer finement sur la commande, il ne peut pas combiner avec d'autres outils shell, il perd la fluidité du terminal. Le wrapper API a tué la capacité d'itération de l'agent.
C'est un résultat qui rappelle un principe fondamental de l'interaction homme-machine : l'outil le plus puissant est celui qui offre le moins d'abstraction quand l'utilisateur (ou l'agent) sait s'en servir. Le terminal bash est une interface de retrieval plus riche qu'une API de recherche, parce qu'il compose avec tout l'écosystème Unix.
Cette idée de traitement parallèle et de composition d'outils résonne avec les architectures décrites dans Multi-Stream LLMs : pourquoi le futur des agents IA passe par le traitement parallèle.
Quels modèles tirent le meilleur parti de l'agentic search
Tous les modèles ne sont pas égaux face à l'agentic search. La capacité à construire des commandes grep dynamiques, à itérer sur les résultats, et à décider quand basculer d'outil demande des compétences agentic spécifiques.
Le classement agentic de juin 2025 est éclairant. GPT-5.5 domine avec 98.2, suivi de Gemini 3 Pro Deep Think (95.4) et Claude Opus 4.7 Adaptive (94.3). Ces trois modèles sont ceux qui, dans le papier, obtiennent les meilleurs résultats avec le harness Chronos en mode inline grep.
La corrélation est logique. Un modèle avec un score agentic élevé est précisément un modèle qui sait planifier une séquence d'actions, utiliser des outils, et itérer en fonction des résultats. Ce sont exactement les compétences nécessaires pour exploiter grep comme outil de retrieval dynamique.
En revanche, les modèles moins performants en agentic, comme Grok 4.1 (79) ou GPT-5.3 Codex (80), ont tendance à générer des commandes grep trop larges ou trop spécifiques, sans capacité d'ajustement fin. Leur chute de performance en mode programmatique est encore plus marquée, car ils ne peuvent pas compenser par l'itération shell.
Pour choisir le bon modèle pour vos agents de recherche, consultez notre guide des meilleurs LLM pour les agents IA.
Le RAG n'est pas mort, il est rétrogradé
Il serait faux de conclure que le RAG est inutile. Le papier et les analyses qui l'accompagnent disent quelque chose de plus nuancé : la base vectorielle passe du statut de default à celui de fallback.
L'architecture recommandée par les implémentations enterprise en 2026, décrite par Pasquale Pillitteri, est un pipeline hybride. L'agent dispose de plusieurs outils de retrieval — grep, recherche vectorielle, wiki structuré — et choisit lequel utiliser selon la nature de la requête. Pour une recherche exacte sur un terme technique, grep. Pour une requête sémantique floue sur un concept abstrait, vector search. Pour des faits structurés, le wiki.
C'est un changement de paradigme important. Dans le RAG classique, la recherche vectorielle était le seul outil, appliqué à toutes les requêtes. Dans l'agentic search, elle devient un outil parmi d'autres, utilisé quand c'est approprié. L'agent est le chef d'orchestre, pas le pipeline.
Julian Pavlov, dans son débat sur LinkedIn, résume la tension : le passage du RAG classique à l'agentic search en 2026 n'est pas un remplacement technologique, c'est un changement de couche d'abstraction. On passe d'un pipeline figé à un agent qui construit son pipeline à la volée.
Pour les cas où la recherche vectorielle reste pertinente, voir notre comparatif des meilleurs LLM pour la recherche.
L'impact sur les architectures d'agents en production
Que change ce papier pour les équipes qui construisent des agents IA en production ? Trois choses concrètes.
D'abord, arrêtez de construire des wrappers API autour de vos outils de recherche. Si votre agent a besoin de chercher dans des fichiers, donnez-lui un accès shell, pas une API search(). Le papier montre que l'abstraction API détruit 38 points de précision. C'est un coût inacceptable.
Ensuite, investissez dans le harness agent, pas dans l'algorithme de retrieval. Les équipes passent des semaines à optimiser leur modèle d'embedding, leur chunking strategy, leur seuil de similarité. Le papier suggère que cet effort serait mieux investi dans la conception du harness — comment l'agent invoque les outils, comment il itère, comment il compose les résultats.
Enfin, repensez votre stack de retrieval en termes de boîte à outils, pas de pipeline. L'agent doit avoir accès à grep, à la recherche vectorielle, à des requêtes SQL si pertinent, et il doit décider lequel utiliser. C'est l'approche décrite dans notre guide pour configurer OpenClaw : SOUL, AGENTS et Skills, où l'architecture modulaire permet à l'agent de choisir ses outils dynamiquement.
Pour les équipes qui veulent garder le contrôle sur leurs données en local, les agents IA open source avec Ollama offrent un cadre où le shell et les outils système sont directement accessibles à l'agent.
Les implications pour la recherche d'information enterprise
Le papier a des implications qui dépassent le cadre des agents CLI. Dans les entreprises, des millions sont investis dans des bases vectorielles pour le RAG. Ce papier suggère qu'une partie de ces investissements est mal allouée.
Buzz Grewal rapporte que le papier d'Amazon Science mesure la recherche par mots-clés agentic à 94,5% de la fidélité du RAG. Autrement dit, pour 94,5% des cas d'usage, un agent qui fait du grep agentic est aussi fiable qu'un pipeline RAG complet — sans le coût de la base vectorielle, sans le coût de l'embedding continu, sans la complexité de maintenance.
Les 5,5% restants correspondent aux requêtes où la recherche sémantique est réellement supérieure : concepts abstraits, paraphrases lointaines, croisement de thèmes non explicites. C'est là que la base vectorielle reste utile, en fallback.
Pour les équipes enterprise, la leçon est pragmatique. Commencez par un agent avec grep et recherche par mots-clés. Ajoutez la base vectorielle seulement pour les cas où le grep ne suffit pas. Vous économiserez en infrastructure, en maintenance, et probablement en performance globale — parce qu'un pipeline plus simple est aussi un pipeline avec moins de points de failure.
Pour les cas où un agent autonome doit mener une recherche approfondie multi-étapes, consultez notre guide de la meilleure IA pour la recherche.
Les limites du papier et ce qu'il ne prouve pas
Le papier a des biais qu'il faut acknowledge. L'évaluation est faite sur LongMemEval, un benchmark de 116 questions. C'est un corpus spécifique, avec des types de requêtes spécifiques. La généralisation à d'autres domaines n'est pas démontrée.
Ensuite, les résultats dépendent fortement du modèle utilisé. Un modèle frontier comme GPT-5.5 (98.2 en agentic) ou Claude Opus 4.7 (94.3) sait exploiter le shell de manière sophistiquée. Un modèle moins capable pourrait très bien obtenir de meilleurs résultats avec un pipeline RAG qui guide sa recherche, plutôt qu'avec un shell ouvert où il se perd.
Le papier ne prouve pas non plus que grep est supérieur à la recherche vectorielle dans l'absolu. Il prouve que, dans le contexte spécifique d'un agent CLI avec un harness bien conçu, l'outil de retrieval le plus simple (grep) peut être le plus efficace quand l'agent contrôle l'invocation. C'est subtil mais important.
Enfin, le mode inline grep suppose que l'agent a un accès shell complet, ce qui pose des questions de sécurité en production. Donner un accès bash à un agent n'est pas sans risque, et les contraintes de sécurité en enterprise pourraient rendre le mode programmatique inévitable — avec la perte de 38 points qui va avec. C'est un trade-off que le papier n'explore pas.
Pour explorer les agents les plus avancés qui savent gérer ces trade-offs, voir notre comparatif des meilleurs agents IA autonomes.
❌ Erreurs courantes
Erreur 1 : Confondre "grep est meilleur que le vector search" avec "le harness agent est plus important que l'algorithme"
Le papier ne dit pas que grep bat la recherche vectorielle. Il dit que la manière dont l'agent invoque l'outil (inline vs programmatique) a plus d'impact que le choix de l'algorithme. Remplacer votre base vectorielle par grep sans changer votre architecture d'agent ne vous apportera rien.
Erreur 2 : Supprimer sa base vectorielle après avoir lu cet article
La base vectorielle passe de default à fallback, elle ne disparaît pas. Pour les 5 à 10% de requêtes qui nécessitent une recherche sémantique vraie, elle reste l'outil approprié. L'erreur est de basculer d'un dogme à l'autre.
Erreur 3 : Donner un accès shell sans garde-fous
Le papier mesure les performances en mode inline, mais un accès shell sans sandbox est un risque de sécurité majeur en production. Les résultats de 93% sont ceux d'un environnement contrôlé de benchmark, pas d'un système de production.
Erreur 4 : Ignorer la corrélation avec le score agentic du modèle
Un modèle avec un faible score agentic ne saura pas exploiter un shell, même si vous lui donnez un accès inline. Le harness ne compense pas les lacunes du modèle. Choisissez d'abord le bon modèle, puis optimisez le harness.
❓ Questions fréquentes
L'agentic search remplace-t-il complètement le RAG ?
Non. L'agentic search redéfinit la place du RAG : la recherche vectorielle devient un outil de fallback parmi d'autres dans la boîte à outils de l'agent, pas le pipeline par défaut. Les architectures hybrides sont l'approche recommandée en 2026.
Pourquoi l'inline grep est-il si supérieur au mode programmatique ?
Parce que le shell donne à l'agent la capacité d'itérer, de combiner des commandes Unix, et d'ajuster ses patterns en temps réel. Le mode programmatique fige l'invocation dans un schéma API qui empêche cette itération fine.
Quels modèles utilisent le mieux l'agentic search ?
Les modèles avec les scores agentic les plus élevés : GPT-5.5 (98.2), Gemini 3 Pro Deep Think (95.4), Claude Opus 4.7 Adaptive (94.3). Leur capacité de planification et d'itération est directement corrélée à leur performance en agentic search.
Est-ce applicable en dehors des agents CLI ?
Le principe s'applique au-delà du CLI : tout agent qui peut construire dynamiquement sa requête de retrieval (SQL dynamique, requêtes Elasticsearch construites à la volée) bénéficiera du même effet. Le shell est juste le cas d'école le plus pur.
Faut-il investir dans des bases vectorielles en 2026 ?
Oui, mais en fallback, pas en default. Investissez d'abord dans le harness agent et la capacité de votre agent à choisir ses outils de retrieval. Ajoutez la base vectorielle pour les cas où les autres outils ne suffisent pas.
✅ Conclusion
Le papier "Is Grep All You Need?" ne tue pas le RAG — il le détrône. La leçon n'est pas que grep est magique, mais que l'architecture du harness agent a plus d'impact sur la qualité du retrieval que le choix de l'algorithme. Les 38 points d'écart entre inline et programmatique le prouvant de manière irréfutable. Pour construire des agents de recherche performants, commencez par le harness, pas par la base vectorielle.