PageIndex : le RAG sans vecteurs qui raisonne au lieu de chercher
🔎 Le RAG classique vient de prendre un coup de vieux
Le Retrieval-Augmented Generation dominait le paysage IA depuis trois ans. La recette semblait figée : découper un document en chunks, les transformer en embeddings, stocker le tout dans une base vectorielle, puis interroger par similarité cosinus.
Le problème ? Cette approche atteint ses limites. Les chunks cassent la logique des documents. La similarité vectorielle confond proximité sémantique et pertinence réelle. Et quand le contexte demande une compréhension globale d'un rapport de 200 pages, le système se noie.
PageIndex, publié par VectifyAI fin mai 2026 sur GitHub, propose un changement de paradigme radical. Au lieu de chercher des vecteurs proches, le système construit un index hiérarchique de vos documents et laisse le LLM raisonner dessus. Résultat : 98,7% de précision sur FinanceBench, un benchmark financier réputé impitoyable.
953 stars en un seul jour sur GitHub. Le message de la communauté est clair : le RAG vectoriel n'était pas une fin en soi, c'était un palliatif.
L'essentiel
- PageIndex élimine complètement les bases de données vectorielles et le chunking artificiel. Il construit un index en arbre (type table des matières) de vos documents.
- Le retrieval se fait par raisonnement du LLM via une recherche arborescente inspirée d'AlphaGo, pas par similarité cosinus.
- Le système atteint 98,7% sur FinanceBench, ce qui constitue un nouveau state-of-the-art sur ce benchmark.
- Une version chat (chat.pageindex.ai), une API, un serveur MCP et un système de fichiers scalable à des millions de documents sont déjà disponibles.
- L'approche "human-like" garantit une traçabilité complète : chaque réponse référence la page et la section exacte du document source.
Outils recommandés
| Outil | Usage principal | Prix (mai 2026, vérifiez sur github.com) | Idéal pour |
|---|---|---|---|
| PageIndex (open-source) | RAG vectorless sur vos propres documents | Gratuit (MIT) | Développeurs qui veulent contrôler leur pipeline RAG |
| PageIndex Chat | Interface conversationnelle prête à l'emploi | Gratuit (avec limits) | Tests rapides, démos, non-techniciens |
| PageIndex API | Intégration dans applications tierces | Gratuit (self-hosted) / SaaS via pageindex.ai | Productions nécessitant une API REST |
| PageIndex MCP | Connexion aux agents IA (Claude, etc.) | Gratuit (self-hosted) | Workflows agentic avec accès documentaire |
| PageIndex File System | Scaling à millions de documents | Gratuit (self-hosted) | Entreprises avec de gros volumes documentaires |
Le problème fondamental du RAG vectoriel
Le RAG classique repose sur un postulat fragile : deux textes sémantiquement proches dans l'espace des embeddings sont pertinents l'un pour l'autre. Ce postulat vaut pour des questions factuelles simples. Il s'effondre dès qu'on pose des questions analytiques.
Prenons un rapport financier annuel. Question : "Quelle est la stratégie de couverture de change décrite par la direction, et comment se compare-t-elle aux risques identifiés en page 47 ?"
Un RAG vectoriel va chercher des chunks individuels contenant des mots comme "change", "couverture", "risque". Il va probablement retourner des morceaux déconnectés. La réponse sera approximative, voire fausse, car le système n'a jamais compris la structure argumentative du document.
Le chunking aggrave ce problème. Découper un texte tous les 512 tokens est une opération aveugle. Elle peut séparer une prémisse de sa conclusion, couper un tableau en deux, ou isoler une référence de son contexte. C'est comme lire un livre en piochant des paragraphes au hasard.
Pour comprendre ces limites en profondeur, notre article sur le RAG pour les nuls détaille exactement comment la mémoire contextuelle fonctionne — et comment elle casse quand les chunks sont mal calibrés.
Comment PageIndex raisonne au lieu de chercher
PageIndex inverse complètement la logique. Plutôt que de projeter des fragments de texte dans un espace vectoriel puis de chercher les plus proches, il construit une représentation structurée de l'ensemble du document.
L'index hiérarchique en arbre
Le système analyse chaque document et génère un index arborescent, comparable à une table des matières détaillée. Chaque nœud de l'arbre représente une section, avec ses métadonnées : numéro de page, titre, sous-titres, résumé du contenu.
Concrètement, pour un PDF de 150 pages, PageIndex ne crée pas 300 chunks. Il crée une carte mentale du document, avec des branches thématiques et des feuilles correspondant aux sections réelles. Pas de découpage artificiel.
La recherche arborescente inspirée d'AlphaGo
C'est ici que le lien avec AlphaGo devient concret. Quand une question arrive, PageIndex ne fait pas un simple lookup. Il lance un processus de raisonnement en arbre (tree search) où le LLM explore les branches de l'index, évalue la pertinence de chaque section, et descend progressivement vers les passages les plus pertinents.
Le LLM lit les résumés de haut niveau, décide quelle branche explorer, lit les sous-sections, affine, et finit par atterrir sur le contenu exact. Exactement comme un humain feuilleterait un livre : on lit la table des matières, on identifie le chapitre prometteur, on va à la bonne page.
Le résultat est un retrieval context-aware. Le système comprend non seulement où chercher, mais pourquoi cette section est pertinente pour la question posée.
Les benchmarks : 98,7% sur FinanceBench
FinanceBench est considéré comme l'un des benchmarks les plus exigeants pour les systèmes RAG. Il contient des questions financières complexes nécessitant de croiser des informations provenant de différents rapports annuels.
Le score de 98,7% de PageIndex n'est pas une amélioration marginale. C'est un bond qui change la nature même du problème. Les meilleurs systèmes RAG vectoriels plafonnent autour de 80-85% sur ce benchmark, et ce en optimisant agressivement la taille des chunks, le modèle d'embedding et la stratégie de reranking.
PageIndex atteint ces performances sans aucun de ces leviers d'optimisation. Pas de chunk size à tuner, pas de modèle d'embedding à sélectionner, pas de reranker à ajouter. La simplicité architecturale est frappante.
Le facteur clé est le raisonnement. Sur FinanceBench, les questions exigent souvent de suivre un fil logique à travers plusieurs sections d'un même document. Un chunk retriever ne peut pas faire ça. Un raisonneur en arbre le fait naturellement.
Cas d'usage où PageIndex surpasse le RAG traditionnel
Les documents longs et structurés
Rapports annuels, contrats juridiques, documentation technique, publications scientifiques. Tout ce qui possède une structure interne forte (chapitres, sections, annexes) est un candidat naturel pour PageIndex. Le RAG vectoriel détruit cette structure ; PageIndex l'exploite.
Les questions analytiques et multi-étapes
"Comparez la stratégie d'expansion asiatique décrite en 2024 avec les résultats réels présentés en 2025." Ce type de question nécessite de localiser deux sections différentes, de les comprendre dans leur contexte, puis de synthétiser. Le RAG vectoriel échoue structurellement. PageIndex excelle.
La traçabilité réglementaire
Dans les secteurs régulés (finance, santé), chaque réponse doit pouvoir être tracée vers une source précise. PageIndex référence systématiquement la page et la section d'origine. Ce n'est pas un add-on, c'est inhérent à la méthode : le raisonnement passe par l'index, donc la traçabilité vient gratuitement.
Les documents avec tableaux et figures
Les embeddings vectoriels gèrent mal les tableaux et les figures, qui perdent leur sens quand on les isole de leur légende ou de leur contexte narratif. PageIndex préserve l'intégrité de ces éléments car il ne découpe pas.
Si vous hésitez entre cette approche et d'autres méthodes d'enrichissement des modèles, notre comparatif fine-tuning vs RAG vs prompting aide à positionner chaque technique selon le contexte.
L'écosystème PageIndex : bien plus qu'un repo GitHub
PageIndex Chat pour tester immédiatement
L'équipe a mis en ligne chat.pageindex.ai, une interface conversationnelle où n'importe qui peut uploader des documents et interagir avec eux via le RAG vectorless. C'est le moyen le plus rapide de se rendre compte de la différence qualitative par rapport à un chat RAG classique.
L'expérience est surprenante. Les réponses sont plus précises, plus ancrées dans le document, et surtout, les références sont exactes. Pas de "page 12" qui pointe vers un contenu non pertinent.
L'API et le serveur MCP
Pour les intégrations, PageIndex expose une API via pageindex.ai/developer. Mais plus intéressant encore : le serveur MCP permet de connecter PageIndex directement à des agents IA comme Claude Desktop ou tout agent basé sur le Model Context Protocol.
Un agent Claude peut ainsi interroger votre documentation d'entreprise via PageIndex, avec la garantie que le retrieval est basé sur le raisonnement et non sur la similarité vectorielle. C'est un gain de fiabilité considérable pour les workflows agentic.
PageIndex File System pour le scaling
Pour les organisations qui ont des millions de documents, PageIndex File System offre une architecture scalable. L'index hiérarchique se prête naturellement à la distribution : chaque document a son arbre, et le système peut gérer une forêt d'arbres sans complexité croissante.
L'exemple Agentic Vectorless RAG
VectifyAI a publié un exemple utilisant l'OpenAI Agents SDK qui combine PageIndex avec un agent autonome. L'agent peut itérer sur sa recherche, affiner sa compréhension, et poser des questions de suivi — le tout en s'appuyant sur le raisonnement arborescent de PageIndex pour chaque étape de retrieval.
C'est une architecture qui commence à ressembler à un assistant de recherche documentaire véritablement intelligent, pas à un moteur de recherche enrobé dans un chatbot.
Vectorless vs Vector-based : comprendre la différence conceptuelle
La distinction n'est pas technique seulement. Elle est épistémologique.
Le RAG vectoriel part du principe que le sens est capturable dans un vecteur. Que la proximité géométrique dans un espace à haute dimension reflète la pertinence sémantique. Ce postulat marche pour la classification et la recommandation. Il montre ses limites pour le raisonnement documentaire.
PageIndex part du principe que le sens d'un document réside dans sa structure et dans la capacité d'un LLM à naviguer cette structure. Le document n'est pas une collection de fragments à projeter. C'est un arbre logique à explorer.
La métaphore de la bibliothèque est éclairante. Le RAG vectoriel, c'est photocopier toutes les pages de tous les livres, les jeter en l'air, et ramasser les feuilles qui ressemblent à votre question. PageIndex, c'est utiliser le catalogue de la bibliothèque, trouver le bon rayon, le bon ouvrage, la bonne page — exactement comme un bibliothécaire.
Bien sûr, cette approche a un coût : chaque requête nécessite plusieurs étapes de raisonnement (le tree search), ce qui consomme plus de tokens qu'un simple appel d'embedding. Mais la baisse de latence observée avec les modèles récents compense largement ce surcoût. Et surtout, la qualité des réponses rend la comparaison de coût hors sujet pour les cas d'usage critiques.
Pour les projets où le budget est un facteur bloquant, notre guide sur les modèles gratuits sans sacrifier la qualité montre comment optimiser les coûts d'inférence sans perdre en performance.
Les limites actuelles de PageIndex
L'honnêteté commande de pointer les faiblesses. D'abord, la dépendance au modèle de raisonnement. PageIndex délègue le tree search au LLM. Si le LLM est faible (petit modèle, mauvais prompt), l'index ne sert à rien. Un système RAG vectoriel avec un bon embedding peut fonctionner avec un modèle de reranking léger. PageIndex nécessite un modèle de raisonnement costaud.
Ensuite, le temps de construction de l'index. Pour un document complexe, générer l'arbre hiérarchique prend plus de temps que de splitter en chunks et de générer des embeddings. C'est un investissement initial plus lourd, partiellement compensé par le fait qu'il n'y a pas de chunk size à réoptimiser ensuite.
Enfin, les documents non structurés. Si vous avez un tas de notes informelles, de threads email, ou de transcripts sans structure, l'index hiérarchique de PageIndex apporte moins de valeur. Le système est conçu pour des documents avec une organisation interne. Sur du contenu plat, l'avantage par rapport au RAG vectoriel se réduit.
❌ Erreurs courantes
Erreur 1 : Confondre PageIndex avec un simple reranker
Un reranker prend les résultats d'un retriever vectoriel et les réordonne. PageIndex ne rerank rien : il remplace entièrement l'étape de retrieval. Il n'y a pas de vecteurs, pas de similarité cosinus, pas de candidats à reranker. Appliquer un reranker par-dessus PageIndex n'a pas de sens.
Erreur 2 : Utiliser PageIndex sur des documents non structurés
Si vos données sont des logs, des tweets, ou des fragments de texte sans organisation interne, l'index arborescent n'apportera pas grand-chose. Le RAG vectoriel reste adapté à ces cas. PageIndex brille sur les documents qui ont une table des matières, des chapitres, des sections — bref, une architecture textuelle.
Erreur 3 : Sous-estimer le coût du raisonnement par requête
Chaque query avec PageIndex déclenche un tree search qui peut impliquer plusieurs appels LLM. Sur un volume de requêtes élevé, la facture de tokens peut être significative. Il faut dimensionner en conséquence et ne pas remplacer un système vectoriel optimisé par PageIndex sans calculer le coût par requête.
Erreur 4 : Ignorer le modèle de raisonnement sous-jacent
PageIndex n'est pas magique. Si le LLM qui effectue le tree search est incapable de comprendre la structure de vos documents (jargon très technique, langues peu représentées), les performances chuteront. Le choix du modèle de raisonnement est un paramètre critique, pas un détail.
❓ Questions fréquentes
PageIndex remplace-t-il complètement les bases vectorielles ?
Non. Pour la recherche de similarité pure (trouver des documents "comme celui-ci"), les bases vectorielles restent pertinentes. PageIndex remplace le RAG basé sur la similarité vectorielle pour les questions analytiques sur des documents structurés.
Quel LLM utiliser avec PageIndex ?
Un modèle avec de bonnes capacités de raisonnement. Les benchmarks ont été réalisés avec des modèles de pointe. Les petits modèles open-source peuvent fonctionner mais avec une baisse de qualité proportionnelle à leur capacité de raisonnement.
PageIndex gère-t-il les PDFs scannés ?
Non directement. Comme tout système RAG, il nécessite d'abord une étape d'OCR. L'index arborescent se construit sur du texte structuré, pas sur des images de pages.
Peut-on combiner PageIndex avec du fine-tuning ?
Oui, et c'est même pertinent. Le fine-tuning peut améliorer le domaine spécifique du modèle de raisonnement, tandis que PageIndex gère le retrieval. Les deux approches sont orthogonales.
Le score de 98,7% sur FinanceBench est-il reproductible ?
Le score provient du repository GitHub officiel de VectifyAI (mai 2026). La reproductibilité dépend du modèle de raisonnement utilisé et de la configuration exacte. Il faut le vérifier sur votre propre infrastructure.
✅ Conclusion
PageIndex ne propose pas une meilleure version du RAG vectoriel — il propose de l'abandonner. En remplaçant la similarité cosinus par un raisonnement en arbre sur un index hiérarchique, il résout les problèmes structurels qui gangrenaient le RAG classique depuis ses débuts. Les 98,7% sur FinanceBench et les 29 284 stars en quelques jours sur GitHub confirment que le passage du "chercher" au "raisonner" n'est pas un gimmick, c'est un changement de paradigme. Le RAG vectoriel avait cinq ans d'avance ; il vient d'en perdre trois d'un coup.