Subquadratic sort du stealth avec SubQ : 12 millions de tokens de contexte, fin de l'attention quadratique ?

LLM & Modèles 🟢 Débutant ⏱️ 15 min de lecture 📅 2026-05-09

Subquadratic sort du stealth avec SubQ : 12 millions de tokens de contexte, fin de l'attention quadratique ?

🔎 12 millions de tokens, 4 personnes, 29 millions de dollars

Le 5 mai 2026, une startup de quatre personnes basée à Miami débarquait sur la scène IA avec une annonce fracassante : un modèle de langage capable de gérer 12 millions de tokens de contexte, avec une architecture qui rendrait l'attention quadratique obsolète. Subquadratic, fondée par l'ex-Head of Generative AI de Meta Alexander Whedon et le CEO Justin Dangel, lève 29M$ en seed à une valuation de 500M$.

L'IA n'avait pas vu un tel gap revendiqué depuis l'arrivée des architectures Mixture of Experts. Sauf qu'ici, la promesse est mathématique : remplacer le scaling quadratique de l'attention par du quasi-linéaire. Si c'est vrai, ça ne fait pas que baisser la facture. Ça change la nature même de ce qu'un LLM peut faire avec des données massives.

L'essentiel

SubQ est un LLM avec 12M de tokens de contexte fonctionnel, basé sur une architecture SSA (Subquadratic Selective Attention) qui revendique un scaling linéaire en compute et mémoire.
La startup Subquadratic lève 29M$ en seed (mai 2026), cofondée par Alexander Whedon (ex-Meta) et Justin Dangel, à une valuation de 500M$.
Les claims : 52x plus rapide en prefill à 1M tokens vs FlashAttention 2 sur B200, jusqu'à 300x moins cher que GPT et Claude sur les tâches long-context.
Controverse : des chercheurs pointent que SubQ ressemble à un finetune sparse de Kimi ou DeepSeek. Les benchmarks indépendants manquent.
Produits disponibles dès le lancement : API, SubQ Code (coding agent) et SubQ Search (deep research).

Outils recommandés

Outil	Usage principal	Prix (mai 2026, vérifiez sur subq.ai)	Idéal pour
SubQ API	LLM long-context via API	Pay-per-token, ~8$ pour un test long-context complet	Traitement de documents massifs, agents de recherche
SubQ Search	Deep research avec 12M tokens contexte	Pay-per-query	Analyse de corpus volumineux
SubQ Code	Coding agent avec contexte étendu	Pay-per-session	Codebases entières en contexte

Le problème : pourquoi l'attention quadratique est un plafond

Chaque développeur qui a travaillé avec des LLM le sait : plus vous augmentez la fenêtre de contexte, plus la facture explose. Ce n'est pas un bug, c'est une propriété mathématique fondamentale des transformers.

L'attention standard calcule une matrice de taille N×N où N est le nombre de tokens. Doublez le contexte, le compute est multiplié par quatre. Triplez-le, il est multiplié par neuf. C'est le scaling quadratique.

En pratique, ça signifie que Claude Opus 4.7 ou GPT-5.5 annoncent des fenêtres de contexte de 1 à 2M tokens, mais le coût de les remplir complètement est prohibitif. Et surtout, les performances s'effondrent bien avant la limite théorique — le modèle "oublie" le milieu du contexte, un phénomène documenté dans la littérature depuis 2023.

Subquadratic attaque ce problème directement. Pas en optimisant l'attention existante, mais en changeant sa nature. C'est le sens de leur nom : subquadratic, sous-quadratique. Un compute qui croît quasi-linéairement avec la longueur du contexte, pas quadratiquement.

Pour comprendre l'enjeu économique, voir notre article sur la facturation des LLM : tokens, contexte et coûts.

SSA : comment Subquadratic prétend casser le plafond

L'innovation centrale de SubQ s'appelle SSA (Subquadratic Selective Attention). Le principe est séduisant dans sa simplicité : au lieu de calculer l'attention entre chaque paire de tokens, un mécanisme de routage sparse sélectionne d'abord les tokens pertinents, puis calcule l'attention exacte uniquement sur ce sous-ensemble.

Concrètement, SSA fonctionne en deux étapes. D'abord, un routage dépendant du contenu identifie, pour chaque token, quels autres tokens du contexte sont réellement pertinents. Ensuite, l'attention standard est calculée uniquement sur ces paires sélectionnées. Le résultat : une complexité qui passe de O(N²) à un scaling quasi-linéaire.

Subquadratic revendique que ce n'est pas de l'approximation. L'attention calculée sur les tokens sélectionnés est exacte. La différence avec les approches sparse classiques (comme Sparse Transformer de OpenAI en 2019), c'est que le routage est dynamique et dépendant du contenu, pas fixé à l'avance.

Les chiffres avancés sont impressionnants. Selon l'analyse technique d'ExplainX, SSA serait 52x plus rapide en prefill à 1M tokens comparé à FlashAttention 2 sur un B200. En termes de coût, BuildToThrive rapporte que SubQ peut traiter les mêmes tests long-context qu'un modèle frontier pour environ 8$ — soit 300x moins cher.

Le site officiel de Subquadratic précise que le modèle fonctionne jusqu'à 12M tokens là où d'autres modèles frontier "s'effondrent bien avant leur limite annoncée de 1M". 12M de tokens, c'est environ 9 millions de mots, soit l'équivalent de 120 livres.

Benchmarks : solide sur le retrieval, des nuances nécessaires

C'est ici que les choses se compliquent. Subquadratic affirme que SubQ surpasse GPT-5.5 sur les benchmarks de retrieval long-context. Le benchmark RULER, référence du domaine, montre une parité avec Claude Opus 4.6 selon l'analyse du Data Science Collective.

Mais le diable est dans les détails. Jake Cuthbertson a décortiqué les claims et a trouvé que le score MRCR v2 de SubQ (65.9) est inférieur à celui de GPT-5.5 (74.0). Le framing "outperforms" serait techniquement vrai seulement sur une base cherry-picked par modèle — SubQ serait comparé à GPT-5.5 sur certains sous-benchmarks de retrieval, pas sur le score global.

En clair : SubQ semble particulièrement fort sur la tâche spécifique de retrouver une information dans un contexte très long. C'est exactement ce que SSA est censé optimiser. Mais sur des tâches de raisonnement général, il ne rivalise pas encore avec les frontier models établis.

Pour le moment, la première version disponible est SubQ 1M-Preview, selon Diverse Daily. La version 12M est présentée comme fonctionnelle en recherche mais pas encore déployée à large échelle via l'API.

Ce positionnement en tant que spécialiste du long-context le place en concurrence directe avec les meilleurs LLM pour la recherche comme Perplexity ou NotebookLM, mais avec une proposition différente : plutôt qu'un produit fini, SubQ offre la brique fondamentale.

Ce que ça change pour les agents IA

Là où SubQ pourrait véritablement faire la différence, c'est dans le domaine des agents IA. Un agent qui doit naviguer dans un codebase, analyser des logs ou raisonner sur un corpus documentaire a besoin de contexte — et de contexte fiable, pas d'un résumé qui perd les détails.

Aujourd'hui, quand vous donnez un gros contexte à un LLM, deux problèmes se posent. Le coût explose quadratiquement. Et la qualité dégrade : le modèle est moins précis sur les informations au milieu du contexte qu'au début ou à la fin. C'est le fameux "lost in the middle" effect.

Avec un scaling linéaire, un agent pourrait ingérer l'intégralité d'un repo Git, tous les logs d'une semaine, ou un set complet de documents juridiques — pour le même coût qu'un appel standard à un modèle frontier. La différence n'est pas incremental. C'est structurelle.

Pour les développeurs qui construisent des agents, la gestion du contexte est un enjeu central. Notre article sur les sessions et contexte de conversation avec Hermes Agent détaille comment les agents gèrent aujourd'hui ces contraintes. SubQ pourrait rendre certaines de ces contorsions obsolètes.

De même, les fichiers de contexte comme CLAUDE.md ou AGENTS.md servent aujourd'hui à injecter de l'information structurée dans un contexte limité. Avec 12M tokens, la notion même de "fichier de contexte" pourrait évoluer vers quelque chose de beaucoup plus riche.

SubQ n'est pas encore listé dans notre comparatif des meilleurs LLM pour les agents IA, mais si les benchmarks de retrieval se confirment, il y a peu de doutes qu'il y entrera rapidement.

L'équipe : quatre personnes, un pedigree solide

L'histoire de Subquadratic est presque aussi frappante que ses claims techniques. Selon Refresh Miami, l'idée est née lors d'un trajet à vélo à Broward entre Justin Dangel et Alexander Whedon.

Le profil de Whedon est le point d'ancrage de crédibilité de la startup. Ex-Head of Generative AI chez Meta, il a supervisé des projets à l'échelle de l'un des plus grands déploiements d'IA au monde. Le CEO Justin Dangel complète avec un profil business. Les investisseurs de ce seed de 29M$ incluent Justin Mateen (co-fondateur de Tinder) et Javier Villamizar (ex-SoftBank Vision Fund), selon SiliconANGLE.

Quatre personnes. 29M$ à 500M$ de valuation. C'est agressif, même par les standards de 2026. Mais le pedigree de Whedon et la nature fondamentalement nouvelle de l'approche ont suffi à convaincre les investisseurs.

FelloAI note que la startup est fondée à Miami, un écosystème qui monte mais qui n'a pas encore la densité technique de la Bay Area ou de Paris. Un détail qui compte quand on recrute des chercheurs en attention mechanisms.

Le scepticisme : 1000x, vraiment ? Les chercheurs veulent des preuves

C'est le passage obligé de tout article sur SubQ : le scepticisme de la communauté recherche. Et il est largement justifié.

Le claim de "1000x d'efficacité" circule dans les titres, mais la réalité technique est plus nuancée. Le 52x de speedup sur le prefill est mesuré par rapport à FlashAttention 2 — pas FlashAttention 3, ni des optimisations plus récentes. Le 300x de réduction de coût compare un appel SubQ à un appel GPT-5.5 ou Claude Opus avec le même nombre de tokens, sans tenir compte du fait que ces modèles n'ont pas besoin de 12M tokens pour la plupart des tâches.

Mais le vrai point de friction est ailleurs. VentureBeat rapporte que l'ingénieur IA Will Depue a noté que SubQ est "almost surely a sparse attention finetune of Kimi or DeepSeek". Whedon a confirmé sur X que la startup utilise "des poids de modèles open-source comme point de départ".

C'est une pratique courante dans l'industrie — DeepSeek V4 Pro et Kimi K2.6 sont eux-mêmes construits sur des bases open-source. Mais ça change la narrative : SubQ n'est pas un modèle entraîné from scratch avec une nouvelle architecture. C'est un modèle existant, finetuné avec SSA par-dessus.

Jake Cuthbertson souligne que le framing marketing de Subquadratic est particulièrement habile : en comparant par catégorie de benchmark plutôt que sur des scores globaux, ils peuvent techniquement dire "outperforms GPT-5.5" même quand le score composite est inférieur.

AI Start News résume la position de la communauté : jusqu'à ce que des benchmarks indépendants soient publiés par des équipes sans lien avec Subquadratic, les claims de 1000x d'efficacité restent non prouvées. Si Subquadratic valide ses résultats, ça pourrait remodeler l'économie du développement IA. Le "si" pèse lourd.

Produits disponibles : API, Code, Search

Au-delà de la recherche, Subquadratic a lancé trois produits dès le 5 mai 2026, selon The New Stack.

SubQ API donne accès au modèle avec une fenêtre de 12M tokens. Le modèle de pricing est au token, avec l'avantage affiché d'un coût linéaire — vous ne payez pas la pénalité quadratique. Les développeurs peuvent l'intégrer dans leurs propres pipelines.

SubQ Search est un outil de deep research qui exploite la fenêtre de contexte massive pour analyser des corpus entiers sans chunking ni RAG. L'idée : au lieu de découper vos documents en morceaux et d'espérer que le retrieval fonctionne, vous balancez tout dans le contexte et vous laissez le modèle trouver lui-même.

SubQ Code est un coding agent qui utilise le contexte étendu pour travailler sur des codebases entières. C'est potentiellement le cas d'usage le plus immédiat : un développeur qui donne tout son repo en contexte et demande un refactoring transversal.

Pour ces deux derniers, la comparaison avec les meilleurs LLM pour coder comme Claude Opus 4.7 ou GPT-5.3 Codex sera déterminante. Le contexte massif est un atout, mais si la qualité de génération de code est inférieure, l'avantage s'évapore.

SubQ face aux modèles établis : où se positionne-t-il ?

Pour situer SubQ dans le paysage, il faut séparer deux dimensions : la qualité brute du modèle et la capacité long-context.

Sur la qualité générale, SubQ ne rivalise pas avec le top du panier. Gemini 3.1 Pro (score 92), GPT-5.5 (91) ou Claude Opus 4.7 (90) dominent le classement général. Même en spécialisé recherche, les meilleurs LLM du marché offrent un écosystème plus mature.

Sur le long-context, c'est différent. Aucun modèle du classement général ne gère fonctionnellement 12M tokens. Les annonces de fenêtres à 1-2M sont pour la plupart théoriques — les performances réelles dégradent bien avant. Si SubQ tient ses claims sur RULER à 1M+ tokens, il a un avantage réel et défendable.

Le tableau suivant compare les approches :

Modèle	Contexte annoncé	Contexte fonctionnel réel	Scaling attention	Coût long-context
SubQ 1M-Preview	12M tokens	~1M+ (revendiqué)	Linéaire (SSA)	~8$ test complet
GPT-5.5	2M tokens	Dégrade avant 1M	Quadratique	Très élevé
Claude Opus 4.7	2M tokens	Solide jusqu'à ~500K	Quadratique	Élevé
Gemini 3.1 Pro	1M tokens	Bon jusqu'à ~500K	Quadratique	Modéré
Kimi K2.6	1M tokens	Variable	Quadratique	Modéré

La vraie question n'est pas "SubQ est-il meilleur que GPT-5.5 ?" mais "SubQ est-il meilleur que GPT-5.5 quand le contexte dépasse 500K tokens ?" Sur cette question précise, les premiers benchmarks suggèrent que oui, mais les preuves indépendantes manquent.

Ce qui doit se passer maintenant pour que SubQ s'impose

Les claims sont posés. La pression est maintenant sur Subquadratic pour démontrer, pas seulement déclarer. Plusieurs étapes sont nécessaires.

Premièrement, des benchmarks indépendants. Pas ceux de Subquadratic, pas ceux d'un blog partenaire. Des évaluations menées par des chercheurs sans lien financier, avec des protocoles publics. Le MRCR v2 est un bon point de départ, mais il faut le compléter avec des tests de raisonnement long-context réels, pas synthétiques.

Deuxièmement, la transparence sur l'architecture. SSA est décrit en termes généraux, mais les détails du routage sparse — comment les tokens sont sélectionnés, quel est le overhead du routage lui-même, comment ça se comporte sur des distributions de données non-optimisées — restent vagues. L'analyse de Codiste note que SSA combine "routage sparse dépendant du contenu" et "attention exacte", mais sans publier les équations.

Troisièmement, la validation à 12M tokens. Les benchmarks actuels sont principalement à 1M. Si le scaling est vraiment linéaire, les résultats à 12M devraient être proportionnellement bons. Mais c'est justement à ces échelles que les approches sparse peuvent se casser — le routage lui-même peut devenir un goulot d'étranglement.

Quatrièmement, la comparaison honnête avec les alternatives existantes. Les meilleurs LLM locaux via Ollama ou LM Studio, les solutions RAG optimisées, les approches hiérarchiques — SubQ doit prouver qu'il est non seulement meilleur sur le papier, mais aussi en pratique face à un pipeline RAG bien tuné. Pour ceux qui veulent tester localement, notre guide d'installation de LLM local reste la référence.

❌ Erreurs courantes

Erreur 1 : Confondre contexte annoncé et contexte fonctionnel

Annoncer 12M tokens ne veut pas dire que le modèle est fiable à 12M tokens. Claude Opus 4.7 annonce 2M mais dégrade avant 500K. La seule métrique qui compte est la performance réelle aux différentes longueurs, mesurée par des tiers. Ne prenez jamais un chiffre de contexte au pied de la lettre.

Erreur 2 : Comparer SubQ sur des tâches générales

SubQ est conçu pour le long-context. Le comparer à GPT-5.5 sur du raisonnement court ou de la génération créative n'a pas de sens — il n'est pas optimisé pour ça. Évaluez-le là où SSA apporte un avantage : retrieval dans un contexte de 500K+ tokens.

Erreur 3 : Ignorer le fait que SubQ est un finetune

SubQ part de poids open-source (très probablement Kimi ou DeepSeek, selon les observations de la communauté). Ça ne disqualifie pas l'approche, mais ça signifie que l'innovation est dans l'architecture d'attention, pas dans le modèle de base. C'est important pour évaluer la barrière à l'entrée — si SSA est applicable à d'autres modèles, l'avantage de SubQ pourrait être copié.

Erreur 4 : Prendre le "1000x" au sérieux

Le 1000x est un chiffre marketing qui combine plusieurs métriques (vitesse, coût, tokens) dans des scénarios optimisés. Les chiffres défendables techniquement sont le 52x sur le prefill et le 300x sur le coût, déjà suffisamment impressionnants pour ne pas avoir besoin d'exagérer.

❓ Questions fréquentes

SubQ remplace-t-il Claude ou GPT pour un usage quotidien ?

Non. SubQ est spécialisé long-context. Pour du raisonnement général, du code, de l'écriture, les modèles comme Claude Opus 4.7 ou GPT-5.5 restent supérieurs. SubQ excelle quand vous avez besoin de mettre énormément de données en contexte simultanément.

SSA est-il vraiment nouveau ?

Le sparse attention existe depuis 2019 (Sparse Transformer). L'innovation de SubQ est le routage dépendant du contenu combiné à l'attention exacte sur le sous-ensemble sélectionné, avec un scaling revendiqué comme linéaire. Le concept n'est pas inédit, l'exécution technique le serait.

Peut-on utiliser SubQ gratuitement ?

SubQ n'est pas dans la liste des meilleurs LLM gratuits. L'API est payante au token. Subquadratic n'a pas annoncé de tier gratuit ni de version open-source du modèle.

SubQ fonctionne-t-il en français ?

Aucun benchmark spécifique au français n'a été publié. Étant un finetune de modèles open-source qui supportent le français (Kimi, DeepSeek), il est probable que les capacités francophones soient correctes mais non optimisées. Pour du français natif, voir notre comparatif des meilleurs LLM en français.

Quel est le risque si les claims ne tiennent pas ?

Le risque principal est de réputation. Si des benchmarks indépendants montrent que le scaling n'est pas linéaire au-delà de 1-2M tokens, ou que le routage sparse dégrade significativement la qualité, la valuation de 500M$ sera difficile à justifier. Mais même un SSA partiellement valide serait une contribution significative.

✅ Conclusion

Subquadratic a posé un pari ambitieux : l'attention quadratique n'est pas une loi de la nature, et 12M tokens de contexte fiable sont possibles avec un scaling linéaire. Les premiers benchmarks sont prometteurs, l'équipe a le pedigree, et le cas d'usage pour les agents IA est évident.

Mais les preuves indépendantes manquent, le "1000x" est du marketing, et le modèle est un finetune d'un existant, pas une révolution from scratch. La communauté a raison d'être sceptique — et Subquadratic a tout intérêt à publier des évaluations transparentes plutôt que de laisser le doute s'installer.

Si SSA tient la route à 12M tokens, SubQ ne sera pas un meilleur LLM général. Il sera l'infrastructure de contexte que chaque agent IA sérieux utilisera en sous-main. Le verdict final appartient aux benchmarks indépendants qui devraient arriver dans les semaines qui viennent.

#subquadratic #subq #attention-quadratique #12-millions-de-tokens #IA (intelligence artificielle) #llm

📚 Articles liés

LLM & Modèles 🟢 Débutant 12 min

Claude Sonnet 5 : le modèle le plus agentique d'Anthropic, performances Opus au prix Sonnet

2026-07-01 15:02

LLM & Modèles 🟢 Débutant 12 min

OpenAI GPT-5.6 : Sol, Terra et Luna — la famille de modèles qui change tout

Découvrez OpenAI GPT-5.6 : Sol, Terra et Luna, la famille de modèles révolutionnaire sous contrôle gouvernemental direct dès le 26 juin 2026.

2026-06-29 15:03

LLM & Modèles 🟢 Débutant 15 min

GPT-5.6 Sol : OpenAI lance la preview d'un nouveau modèle en plein début de guerre des prix

Découvrez GPT-5.6 Sol, la nouvelle preview d'OpenAI qui secoue le marché de l'IA en pleine guerre des prix. Analyse et enjeux de ce lancement.

2026-06-28 15:06

📑 Table des matières