Qwen3-Coder-Next : 80B MoE avec 3B actifs, l'agent de code open-source qui rivalise avec Claude Sonnet
🔎 Pourquoi un modèle de 80 milliards de paramètres tourne sur un Mac
Alibaba vient de publier Qwen3-Coder-Next, un modèle de codage de 80 milliards de paramètres qui n'en active que 3 à chaque token généré. Résultat : 70,6% sur SWE-Bench Verified, un score qui place ce modèle open-source au niveau de Claude Sonnet 4.5 sur les tâches de résolution de bugs réels.
Le coup de génie, c'est l'architecture MoE (Mixture of Experts) ultra-éparse. Au lieu de faire passer chaque token par l'intégralité des 80 milliards de paramètres, le modèle sélectionne dynamiquement les 3 milliards les plus pertinents. Ça divise la charge de calcul par un facteur de plus de 25, tout en conservant la profondeur de raisonnement d'un modèle massif.
L'impact est immédiat : ce modèle tourne sur du hardware grand public. Pas besoin de cluster GPU à 10 000$/mois. Un Mac Studio M2 Ultra avec 64 Go de RAM, ou une station Linux avec une RTX 4090, suffit pour l'exécuter en local. C'est un changement de paradigme pour le développement assisté par IA.
L'essentiel
- Architecture : 80B MoE, 3B paramètres actifs par token, contexte 256K tokens, licence Apache 2.0
- Performance : 70,6% sur SWE-Bench Verified, meilleur score parmi tous les modèles localement exécutables
- Entraînement : Reinforcement Learning à partir de feedback d'environnement (exécution de code, tests unitaires)
- Prix API : 0,11$/M tokens input, 0,80$/M tokens output sur OpenRouter (mai 2026, vérifiez sur openrouter.ai)
- Famille : Trois tailles disponibles — 30B-A3B, 80B-A3B (Next) et 480B-A35B
Outils recommandés
| Outil | Usage principal | Prix (mai 2026) | Idéal pour |
|---|---|---|---|
| Qwen3-Coder-Next | Codage agentique local | Gratuit (open-weight) | Devs avec 32-64 Go RAM |
| Qwen3-Coder CLI | Agent de coding en terminal | Gratuit (Apache 2.0) | Workflows automatisés |
| OpenRouter — Qwen3-Coder-Next | API coding agent | 0,11$/M in, 0,80$/M out | Intégration production |
Architecture MoE : comment 3 milliards rivalisent avec 200
La réponse courte : le modèle ne travaille jamais à plein régime, mais il choisit toujours les bons experts.
Un modèle dense de 3 milliards de paramètres comme Qwen3.6-27B ou Qwen3.5-27B (qui scorent respectivement 74 et 63 en agentic) possède une capacité de représentation limitée. Il ne peut pas tout stocker en mémoire de poids. Qwen3-Coder-Next résout ce problème en répartissant les 80 milliards de paramètres dans des "experts" spécialisés — chacun couvrant un domaine précis du code (algorithmes de tri, API React, requêtes SQL, etc.).
À chaque token, un mécanisme de routage sélectionne les experts les plus pertinents. Seuls les poids de ces experts sont chargés en mémoire active. Le reste des 77 milliards de paramètres reste inactif. C'est comme avoir une bibliothèque de 80 000 livres mais n'en ouvrir que 3 à la fois — ceux dont vous avez exactement besoin.
Le contexte de 256K tokens permet de charger des dépôts entiers. Un projet Python moyen de 50 fichiers passe largement dans cette fenêtre. Le modèle peut donc raisonner sur des dépendances croisées, des architectures multi-fichiers, sans perdre la vue d'ensemble.
Cette approche MoE explique pourquoi Qwen3-Coder-Next surpasse nettement les modèles denses de taille similaire en termes de VRAM nécessaire. Pour comparer les meilleurs LLM pour coder, il faut maintenant distinguer les modèles denses des modèles MoE — les métriques de VRAM ne signifient plus la même chose.
SWE-Bench Verified : 70,6% décortiqué
Le score de 70,6% sur SWE-Bench Verified n'est pas un benchmark synthétique. Il mesure la capacité d'un modèle à résoudre des bugs réels issus de dépôts open-source populaires (Django, Scikit-learn, Flask). Le modèle reçoit une description de bug, accède au code source, propose un patch, et le patch est testé automatiquement.
70,6%, ça veut dire que sur 100 bugs réels, Qwen3-Coder-Next en résout plus de 70 de manière autonome. Pour mettre en perspective, les meilleurs LLM agentic comme GPT-5.5 (98,2) et Gemini 3 Pro Deep Think (95,4) restent loin devant — mais ce sont des modèles propriétaires exécutés sur des clusters de GPU.
Dans la catégorie "localement exécutables", Qwen3-Coder-Next est roi. Aucun autre modèle open-source ne dépasse ce score sur du hardware grand public. Claude Sonnet 4.6, qui score 81,4 en agentic, n'est pas exécutable en local. La comparaison est donc claire : pour le self-hosting, Qwen3-Coder-Next est le meilleur choix disponible.
Le score monte encore avec du scaffolding agent — c'est-à-dire quand le modèle est encapsulé dans un agent qui peut itérer, lire les erreurs de compilation, et relancer des tests. C'est précisément le workflow pour lequel Qwen3-Coder-Next a été optimisé.
Entraînement RL avec feedback d'environnement
La différence fondamentale entre Qwen3-Coder-Next et les modèles de coding classiques, c'est la méthode d'entraînement. Alibaba n'a pas simplement fait du fine-tuning supervisé sur des paires (instruction, code). Ils ont utilisé du Reinforcement Learning où le reward vient de l'exécution réelle du code.
Le modèle génère un patch. Le patch est appliqué. Les tests unitaires du dépôt s'exécutent. Si les tests passent, le modèle reçoit un reward positif. Si les tests échouent, il reçoit un signal négatif avec le traceback exact. Cette boucle de feedback apprend au modèle à ne pas juste écrire du code qui ressemble correct, mais du code qui fonctionne.
C'est un changement majeur par rapport aux modèles entraînés uniquement sur des complétions de code. Ceux-ci ont tendance à produire du code syntaxiquement valide mais sémantiquement faux. Le RL avec feedback d'environnement corrige ce biais.
Cette approche rejoint les tendances observées chez d'autres projets d'agents open-source comme DeerFlow de ByteDance : l'agent open-source qui recherche, code et cree sur le long terme, qui combine également exécution et itération pour des tâches complexes. Le pattern se répète : les meilleurs agents de codage sont ceux qui peuvent tester leur propre production.
Exécution locale : ce qu'il faut vraiment
Configuration matérielle minimale
Qwen3-Coder-Next en quantisation 4-bit (GGUF) nécessite environ 40 à 45 Go de VRAM/RAM unifiée pour le modèle seul. Avec le contexte 256K et le KV cache, comptez 50-55 Go. Ça passe sur un Mac Studio M2 Ultra (64 Go), un Mac Pro M2 Ultra (192 Go), ou un PC avec deux RTX 3090/4090 (48 Go VRAM cumulées).
Sur 32 Go, c'est possible en quantization 2-bit (EXL2 ou GGUF Q2_K), mais la qualité dégrade sensiblement. Le modèle perd environ 3 à 5 points sur SWE-Bench par rapport à la version 4-bit. Pour les meilleurs LLM à run en local, le seuil de 64 Go est donc le point bas recommandé pour exploiter Qwen3-Coder-Next correctement.
Pour un guide pas à pas, la méthode reste identique à celle décrite dans notre guide d'installation LLM local : Ollama ou LM Studio en backend, puis connexion via le CLI Qwen3-Coder ou via un IDE.
Déploiement via Ollama et le CLI officiel
Le repo GitHub QwenLM/Qwen3-Coder fournit un CLI dédié qui gère le cycle agent complet : lecture du dépôt, génération de patch, exécution des tests, itération. Le workflow type ressemble à ça : vous pointez le CLI vers un dépôt Git local, vous décrivez le bug ou la feature, et l'agent itère jusqu'à résolution.
Pour les meilleurs modèles Ollama, Qwen3-Coder-Next rejoint maintenant le top tier aux côtés de Llama 4 et Qwen3. Si vous configurez des agents IA open-source avec Ollama en local, ce modèle est maintenant le candidat naturel pour les tâches de coding agentique.
La famille Qwen3-Coder au complet
Alibaba n'a pas sorti un seul modèle mais une lignée. Outre le 80B-A3B (Next), on trouve le Qwen3-Coder-30B-A3B pour les machines plus modestes (24 Go VRAM suffisent en 4-bit), et le Qwen3-Coder-480B-A35B pour les déploiements serveur avec scaffolding lourd. Ce dernier, avec 35B paramètres actifs, vise les performances de Claude Opus 4.6 (84,7) mais nécessite un infrastructure multi-GPU sérieuse.
Coûts API : le rapport qualité-prix écrase la concurrence
Sur OpenRouter, Qwen3-Coder-Next coûte 0,11$/million de tokens en input et 0,80$/million en output (mai 2026, vérifiez sur openrouter.ai). Pour un workflow agentique typique de résolution de bug — qui consomme environ 50K tokens input (le dépôt + le contexte) et 10K tokens output (le patch + le raisonnement) — ça revient à environ 0,013$ par tâche.
Comparez avec un workflow équivalent via Claude Sonnet 4.6 sur l'API Anthropic : environ 0,15$ par tâche, soit plus de 10 fois plus cher. Pour une équipe qui résout 200 bugs/semaine via des agents, la différence se chiffre en milliers de dollars par mois.
Le modèle reste bien entendu gratuit en local — vous payez seulement l'électricité. C'est là que le rapport qualité-prix devient absurde : un modèle qui rivalise avec un abonnement Claude Pro à 20$/mois, exécuté gratuitement sur votre propre machine. Si vous cherchez des meilleurs LLM gratuits, Qwen3-Coder-Next redéfinit la catégorie.
Positionnement dans l'écosystème IA de mai 2026
Le paysage des LLM est fragmenté en plusieurs couches. En haut, les modèles agentic propriétaires (GPT-5.5 à 98,2, Gemini 3 Pro Deep Think à 95,4, Claude Opus 4.7 à 94,3) dominent les benchmarks complexes. Au milieu, les modèles open-source généraux comme DeepSeek V4 Pro (88 en open-source), Kimi K2.6 (85) et GLM-5.1 (83) offrent d'excellentes performances générales.
Qwen3-Coder-Next ne cherche pas à concurrencer sur le benchmark agentic général. Il est spécialisé — et c'est sa force. Un modèle généraliste comme DeepSeek V4 Pro High (84) sera meilleur pour rédiger un email ou analyser un PDF. Mais sur SWE-Bench, le spécialisé l'emporte parce que toute sa capacité est optimisée pour le code.
Ce positionnement rappelle la stratégie de GenericAgent : l agent IA open-source qui construit son propre arbre de competences, qui mise sur la spécialisation progressive plutôt que sur le modèle généraliste unique. Le future du coding agentique n'est pas un seul modèle qui fait tout, mais un écosystème de spécialistes.
Pour le comparatif Claude vs ChatGPT, l'arrivée de Qwen3-Coder-Next ajoute un troisième larron. La question n'est plus seulement "Claude ou GPT pour coder ?" mais "pourquoi payer l'un ou l'autre quand un modèle open-source fait le travail en local ?"
Use cases concrets : quand Qwen3-Coder-Next brille
Résolution de bugs dans des dépôts existants
C'est le cas d'usage principal pour lequel le modèle a été conçu. Vous clonez un dépôt, vous lancez le CLI Qwen3-Coder, vous décrivez le bug. L'agent lit le code, identifie la source du problème, génère un patch, le teste, et itère. Sur SWE-Bench, ça marche dans 70% des cas. Dans la vraie vie, avec des dépôts moins complexes que ceux du benchmark, le taux de réussite est souvent supérieur.
Refactoring et migration de code
Le contexte 256K permet de charger un module entier et de demander une refactoring cohérente — par exemple migrer d'une API dépréciée vers la nouvelle, ou restructurer un monolithe en modules. Le modèle comprend les dépendances croisées et produit un refactoring qui compile du premier coup, grâce à son entraînement RL.
Pair programming en local sans latence
Contrairement aux API où chaque requête ajoute 200-500ms de latence réseau, l'exécution locale offre des temps de réponse inférieurs à 100ms en inference optimisée. Pour du pair programming interactif dans VS Code ou Cursor, cette réactivité fait la différence entre un assistant fluide et un assistant qui casse le flow.
Si votre machine n'a pas assez de RAM pour Qwen3-Coder-Next, les meilleurs LLM locaux proposent des alternatives plus légères comme Qwen 2.5 Coder 32B, qui reste une option FIM (Fill-in-the-Middle) solide sur 24 Go de VRAM selon InsiderLLM.
Limites : ce que le modèle ne fait pas (encore)
Pas de multimodalité
Qwen3-Coder-Next est un modèle purement textuel. Il ne peut pas lire des captures d'écran d'UI, des diagrammes, ou des maquettes Figma. Pour ces tâches, il faut se tourner vers les modèles multimodaux de l'écosystème Qwen (Qwen-VL) ou vers Claude Opus 4.7 qui excelle en compréhension visuelle.
Raisonnement en chaîne limité sur les problèmes architecturaux
Le modèle brille sur la résolution de bugs localisés. Sur les problèmes d'architecture logicielle — "concevoir un système de messaging distribué avec garantie de livraison" — les modèles propriétaires avec reasoning explicite (Gemini 3 Pro Deep Think, o1-preview à 90,2) restent nettement supérieurs. Le RL de Qwen3-Coder-Next optimise pour le code qui compile et passe les tests, pas pour les design docs.
Écosystème d'intégration encore jeune
Le CLI officiel est fonctionnel mais minimal. Par rapport à l'écosystème autour de Claude (SDK Anthropic, intégrations natives dans Cursor, Windsurf, etc.) ou de GPT-5.5 (Copilot Enterprise, Actions), l'intégration de Qwen3-Coder-Next dans les IDE demande encore du bricolage via Ollama et des extensions génériques.
❌ Erreurs courantes
Erreur 1 : Comparer les 80B totaux avec un modèle dense de 3B
Ce qui ne va pas : dire "Qwen3-Coder-Next est un modèle 3B" est trompeur. Les 3B sont les paramètres actifs, mais la capacité de représentation dépend des 80B totaux. Un Qwen3.6-27B dense (27B actifs sur 27B totaux) n'a pas la même profondeur de connaissances. La solution : toujours préciser "80B MoE avec 3B actifs par token".
Erreur 2 : Quantizer trop agressivement pour le faire tourner sur 16 Go
Ce qui ne va pas : pousser la quantization en Q2_K pour faire tourner le modèle sur un MacBook Pro 16 Go détruit l'avantage MoE. Les experts mal quantizés perdent leur spécialisation, et le score SWE-Bench s'effondre de 10+ points. La solution : acceptez que 32 Go est le minimum réaliste, ou utilisez le Qwen3-Coder-30B-A3B à la place.
Erreur 3 : L'utiliser comme simple autocomplétion
Ce qui ne va pas : brancher Qwen3-Coder-Next comme modèle FIM dans VS Code pour de l'autocomplétion ligne par ligne, c'est gaspiller sa force. Le modèle est optimisé pour le raisonnement agentique sur des dépôts entiers, pas pour prédire les 5 mots suivants. La solution : utilisez-le via le CLI agent, pas comme backend d'autocomplétion. Pour ça, un modèle plus léger suffit.
Erreur 4 : Ignorer le scaffolding agent
Ce qui ne va pas : évaluer Qwen3-Coder-Next en single-shot (une seule génération, pas d'itération) donne un score 10-15 points en dessous de son potentiel. Le modèle est conçu pour fonctionner dans une boucle agentique. La solution : toujours le tester avec le CLI officiel ou un framework d'agent qui permet l'itération et l'exécution de tests.
❓ Questions fréquentes
Qwen3-Coder-Next remplace-t-il Claude pour le coding ?
Non. Claude Sonnet 4.6 (81,4 agentic) reste supérieur en raisonnement général et en multimodalité. Mais Qwen3-Coder-Next est le meilleur choix en local et gratuit, ce qui change la donne pour les équipes sensibles aux coûts ou à la confidentialité.
Quelle est la différence entre Qwen3-Coder-Next et Qwen 2.5 Coder 32B ?
Qwen 2.5 Coder 32B est un modèle dense classique, bon en autocomplétion FIM sur 24 Go VRAM. Qwen3-Coder-Next est un modèle MoE agentique optimisé pour la résolution de bugs itérative. Selon InsiderLLM, le 2.5 Coder reste pertinent en FIM, mais le Coder-Next est le choix coding par excellence sur 64 Go+.
Le modèle fonctionne-t-il en français ?
L'écosystème Qwen supporte le français, mais Qwen3-Coder-Next est optimisé pour le code — un langage universel. Pour des explications en français ou de la rédaction, consultez les meilleurs LLM en français. Pour le code pur, la langue d'interface importe peu.
Qwen 3.5 preview améliorera-t-il les perfs de coding ?
Qwen 3.5 est prévu pour juin 2026 selon InsiderLLM. Il pourrait intégrer les améliorations de Coder-Next dans un modèle généraliste. Mais pour le coding agentique pur, la spécialisation de Coder-Next restera probablement supérieure.
Peut-on l'héberger sur un VPS ?
Oui. Un VPS avec 2x A100 40Go ou 1x A100 80Go suffit pour la version non quantizée. Si vous cherchez un hébergeur, Hostinger propose des VPS GPU adaptés à ce cas d'usage. Le modèle sous licence Apache 2.0 autorise tout usage commercial.
✅ Conclusion
Qwen3-Coder-Next prouve que le codage agentique open-source a rattrapé le niveau des modèles propriétaires milieu de gamme — et le fait tourner sur du hardware grand public. À 70,6% sur SWE-Bench Verified avec seulement 3B paramètres actifs, c'est le modèle que tout développeur devrait tester en local avant de renouveler un abonnement cloud.