Qwen3 Coder Next : le modèle open-source qui tourne sur un Mac 64 Go et bat DeepSeek en coding
🔎 Pourquoi un modèle 80B vient de rendre le coding local sérieux
Le 12 juin 2026, Alibaba publie Qwen3-Coder-Next sans fanfare. Pas de keynote, pas de lancement médiatique. Juste un rapport technique sur arXiv et un dépôt GitHub. Pourtant, ce modèle vient de déplacer une ligne rouge qu'on pensait immobile : le seuil en dessous duquel un modèle open-source peut remplacer Claude Sonnet pour du vrai travail de développement, en local, sur du matériel qu'un freelance peut s'offrir.
Le chiffre qui fait mal : 74.2% sur SWE-Bench Verified avec seulement 3 milliards de paramètres actifs par token. DeepSeek V3.2 plafonne à 40.9% sur SWE-Bench Pro dans les mêmes conditions. Même en tenant compte des différences de version du benchmark, l'écart est suffisant pour forcer un regard sérieux.
La vraie nouveauté n'est pas le score brut. C'est le ratio performance/coût de calcul. Un modèle 80B qui n'en active que 3.7% à chaque forward pass, c'est une efficacité que l'architecture dense de DeepSeek V4 Pro ne peut pas reproduire. Et sur un MacBook Pro M4 Max avec 64 Go de RAM unifiée, il tourne à environ 12 tokens par seconde en quantization 4-bit. Assez pour un agent de code interactif.
L'essentiel
- Architecture MoE 80B/3B actifs : 80 milliards de paramètres totaux, mais seuls 3 milliards sont calculés à chaque token — le reste reste inactif, réduisant drastiquement le coût d'inférence.
- 74.2% sur SWE-Bench Verified : comparable à ce que proposent des modèles propriétaires coûteux, selon le rapport technique officiel sur arXiv.
- Tourne sur un Mac 64 Go à ~12 tok/s : en quantization 4-bit via Ollama ou llama.cpp, confirmé par le guide de déploiement local.
- Licence Apache 2.0 : usage commercial libre, pas de restrictions contrairement à DeepSeek V3.1 qui a opté pour la licence MIT — les deux approches se valent ici, mais Apache 2.0 est plus protecteur sur les brevets.
- Disponible partout : HuggingFace, OpenRouter, Ollama, LM Studio dès le jour de sortie.
Outils recommandés
| Outil | Usage principal | Prix (juin 2026, vérifiez sur site) | Idéal pour |
|---|---|---|---|
| Ollama | Exécution locale CLI | Gratuit | Développeurs Mac/Linux, workflow terminal |
| LM Studio | Interface graphique locale | Gratuit | Débutants, exploration visuelle |
| OpenRouter | API cloud unified | À l'usage (~$0.15/1M tok input) | Tests rapides sans hardware local |
| HuggingFace | Téléchargement weights | Gratuit | Self-hosting avancé, fine-tuning |
Architecture : le MoE hybride qui change la donne
Qwen3-Coder-Next ne ressemble pas aux modèles de code de la génération précédente. L'architecture combine deux mécanismes rarement associés : le Mixture of Experts (MoE) sparse et l'attention linéaire hybride.
MoE 80B/3B : le sweet spot enfin trouvé
Le modèle totalise 80 milliards de paramètres répartis dans des couches d'experts. À chaque token, un mécanisme de routage n'active que 3 milliards d'entre eux. Concrètement, ça veut dire que le coût de calcul par token est celui d'un modèle 3B, mais la capacité représentative est celle d'un 80B.
Le rapport technique arXiv détaille cette architecture : les experts sont spécialisés pendant l'entraînement, certains se focalisant sur la compréhension du code, d'autres sur le raisonnement logique, d'autres encore sur la génération de patchs. Le router apprend à sélectionner la bonne combinaison selon le contexte.
C'est fondamentalement différent de l'approche dense de DeepSeek V4 Pro (qui active tous ses paramètres à chaque token) et plus granulaire que le MoE de Qwen3.5-122B-A10B qui active 10B par token. Ici, 3B actifs suffisent grâce à la qualité du routage et à l'attention hybride.
Attention linéaire hybride : pourquoi c'est crucial pour le local
L'attention standard a une complexité O(n²) par rapport à la longueur de contexte. L'attention linéaire la réduit à O(n). Qwen3-Coder-Next alterne entre les deux selon la couche : les premières couches utilisent l'attention standard pour capturer les dépendances locales fines (syntaxe, noms de variables), les couches supérieures basculent en attention linéaire pour traiter le contexte global (architecture du projet, dépendances inter-fichiers).
Cette hybridation permet de gérer des contextes longs — typiquement un dépôt de code entier — sans exploser la mémoire. C'est ce qui rend possible l'exécution sur 64 Go de RAM unifiée avec des performances utilisables.
Performances : les benchmarks qui comptent en coding
Les scores bruts ne veulent rien dire sans contexte. Voici où Qwen3-Coder-Next se positionne face à la concurrence sur les benchmarks de code réels.
SWE-Bench : le test de vérité
SWE-Bench mesure la capacité d'un modèle à résoudre des tickets GitHub réels. C'est le benchmark le plus pertinent pour évaluer un agent de code.
| Modèle | SWE-Bench Verified | SWE-Bench Pro | Paramètres actifs | Accès |
|---|---|---|---|---|
| Qwen3-Coder-Next | 74.2% | 44.3% | 3B | Open-weight (Apache 2.0) |
| GPT-5.5 (OpenAI) | ~82% (estimé) | ~52% (estimé) | N/A | Propriétaire |
| Claude Sonnet 4.6 | ~72% (estimé) | ~41% (estimé) | N/A | Propriétaire |
| DeepSeek V3.2 | N/A | 40.9% | ~37B (dense) | Open-weight (MIT) |
| GLM-4.7 | N/A | 40.6% | N/A | Propriétaire |
| DeepSeek V4 Pro | N/A | N/A | Dense | Open-weight (MIT) |
Sources : review ChatForest, analyse Agent Market Cap, rapport arXiv.
Deux choses sautent aux yeux. Premier point : Qwen3-Coder-Next bat DeepSeek V3.2 sur SWE-Bench Pro avec 12 fois moins de paramètres actifs. Deuxième point : il rivalise directement avec Claude Sonnet 4.6 (score agentic 81.4 dans le classement général) sur du résolution de tickets réels, tout en tournant en local.
Terminal-Bench et le multilingue
Le modèle atteint 63.7% sur SWE-Bench Multilingual, un sous-ensemble orienté vers les dépôts non-anglophones. C'est un signal fort pour les développeurs francophones qui travaillent sur des codebases avec commentaires et documentation en français — un sujet qu'on a déjà couvert dans notre comparatif des meilleurs LLM en français.
Sur Terminal-Bench (capacité à exécuter des commandes shell correctes dans un environnement agentique), Qwen3-Coder-Next montre des résultats solides dans le rapport technique, confirmant sa vocation d'agent de code complet, pas seulement de générateur de snippets.
Déploiement local : le guide pratique
C'est ici que le modèle devient intéressant pour le développeur indépendant. Un score de 74% sur SWE-Bench ne sert à rien si vous ne pouvez pas le faire tourner.
Sur Mac 64 Go : la configuration viable
Le guide de référence pour Mac Silicon est catégorique : sur 64 Go de RAM unifiée, Qwen3-Coder-Next est le choix recommandé pour le coding sérieux. Sur 32 Go, il faut se rabattre sur Qwen3.5-35B-A3B.
En pratique, avec Ollama et une quantization Q4_K_M (4-bit), le modèle occupe environ 42-45 Go en RAM. Il reste donc 19-22 Go pour le contexte, le système, et d'autres applications. Le débit mesuré est d'environ 12 tokens par seconde — suffisant pour un agent de code qui itère sur des patches, pas pour du chat conversationnel fluide.
Le guide d'installation complet sur dev.to détaille la procédure pas à pas. Le guide Codersera couvre les spécificités Ollama et llama.cpp.
Pour ceux qui veulent aller plus loin dans le local, notre guide d'installation LLM local couvre les fondamentaux d'Ollama et LM Studio. Et pour explorer les autres options locales, le comparatif des meilleurs LLM à run en local reste la référence.
Sur GPU NVIDIA : 1 H100 ou 2x RTX 5090
Le guide Local AI Master confirme que le modèle tourne confortablement sur un seul H100 (80 Go VRAM) en precision complète, ou sur deux RTX 5090 en configuration split. Dans ce dernier cas, le débit monte à 25-30 tok/s — un confort net pour le travail agentique.
Via OpenRouter : pour tester sans investir
Si vous n'avez pas le hardware, OpenRouter propose Qwen3-Coder-Next en API. Le coût est estimé autour de $0.15 par million de tokens en input (juin 2026, vérifiez sur openrouter.ai). C'est suffisamment cheap pour intégrer le modèle dans un pipeline CI/CD ou un outil de review de code automatisé.
Comparaison avec la concurrence : où se positionne Qwen3-Coder-Next
Contre DeepSeek : le MoE sparse gagne
La comparaison la plus naturelle est avec DeepSeek V3.1 et sa licence MIT. DeepSeek a popularisé le MoE dans le monde open-source, mais son architecture reste plus dense que celle de Qwen3-Coder-Next.
DeepSeek V4 Pro, leader du classement open-source avec un score de 88, est un modèle massif qui nécessite une infrastructure sérieuse. Qwen3-Coder-Next fait un choix philosophique différent : sacrifier 15-20 points de performance brute pour être exécutable sur un laptop. C'est un compromis que la plupart des développeurs indépendants seront ravis de faire.
Sur SWE-Bench Pro, le 44.3% de Qwen3-Coder-Next contre 40.9% pour DeepSeek V3.2 (source : Agent Market Cap) montre que le routage d'experts plus agressif (3B vs ~37B actifs) n'est pas un handicap quand il est bien conçu.
Contre Claude et GPT : le seuil de bascule
Claude Sonnet 4.6 (score agentic 81.4) et GPT-5.5 (score agentic 98.2) restent au-dessus en capacité brute. Mais Qwen3-Coder-Next gère "75-80% de ce que fait Claude Sonnet 5" selon l'évaluation de Local AI Master. Pour un développeur qui résout 20 tickets par semaine, si 15 d'entre eux peuvent être traités localement sans envoyer son code à Anthropic, c'est un gain massif en confidentialité et en coût.
Le parallèle avec Meta Muse Spark et son virage vers le fermé est éclairant. Pendant que Meta ferme son modèle phare, Alibaba ouvre le sien. La dynamique open-source se déplace vers l'écosystème Qwen, et Qwen3-Coder-Next en est la meilleure démonstration.
Dans le paysage Qwen : où ça se place
Dans la famille Qwen, le modèle de code se distingue nettement des modèles généralistes. Qwen3.6-27B (score 74 en classement général) et Qwen3.5-35B-A3B (score 67) sont de bons modèles compacts, mais ils ne sont pas optimisés pour le workflow agentique de code. Qwen3-Coder-Next a été entraîné spécifiquement avec un curriculum agentique à grande échelle — il ne se contente pas de compléter du code, il planifie, exécute, itère et corrige.
Le workflow agentique : comment utiliser Qwen3-Coder-Next comme agent de code
Un modèle de code n'est pas qu'un autocomplete. Qwen3-Coder-Next a été conçu dès le départ comme un agent, pas comme un complétion engine.
Le training agentique fait la différence
Le rapport technique décrit un entraînement en plusieurs phases. La première phase est un pré-entraînement classique sur du code. Mais les phases suivantes injectent des trajectoires agentiques : le modèle apprend à lire un dépôt, identifier le fichier pertinent, générer un patch, le tester, et itérer en cas d'échec. Ce n'est pas du prompt engineering appliqué a posteriori — c'est baked dans les poids.
C'est ce qui le rend naturellement compatible avec des frameworks d'agents comme ceux qu'on décrit dans notre guide des agents IA open source avec Ollama. Le modèle comprend nativement les formats d'outils (tool calls), les boucles de feedback et les stratégies de réparation.
Configuration recommandée pour un agent local
Le guide dev.to recommande une configuration précise : température 0.1-0.2 pour les patchs de code (précision), 0.6-0.7 pour le planning et l'exploration de solutions. Le contexte maximal supporté permet de charger l'intégralité d'un dépôt de taille moyenne en une seule passe.
Pour les développeurs qui veulent aller plus loin dans l'agentic, notre article sur les meilleurs LLM pour les agents IA détaille les architectures compatibles. Et pour comprendre le contexte plus large, le comparatif des meilleurs LLM pour coder situe Qwen3-Coder-Next dans l'écosystème.
Le MoE 80B/3B : nouveau sweet spot pour le local
L'industrie cherchait le point d'équilibre parfait entre capacité et coût d'inférence locale. Qwen3-Coder-Next suggère fortement que ce point est autour de 80B totaux / 3B actifs.
Pourquoi pas plus petit ?
Un modèle 3B dense pur (comme Qwen3.5-35B-A3B en mode "tout actif") n'a pas la diversité de connaissances d'un MoE 80B. Les experts spécialisés apportent une profondeur que la compression dense ne peut pas reproduire. Sur les tâches de code qui nécessitent de comprendre des APIs obscures, des frameworks legacy, ou des patterns architecturaux rares, le MoE surpasse systématiquement le dense de même coût d'inférence.
Pourquoi pas plus grand ?
Un MoE 400B comme Qwen3.5 397B (score 64 en classement général) nécessite au minimum 128 Go de VRAM en 4-bit. C'est le territoire des serveurs, pas des laptops. Le rapport performance/hardware de Qwen3-Coder-Next est optimal précisément parce qu'il a été conçu pour la contrainte "64 Go de RAM unifiée".
Ce sweet spot est important pour les meilleurs modèles Ollama car il définit une nouvelle catégorie : les modèles "laptop-capable mais agent-grade". Jusqu'à présent, il fallait choisir entre "tourne sur mon Mac mais performances limitées" et "performant mais serveur requis". Qwen3-Coder-Next élimine ce compromis.
❌ Erreurs courantes
Erreur 1 : Comparer les paramètres totaux et actifs sans distinction
Confondre "80B paramètres" de Qwen3-Coder-Next avec "80B dense" est une erreur fondamentale. Ce modèle n'utilise que 3B à chaque token. Le comparer directement à un modèle dense 70B sur le coût d'inférence n'a aucun sens. Les 77B inactifs ne coûtent rien en calcul — ils ne coûtent qu'en VRAM pour le stockage des poids.
Erreur 2 : Ignorer la quantization nécessaire sur Mac 64 Go
Essayer de lancer Qwen3-Coder-Next en precision complète (FP16) sur 64 Go de RAM unifiée va crasher ou swapper massivement. La quantization 4-bit (Q4_K_M via GGUF) n'est pas optionnelle — elle est requise. Le modèle passe de ~160 Go (FP16) à ~42 Go (Q4_K_M). La perte de qualité est négligeable pour les tâches de code, comme le confirment les benchmarks du rapport technique.
Erreur 3 : L'utiliser comme simple autocomplete
Qwen3-Coder-Next est conçu pour le workflow agentique (plan → code → test → itération). L'utiliser comme simple complétion de ligne dans VS Code, c'est sous-exploiter 90% de sa valeur. Connectez-le à un framework d'agents, donnez-lui accès à votre terminal et à vos tests, et laissez-le travailler sur des tickets complets.
Erreur 4 : Négliger le contexte disponible
Avec 64 Go de RAM et un modèle en 42 Go, il reste ~20 Go pour le contexte. C'est suffisant pour un dépôt de taille moyenne, mais pas pour un monorepo de 500 000 lignes. Pré-filtrez les fichiers pertinents avant de les injecter dans le contexte, ou utilisez un système de retrieval pour ne fournir que ce qui est nécessaire.
❓ Questions fréquentes
Qwen3-Coder-Next remplace-t-il vraiment Claude Sonnet pour le coding ?
Non, pas entièrement. Il gère environ 75-80% des tâches que Claude Sonnet 5 traite, selon Local AI Master. Pour les tickets complexes nécessitant un raisonnement multi-étapes avancé, Claude reste supérieur. Mais pour la majorité des tâches quotidiennes, Qwen3-Coder-Next suffit, en local et gratuitement.
Quelle différence entre la licence Apache 2.0 et la licence MIT de DeepSeek ?
Les deux permettent un usage commercial. Apache 2.0 inclut une clause de grant de brevet explicite (protection contre les poursuites en brevet du licencieur) et des exigences de notation des modifications. MIT est plus permissive mais moins protectrice. Pour un usage entreprise, Apache 2.0 est souvent préféré par les équipes juridiques.
Peut-on fine-tuner Qwen3-Coder-Next sur son propre codebase ?
Oui, la licence Apache 2.0 le permet. En pratique, le fine-tuning complet d'un MoE 80B nécessite du hardware significatif (multi-GPU). Le fine-tuning efficace (LoRA/QLoRA) sur les couches d'attention est plus réaliste sur un setup accessible. Le dépôt GitHub officiel fournit les scripts nécessaires.
12 tok/s, c'est vraiment utilisable pour un agent de code ?
Oui, pour le bon workflow. Un agent de code passe 80% de son temps à lire et analyser (faible génération), et 20% à générer des patchs (forte génération). Aux moments de forte génération, 12 tok/s produisent un patch de 200 lignes en environ 30 secondes. C'est acceptable. Pour du chat conversationnel, c'est lent — mais ce n'est pas l'usage ciblé.
Qwen3-Coder-Next est-il meilleur que les autres modèles Qwen pour le code ?
Oui, significativement. Les modèles Qwen généralistes comme Qwen3.6-27B ou Qwen3.5-35B-A3B sont compétents en code mais n'ont pas reçu le training agentique spécifique. Qwen3-Coder-Next est un modèle spécialisé, pas un généraliste polyvalent. Pour du code, il surpasse nettement ses frères.
✅ Conclusion
Qwen3-Coder-Next est le premier modèle open-weight qui rend le coding agentique sérieux possible sur un laptop de développeur. Avec 74.2% sur SWE-Bench Verified et 3B paramètres actifs, il prouve que le MoE sparse bien conçu peut combler le fossé entre le local et le cloud propriétaire. Si vous avez un Mac 64 Go ou deux RTX 5090, téléchargez-le sur HuggingFace, installez Ollama, et testez-le sur vos vrais tickets — les chiffres confirment ce que l'expérience va vous montrer.