Qwen3.7-Max : 35 heures d'autonomie et 1 158 appels outil — l'agent IA qui repousse les limites de l'exécution longue
🔎 35 heures, 1 158 tool calls, zéro crash : est-ce réel ?
Alibaba vient de dévoiler Qwen3.7-Max, et les chiffres annoncés sont vertigineux. Un modèle capable de maintenir une session agentique pendant 35 heures consécutives, en enchaînant 1 158 appels d'outils sans perdre le fil. C'est la première fois qu'un acteur open-source franchit ce seuil de longévité d'exécution.
La question n'est plus de savoir si les agents IA peuvent exécuter une tâche complexe. C'est de savoir s'ils peuvent le faire sur une durée de travail humaine, sans dérive contextuelle ni hallucination cumulative. Qwen3.7-Max prétend le faire. Reste à vérifier si la démonstration tient la route ou si c'est un benchmark orchestré pour le buzz.
L'essentiel
- Qwen3.7-Max est le modèle flagship d'Alibaba Qwen, orienté exclusivement exécution agentique longue durée avec une fenêtre de contexte de 1 million de tokens.
- La démonstration de référence : 35 heures de session continue, 1 158 appels outil, sur un scénario de recherche et développement logiciel multi-étapes.
- Il se positionne directement contre GPT-5.5 (score agentic 98.2), Claude Opus 4.7 Adaptive (94.3) et Gemini 3.1 Pro (87.3), mais avec un argument différenciant : la persistance temporelle.
- Le modèle n'est pas dans le classement open-source classique (dominé par DeepSeek V4 Pro à 88 points), car il appartient à une catégorie distincte : les modèles agentic long-run.
Outils recommandés
| Outil | Usage principal | Prix (juin 2025, vérifiez sur site) | Idéal pour |
|---|---|---|---|
| Hostinger | Hébergement pour déployer des agents | À partir de 2,99 €/mois | Déploiement d'agents Qwen en production |
| Qwen3.7-Max (API Alibaba Cloud) | Agent longue durée | Pricing token-based | Sessions agentiques multi-heures |
| GPT-5.5 (OpenAI) | Agent haute performance | ~60 $/mois (ChatGPT Pro) | Tâches agentic intensives courte durée |
Ce que Qwen3.7-Max apporte réellement
Un modèle agentic qui tient 35 heures, c'est une rupture par rapport au paradigme actuel. La plupart des agents IA s'effondrent après 20 à 30 minutes d'exécution continue. Le contexte se sature, les instructions initiales se diluent, et l'agent entre dans des boucles de répétition.
Qwen3.7-Max résout ce problème grâce à une architecture pensée pour la persistance. La fenêtre de 1M tokens n'est pas un simple nombre marketing : elle est couplée à un mécanisme de compression contextuelle progressive qui permet au modèle de maintenir la cohérence sur de très longues sessions.
D'après le rapport technique Qwen3-Omni, la famille Qwen3 a introduit des mécanismes de gestion multimodale avancés. Qwen3.7-Max hérite de cette base mais la spécialise pour l'exécution séquentielle d'outils, là où les modèles précédents étaient optimisés pour le dialogue ou la génération unique.
La différence fondamentale : ce n'est pas un LLM qu'on transforme en agent via un framework externe. C'est un LLM conçu depuis l'architecture pour être un agent.
Architecture agent-stack : ce qui change sous le capot
La stack agentique de Qwen3.7-Max ne ressemble pas à ce qu'on trouve chez OpenAI ou Anthropic. Alibaba a opté pour une intégration native du tool-calling dans le processus de raisonnement, pas en surcouche.
Le modèle utilise une variante du mécanisme décrit dans la littérature sur le Gumbel-max Trick pour la sélection d'outils en contexte stochastique. Concrètement, au lieu de choisir l'outil le plus probable de manière déterministe, le modèle évalue la distribution de probabilité sur les outils disponibles et sampling de manière à éviter les boucles. C'est ce qui explique la faible taux de répétition dans les 1 158 appels.
L'architecture repose sur trois piliers :
La mémoire hiérarchique : un système à deux niveaux où les instructions critiques restent dans un cache prioritaire non compressé, tandis que les résultats intermédiaires sont progressivement résumés. Cela évite le phénomène de "lost in the middle" qui plague les longs contextes.
Le planning décomposé : Qwen3.7-Max ne planifie pas 35 heures d'avance. Il décompose en micro-plans de 15 à 30 minutes, avec des points de checkpoint où il réévalue l'état d'avancement par rapport à l'objectif initial.
La détection de dérive : un mécanisme interne (pas un wrapper externe) qui mesure l'écart entre l'action courante et le plan initial. Si l'écart dépasse un seuil, le modèle déclenche une auto-correction sans intervention humaine.
Pour comprendre comment ces principes se traduisent en pratique, créer son premier agent IA autonome offre un bon point de départ conceptuel, même si Qwen3.7-Max pousse la logique bien plus loin que les architectures standards.
35 heures et 1 158 tool calls : décryptage de la démo
La démonstration qui fait tourner les têtes a été détaillée par TechNode et analysée en profondeur par AIMLAPI. Le scénario : un agent doit parcourir un codebase de 200 000 lignes, identifier des vulnérabilités, proposer des patches, les tester, et rédiger un rapport complet.
Les chiffres bruts :
| Métrique | Valeur |
|---|---|
| Durée totale | 35h02 |
| Tool calls total | 1 158 |
| Appels/heure moyen | 33,1 |
| Taux de répétition d'outil | 2,3 % |
| Tokens consommés | ~820 000 |
| Corrections auto-déclenchées | 47 |
| Interventions humaines | 0 |
Ce qui impressionne, c'est le taux de répétition. Dans une session agentique classique de 30 minutes, on observe souvent 8 à 12 % d'appels redondants. À 2,3 % sur 35 heures, le mécanisme anti-boucle fonctionne manifestement.
Cependant, Decrypt soulève un point pertinent : le scénario de test est linéaire. C'est un pipeline séquentiel avec des étapes claires. La vraie difficulté des agents longue durée n'est pas le linéaire, c'est l'imprévu — les retours en arrière, les ambiguïtés dans les spécifications, les contradictions entre sources.
35 heures en linéaire, c'est une prouesse technique. 35 heures avec des retournements de situation constants, on n'a pas encore vu la preuve.
Comparaison avec les concurrents agentic
Placer Qwen3.7-Max dans le paysage actuel demande de séparer deux dimensions : la performance brute (scores de benchmark) et la capacité de persistance (durée d'exécution fiable).
| Modèle | Score agentic | Fenêtre contexte | Persistance rapportée | Prix indicatif |
|---|---|---|---|---|
| GPT-5.5 | 98.2 | 256K tokens | ~2-4h fiable | ~60 $/mois |
| Claude Opus 4.7 Adaptive | 94.3 | 200K tokens | ~3-5h fiable | ~100 $/mois |
| Gemini 3.1 Pro | 87.3 | 1M tokens | ~1-2h fiable | ~20 $/mois |
| Kimi K2.6 (Self-host) | 88.1 | 128K tokens | ~2-3h fiable | Open source |
| Qwen3.7-Max | Non classé (nouveau) | 1M tokens | 35h (démo) | TBD |
GPT-5.5 reste le roi de la performance brute sur les benchmarks agentic standardisés (SWE-bench, AgentBench, TAU-bench). Mais ces benchmarks mesurent des sessions de quelques minutes à quelques heures. Aucun ne teste la persistance sur 35 heures.
C'est précisément le bet d'Alibaba : créer une nouvelle catégorie d'évaluation. Le rapport Marktechpost indique que Qwen a publié un nouveau benchmark interne appelé "LongRun" pour mesurer spécifiquement cette dimension.
Pour les agents qui doivent automatiser un pipeline complet avec un agent, cette différence de persistance change la donne. Un pipeline ETL + analyse + reporting qui prendrait 4 heures avec GPT-5.5 (en le relançant 3 fois) pourrait théoriquement tourner en une seule session avec Qwen3.7-Max.
Qwen3.7-Max vs la famille Qwen3.6 : l'évolution
Qwen3.7-Max ne remplace pas Qwen3.6. Il s'ajoute comme un modèle spécialisé au sommet de la gamme. La famille Qwen3.6 reste le choix pertinent pour le dialogue, le RAG classique et les tâches de génération.
| Modèle | Spécialisation | Score open-source | Contexte |
|---|---|---|---|
| Qwen3.6-27B | Généraliste léger | 74 | 128K |
| Qwen3.6-35B-A3B | Généraliste MoE | 67 | 128K |
| Qwen3.5-122B-A10B | Généraliste lourd | 65 | 128K |
| Qwen3.5 397B | Généraliste flagship | 64 | 128K |
| Qwen3.7-Max | Agent longue durée | N/A | 1M |
Le saut de 128K à 1M tokens n'est pas anodin. Il multiplie par 8 la capacité de mémoire. Mais le vrai travail n'est pas dans la taille du contexte — c'est dans la gestion de cette mémoire sur la durée. Un contexte de 1M tokens rempli en 2 heures, ça ne sert à rien. Un contexte de 1M tokens qui reste cohérent sur 35 heures, c'est l'innovation revendiquée.
Les rapports Qwen3-ASR et Qwen3-TTS montrent que la famille Qwen3 investit massivement dans les capacités multimodales. Qwen3.7-Max hérite de cette foundation, ce qui signifie qu'il peut théoriquement traiter des entrées audio et vocales au sein de ses sessions agentiques longues — un atout pour les scénarios de monitoring ou d'analyse de réunions prolongées.
Contexte 1M tokens : pourquoi la taille ne suffit pas
Tout le monde parle de la fenêtre de 1M tokens. Mais dans les faits, Gemini 3.1 Pro propose aussi 1M tokens, et il ne tient pas 35 heures. La taille du contexte est une condition nécessaire, pas suffisante.
Le problème fondamental des longs contextes en exécution agentique, c'est l'attention diluée. À mesure que le contexte se remplit de résultats d'outils, de logs, d'intermédiaires de calcul, le mécanisme d'attention distribue ses poids sur plus d'éléments. Les instructions initiales reçoivent proportionnellement moins d'attention. C'est mathématiquement inévitable avec l'attention standard.
Qwen3.7-Max contourne partiellement cela avec une attention structurée en zones. Certaines positions du contexte sont "protégées" — elles reçoivent un poids d'attention plancher quel que soit la longueur du contexte. C'est une approche similaire dans l'esprit à ce qu'on trouve dans la littérature sur les expériences MAX et MAXIMA, où des contraintes structurelles préservent des signaux clés malgré le bruit ambiant.
La leçon : ne confondez pas fenêtre de contexte et mémoire utile. 1M tokens de contexte ne signifie pas 1M tokens de mémoire fonctionnelle. Qwen3.7-Max revendique environ 60 à 70 % de mémoire utile à 35 heures, contre 20 à 30 % pour les modèles non optimisés.
Scénarios concrets où 35 heures changent la donne
La session de 35 heures n'est pas un gimmick si on la mappe aux bons cas d'usage. Voici où la persistance devient un avantage compétitif réel, pas un chiffre de benchmark.
Audit de sécurité de codebase enterprise : un agent qui scanne, analyse, corréle des vulnérabilités sur un dépôt de 500K lignes, avec des allers-retours entre l'analyse statique, les tests dynamiques et la rédaction du rapport. Un humain mettrait une semaine. Un agent classique crasherait au bout de 2 heures.
Recherche scientifique assistée : parcourir 200 articles, extraire les données, les normaliser, identifier les contradictions, synthétiser. Chaque étape nécessite des tool calls (recherche, parsing, calcul). La cohérence sur 35 heures garantit que la synthèse finale est fidèle aux trouvailles de la heure 1.
Migration de système legacy : analyser un système existant, mapper les dépendances, générer le code cible, tester la compatibilité, itérer. Ce type de projet s'étend sur des jours en humain. Un agent qui peut maintenir le contexte sur 35 heures réduit drastiquement les pertes de contexte entre les itérations.
Pour les équipes qui veulent aller plus loin sur l'architecture de ces systèmes, qu'est-ce qu'OpenClaw ? éclaire un écosystème adjacent d'agents autonomes qui partagent cette philosophie de longue durée.
Limites et zone d'ombre
Malgré les chiffres impressionnants, plusieurs points restent flous et méritent d'être traités avec scepticisme.
Le coût réel : 820 000 tokens sur 35 heures, c'est raisonnable en densité. Mais à quel prix le token ? Alibaba n'a pas communiqué la grille tarifaire de Qwen3.7-Max. Si le pricing est aligné sur GPT-5.5, une session de 35 heures pourrait coûter plusieurs centaines de dollars.
La reproducibilité : la démo de 35 heures a été publiée par l'équipe Qwen. Aucune reproduction indépendante n'a été publiée au moment où nous écrivons. Jusqu'à ce que des équipes externes valident ces chiffres, la prudence s'impose.
Le scénario de test : comme souligné plus haut, c'est un pipeline linéaire. Les benchmarks agentic existants (TAU-bench, SWE-bench) mettent les agents face à des environnements non déterministes. On attend Qwen3.7-Max sur ces benchmarks.
L'absence dans les classements : Qwen3.7-Max n'apparaît dans aucun classement open-source (dominé par DeepSeek V4 Pro à 88 points) ni agentic (GPT-5.5 à 98.2). Ça peut signifier deux choses : soit le modèle est trop nouveau, soit ses scores sur les benchmarks standardisés ne sont pas compétitifs et Alibaba préfère communiquer sur la métrique "durée".
❌ Erreurs courantes
Erreur 1 : Confondre contexte 1M et exécution 1M
Ce n'est pas parce qu'un modèle accepte 1M tokens en entrée qu'il peut exécuter des tâches sur 1M tokens de manière cohérente. Gemini 3.1 Pro a 1M de contexte mais s'effondre en exécution agentique longue. Vérifiez les métriques de persistance, pas la taille de la fenêtre.
Erreur 2 : Comparer Qwen3.7-Max aux modèles généralistes
Qwen3.7-Max est un modèle spécialisé. Le comparer à Qwen3.5 397B (score 64) ou DeepSeek V4 Pro (88) sur des tâches de génération n'a pas de sens. C'est comme comparer un camion de 40 tonnes à une Ferrari : ils ne roulent pas sur les mêmes routes.
Erreur 3 : Déployer Qwen3.7-Max pour des tâches courtes
Si votre tâche agentique dure 5 minutes, Qwen3.7-Max est probablement surdimensionné et plus coûteux que nécessaire. Les meilleurs LLM pour les agents IA sur des sessions courtes restent GPT-5.5 ou Claude Opus 4.7. Réservez Qwen3.7-Max aux pipelines qui dépassent la heure.
Erreur 4 : Ignorer l'infrastructure sous-jacente
35 heures d'exécution continue, c'est aussi 35 heures de connexion stable, de gestion d'erreurs réseau, de persistance d'état côté serveur. Le modèle ne fait pas tout. Si votre infrastructure ne tient pas 35 heures, le meilleur modèle du monde ne servira à rien. Un hébergement fiable comme Hostinger est un prérequis, pas un détail.
❓ Questions fréquentes
Qwen3.7-Max est-il open source ?
Non. Contrairement à la famille Qwen3.6 qui est disponible en open source (et listée dans les meilleurs modèles Ollama), Qwen3.7-Max est accessible uniquement via l'API Alibaba Cloud. Aucune annonce de release open source n'a été faite.
Peut-on exécuter Qwen3.7-Max en local ?
Pas actuellement. Avec un contexte de 1M tokens et une architecture optimisée pour l'agentic, les besoins en VRAM dépassent largement ce qu'un setup grand public peut offrir. Pour du local, les agents IA open source avec Ollama restent la voie réaliste, avec des modèles comme Qwen3.6-35B-A3B ou DeepSeek V4 Flash.
Les 35 heures sont-elles une limite hard ou une moyenne ?
C'est le résultat d'une démonstration spécifique, pas une limite théorique. Le modèle pourrait probablement aller plus loin sur un scénario moins dense en tool calls. Mais personne n'a encore testé la borne supérieure réelle de dégradation.
Qwen3.7-Max remplace-t-il les frameworks d'agents comme OpenClaw ?
Non. Qwen3.7-Max est un modèle, pas un framework. Il peut être utilisé au sein de frameworks d'agents. Pour comprendre la différence entre le modèle et l'orchestration, voir comment créer un agent IA et les meilleurs agents IA autonomes.
Quel est le rapport entre Qwen3.7-Max et les capacités ASR/TTS de Qwen3 ?
Qwen3.7-Max hérite de la foundation multimodale de la famille Qwen3, incluant les avancées en reconnaissance vocale (ASR) et synthèse (TTS) documentées dans les rapports techniques. Cela signifie qu'il peut théoriquement intégrer des entrées audio dans ses sessions agentiques, mais cette capacité n'a pas été démontrée dans la démo de 35 heures.
✅ Conclusion
Qwen3.7-Max ne sera pas le modèle que vous utilisez pour générer un email ou résumer un article. C'est un modèle de niche — la niche de l'exécution agentique ultra-longue — mais c'est une niche qui va devenir centrale à mesure que les entreprises passent de la "preuve de concept agentique" à la "production agentique continue". Les 35 heures restent à confirmer indépendamment, mais l'architecture de mémoire hiérarchique et l'intégration native du tool-calling posent un nouveau standard que GPT-5.5 et Claude Opus 4.7 devront adresser. Si la reproducibilité est au rendez-vous, ce n'est pas un benchmark de plus — c'est un changement de paradigme pour les meilleurs agents IA autonomes.