📑 Table des matières

Gemini 3.5 Pro : compte à rebours — 10 jours avant le deadline de Google, 2 millions de tokens et le mode Deep Think, le modèle le plus attendu de l'année (en plein chaos des talents)

LLM & Modèles 🟢 Débutant ⏱️ 16 min de lecture 📅 2026-06-20

Gemini 3.5 Pro : compte à rebours — 10 jours avant le deadline de Google, 2 millions de tokens et le mode Deep Think, le modèle le plus attendu de l'année (en plein chaos des talents)

🔎 10 jours, un deadline auto-imposé, et une équipe qui se vide

Le 19 mai 2026, sur la scène du Google I/O, Sundar Pichai a fait une promesse nette : Gemini 3.5 Pro sortirait « le mois prochain ». Nous sommes au 20 juin. Il reste exactement 10 jours avant que ce deadline devienne un engagement manqué — ou un signal fort.

Dans le même temps, DeepMind perd ses talents les plus visibles. Noam Shazeer (co-auteur de l'architecture Transformer) et John Jumper (Prix Nobel de chimie 2024 pour AlphaFold) ont quitté ou sont sur le point de quitter le navire. Le contexte interne n'a jamais été aussi tendu pour une sortie de modèle flagship.

Pourtant, les specs de Gemini 3.5 Pro sont suffisamment agressives pour justifier l'attente : 2 millions de tokens de contexte, un mode de raisonnement Deep Think hérité de Gemini 3.1 Deep Think, et une tarification qui pourrait bouleverser le marché. Reste à savoir si Google tiendra la date.


L'essentiel

  • Gemini 3.5 Pro est annoncé pour juin 2026, avec un deadline implicite au 30 juin fixé par la déclaration de Sundar Pichai au I/O le 19 mai.
  • Le modèle promet une fenêtre de contexte de 2 millions de tokens — soit le double de Gemini 3.5 Flash et la plus large de tous les modèles frontier en production en 2026.
  • Le mode Deep Think (raisonnement System 2) est confirmé, comblant le vide laissé par l'arrêt de Claude Fable 5 selon wowhow.cloud.
  • La tarification oscille entre deux fourchettes selon les sources : ~$1.50/$9 ou ~$3.50/$10.50 par million de tokens (entrée/sortie).
  • Le lancement intervient dans un contexte d'exode de talents majeurs chez DeepMind, ce qui ajoute un risque exécutionnel significatif.

Outils recommandés

Outil Usage principal Prix (juin 2026, vérifiez sur site) Idéal pour
Google AI Studio Test et développement avec Gemini 3.5 Pro (preview) Gratuit (quota limité) Prototypage rapide avec 2M tokens
Vertex AI Accès enterprise à Gemini 3.5 Pro ~$3.50/$10.50 par M tokens Production scalable entreprise
Gemini CLI Interface terminal pour Gemini Inclus avec compte Google Développeurs, workflows CLI
Gemini dans Workspace Intégration Docs/Gmail/Sheets Inclus abonnement Workspace Utilisateurs pro non-développeurs

Ce qui est confirmé vs. ce qui reste spéculatif

Séparer les faits des rumeurs est crucial avec un modèle encore en preview limitée. Voici l'état des connaissances au 20 juin 2026, croisant les sources officielles et les leaks.

Ce qui est confirmé

La page officielle de la famille Gemini 3.5 sur DeepMind confirme l'existence de la gamme 3.5 avec Flash déjà en production. Sundar Pichai a déclaré publiquement que Pro est « en usage interne chez Google » et sortira au public le mois suivant le I/O, selon AIMLAPI.

La fenêtre de contexte de 2 millions de tokens est mentionnée dans quatre sources indépendantes et constitue le double de celle de Flash. Le mode Deep Think est hérité de la branche 3.1, dont la page officielle documente les comparaisons ARC-AGI-2 contre GPT-5.2 Thinking et Claude Opus 4.6 Thinking.

Ce qui reste incertain

La tarification exacte fait débat. TechFastForward rapporte des tarifs de $1.50/$9 par million de tokens (entrée/sortie), soit le même niveau que Flash. Mais ZoomBangla iNews cite $3.50/$10.50 sur Vertex AI. Cet écart pourrait refléter deux paliers d'accès (AI Studio vs Vertex enterprise) ou une incertitude genuine sur le pricing final.

Le nom de code « Snow Bunny », révélé par CometAPI, n'a pas été officiellement confirmé par Google. Et le marché de prédiction Polymarket donne environ 70% de probabilité à une sortie avant le 30 juin — ce qui signifie que le marché lui-même doute.


2 millions de tokens : pourquoi c'est un vrai saut technique

2 millions de tokens, ce n'est pas un chiffre marketing. C'est la différence entre « analyser un gros fichier » et « comprendre un écosystème entier ».

Ce que 2M tokens permettent concrètement

Avec 2 millions de tokens, vous pouvez ingérer environ 1 500 pages de texte dense, l'intégralité d'un dépôt de code de taille moyenne (200 000 à 300 000 lignes), ou des dossiers médicaux complets avec l'historique de suivi sur plusieurs années.

Selon TechFastForward, cette fenêtre est la plus large de tout modèle frontier en production en 2026. Le précédent record était détenu par Gemini 3.5 Flash avec 1 million — ce qui signifie que Google double sa propre barre en un seul cycle de release.

La comparaison avec la concurrence

Le GLM-5.2 de Z.AI offre 1 million de tokens en open-weights sous licence MIT. Claude Opus 4.7 (Adaptive) tourne autour de 200K tokens natifs avec une extension contextuelle limitée. GPT-5.5 d'OpenAI reste sur une fenêtre similaire, sans annonce d'extension massive.

Le saut de 1M à 2M n'est pas linéaire. L'attention devient exponentiellement coûteuse en calcul à mesure que la fenêtre s'étire. Si Google a résolu ce problème à l'échelle de Pro tout en maintenant des tarifs proches de Flash, c'est un accomplissement d'ingénierie non trivial.

Les cas d'usage qui changent de catégorie

Les cabinets d'avocats peuvent soumettre des dossiers de contentieux complets avec jurisprudence associée. Les équipes de bio-informatique peuvent alimenter le modèle avec des datasets génomiques entiers. Les équipes de réfactoring peuvent demander une analyse d'architecture sur un monolithe de 250K lignes sans avoir à le découper artificiellement.

C'est exactement le type d'usage que Gemini 3.5 Flash commençait à rendre possible, mais Pro promet de le faire avec une profondeur de compréhension supérieure grâce au mode Deep Think.


Le mode Deep Think : System 2 reasoning, mais version Google

Le raisonnement « chain-of-thought » est devenu un standard de l'industrie. Mais tous les raisonnements ne se valent pas.

L'héritage de Gemini 3.1 Deep Think

Gemini 3.1 Deep Think, sorti en février 2026, a introduit le raisonnement System 2 chez Google — une approche où le modèle explore explicitement plusieurs pistes de résolution avant de converger vers une réponse. La page officielle de DeepMind documente des comparaisons sur ARC-AGI-2 montrant des performances compétitives avec GPT-5.2 Thinking et Claude Opus 4.6 Thinking.

Le Deep Think de 3.5 Pro hérite de cette architecture mais bénéficie de la fenêtre de contexte élargie et probablement d'un modèle de base plus puissant. L'enjeu n'est pas seulement la capacité à raisonner, mais la capacité à raisonner longuement sans perdre le fil.

Deep Think vs. o-series d'OpenAI vs. Thinking de Claude

La différence fondamentale est dans le contrôle. L'o-series d'OpenAI (o1-preview, score agentic de 90.2) opère un raisonnement opaque : le modèle « pense » mais vous ne voyez pas les étapes intermédiaires de manière structurée. Claude Opus 4.7 (Adaptive, score agentic de 94.3) expose partiellement son raisonnement mais le module adaptatif reste propriétaire.

Le Deep Think de Google, d'après la documentation de 3.1, propose un mode où le raisonnement est non seulement visible mais potentiellement dirigé — vous pouvez guider la stratégie de résolution. Si 3.5 Pro étend cette capacité avec 2M tokens, cela ouvre des workflows de raisonnement sur des documents massifs que personne ne propose aujourd'hui.

Le fossé que Pro doit combler

Selon Wavespeed.ai, Gemini 3.5 Flash bat déjà Gemini 3.1 Pro sur le code et les tâches agentiques, mais a régressé en raisonnement complexe. C'est exactement ce fossé que Pro est conçu pour combler : la vitesse de Flash avec la profondeur de raisonnement d'un modèle thinking.

Dans le comparatif des meilleurs LLM pour coder, cette distinction vitesse/profondeur est centrale. Un modèle de code rapide mais superficiel ne remplace pas un modèle plus lent qui comprend pourquoi une architecture est bonne ou mauvaise.


La tarification : deux scénarios, un enjeu stratégique

Le pricing de Gemini 3.5 Pro est peut-être l'aspect le plus politiquement sensible de cette sortie. Google joue une partie délicate entre rentabilité et agressivité de marché.

Scénario 1 : tarifs Flash ($1.50/$9 par M tokens)

TechFastForward rapporte que Google pourrait aligner les tarifs de Pro sur ceux de Flash. C'est le scénario explosif. À $1.50 d'entrée et $9 de sortie par million de tokens, Pro coûterait une fraction de GPT-5.5 ou Claude Opus 4.7 pour une fenêtre de contexte 10x plus large.

C'est aussi le scénario le moins probable à la GA. Les tarifs de preview sont souvent subsidisés pour stimuler l'adoption.

Scénario 2 : tarifs Vertex ($3.50/$10.50 par M tokens)

ZoomBangla iNews cite ces chiffres pour Vertex AI. C'est plus réaliste mais reste très agressif. Pour rappel, DeepSeek V4 Pro a récemment imposé une baisse de prix permanente qui a accéléré la guerre des prix. Google ne peut pas se permettre d'être perçu comme cher.

Le problème des 10x, selon ByteIota

ByteIota identifie un « 10x pricing problem » : avec 2M tokens de contexte, un seul prompt mal calibré peut coûter 10x plus cher qu'avec un modèle à 200K. Le pricing par token devient dangereux quand la fenêtre est si large que les utilisateurs remplissent « parce qu'ils peuvent » plutôt que parce que c'est nécessaire.

Google devra probablement introduire des garde-fous — quotas contextuels, alertes de coût, ou un pricing dégressif pour les contextes partiels. Sinon, la facture surprise deviendra un obstacle à l'adoption.


L'exode de talents : le facteur humain derrière le code

Un modèle ne sort pas tout seul. Et chez DeepMind, l'équipe qui devrait livrer Gemini 3.5 Pro dans 10 jours est en plein séisme.

Shazeer, Jumper : ce que Google perd réellement

Noam Shazeer est l'une des figures fondatrices de l'IA moderne — co-auteur du papier « Attention Is All You Need » (2017) qui a défini l'architecture Transformer. Son départ (ou départ imminent) de DeepMind n'est pas un ajustement de carrière ordinaire. C'est la perte d'une vision architecturale qui a façonné chaque génération de Gemini.

John Jumper, Prix Nobel de chimie 2024 pour AlphaFold, représente un autre type de perte : celle de la crédibilité scientifique au plus haut niveau. Quand un Nobel quitte votre labo IA, le signal envoyé à la communauté est brutalement négatif.

L'impact sur la roadmap technique

L'exode crée un risque exécutionnel concret. Les modèles de cette génération ne sont pas des améliorations incrémentales — ils impliquent des choix architecturaux profonds (MoE scaling, gestion de l'attention longue, orchestration du raisonnement). Les personnes qui comprennent ces choix en depth partent.

Selon OFox.ai, Google a déjà repoussé Pro une fois — de mai à juin. Un deuxième report serait interprété non comme de la prudence, mais comme de la difficulté.

La dynamique de marché aggravée

Cet exode intervient au pire moment. OpenAI sort GPT-5.5 (score agentic de 98.2, le plus élevé du marché). Anthropic maintient Claude Opus 4.7 Adaptive à 94.3. Le comparatif Claude, GPT, Gemini, Llama pour 2026 montre un marché où Google est en position de challenger, pas de leader. Perdre ses architectes en chef dans cette position est un risque stratégique majeur.


Gemini 3.5 Pro vs. la concurrence : où se positionne-t-il vraiment ?

Plutôt qu'un classement abstrait, regardons les dimensions qui comptent pour un développeur ou une entreprise en juin 2026.

Le tableau comparatif

Modèle Contexte Reasoning Score Agentic Prix entrée/sortie (juin 2026)
Gemini 3.5 Pro 2M tokens Deep Think Non publié (preview) ~$1.50-3.50 / ~$9-10.50 par M
GPT-5.5 (OpenAI) ~256K tokens o-series 98.2 ~$15 / ~$60 par M (estimé)
Claude Opus 4.7 (Anthropic) ~200K tokens Adaptive 94.3 ~$15 / ~$75 par M (estimé)
Gemini 3.1 Pro Deep Think ~1M tokens Deep Think v1 87.3 ~$1.25 / ~$5 par M
GLM-5.2 (Z.AI) 1M tokens Reasoning 82 (GLM-5) Open-weights, gratuit en local

Sur le contexte, Pro est seul au sommet

Aucun modèle frontier propriétaire n'offre 2M tokens en production. GLM-5.2 propose 1M en open-weights, ce qui est remarquable, mais la qualité du modèle de base (score de 82 sur les benchmarks agentic pour GLM-5) reste en dessous des frontier models. Le guide des meilleurs LLM à run en local positionne GLM comme la meilleure option locale — pas comme un concurrent direct de Pro en qualité brute.

Sur le raisonnement, l'inconnue persiste

Le vrai test sera le benchmarking de Deep Think v2 (dans 3.5 Pro) contre GPT-5.5 et Claude Opus 4.7 Adaptive. Gemini 3.1 Deep Think était compétitif mais pas dominant. Si 3.5 Pro ne fait pas un bond significatif, le 2M tokens deviendra un argument de niche (long context) plutôt qu'un argument de supériorité générale.

Sur le prix, l'avantage est structurel

Même dans le scénario le plus cher ($3.50/$10.50), Gemini 3.5 Pro coûterait entre 4x et 7x moins cher que GPT-5.5 ou Claude Opus 4.7 par token. Pour les entreprises qui facturent au token ou qui ont des workflows à haut volume, cet écart est déterminant. Les APIs IA gratuites et low-cost comme Groq ou OpenRouter restent pertinentes pour les cas simples, mais Pro cible un segment différent : le raisonnement lourd sur des contextes massifs.


Ce que la sortie de Flash nous apprend sur Pro

Gemini 3.5 Flash est déjà live depuis le 19 mai 2026. Son existence n'est pas qu'un produit — c'est un signal.

Flash comme indicateur de l'architecture 3.5

La page officielle DeepMind déclare que « Gemini 3.5 Flash offre une qualité de code et de raisonnement proche de Gemini Pro tout en gardant la vitesse et le coût de Flash. » Cette déclaration est révélatrice : elle signifie que l'architecture 3.5 est intrinsèquement plus efficace que la 3.1. Le même « moteur » qui fait tourner Flash à 289 tokens/seconde est censé faire tourner Pro avec plus de capacité.

Les benchmarks agents de Flash sont prometteurs

Gemini 3.5 Flash bat déjà Opus 4.7 et GPT-5.5 sur certains benchmarks agents. C'est un résultat surprenant pour un modèle « léger » et suggère que les gains d'architecture de la génération 3.5 sont réels. Pro devrait amplifier ces gains avec plus de paramètres et le mode Deep Think activé en permanence.

Mais la régression en raisonnement complexe inquiète

Wavespeed.ai note que Flash a régressé en raisonnement complexe par rapport à 3.1 Pro. Si cette régression est structurelle à l'architecture 3.5 (un compromis vitesse/profondeur), alors Pro pourrait avoir du mal à la combler simplement en scalant. C'est le risque principal de la stratégie « Flash d'abord, Pro ensuite ».


Les enjeux multimodaux : au-delà du texte

Gemini 3.5 Pro n'est pas qu'un modèle de texte. La gamme 3.5 inclut des capacités multimodales qui le positionnent comme successeur direct de Gemini Ultra, selon Codersera.

L'héritage d'Omni

Gemini Omni a établi la capacité any-to-any de Google : texte, image, audio, vidéo en entrée, vidéo en sortie. 3.5 Pro est censé hériter de cette multimodalité frontier, ce qui le distingue de GPT-5.5 (principalement texte/code) et de Claude Opus 4.7 (texte/image).

Le cas d'usage vidéo est le vrai différenciateur

Analyser une vidéo d'une heure avec 2M tokens de contexte, en comprenant les transitions visuelles, l'audio et le texte affiché — c'est un cas d'usage qu'aucun concurrent ne peut traiter aujourd'hui à cette échelle. Les équipes de production, de surveillance, de formation pourraient en bénéficier directement.

Mais là encore, la preuve se fera à la sortie. La multimodalité frontier est facile à annoncer, difficile à livrer avec une qualité consistante.


Le risque réputationnel : que se passe-t-il si Google rate le 30 juin ?

C'est la question que tout le marché se pose. Et la réponse dépend de comment le deadline est manqué.

Scénario 1 : silence jusqu'au 1er juillet, puis annonce de report

C'est le scénario le plus dommageable. Le marché Polymarket traderait immédiatement contre Google. La presse tech titrerait sur le deuxième report. Et dans le contexte de l'exode de talents, le narratif serait impossible à contrôler : « Google perd ses meilleurs esprits et rate ses deadlines. »

Scénario 2 : sortie partielle le 30 juin, GA progressive

Google pourrait annoncer une disponibilité limitée (AI Studio uniquement, quota restreint) le 30 juin, avec une GA complète sur Vertex en juillet. C'est politiquement viable et techniquement réaliste — c'est d'ailleurs ce que ByteIota décrit comme le scénario le plus probable : une preview entreprise Vertex limitée évoluant vers GA.

Scénario 3 : sortie complète le 30 juin

Le meilleur scénario pour Google. Mais il implique que l'équipe résiduelle de DeepMind a finalisé le modèle malgré les départs, ce qui serait un signal de résilience forte. Codersera maintient que la GA est attendue « fin juin 2026 », ce qui reste cohérent avec ce scénario.


❌ Erreurs courantes

Erreur 1 : confondre la preview et la GA

Plusieurs articles confondent l'accès preview limité sur Vertex AI avec la disponibilité générale. ByteIota est clair : la preview entreprise est limitée, la GA est attendue en juin. Ce ne sont pas les mêmes choses en termes de stabilité, de SLA et de pricing garanti.

Erreur 2 : comparer les scores agentic de Pro alors qu'ils n'existent pas

Gemini 3.5 Pro n'a pas de score agentic publié. Comparer ses 2M tokens avec le score de 98.2 de GPT-5.5 comme si c'était équivalent est une erreur de raisonnement. La taille de contexte et la qualité de raisonnement sont des axes différents.

Erreur 3 : ignorer le coût réel du long context

Même à $1.50 par million de tokens d'entrée, remplir 2M tokens coûte $3 par prompt. En sortie, à $9 par million, une réponse de 50K tokens coûte $0.45. Un workflow agentique qui fait 20 itérations sur un contexte de 2M tokens peut vite dépasser $100 par session. Le pricing par token est trompeur quand la fenêtre est massive.


❓ Questions fréquentes

Gemini 3.5 Pro sera-t-il disponible dans la version gratuite de Gemini ?

Rien n'indique que Pro arrivera dans le tier gratuit à la GA. Flash est déjà le modèle gratuit, et Pro est positionné comme modèle premium. Il sera probablement accessible via AI Studio (avec quota) et Vertex AI (payant).

2M tokens, c'est combien de pages ?

Environ 1 500 pages de texte dense, ou 250 000 à 300 000 lignes de code, ou 4 à 6 heures de transcription audio. La conversion exacte dépend du tokenizer, mais l'ordre de grandeur est celui-ci.

Deep Think est-il différent du « thinking mode » de Claude ?

Oui. Le thinking mode de Claude expose un raisonnement partiel avec un module adaptatif propriétaire. Deep Think, selon la documentation de Gemini 3.1, propose un raisonnement System 2 plus explicite et potentiellement dirigeable par l'utilisateur. La version 3.5 Pro pourrait amplifier cette différence.

Dois-je choisir entre Pro et Flash ?

Flash est optimisé pour la vitesse et le coût (289 tokens/seconde). Pro vise la profondeur de raisonnement avec Deep Think et le contexte massif à 2M. Si vos tâches sont simples et répétitives, Flash suffit. Si vous avez besoin d'analyse profonde sur des documents longs, Pro est le bon choix — une fois disponible.

Quel impact l'exode de talents a-t-il réellement sur le produit ?

L'impact est indirect mais réel. Les architectes qui partent ne codent pas directement la version finale — mais ils définissent les choix qui rendent certains compromis possibles ou impossibles. Le risque est sur les futures itérations plus que sur 3.5 Pro lui-même, qui est probablement déjà figé en termes d'architecture.


✅ Conclusion

Gemini 3.5 Pro est le test de vérité de Google en 2026 : un modèle avec 2M tokens de contexte, un raisonnement Deep Think, et une tarification agressive, livré sous pression par une équipe qui se vide de ses talents. Les specs sont suffisamment impressionnantes pour justifier l'attente. Mais un deadline manqué le 30 juin transformerait cette attente en doute. Pour suivre l'évolution de cette gamme et comparer avec les alternatives, consultez notre comparatif mensuel des meilleurs LLM.